Научная статья на тему 'СИНТЕЗ РЕГУЛЯТОРОВ ДЛЯ МНОГОКАНАЛЬНЫХ СИСТЕМ С ИСПОЛЬЗОВАНИЕМ НЕЙРОННЫХ СЕТЕЙ'

СИНТЕЗ РЕГУЛЯТОРОВ ДЛЯ МНОГОКАНАЛЬНЫХ СИСТЕМ С ИСПОЛЬЗОВАНИЕМ НЕЙРОННЫХ СЕТЕЙ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
64
23
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕЙРОННЫЕ СЕТИ / СИНТЕЗ / КЛАССИФИКАЦИЯ / СТРУКТУРА НЕЙРОННЫХ СЕТЕЙ / МЕТОДЫ ОБУЧЕНИЯ / МАШИННОЕ ОБУЧЕНИЕ / ОБРАТНОЕ РАСПРОСТРАНЕНИЕ ОШИБКИ / СТРУКТУРНЫЕ МЕТОДЫ / АЛГОРИТМЫ УПРАВЛЕНИЯ / NEURAL NETWORKS / SYNTHESIS / CLASSIFICATION / STRUCTURE OF NEURAL NETWORKS / TRAINING METHODS / MACHINE LEARNING / BACK PROPAGATION ERRORS / STRUCTURAL METHODS / CONTROL ALGORITHMS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Воевода Александр Александрович, Романников Дмитрий Олегович

В статье рассматривается задача синтеза регулятора с использованием нейронных сетей на примере задачи стабилизации двухканального объекта. Объектом является трехмассовая система, в состав которой входят шесть интеграторов. Для управления объектом используются два входа и необходимо добиться стабилизации на двух выходных каналах. В поставленной задаче изначально объект находится в неустойчивом положении. В качестве регулятора используется нейронная сеть, которую предлагается обучать одним из методов обучения с подкреплением (в статье метод Deterministic Policy Gradient позволил получить наилучшие результаты). Поставленная задача рассматривается в двух вариациях. Особенность первой вариации заключается в доступности вектора состояния объекта. При этом в отличие от классического способа решения синтеза регуляторов, входом нейронной сети, которая является регулятором, является вектор состояния объекта (значения интеграторов). Во второй вариации задачи мы считаем, что вектор состояния объекта недоступен и для его оценки используется наблюдатель, реализованный с использованием нейронной сети. Предлагается методика синтеза наблюдателя, а также структура нейронной сети наблюдателя, которая состоит из первого рекуррентного слоя и сети прямого распространения. Для обучения нейронной сети наблюдателя собраны данные путем серии экспериментов со схемой с параллельным подключением моделей объекта и наблюдателя и последующей подачи случайного закона управления на них. Приведены графики оценки состояния объекта и оценок наблюдателя. Нейронная сеть регулятора обучена для стабилизации из исходного неустойчивого состояния.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Воевода Александр Александрович, Романников Дмитрий Олегович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SYNTHESIS OF REGULATORS FOR MULTICHANNEL SYSTEMS USING NEURAL NETWORKS

The article considers the problem of regulator synthesis using neural networks on the example of the problem of two-channel object stabilization. The object is a three-mass system which includes six integrators. Two inputs are used to control the facility and stabilization must be achieved on two output channels. In the task at hand, the object is initially in an unstable position. A neural network which is proposed to be trained using one of the reinforcement learning methods is used as a regulator. The Deterministic Policy Gradient method allowed us to obtain the best results. The task in question is considered in two versions. The peculiarity of the first version is the availability of the object state vector. In this case, in contrast to the classical method for solving the problem of regulator synthesis, the input of the neural network, which is the regulator, is the state vector of the object (integrator values). In the second version of the problem, we believe that the state vector of the object is unavailable and an observer implemented by a neural network is used to evaluate it. An observer synthesis technique is proposed, as well as the structure of the observer’s neural network, which consists of the first recurrent layer and further the direct distribution network. To train the observer’s neural network, data was collected through a series of experiments with a circuit with a parallel connection of the models of the object and the observer and a subsequent application of a random control law to them. Graphs for assessing the object state and the observer’s estimates are given. The controller neural network is trained to stabilize from the initial unstable state. The article ends with conclusions and considerations concerning further research.

Текст научной работы на тему «СИНТЕЗ РЕГУЛЯТОРОВ ДЛЯ МНОГОКАНАЛЬНЫХ СИСТЕМ С ИСПОЛЬЗОВАНИЕМ НЕЙРОННЫХ СЕТЕЙ»

ISSN 1814-1196 Научный вестник НГТУ том 77, № 4, 2019, с. 7-16

http://journals.nstu.ru/vestnik Science Bulletin of the NSTU Vol. ll, No. 4, 20l9, pp. l-l6

ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ

INFORMATICS, COMPPUTER ENGINEERING AND MANAGEMENT

УДК 519.233.22 DOI: 10.17212/1814-1196-2019-4-7-16

Синтез регуляторов для многоканальных систем

*

с использованием нейронных сетей

А.А. ВОЕВОДА", Д. О. РОМАННИКОВ4

630073, РФ, г. Новосибирск, пр. Карла Маркса, 20, Новосибирский государственный технический университет

a voevoda@ucit.ru b dmitry.romannikov@gmail.com

В статье рассматривается задача синтеза регулятора с использованием нейронных сетей на примере задачи стабилизации двухканального объекта. Объектом является трехмассовая система, в состав которой входят шесть интеграторов. Для управления объектом используются два входа и необходимо добиться стабилизации на двух выходных каналах. В поставленной задаче изначально объект находится в неустойчивом положении. В качестве регулятора используется нейронная сеть, которую предлагается обучать одним из методов обучения с подкреплением (в статье метод Deterministic Policy Gradient позволил получить наилучшие результаты). Поставленная задача рассматривается в двух вариациях. Особенность первой вариации заключается в доступности вектора состояния объекта. При этом, в отличие от классического способа решения синтеза регуляторов, входом нейронной сети, которая является регулятором, является вектор состояния объекта (значения интеграторов). Во второй вариации задачи мы считаем, что вектор состояния объекта недоступен и для его оценки используется наблюдатель, реализованный с использованием нейронной сети. Предлагается методика синтеза наблюдателя, а также структура нейронной сети наблюдателя, которая состоит из первого рекуррентного слоя и сети прямого распространения. Для обучения нейронной сети наблюдателя собраны данные путем серии экспериментов со схемой с параллельным подключением моделей объекта и наблюдателя и последующей подачи случайного закона управления на них. Приведены графики оценки состояния объекта и оценок наблюдателя. Нейронная сеть регулятора обучена для стабилизации из исходного неустойчивого состояния.

Ключевые слова: нейронные сети, синтез, классификация, структура нейронных сетей, методы обучения, машинное обучение, обратное распространение ошибки, структурные методы, алгоритмы управления

ВВЕДЕНИЕ

В настоящее время применение нейронных сетей для решения задач, связанных с разработкой искусственного интеллекта, приобрело большую популярность. В частности, они широко применяются для распознавания

Статья получена 22 августа 2019 г.

объектов на изображениях [1], распознавания звуков и речи [2, 3] и в других задачах.

Ранее рассматривалась задачи синтеза структуры нейронной сети для статических задач: в [4] решалась задача построения нейронной сети для решения логико-арифметических задач, в [5] решалась задача синтеза нейронных сетей для реализации рекуррентного метода наименьших квадратов.

В статье рассматривается применение нейронных сетей для синтеза систем управления многоканальными объектами. При этом обучение исходной нейронной сети выполняется из изначального неустойчивого положения с использованием методов обучения с подтверждением. В качестве примера объекта используется трехмассовая система, состоящая из трех масс, последовательно соединенных пружинами [6].

Рассматривать вышепоставленную задачу будем с точки зрения использования метода обучения с подкреплением. В [7] предлагается для решения динамических систем использовать описание модели системы в терминах марковских цепей, где каждое состояние однозначно определяет состояние системы. Далее эта идея была неоднократно использована. В частности, в [8, 9] в качестве состояния использовалось изображение с экрана, в [10, 11] -с игровых досок.

Использование нейронных сетей для управления многократно предлагалось в разных статьях, например, в [12, 13], где основной идей было обучение сети по предварительно собранным данным для переходного процесса или другими способами. Также в [14-16] предлагаются идеи подстройки коэффициентов регулятора, например, ПИД-регулятора или его модификаций с помощью нейронных сетей.

Задача формирования управляющего воздействия из начального произвольного состояния рассматривалась в статье1, где предлагается способ приведения замкнутой системы к состоянию, когда возможна оптимизация с помощью модификации стоимостной функции (приведения ее к виду сходимости). Также стоит отметить, что в этой статье рассматривается задача оптимизации одноканального объекта.

Для решения задачи с непрерывным пространством действий, к которому относится рассматриваемая задача, в [17] предлагается использовать «актер-критик» метод (Actor-Critic Method), так как его легко модифицировать для работы с непрерывным пространством действий. В [18] предлагается использовать Deterministic Policy Gradient, так как, в отличие от предыдущего метода, он является off-policy, что позволяется накапливать буфер экспериментов и использовать их для обучения.

1. ПОСТАНОВКА ЗАДАЧИ

В статье рассматривается задача синтеза системы управления трехмас-совой системой, состоящей из трех масс «1, m2 и m3, последовательно подвешенных через пружины с коэффициентами жесткости £1, £2 и £3, в кото-

1 A.A. Voevoda, D.O. Romannikov. Method for Numerial Optimization of the Parameters of Regulator from Unstable Condition // The 14th International Forum on Strategic Technology (IFOST 2019): proc., Tomsk, Russia, 14-17 October 2019.

рой два управляющих сигнала, силы щ и приложены к массам ш^, «2, а регулируемые величины - положение первого и второго грузов у и у2. Вышеприведенное описание задачи более подробно рассмотрено в [6]. Координата третьего груза уз не измеряется. В качестве системы управления используется нейронная сеть прямого распространения, обучаемая при помощи методов обучения с подтверждением. Изначально система находится в неустойчивом состоянии. Для удобства моделирования передаточная функция объекта управления в непрерывном виде представлена в дискретном виде с частотой дискретизации 0.05. Тогда непрерывный интегратор 1/s будет представлен в виде передаточной функции 0.05/(г - 1). Структурная схема объекта представлена на рис. 1.

Integrator Integrator!

112

х

Рис. 1. Блок-схема объекта в непрерывном виде Fig. 1. A continuous flow chart of an object

На рис. 1 представлен объект уже с конкретными значениями для масс и коэффициентов жесткости.

В [6] с помощью синтеза модальным методом рассчитывается регулятор, в котором в матрице обратной связи Kc содержится 12 коэффициентов, что соответствует 12 неизвестным переменным в случае оптимизации из неустойчивого начального состояния.

2. РЕАЛИЗАЦИЯ РЕГУЛЯТОРА НА НЕЙРОННОЙ СЕТИ

По сравнению с классической схемой использования регулятора, где на его вход поступает сигнал ошибки и далее формируется управление, подаваемое далее на объект, при использовании нейронной сети в статье используется измененная схема (рис. 2).

Нейронная и Wo6 V „

сеть

X

Рис. 2. Схема использования нейронной сети для регулирования объектом

Fig. 2. A diagram of neural network use for regulation by an object

На схеме, представленной на рис. 2, входом регулятора является состояние объекта, т. е. вектор значений задержек из объекта. Такое представление необходимо для того, чтобы однозначно определять состояние всей замкнутой системы и формировать управляющее воздействие.

Регулятор состоит из двух нейронных сетей: сеть «актера» для формирования управляющего воздействия. Нейронная сеть «актера» состоит из входного слоя размером в 6 нейронов (по числу задержек в объекте), первого скрытого слоя в 350 нейронов, второго скрытого слоя в 300 нейронов и выходного слоя в 2 нейрона. При этом в скрытых слоях используются функции активации выпрямителя relu, а в выходном слое - функции активации гиперболического тангенса tanh (вектор размерностью 2, так как объект двухканаль-ный). Вторая сеть, «критик», необходима для оценки значений Q (5, a) [9]. Нейронная сеть «критика» состоит из входного слоя в 6 нейронов (по числу задержек в объекте). Первый скрытый слой, состоящий из 402 нейронов (400 нейронов соединены с входным слоем, а еще на два поступают значения сигналов управления), в выходном слое представляет один нейрон. В скрытом слое используется функция активации relu, в выходном слое функция активации не используется.

В качестве функции награды используется функция R = 'vj - |v - yt \,

i

где Vj - требуемое значение на i-м канале, а yj - выход объекта на i-м канале. Также с практической точки зрения оказалось эффективным дополнительно увеличивать награду ближе к требуемому значению, например, умножение значения награды, если она находится в диапазоне ± 10 % от v.

Обучение нейронной сети выполнено за 300 тысяч эпох с максимальным полученным размером награды в 1870. При обучении длина переходного процесса ограничивалась 100 тактами, что соответствует пяти секундам (по 0.05 секунды на такт) для уменьшения времени обучения (рис. 3).

О 25 50 75 100 125 150 175 200

Рис. 3. Переходный процесс по двум каналам регулируемого

объекта

Fig. 3. A transient process along two channels of the regulated

object

3. РЕАЛИЗАЦИЯ НАБЛЮДАТЕЛЯ

Часто нет возможности снять с реального объекта вектор состояния. В этих случаях принято использовать наблюдатели, которые позволяют сделать оценку вектора состояния. Для реализации наблюдателя с помощью нейронных сетей предлагается использовать сеть прямого распространения, в которой на вход подается сигнал с выхода объекта y и сигнал управления и, а на выходе - оценка состояния объекта x' (рис. 4). Интерес представляет первый слой нейронной сети наблюдателя, в котором для реализации аналога задержки 1/z в объекте Wo6 используется рекуррентный слой, в котором значение нейронов передаются последовательно для входов с y и и. В остальном нейронная сеть наблюдателя является сетью прямого распространения с 24 нейронами в первом слое, 400 - во втором и 300 - в третьем.

Обучение нейронной сети наблюдателя (рис. 4) можно выполнять отдельно. Для этого достаточно собрать данные при моделировании состояния объекта и нейронной сети наблюдателя согласно схеме на рис. 5.

На рис. 5 генератор управления синтезирует случайное управление в ограниченном диапазоне, которое поступает на реальный объект и на нейронную сеть наблюдателя. Для сбора данных для обучения выполнялась серия моделирований для получения реального состояния объекта x и выхода нейронной сети x'. В статье для обучения наблюдателя значения управления были ограничены диапазоном {-4, 4}, также серия моделирования останавливалась при выходе значений выходного сигнала объекта из диапазона {-5, 5}. Собранные данные используются для обучения нейронной сети наблюдателя со стоимостной функцией средней квадратичной ошибки.

Рис. 4. Схема использования нейронных сетей для регулирования с наблюдателем

Fig. 4. A diagram of neural network use for regulation with the observer

Генератор и Wo6 X

управления

Нейронная X1

сеть (наб.)

Рис. 5. Схема для сбора данных для обучения нейронной сети наблюдателя

Fig. 5. A diagram of data collection to train the observer's neural network

Графики значений переменных состояния объекта обученного наблюдателя приведены на рис. 6.

Таким образом, можно сформулировать основные аспекты реализации наблюдателя с использованием нейронных сетей.

1. Нейронная сеть наблюдателя может быть прямого распространения с рекуррентным первым слоем. При этом на вход подается последовательность из значений каждого выхода объекта и каждого из входов.

2. Для обучения нейронной сети наблюдателя необходимо собрать данные, используя схему с параллельным подключением объекта и нейронной сети наблюдателя к генератору случайного управления, при этом задав критерии останова для эксперимента и границы сигнала генератора.

Рис. 6. Графики значений переменных состояния объекта Fig. 6. Graphs of values of the object state variables

ЗАКЛЮЧЕНИЕ

В статье рассматривается процедура синтеза нейронного регулятора на примере двухканального объекта трехмассовой системы. Также частью задачи было использование методов обучения с подкреплением для обучений нейронной сети регулятора из начального неустойчивого положения, в котором находился объект, с целью стабилизации значений выходов объекта в диапазоне уставки. Рассмотрено два случая: с доступным вектором состояния и оценкой состояния объекта, полученного с наблюдателя. При обоих вариантах вектор состояния объекта (или оценка) подается на вход нейронной сети регулятора и далее выполняется ее обучение с использованием метода Deterministic Policy Gradient. Для реализации наблюдателя используется нейронная сеть прямого распространения, в которой первый слой заменен на рекуррентный. На вход нейронной сети наблюдателя подается последовательность значений объекта и выходных значений объекта. Для обучения наблюдателя предложена схема сбора данных, в которой на нейронную сеть (изначально необученную) и объект подаются сигналы управления, сформированные с помощью генератора случайных чисел, а на выходе нейронной сети формируется оценка состояния объекта. Также данные о требуемом состоянии объекта берутся с модели объекта.

Направлениями дальнейшего исследования является усложнение объекта, в частности добавление в него нелинейностей, а также формулирование более формальных рекомендаций по выбору структуры нейронной сети.

СПИСОК ЛИТЕРАТУРЫ

1. Krizhevsky A., Sutskever I., Hinton G.E. ImageNet classification with deep convolutional neural networks // Advances in Neural Information Processing Systems 25 (NIPS 2012). - Lake Ta-hoe, Nevada, 2012. - P. 1090-1098.

2. Graves A., Mohamed A., Hinton G. Speech recognition with deep recurrent neural networks // Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2013. - Vancouver, Canada, 2013. - P. 6645-6649.

3. Deng L., Hinton G.E., Kingsbury B. New types of deep neural network learning for speech recognition and related applications: an overview // Proceedings of the IEEE International Conference on Acoustic, Speech, and Signal Processing, ICASSP 2013. - Vancouver, Canada, 2013. - P. 85998603.

4. Воевода А.А., Романников Д.О. Синтез нейронной сети для решения логико-арифметических задач // Труды СПИИРАН. - 2017. - Вып. 54. - С. 205-223.

5. Воевода A.A., Романников Д.О. Синтез нейронной сети для реализации рекуррентного метода наименьших квадратов // Научный вестник НГТУ. - 2018. - № 72. - С. 33-42.

6. Воевода А.А., Шоба Е.В. Стабилизация трехмассовой системы: модальный метод синтеза в пространстве состояний с наблюдателем пониженного порядка // Сборник научных трудов НГТУ. - 2010. - № 4 (62). - С. 13-24.

7. Sutton R., BartoA. Reinforcement learning: an introduction. - Cambridge: MIT Press, 2018. - 1328 p.

8. Playing Atari with deep reinforcement learning / V. Mnih, K. Kavukcuoglu, D. Silver,

A. Graves, I. Antonoglou, D. Wierstra, M. Riedmiller // NIPS Deep Learning Workshop. - Lake Ta-hoe, 2013.

9. Learning from demonstrations for real world reinforcement learning / T. Hester, M. Vecerik,

0. Pietquin, M. Lanctot, T. Schaul, B. Piot, D. Horgan, J. Quan, A. Sendonaris, G. Dulac-Arnold,

1. Osband, J. Agapiou, J.Z. Leibo, A. Gruslys // Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence, AAAI'16. - Phoenix, Arizona, 2016. - P. 2094-2100.

10. Mastering the game of Go with deep neural networks and tree search / D. Silver, A. Huang, C. Maddison, A. Guez, L. Sifre, G. Driessche, J. Schrittwieser, I. Antonoglou, V. Panneershelvam, M. Lanctot, S. Dieleman, D. Grewe, J. Nham, N. Kalchbrenner, I. Sutskever, T. Lillicrap, M. Leach, K. Kavukcuoglu, T. Graepel, D. Hassabis // Nature. - 2016. - Vol. 529. - P. 484-503.

11. Omid E., Netanyahu N., Wolf L. DeepChess: end-to-end deep neural network for automatic learning in chess // Artificial Neural Networks and Machine Learning - ICANN 2016: 25th International Conference on Artificial Neural Networks: proceedings. - Springer International Publishing Switzerland, 2016. - Pt. 2. - P. 88-96.

12. Интеллектуальные системы автоматического управления / под ред. И.М. Макарова и

B.М. Лохина. - М.: Физматлит, 2001. - 576 с.

13. БеловМ.П., ЧанД.Х. Интеллектуальный контроллер на основе нелинейного оптимального управления роботами-манипуляторами // Известия СПбГЭТУ ЛЭТИ. - 2018. - № 9. -

C. 76-86.

14. Neural network-based self-tuning PID control for underwater vehicles / R. Alvarado, L. Valdovinos, T. Salgado-Jiménez, A. Gómez-Espinosa, F. Fonseca-Navarro // Sensors. - 2016. -Vol. 16 (9). - P. 1429.

15. KumarR., Srivastava S., Gupta J.R.P. Artificial Neural Network based PID controller for online control of dynamical systems // 2016 IEEE 1st International Conference on Power Electronics, Intelligent Control and Energy Systems (ICPEICES). - Delhi, 2016.

16. Zribi A., Chtourou M., DjemelM. A new PID neural network controller design for nonlinear processes [Electronic resource]. - URL: http://arxiv.org/abs/1512.07529 (accessed: 05.12.2019).

17. Wawrzynski P. A simple actor-critic algorithm for continuous environments // Proceedings of the 10th IEEE International Conference on Methods and Models in Automation and Robotics. -Miedzyzdroje, Poland, 2004. - P. 1143-1149.

18. Deterministic policy gradient algorithms / D. Silver, G. Lever, N. Heess, T. Degris,

D. Wierstra, M. Riedmiller // Proceedings of the 31st International Conference on Machine Learning, ICML'14. - 2014. - Vol. 32. - P. 387-395.

Воевода Александр Александрович, доктор технических наук, профессор, профессор кафедры автоматики Новосибирского государственного технического университета. Область научных интересов: полиномиальный синтез, сети Петри, UML-диаграммы. Число научных публикаций - более 200. E-mail: voevoda@ucit.ru

Романников Дмитрий Олегович, кандидат технических наук, доцент кафедры автоматики, Новосибирский государственный технический университет. Область научных интересов: Машинное обучение, нейронные сети, сети Петри. Число научных публикаций: 51. E-mail: dmitry.romannikov@gmail.com

Voevoda Alexandr Alexandrovich, D.Sc. (Eng.), a professor at the automation department, Novosibirsk State Technical University. His research interests include polynomial synthesis, the Petri nets and UML diagrams. He is the author of more than 200 publications. E-mail: voevoda@ucit.ru;

Romannikov Dmitry Olegovich, PhD (Eng.), an associate professor at the automation department, Novosibirsk State Technical University. The field of is research covers machine learning, neural networks and the Petri nets. He is the author of 51 publications. E-mail:dmitry.romannikov@gmail.com

DOI: 10.17212/1814-1196-2019-4-7-16 Synthesis of regulators for multichannel systems using neural networks

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

A.A. VOEVODA", D.O. ROMANNIKOV

Novosibirsk State Technical University, 20 K. Marx Prospekt, Novosibirsk, 630073, Russian Federation

a voevoda@ucit.ru b dmitry.romannikov@gmail.com Abstract

The article considers the problem of regulator synthesis using neural networks on the example of the problem of two-channel object stabilization. The object is a three-mass system which includes six integrators. Two inputs are used to control the facility and stabilization must be achieved on two output channels. In the task at hand, the object is initially in an unstable position. A neural network which is proposed to be trained using one of the reinforcement learning methods is used as a regulator. The Deterministic Policy Gradient method allowed us to obtain the best results. The task in question is considered in two versions. The peculiarity of the first version is the availability of the object state vector. In this case, in contrast to the classical method for solving the problem of regulator synthesis, the input of the neural network, which is the regulator, is the state vector of the object (integrator values). In the second version of the problem, we believe that the state vector of the object is unavailable and an observer implemented by a neural network is used to evaluate it. An observer synthesis technique is proposed, as well as the structure of the observer's neural network, which consists of the first recurrent layer and further the direct distribution network. To train the observer's neural network, data was collected through a series of experiments with a circuit with a parallel connection of the models of the object and the observer and a subsequent application of a random control law to them. Graphs for assessing the object state and the observer's estimates are given. The controller neural network is trained to stabilize from the initial unstable state. The article ends with conclusions and considerations concerning further research.

Keywords: neural networks, synthesis, classification, structure of neural networks, training methods, machine learning, back propagation errors, structural methods, control algorithms

REFERENCES

1. Krizhevsky A., Sutskever I., Hinton G.E. ImageNet classification with deep convolutional neural networks. Advances in Neural Information Processing Systems 25 (NIPS 2012), Lake Tahoe, Nevada, 2012, pp. 1097-1105.

2. Graves A., Mohamed A., Hinton G. Speech recognition with deep recurrent neural networks. Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2013, Vancouver, Canada, 2013, pp. 6645-6649.

3. Deng L., Hinton G.E., Kingsbury B. New types of deep neural network learning for speech recognition and related applications: an overview. Proceedings of the IEEE International Conference on Acoustic, Speech, and Signal Processing, ICASSP 2013. Vancouver, Canada, 2013, pp. 85998603.

*

Received 22 August 2019.

4. Voevoda A.A., Romannikov D.O. Sintez neironnoi seti dlya resheniya logiko-arifmeti-cheskikh zadach [Synthesis of neural network for solving logical-arithmetic problems]. Trudy SPIIRAN- SPIIRASproceedings, 2017, vol. 54, no. 5, pp. 205-223.

5. Voevoda A.A., Romannikov D.O. Sintez neironnoi seti dlya realizatsii rekurrentnogo metoda naimen'shikh kvadratov [Synthesis of a neural network for the implementation of the recursive least-squares method]. Nauchnyi vestnik Novosibirskogo gosudarstvennogo tekhnicheskogo universiteta -Science bulletin of the Novosibirsk state technical university, 2018, no. 72, pp. 33-42.

6. Voevoda A.A., Shoba E.V. Stabilizatsiya trekhmassovoi sistemy: modal'nyi metod sinteza v prostranstve sostoyanii s nablyudatelem ponizhennogo poryadka [Stabilisation of three-mass system: a modal method of synthesis in state space with reduced-order observer]. Sbornik nauchnykh trudov Novosibirskogo gosudarstvennogo tekhnicheskogo universiteta - Transaction of scientific papers of the Novosibirsk state technical university, 2010, no. 4 (62), pp. 13-24.

7. Sutton R., Barto A. Reinforcement learning: an introduction. Cambridge, MIT Press, 2018. 1328 p.

8. Mnih V., Kavukcuoglu K., Silver D., Graves A., Antonoglou I., Wierstra D., Riedmiller M. Playing Atari with deep reinforcement learning. NIPS Deep Learning Workshop, Lake Tahoe, 2013.

9. Hester T., Vecerik M., Pietquin O., Lanctot M., Schaul T., Piot B., Horgan D., Quan J., Sendonaris A., Dulac-Arnold G., Osband I., Agapiou J., Leibo J.Z., Gruslys A. Learning from demonstrations for real world reinforcement learning. Proceeding of the Thirtieth AAAI Conference on Artificial Intelligence, AAAI'16, Phoenix, Arizona, 2016, pp. 2094-2100.

10. Silver D., Huang A., Maddison C., Guez A., Sifre L., Driessche G., Schrittwieser J., Antonoglou I., Panneershelvam V., Lanctot M., Dieleman S., Grewe D., Nham J., Kalchbrenner N., Sutskever I., Lillicrap T., Leach M., Kavukcuoglu K., Graepel T., Hassabis D. Mastering the game of Go with deep neural networks and tree search. Nature, 2016, vol. 529, pp. 484-503.

11. Omid E., Netanyahu N., Wolf L. DeepChess: end-to-end deep neural network for automatic learning in chess. Artificial Neural Networks and Machine Learning - ICANN 2016: 25th International Conference on Artificial Neural Networks: proceedings. Springer International Publishing Switzerland, 2016, pt. 2, pp. 88-96.

12. Makarov I.M., Lokhin V.M., eds. Intellektual'nye sistemy avtomaticheskogo upravleniya [Intelligent automatic control systems]. Moscow, Fizmatlit Publ., 2001. 576 p.

13. Belov M.P., Chan D.Kh. Intellektual'nyi kontroller na osnove nelineinogo optimal'nogo up-ravleniya robotami-manipulyatorami [Intelligent controller based on non-linear optimal control of robotic manipulators]. Izvestiya SPbGETU "LETI" - Proceedings of Saint Petersburg Electrotech-nical University, 2018, no. 9, pp. 76-86.

14. Alvarado R., Valdovinos L., Salgado-Jiménez T., Gómez-Espinosa A., Fonseca-Navarro F. Neural network-based self-tuning PID control for underwater vehicles. Sensors, 2016, vol. 16 (9), p. 1429.

15. Kumar R., Srivastava S., Gupta J.R.P. Artificial Neural Network based PID controller for online control of dynamical systems. 2016 IEEE 1st International Conference on Power Electronics, Intelligent Control and Energy Systems (ICPEICES), Delhi, 2016.

16. Zribi A., Chtourou M., Djemel M. A new PID neural network controller design for nonlinear processes. Available at: http://arxiv.org/abs/1512.07529 (accessed 05.12.2019).

17. Wawrzynski P. A simple actor-critic algorithm for continuous environments. Proceedings of the 10th IEEE International Conference on Methods and Models in Automation and Robotics, Miedzyzdroje, Poland, 2004, pp. 1143-1149.

18. Silver D., Lever G., Heess N., Degris T., Wierstra D., Riedmiller M. Deterministic policy gradient algorithms. Proceedings of the 31st International Conference on Machine Learning, ICML'1432, 2014, vol. 32, pp. 387-395.

Для цитирования:

ВоеводаА.А., РоманниковД.О. Синтез регуляторов для многоканальных систем с использованием нейронных сетей // Научный вестник НГТУ. - 2019. - № 4 (77). - С. 7-16. -DOI: 10.17212/1814-1196-2019-4-7-16.

For citation:

Voevoda A.A., Romannikov D.O. Sintez regulyatorov dlya mnogokanal'nykh sistem s is-pol'zovaniem neironnykh setei [Synthesis of regulators for multichannel systems using neural networks]. Nauchnyi vestnik Novosibirskogo gosudarstvennogo tekhnicheskogo universiteta - Science bulletin of the Novosibirsk state technical university, 2019, no. 4 (77), pp. 7-16. DOI: 10.17212/18141196-2019-4-7-16.

ISSN 1814-1196, http://journals.nstu.ru/vestnik Science Bulletin of the NSTU Vol. 77, No 4, 2019, pp. 7-16

i Надоели баннеры? Вы всегда можете отключить рекламу.