Научная статья на тему 'МЕТОД СИНТЕЗА НЕЙРОННЫХ РЕГУЛЯТОРОВ ДЛЯ ЛИНЕЙНЫХ ОБЪЕКТОВ'

МЕТОД СИНТЕЗА НЕЙРОННЫХ РЕГУЛЯТОРОВ ДЛЯ ЛИНЕЙНЫХ ОБЪЕКТОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
67
19
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕЙРОННЫЕ СЕТИ / СИНТЕЗ / КЛАССИФИКАЦИЯ / СТРУКТУРА НЕЙРОННЫХ СЕТЕЙ / МЕТОДЫ ОБУЧЕНИЯ / МАШИННОЕ ОБУЧЕНИЕ / ОБРАТНОЕ РАСПРОСТРАНЕНИЕ ОШИБКИ / СТРУКТУРНЫЕ МЕТОДЫ / АЛГОРИТМЫ УПРАВЛЕНИЯ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Романников Дмитрий Олегович

В статье предлагается метод синтеза нейронного регулятора для замкнутых систем с линейными объектами. Научная новизна предлагаемого метода заключается в том, что нейронный регулятор, на вход которого подается вектор состояния объекта (для объектов с недоступным вектором состояния возможно использовать вектор оценки вектора состояния объекта), должен быть обучен для стабилизации в одном из возможных желаемых значений, а для обеспечения регулирования в других желаемых значениях предлагается пропорционально уменьшать/увеличивать сигнал вектора состояния и увеличивать/уменьшать сигнал управления, формируемого нейронным регулятором. Также к другим достоинствам предлагаемого метода относятся: 1) отсутствие необходимости обучения на нескольких желаемых значениях, что существенно упрощает и ускоряет обучение нейронной сети, а также устраняет ошибки регулирования в диапазоне значений, для которых не выполнялось обучение нейронного регулятора; 2) возможность обучения изначально неустойчивого состояния замкнутой системы. Предлагаемый метод синтеза нейронного регулятора для замкнутой системы с линейным объектом опробован на примере синтеза регулятора для объекта 1/s3, который является неустойчивым. В качестве регулятора используется нейронная сеть, которую предлагается обучать одним из методов обучения с подкреплением (в статье метод Deterministic Policy Gradient позволил получить наилучшие результаты). Полученные графики переходных процессов позволяют сделать вывод о его успешном применении. Статья заканчивается выводами и рассуждениями о дальнейших направлениях исследования, к которым можно отнести качество переходного процесса и возможность его корректировки за счет изменения функции награды, что позволит задавать графики переходных процессов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Романников Дмитрий Олегович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A METHOD FOR THE SYNTHESIS OF NEURAL REGULATORS FOR LINEAR OBJECTS

The article proposes a method for the synthesis of a neural controller for closed-loop systems with linear objects. The scientific novelty of the proposed method lies in the fact that the neural controller, to the input of which the object state vector is fed, must be trained to stabilize in one of the possible desired values, and to ensure regulation in other desired values. For objects with an inaccessible state vector, it is possible to use the estimation vector of the object state vector. It is proposed to proportionally decrease/increase the signal of the state vector and increase/decrease the control signal formed by the neural regulator. Also, other advantages of the proposed method include: 1) the absence of the need for training on several desired values, which greatly simplifies and accelerates the training of the neural network, and also eliminates control errors in the range of values for which the neural controller was not trained; 2) the possibility of learning from an initially unstable state of a closed-loop system. The proposed method for the synthesis of a neural controller for a closed-loop system with a linear object was tested on the example of the synthesis of a controller for an object 1/s 3, which is unstable. A neural network is used as a regulator, which is proposed to be trained using one of the reinforcement learning methods (in the article, the Deterministic Policy Gradient method allowed us to obtain the best results). The resulting graphs of transient processes allow us to conclude about its successful application. The article ends with conclusions and considerations about further lines of research, which include the quality of the transient process and the possibility of adjusting it by changing the reward function, which will allow setting the graphs of transient processes.

Текст научной работы на тему «МЕТОД СИНТЕЗА НЕЙРОННЫХ РЕГУЛЯТОРОВ ДЛЯ ЛИНЕЙНЫХ ОБЪЕКТОВ»

ISSN 1814-1196

http://journals.nstu.ru/vestnik Science Bulletin of the NSTU Vol. 80, No. 4, 2020, pp. 111-120

Научный вестник НГТУ том 80, № 4, 2020, с. 111-120

ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ

INFORMATICS, COMPPUTER ENGINEERING AND CONTROL

УДК 519.233.22

DOI: 10.17212/1814-1196-2020-4-111-120

Метод синтеза нейронных регуляторов для линейных объектов

Д. О. РОМАННИКОВ

630073, РФ, г. Новосибирск, пр. К. Маркса, 20, Новосибирский государственный технический университет

dmitry.romannikov@gmail.com

В статье предлагается метод синтеза нейронного регулятора для замкнутых систем с линейными объектами. Научная новизна предлагаемого метода заключается в том, что нейронный регулятор, на вход которого подается вектор состояния объекта (для объектов с недоступным вектором состояния возможно использовать вектор оценки вектора состояния объекта), должен быть обучен для стабилизации в одном из возможных желаемых значений, а для обеспечения регулирования в других желаемых значениях предлагается пропорционально уменьшать / увеличивать сигнал вектора состояния и увеличивать / уменьшать сигнал управления, формируемого нейронным регулятором. Также к другим достоинствам предлагаемого метода относятся: 1) отсутствие необходимости обучения на нескольких желаемых значениях, что существенно упрощает и ускоряет обучение нейронной сети, а также устраняет ошибки регулирования в диапазоне значений, для которых не выполнялось обучение нейронного регулятора; 2) возможность обучения из начально неустойчивого состояния замкнутой системы. Предлагаемый метод синтеза нейронного регулятора для замкнутой системы с линейным объектом опробован на примере синтеза регулятора для объекта 1/s3, который является неустойчивым. В качестве регулятора используется нейронная сеть, которую предлагается обучать одним из методов обучения с подкреплением (в статье метод Deterministic Policy Gradient позволил получить наилучшие результаты). Полученные графики переходных процессов позволяют сделать вывод о его успешном применении. Статья заканчивается выводами и рассуждениями о дальнейших направлениях исследования, к которым можно отнести качество переходного процесса и возможность его корректировки за счет изменения функции награды, что позволит задавать графики переходных процессов.

Ключевые слова: нейронные сети, синтез, классификация, структура нейронных сетей, методы обучения, машинное обучение, обратное распространение ошибки, структурные методы, алгоритмы управления

Статья получена 29 мая 2020 г.

1. ВВЕДЕНИЕ И ПОСТАНОВКА ЗАДАЧИ

Синтез регуляторов остается актуальной задачей в настоящее время. Особенно перспективным с точки зрения исследования и реализации является применение нейронных сетей для синтеза из-за их свойств адаптивности (что позволяет подстраивать значения коэффициентов для возможности работать при меняющихся значениях параметров объекта или внешних возмущениях) [1-3], надежности (что при условии избыточности параметров нейронной сети позволяет ей работать при частичном повреждении) [1-3].

Нейронные сети применяются для распознавания объектов на изображениях [4], распознавания звуков и речи [5]. Рассматривались задачи синтеза структуры нейронной сети для статических задач: в работе [6] решалась задача построения нейронной сети для решения логико-арифметических задач, в [7] решалась задача синтеза нейронных сетей для реализации рекуррентного метода наименьших квадратов. В решениях динамических задач нейронные сети (в частности, методы обучения с подтверждением) использовались для разработки систем для игры на игровых досках или компьютерных игр [8, 9].

Одним из направлений применения нейронных сетей для синтеза систем автоматического управления для линейного объекта, который может быть представлен в виде

У = Аи,

где у - выходной сигнал объекта, и - сигнал управления, является их использование для настройки параметров значений регуляторов (в частности, ПИД-регуляторов) [10, 11]. Структурная схема такой замкнутой системы приведена на рис. 1, где V - уставка, е - ошибка, и - управление, у - выходное значение объекта.

Рис. 1. Структурная схема замкнутой системы с нейронной сетью для корректировки значений регулятора

Fig. 1. Block diagram of a closed-loop system with a neural network for adjusting the controller values

Достоинством системы на рис. 1 является возможность подстройки ее коэффициентов с течением времени при работе системы, т. е. ее адаптивность. Предпочтительнее, чтобы обучение нейронной сети выполнялось из начального устойчивого положения системы (обучение из начального неустойчивого положения системы приводит к существенным сложностям при процедуре оптимизации). К недостаткам данного способа управления относится сложность обучения их начального неустойчивого состояния объекта.

Другим направлением синтеза нейронных регуляторов является способ управления по предсказанию (predictivecontrol) [12]. Структурная схема этого способа управления представлена на рис. 2. Она состоит из трех основных блоков: 1) объект управления; 2) блок регулятора; 3) нейронная сеть модели объекта. На вход блока оптимизации подается уставка v, а на выходе формируется два сигнала управления: вектор ^ подается на нейронную модель объекта, на которую также приходит вектор сигнала с выхода объекта Y с задержкой в один такт. Далее в нейронной модели объекта формируется предсказание следующего значения объекта у', которое подается на регулятор с целью дальнейшей оптимизации и формирования сигнала управления u для объекта.

Рис. 2. Структурная схема замкнутой системы с нейронной сетью при регулировании по предсказанию

Fig. 2. Block diagram of a closed system with a neural network for predictive control

Стоит отметить, что такой способ не получил развития на практике из-за возникающих ошибок при регулировании по причине погрешностей в нейронной модели объекта. Другим недостатком, который ограничивает применение вышеуказанного метода, привносит процедура оптимизации, которая является затратной по времени и вычислительным ресурсам и должна выполняться во время процесса регулирования.

Для задач синтеза систем управления нейронные сети могут использовать в качестве регуляторов, которые управляют объектом с использованием вектора состояния и обучения с подтверждением (reinforcementlearning) [13-16]. Обучение с подтверждением в теории и практике применения нейронных сетей используется для решения динамических задач. В его основе лежит представление системы в виде Марковского процесса принятия решений состояния, где в каждом состоянии среды актер может выполнять одно из действий и в результате выполнения выбранного действия получать награду. С точки зрения синтеза систем управления состоянием является вектор состояния объекта, действием - управляющее воздействие, наградой может выступать обратное значение ошибки регулирования.

Среди примеров применения к синтезу систем автоматического регулирования можно выделить [14], где приводится синтез системы управления для многоканального нелинейного объекта, [15, 16] - пример синтеза системы управления для многоканального линейного объекта. Регуляторы (см. [14, 15])

имеют общий недостаток - сложность обучения для диапазона значений, что частично решено в [16], где предлагается добавлять желаемое выходное значение во входной слой нейронной сети регулятора. Но полностью это не решает проблему регулирования в диапазоне, так как предлагаемый в [16] способ вынуждает выполнять обучение на большом количестве значений диапазона, что существенно усложняет процесс обучения (к примеру, для диапазона {-1, 1} с шагом 0.1 нужно выполнить обучение на 21 значении).

Тогда для класса линейных объектов сформулируем задачу разработки метода синтеза регулятора с использованием нейронных сетей, который будет способен выполнять регулирование на любом значении заданного диапазона желаемых выходных значений, а обучение нейронной сети регулятора лишено недостатка обучения на множестве значений диапазона.

2. МЕТОД СИНТЕЗА НЕЙРОННЫХ РЕГУЛЯТОРОВ

Основным с точки зрения выполняемого исследования достоинством публикаций [14-16] является возможность обучения из начального неустойчивого состояния замкнутой системы и стабилизации в одном или нескольких желаемых значениях.

С другой стороны, увеличение желаемых значений ведет к значительному усложнению обучения нейронной сети регулятора. Основными причинами являются сложность одновременного контроля «качества» управляющего воздействия и переходного процесса (отсутствие перерегулирования, время переходного процесса, отсутствие скользящего режима и другие). А также любое увеличение диапазона желаемых значений работы замкнутой системы будет ограниченным.

Используя приведенные достоинства используемых методов обучения нейронной сети регулятора, можно сформулировать методику синтеза нейронного регулятора, который будет стабилизировать линейный объект только около одного заранее заданного значения, которое заключается в последовательном выполнении следующих шагов:

1) сформировать нейронную сеть регулятора, на вход которого подается вектор состояния объекта (т. е. число входных нейронов равно размерности вектора состояния), а выходной слой состоит из одного нейрона с функцией активации гипертангенса (tanh). Количество скрытых слоев, типы нелинейно-стей и начальные значения можно выбрать исходя из конкретной задачи и примеров синтеза нейронного регулятора, приведенных ниже;

2) сформировать замкнутую систему, состоящую из нейронного регулятора и самого объекта управления. Нейронный регулятор формирует управляющее воздействие, ограниченное в диапазоне {A, В}, где А и В - нижняя и верхняя границы управления, которое подается на объект управления (рис. 3);

3) выполнить обучение нейронной сети регулятора с заданными длительностями переходного процесса, стоимостной функцией и другими параметрами обучения нейронной сети при помощи одного из методов обучения с подкреплением (в частности, метода Deterministic Policy Gradient) [17].

Полученная замкнутая система, с одной стороны, может быть получена относительно легко, но способна стабилизироваться только около одного за-

данного на этапе обучения желаемого значения. Для решения этой проблемы рассмотрим усовершенствованную схему замкнутой системы на рис. 3.

Рис. 3. Структурная схема замкнутой системы с нейронной сетью для обеспечения регулирования в любом значении диапазона

Fig. 3. Block diagram of a closed system with a neural network to ensure regulation in any value of the range

На схеме замкнутой системы, представленной на рис. 3, на вход нейронной сети регулятора поступает сигнал вектора состояния с объекта управления (обеспечение регулирования без использования вектора управления рассмотрено в [15]), предварительно разделенный на значение уставки. Таким образом, нейронная сеть регулятора формирует управление исходя их измененного сигнала, а далее сигнал управления должен быть умножен на значение уставки. При обучении нейронной сети регулятора согласно вышеприведенной методики для стабилизации выходного сигнала, отличного от единицы, умножение и деление на схеме (см. рис. 3) должно быть изменено пропорционально.

3. ПРИМЕРЫ СИНТЕЗА НЕЙРОННОГО РЕГУЛЯТОРА

Рассмотрим пример синтеза нейронного регулятора и замкнутой системы для объекта:

W (s) = -3.

s3

Для моделирования объект представлен в дискретном виде со временем дискретизации 0,05 с путем замены непрерывных интеграторов на дискретные. Моделирование и обучение осуществлялось с параметрами, приведенными в таблице, и позволило получить обученную нейронную сеть, которая способна стабилизировать объект в значении единицы. Структурная схема примера приведена на рис. 4, а соответствующие переходные процессы -на рис. 5.

Рис. 4. Схема замкнутой системы автоматического регулирования для объекта 1Д-3

Fig. 4. Scheme of a closed automatic control system for an object 1/s

\

4 4 \ V

i/ Ц 1 2 3

О 50 100 150 200 250 300 350 400

Рис. 5. Примеры переходных процессов для различных уставок (система поддерживает возможность стабилизации в любом значении)

Fig. 5. Examples of transient processes for different setpoints (the system supports the ability to stabilize at any value)

На схеме замкнутой системы на рис. 4 в нейронной сети регулятора буквами г и t обозначены нелинейности relu и tanh соответственно. На вход нейронной сети поступает сигнал с интеграторов объекта. В случае их недоступности можно воспользоваться их оценкой, полученной с помощью либо классического наблюдателя, либо нейронного.

Значение параметров моделирования замкнутой системы и обучения нейронной

сети регулятора

The value of the parameters of the closed-loop system simulation and training of the controller neural network

Параметр Значение

Максимальное время переходного процесса 400 тактов (1 такт = 0,05 с)

Максимальное / минимальное отклонение значений переходного процесса -10/10

Количество нейронов в нейронной сети регулятора 3 нейрона во входном слое, 2 - в скрытом, 1 - в выходном

Функции активации нейронного регулятора Relu в скрытом слое, tanh - в выходном

Алгоритм обучения Adam (A Method for Stochastic Optimization) [18]

Параметры алгоритма обучения Скорость обучения 1 • 10-4, остальные параметры по умолчанию

Размер одного пакета (batch) для группировки данных 64

Величина gamma алгоритма Deterministic Policy Gradient 0,99

На рис. 5 приведены примеры переходных процессов. Обучение выполнялось только для значения единицы, но уменьшение значений вектора состояния объекта в 2 и 4 раза соответственно и одновременное увеличение значения сигнала управления в 2 и 4 раза соответственно позволяет выполнять регулирование.

ЗАКЛЮЧЕНИЕ

Предложен метод синтеза нейронных регуляторов для замкнутых систем для линейных объектов, главной особенностью которых является обучение нейронной сети регулятора для стабилизации на одном значении и пропорциональном уменьшении и увеличении вектора состояния (подается на вход нейронного регулятора) и сигнала управления для обеспечения возможности регулирования на любом значении уставки. Также использование нейронного регулятора позволяет получать более предпочтительные графики переходных процессов.

К достоинствам и научной новизне предложенного метода синтеза нейронных регуляторов для линейных объектов относится следующее: i) предложенная структура замкнутой системы позволяет выполнять регулирование для любого значения уставки; 2) отсутствие необходимости обучения нейронного регулятора на множестве значений, что значительно ускоряет и упрощает процесс обучения.

При этом сохранена возможность обучения замкнутой системы из начального неустойчивого положения [i4-i6], а применение нейронной сети позволяет использовать ее достоинства (в частности, адаптивность). При недоступности вектора состояния объекта предлагается использовать наблюдатель, рассчитанный либо классическим способом, либо с применением нейронов.

Предложенный метод продемонстрирован на примере синтеза замкнутой системы для линейного объекта i/s3, приведены графики переходных процессов для различных уставок.

Дальнейшим направлением исследования является качество переходного процесса и возможность его корректировки за счет изменения функции награды, что позволит задавать графики переходных процессов. Также предлагаемый метод может быть применен к многоканальным объектам.

СПИСОК ЛИТЕРАТУРЫ

1. Bishop C. Pattern recognition and machine learning. - New York: Springer, 2007. - 738 p. -(Information Science and Statistics).

2. Goodfellow I., Bengio Y., Courville A. Deep learning. - Cambridge: MIT Press, 20i6. - 787 p.

3. Haykin S. Neural networks and learning machines. - 3rd ed. - New York: Prentice Hall, 2009. - 938 p.

4. Krizhevsky A., Sutskever I., Hinton G.E. ImageNet classification with deep convolutional neural networks // Advances in Neural Information Processing Systems 25: 26th Annual Conference on Neural Information Processing Systems 20i2. - Red Hook, NY: Curran, 20i3. - P. Ю97-П05.

5. Graves A., Mohamed A., Hinton G. Speech recognition with deep recurrent neural networks // 20i3 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). - Vancouver, BC, Canada, 20i3. - P. 6645-6649.

6. ВоеводаА.А., РоманниковД.О. Синтез нейронной сети для решения логико-арифметических задач // Труды СПИИРАН. - 2017. - Вып. 54. - C. 205-223.

7. Воевода А.А., Романников Д.О. Синтез нейронной сети для реализации рекуррентного метода наименьших квадратов // Научный вестник НГТУ. - 2018. - № 3 (72). - С. 33-42. -DOI: 10.17212/1814-1196-2018-3-33-42.

8. Playing Atari with deep reinforcement learning / V. Mnih, K. Kavukcuoglu, D. Silver, A. Graves, I. Antonoglou, D. Wierstra, M. Riedmiller // NIPS Deep Learning Workshop. - Lake Ta-hoe, 2013. - URL: https://arxiv.org/pdf/1312.5602.pdf (accessed: 16.12.2020).

9. Mastering the game of Go with deep neural networks and tree search / D. Silver, A. Huang, C. Maddison, A. Guez, L. Sifre, G. Driessche, J. Schrittwieser, I. Antonoglou, V. Panneershelvam, M. Lanctot, S. Dieleman, D. Grewe, J. Nham, N. Kalchbrenner, I. Sutskever, T. Lillicrap, M. Leach, K. Kavukcuoglu, T. Graepel, D. Hassabis // Nature. - 2016. - Vol. 529. - P. 484-503.

10. An adaptive PID neural network for complex nonlinear system control / J. Kang, W. Meng, A. Abraham, H. Liu // Neurocomputing. - 2014. - Vol. 135. - P. 79-85.

11. Белов М.П., Чан Д.Х. Интеллектуальный контроллер на основе нелинейного оптимального управления роботами-манипуляторами // Известия СПбГЭТУ ЛЭТИ. - 2018. - № 9. -С. 76-86.

12. Soloway D., Haley P.J. Neural generalized predictive control // Proceedings of the 1996 IEEE International Symposium on Intelligent Control. - Dearborn, MI, USA, 1996. - P. 277-282.

13. Sutton R., Barto A. Reinforcement learning: an introduction. - Cambridge: MIT Press, 2018. -1328 p.

14. Wang Y., Velswamy K., Huang B. A novel approach to feedback control with deep reinforcement learning // IFAC-PapersOnLine. - 2018. - Vol. 51 (18). - P. 31-33.

15. Воевода А.А., Романников Д.О. Синтез регуляторов для многоканальных систем с использованием нейронных сетей // Научный вестник НГТУ. - 2019. - № 4 (77). - С. 7-16. -DOI: 10.17212/1814-1196-2019-4-7-16.

16. Воевода А.А., Романников Д.О. Метод синтеза регуляторов для многоканальных систем с использованием нейронных сетей // Вычислительные технологии. - 2020. - Т. 25, № 3. -

C. 111-118.

17. Deterministic policy gradient algorithms / D. Silver, G. Lever, N. Heess, T. Degris,

D. Wierstra, M. Riedmiller // Proceedings of Machine Learning Research. - 2014. - Vol. 32: International Conference on Machine Learning, 22-24 June 2014, Bejing, China. - P. 387-395.

18. Kingma D., Ba J. Adam: a method for stochastic optimization // Proceeding the 3rd International Conference for Learning Representations, ICLR 2015. - San Diego, 2015. - URL: http://arxiv.org/abs/1412.6980 (accessed: 16.12.2020).

Романников Дмитрий Олегович, кандидат технических наук, доцент кафедры автоматики Новосибирского государственного технического университета. Область научных интересов: машинное обучение, нейронные сети, сети Петри. Число научных публикаций - 51. E-mail: dmitry.romannikov@gmail.com.

Romannikov Dmitry O., PhD (Eng.), associate professor at the Department of Automation, Novosibirsk State Technical University. His research interests include machine learning, neural networks, and Petri nets. He is the author of 51 publications. E-mail: dmit-ry.romannikov@gmail.com.

DOI: 10.17212/1814-1196-2020-4-111-120 A method for the synthesis of neural regulators for linear objects

D.O. ROMANNIKOV

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Novosibirsk State Technical University, 20 K. Marx Prospekt, Novosibirsk, 630073, Russian Federation

dmitry.romannikov@gmail.com Abstract

The article proposes a method for the synthesis of a neural controller for closed-loop systems with linear objects. The scientific novelty of the proposed method lies in the fact that the neural controller, to the input of which the object state vector is fed, must be trained to stabilize in one of the possible desired values, and to ensure regulation in other desired values. For objects with an inaccessible state vector, it is possible to use the estimation vector of the object state vector. It is proposed to proportionally decrease/increase the signal of the state vector and increase/decrease the control signal formed by the neural regulator. Also, other advantages of the proposed method include: 1) the absence of the need for training on several desired values, which greatly simplifies and accelerates the training of the neural network, and also eliminates control errors in the range of values for which the neural controller was not trained; 2) the possibility of learning from an initially unstable state of a closed-loop system. The proposed method for the synthesis of a neural controller for a closed-loop system with a linear object was tested on the example of the synthesis of a controller for an object 1/s 3, which is unstable. A neural network is used as a regulator, which is proposed to be trained using one of the reinforcement learning methods (in the article, the Deterministic Policy Gradient method allowed us to obtain the best results). The resulting graphs of transient processes allow us to conclude about its successful application. The article ends with conclusions and considerations about further lines of research, which include the quality of the transient process and the possibility of adjusting it by changing the reward function, which will allow setting the graphs of transient processes.

Keywords: neural networks, synthesis, classification, structure of neural networks, training methods, machine learning, back propagation errors, structural methods, control algorithms

REFERENCES

1. Bishop C. Pattern recognition and machine learning. Information Science and Statistics. New York, Springer, 2007. 738 p.

2. Goodfellow I., Bengio Y., Courville A. Deep learning. Cambridge, MIT Press, 2016. 787 p.

3. Haykin S. Neural networks and learning machines. 3rd ed. New York, Prentice Hall, 2009.

938 p.

4. Krizhevsky A., Sutskever I., Hinton G.E. ImageNet classification with deep convolutional neural networks. Advances in Neural Information Processing Systems 25: 26th Annual Conference on Neural Information Processing Systems 2012. Red Hook, NY, Curran, 2013, pp. 1097-1105.

5. Graves A., Mohamed A., Hinton G. Speech recognition with deep recurrent neural networks. 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Vancouver, BC, Canada, 2013, pp. 6645-6649.

6. Voevoda A.A., Romannikov D.O. Sintez neironnoi seti dlya resheniya logiko-arifmeti-cheskikh zadach [Synthesis of neural network for solving logical-arithmetic problems]. Trudy SPIIRAN = SPIIRASProceedings, 2017, iss. 54, pp. 205-223.

7. Voevoda A.A., Romannikov D.O. Sintez neironnoi seti dlya realizatsii rekurrentnogo metoda naimen'shikh kvadratov [Synthesis of a neural network for the implementation of the recursive

*

Received 29 May 2020.

leastsquares method]. Nauchnyi vestnik Novosibirskogo gosudarstvennogo tekhnicheskogo universi-teta = Science bulletin of the Novosibirsk state technical university, 2018, no. 3 (72), pp. 33-42. DOI: 10.17212/1814-1196-2018-3-33-42.

8. Mnih V., Kavukcuoglu K., Silver D., Graves A., Antonoglou I., Wierstra D., Riedmiller M. Playing Atari with deep reinforcement learning. NIPS Deep Learning Workshop, Lake Tahoe, 2013. Available at: https://arxiv.org/pdf/1312.5602.pdf (accessed 16.12.2020).

9. Silver D., Huang A., Maddison C., Guez A., Sifre L., Driessche G., Schrittwieser J., Antonoglou I., Panneershelvam V., Lanctot M., Dieleman S., Grewe D., Nham J., Kalchbrenner N., Sutskever I., Lillicrap T., Leach M., Kavukcuoglu K., Graepel T., Hassabis D. Mastering the game of Go with deep neural networks and tree search. Nature, 2016, vol. 529, pp. 484-503.

10. Kang J., Meng W., Abraham A., Liu H. An adaptive PID neural network for complex nonlinear system control. Neurocomputing, 2014, vol. 135, pp. 79-85.

11. Belov M.P., Chan D.Kh. Intellektual'nyi kontroller na osnove nelineinogo optimal'nogo up-ravleniya robotami-manipulyatorami [Intelligent controller based on non-linear optimal control of robotic manipulators]. Izvestiya SPbGETU "LETI" = Proceedings of Saint Petersburg Electrotech-nical University, 2018, no. 9, pp. 76-86.

12. Soloway D., Haley P.J. Neural generalized predictive control. Proceedings of the 1996 IEEE International Symposium on Intelligent Control, Dearborn, MI, USA, 1996, pp. 277-282.

13. Sutton R., Barto A. Reinforcement learning: an introduction. Cambridge, MIT Press, 2018. 1328 p.

14. Wang Y., Velswamy K., Huang B. A novel approach to feedback control with deep reinforcement learning. IFAC-PapersOnLine, 2018, vol. 51 (18), pp. 31-33.

15. Voevoda A.A., Romannikov D.O. Sintez regulyatorov dlya mnogokanal'nykh sistem s ispol'zovaniem neironnykh setei [Synthesis of regulators for multichannel systems using neural networks]. Nauchnyi vestnik Novosibirskogo gosudarstvennogo tekhnicheskogo universiteta = Science bulletin of the Novosibirsk state technical university, 2019, no. 4 (77), pp. 7-16. DOI: 10.17212/18141196-2019-4-7-16.

16. Voevoda A.A., Romannikov D.O. Metod sinteza regulyatorov dlya mnogokanal'nykh sis-tem s ispol'zovaniem neironnykh setei [Method of the synthesis of regulators for multichannel systems using neural networks]. Vychislitel'nye tekhnologii = Computational Technologies, 2020, no. 25, pp. 111-118.

17. Silver D., Lever G., Heess N., Degris T., Wierstra D., Riedmiller M. Deterministic policy gradient algorithms. Proceedings of Machine Learning Research, 2014, vol. 32: International Conference on Machine Learning, 22-24 June 2014, Bejing, China, pp. 387-395.

18. Kingma D., Ba J. Adam: a method for stochastic optimization. Proceeding the 3rd International Conference for Learning Representations, ICLR 2015, San Diego, 2015. Available at: http://arxiv.org/abs/1412.6980 (accessed: 16.12.2020).

Для цитирования:

Романников Д.О. Метод синтеза нейронных регуляторов для линейных объектов // Научный вестник НГТУ. - 2020. - № 4 (80). - С. 111-120. - DOI: 10.17212/1814-1196-2020-4-111-120.

For citation:

Romannikov D.O. Metod sinteza neironnykh regulyatorov dlya lineinykh ob"ektov [A method for the synthesis of neural regulators for linear objects]. Nauchnyi vestnik Novosibirskogo gosudarstvennogo tekhnicheskogo universiteta = Science bulletin of the Novosibirsk state technical university, 2020, no. 4 (80), pp. 111-120. DOI: 10.17212/1814-1196-2020-4-111-120.

ISSN 1814-1196, http://journals.nstu.ru/vestnik Science Bulletin of the NSTU Vol. 80, No 4, 2020, pp. 111-120

i Надоели баннеры? Вы всегда можете отключить рекламу.