Вычислительные технологии, 2020, том 25, № 3, с. 111-118. © ИВТ СО РАН, 2020 Computational Technologies, 2020, vol. 25, no. 3, pp. 111-118. © ICT SB RAS, 2020
ISSN 1560-7534 eISSN 2313-691X
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ
D01:10.25743/ICT.2020.25.3.012
Метод синтеза регуляторов для многоканальных систем с использованием нейронных сетей
А. А. Воевода, Д. О. РомАнников"
Новосибирский государственный технический университет, Новосибирск, Россия "Контактный автор: Романников Дмитрий О., e-mail: [email protected]
Поступила 10 .марта 2020 г., доработана 19 .марта 2020 г., принята в печать 17 апреля 2020 г.
Синтез регуляторов для многоканальных систем — актуальная и сложная задача. Одним из возможных способов синтеза является применение нейронных сетей. Нейронный регулятор либо обучают на предварительно рассчитанных данных, либо используют для настройки параметров ПИД-регулятора из начального устойчивого положения замкнутой системы. Предложено использовать нейронные сети для регулирования двухканального объекта, при этом обучение будет выполняться из неустойчивого (произвольного) начального положения с применением методов обучения нейронных сетей с подкреплением. Предложена структура нейронной сети и замкнутой системы, в которой уставка задается при помощи входного параметра нейронной сети регулятора.
Ключевые слова: нейронная сеть, управление, регулятор, многоканальная система, замкнутая система.
Цитирование: Воевода А.А., Романников Д.О. Метод синтеза регуляторов для многоканальных систем с использованием нейронных сетей. Вычислительные технологии. 2020; 25(3):111-118.
Введение
Применение нейронных сетей для решения задач, связанных с разработкой искусственного интеллекта, приобрело большую популярность. В частности, они широко используются для распознавания объектов на изображениях [1], распознавания звуков и речи [2, 3] и в других задачах.
В статье рассматривается применение нейронных сетей для синтеза систем управления многоканальными объектами. Обучение нейронной сети выполняется из изначального неустойчивого положения замкнутой системы с использованием методов обучения с подкреплением. В качестве объекта взята система, состоящая из двух грузов, последовательно соединенных пружинами [4]. Для синтеза динамических систем управления применен метод обучения с подкреплением. В [5] предложено использовать описание модели системы в терминах марковских цепей, где каждое состояние однозначно определяет состояние всей системы в целом. Далее эта идея развита, в частности, в [6, 7], где в качестве состояния использовалось изображение с экрана, а в [8, 9] — с игровых досок.
В [10, 11] для формирования желаемого переходного процесса выполнялось обучение нейронной сети по предварительно собранным данным. В [12-14] рассмотрена архитектура с помощью нейронных сетей, например ПИД-регулятора и его модификаций.
Настоящая статья является продолжением исследований [4, 15], где методика синтеза регуляторов применена для многоканальных замкнутых систем. Однако существенным недостатком этих работ является отсутствие возможности задавать уставку. Нейронная сеть была обучена стабилизировать замкнутую систему только около значения единицы, для смены уставки нужно выполнить переобучение нейронной сети.
1. Постановка задачи
Исследуем замкнутую систему, состоящую из объекта и регулятора. Объект представлен двумя грузами, подвешенными последовательно на двух пружинах жесткости к\ и к2. Для управления системой используются два управляющих сигнала щ и и2, приложенные к грузам (подробнее описание объекта приведено в [4]). Схема объекта в дискретном виде (шаг дискретизации 0.05 с) приведена на рис. 1.
Задачей исследования является синтез реализованного на нейронных сетях регулятора для управления замкнутой системой. Обучение нейронной сети регулятора должно выполняться методом обучения с подкреплением. Регулятор должен формировать управляющие сигналы щ и и2 для стабилизации выходных значений объекта у\ и у2, при этом значение у\ должно быть стабилизировано около значения уставки V.
2. Метод синтеза регулятора
Предложенная в [15] структура замкнутой системы позволяет обучить регулятор таким образом, чтобы он формировал выходное значение для стабилизации выхода объекта около значения, заданного еще до обучения. Для смены уставки необходимо было пе-
Рис. 1. Схема двухмассового объекта управления Fig. 1. System of a two-mass control object
реобучать регулятор, что является недостатком метода. Для его преодоления на вход нейронной сети регулятора предложено добавить нормализованное значение сигнала уставки (рис. 2), определив верхнюю и нижнюю границы диапазона уставок {г^т, ^тах}. По сравнению с [15], где значение награды вычисляется как
п
Я ^г -\Ьг - Уг\
г=1
(г — номер выхода объекта), в процедуру обучения нейронного регулятора следует внести изменения.
Первая модификация метода заключается в изменении выражения для вычисления награды. Оно будет иметь вид
т п—т
^ = - - Уг\) + ^(С - \Уг_рге - У%\).
г=1 г=1
Здесь п — общее количество каналов; т — число каналов для стабилизации около уставок; п - т — число каналов для стабилизации около произвольных значений; с — константа, определяющая награду при стабилизации; у^ рге — предыдущее значение у^ (начальное значение уг = 0).
Вторая модификация в отличие от [15] заключается в изменении уставки в ходе моделирования переходного процесса (рис. 2).
Таким образом, метод синтеза регулятора с использованием нейронных сетей можно сформулировать как последовательное выполнение ряда действий:
• Сформировать структуру замкнутой системы так, чтобы на вход нейронной сети регулятора подавались состояние объекта (значения звеньев задержки) и значения уставок каждого из выходных каналов, для которых требуется стабилизация около уставки. Сигналы с выходов нейронной сети регулятора необходимо подавать на входы объекта управления.
Рис. 2. Схема замкнутой системы с нейронным регулятором Fig. 2. Closed-loop system with a neural controller
• Произвести моделирование переходного процесса и на каждой итерации определить награду как
т п—т
R = - К - У%\) + - \Уг_рге - У%\).
г=1 г=1
При этом значение уставки необходимо изменять на новое, выбранное из диапазона {wmin, vmax} случайным образом.
• Выполнить обучение нейронной сети регулятора при помощи метода обучения с подкреплением Deterministic Policy Gradient.
3. Пример и результаты работы
С применением описанного метода синтеза регулятора для замкнутых систем обучен регулятор для рассматриваемого объекта. Выбрана нейронная сеть, состоящая из пяти входных нейронов (четыре нейрона состояния объекта и один уставки), 400 и 300 нейронов скрытых слоев и двух выходных нейронов (управляющие сигналы и\ и и2). Обучение выполнялось с использованием буфера воспроизведения (replay buffer) и метода
а б
Рис. 3. Примеры переходных процессов с разными значениями уставок Fig. 3. Examples of transients with different set points
Рис. 4. Примеры переходных процессов с изменением уставок в ходе переходного процесса Fig. 4. Examples of transients with changing of set points during the transient
Deterministic Policy Gradient. Для обучения потребовалось 180 000 эпох с максимальной наградой в 3652 c длительностью в 200 шагов моделирования (объект представлен в дискретном виде с шагом дискретизации в 0.05 с).
На рис. 3 приведены примеры моделирования переходных процессов системы, созданной при помощи нейронной сети регулятора (s — шаг моделирования). Для получения примеров вышеуказанных переходных процессов использовалась уже обученная нейронная сеть регулятора с длительностью моделирования 100 шагов. На каждом графике указаны переходные процессы для выходов объекта у\, у2 и управляющих выходов регулятора щ, и2 для уставок от 1 до 4 (а- г).
На рис. 4 приведены переходные процессы для случаев, когда уставка меняется в течение переходного процесса. Для наглядности длительность моделирования увеличена до 400 шагов.
Заключение
Предложен метод синтеза нейронного регулятора, который в отличие от существующих методов использования нейронной сети для синтеза регулятора, позволяет обучить регулятор из неустойчивого начального состояния замкнутой системы и задавать уставку. Метод опробован на задаче стабилизации выходов двухканального объекта, для которого требуется стабилизировать оба выхода и первый около уставки.
Дальнейшие исследования будут направлены на усложнение объекта, в частности добавление в него элементов нелинейностей, а также разработка более формальных рекомендаций по выбору структуры нейронной сети.
Список литературы
[1] Krizhevsky A., Sutskever I., Hinton G.E. ImageNet classification with deep convolutional neural networks. Proc. of the Neural Information Processing Systems, New York, USA, 2012. Association for Computing Machinery. 2012; 30(6):1097-1105. 2012: 1097-1105.
[2] Graves A., Mohamed A., Hinton G.E. Speech recognition with deep recurrent neural networks. Proc. of the Intern. Conf. on Acoustics, Speech and Signal Processing (ICASSP), Vancouver, BC. 2013: 6645-6649. Available at: https://ieeexplore.ieee.org/document/ 6638947
[3] Deng L., Hinton G.E., Kingsbury B. New types of deep neural network learning for speech recognition and related applications: An overview. Proc. of the Intern. Conf. on Acoustics, Speech and Signal Processing (ICASSP), Vancouver, BC. 2013: 8599-8603. Available at: https: //ieeexplore.ieee.org/document/6639344)
[4] Воевода А.А. Стабилизация двухмассовой системы: полиномиальный метод синтеза двухканальной системы. Сборник научных трудов НГТУ. 2010; 4(62):13-24.
[5] Sutton R., Barto A. Reinforcement learning: An introduction. Cambridge: MIT Press; 2018: 1328.
[6] Mnih V., Kavukcuoglu K., Silver D., Graves A., Antonoglou I., Wierstra D., Riedmiller M. Playing atari with deep reinforcement learning. Available at: https://arxiv. org/abs/1312.5602 (accessed 27.05.200).
[7] Hester T., Vecerik M., Pietquin O., Lanctot M., Schaul T., Piot B., Horgan D., Quan J., Sendonaris A., Dulac-Arnold G., Osband I., Agapiou J., Leibo J.Z., Gruslys A. Deep Q-learning from demonstrations. Available at: https://arxiv.org/abs/ 1704.03732 (accessed 27.05.200).
[8] Silver D., Huang A., Maddison C., Guez A., Sifre L., Driessche G., Schrittwieser J., Antonoglou I., Panneershelvam V., Lanctot M., Dieleman S., Grewe D., Nham J., Kalchbrenner N., Sutskever I., Lillicrap T., Leach M., Kavukcuoglu K., Graepel T., Hassabis D. Mastering the game of Go with deep neural networks and tree search. Nature. 2007:484-503.
[9] Omid E., Netanyahu N., Wolf L. DeepChess: End-to-end deep neural network for automatic learning in chess. Proc. of ICANN 2016: 25th Intern. Conf. on Artificial Neural Networks, Barcelona, Spain. Springer LNCS. 2016; (9887):88-96.
[10] Макаров И.М., Лохин В.М. Интеллектуальные системы автоматического управления. М.: Физматлит; 2001: 578.
[11] Белов М.П., Чан Д.Х. Интеллектуальный контроллер на основе нелинейного оптимального управления роботами-манипуляторами. Известия СПбГЭТУ ЛЭТИ. 2018; (9):76-86.
[12] Alvarado R., Valdovinos L., Salgado-Jimenez T., Gomez-Espinosa A., Fonseca-Navarro F. Neural network-based self-tuning PID control for underwater vehicles. Sensors (Basel). 2016: 16(9):898-903.
[13] Kumar R., Srivastava S., Gupta Artificial Neural Network based PID controller for online control of dynamical systems. Proc. of Sensors IEEE 1st Intern. Conf. on Power Electronics, Intelligent Control and Energy Systems (ICPEICES), Delhi, 2016. Available at: https://ieeexplore.ieee.org/document/7853092
[14] Zribi A., Chtourou M., Djemel M. A new PID neural network controller design for nonlinear processes. Available at: http://arxiv.org/abs/1512.07529
[15] Воевода A.A., Романников Д.О. Синтез регуляторов для многоканальных систем с использованием нейронных сетей. Научный вестник НГТУ. 2019; 4(77):7-16.
Вычислительные технологии, 2020, том 25, № 3, с. 111-118. © ИВТ СО РАН, 2020 ISSN 1560-7534
Computational Technologies, 2020, vol. 25, no. 3, pp. 111-118. © ICT SB RAS, 2020 elSSN 2313-691X
INFORMATION TECHNOLOGIES
D01:10.25743/ICT.2020.25.3.012
The synthesis method of regulators for multichannel systems using neural networks
Voevoda Alexandr A., Romannikov Dmitry O.*
Novosibirsk State Technical University, 630087, Novosibirsk, Russia
* Corresponding author: Romannikov Dmitry O., e-mail: [email protected]
Received March 10, 2020, revised March 19, 2020, accepted April 17, 2020
Abstract
The problem for synthesis of automatic control systems is hard, especially for multichannel objects. One of the approaches is the use of neural networks. For the approaches that are based on the use of reinforcement learning, there is an additional issue — supporting of range of values for the set points. The method of synthesis of automatic control systems using neural networks and the process of its learning with reinforcement learning that allows neural networks learning for supporting regulation is proposed in the predefined range of set points. The main steps of the method are 1) to form a neural net input as a state of the object and system set point; 2) to perform modelling of the system with a set of randomly generated set points from the desired range; 3) to perform a one-step of the learning using the Deterministic Policy Gradient method. The originality of the proposed method is that, in contrast to existing methods of using a neural network to synthesize a controller, the proposed method allows training a controller from an unstable initial state in a closed system and set of a range of set points. The method was applied to the problem of stabilizing the outputs of a two-channel object, for which stabilization both outputs and the first near the input set point is required.
Keywords: neural network, control, regulator, multichannel system, closed system.
Citation: Voevoda A.A., Romannikov D.O. The synthesis method of regulators for multichannel systems using neural networks. Computational Technologies. 2020; 25(3):111-118. (In Russ.)
References
1. Krizhevsky A., Sutskever I., Hinton G.E. ImageNet classification with deep convolutional neural networks. Proc. of the Neural Information Processing Systems, New York, USA, 2012. Association for Computing Machinery. 2012; 30(6):1097-1105. 2012: 1097-1105.
2. Graves A., Mohamed A., Hinton G.E. Speech recognition with deep recurrent neural networks. Proc. of the Intern. Conf. on Acoustics, Speech and Signal Processing (ICASSP), Vancouver, BC. 2013: 6645-6649. Available at: https://ieeexplore.ieee.org/document/6638947
3. Deng L., Hinton G. E., Kingsbury B. New types of deep neural network learning for speech recognition and related applications: An overview. Proc. of the Intern. Conf. on Acoustics, Speech and Signal Processing (ICASSP), Vancouver, BC. 2013: 8599-8603. Available at: https://ieeexplore.ieee. org/document/6639344)
4. Voevoda A.A. Stabilizatsiya dvukhmassovoy sistemy: polinomial'nyy metod sinteza dvukhkanal'noy sistemy [Stabilization of a two-mass system: a polynomial method for the synthesis of a two-channel system]. Sbornik nauchnykh trudov NGTU. 2010; 4(62):13-24. (In Russ.)
5. Sutton R., Barto A. Reinforcement learning: An introduction. Cambridge: MIT Press; 2018: 1328.
6. Mnih V., Kavukcuoglu K., Silver D., Graves A., Antonoglou I., Wierstra D., Riedmiller M. Playing atari with deep reinforcement learning. Available at: https://arxiv.org/abs/1312.5602 (accessed 27.05.200).
7. Hester T., Vecerik M., Pietquin O., Lanctot M., Schaul T., Piot B., Horgan D., Quan J., Sendonaris A., Dulac-Arnold G., Osband I., Agapiou J., Leibo J.Z., Gruslys A. Deep Q-learning from demonstrations. Available at: https://arxiv.org/abs/1704.03732 (accessed 27.05.200).
8. Silver D., Huang A., Maddison C., Guez A., Sifre L., Driessche G., Schrittwieser J., Antonoglou I., Panneershelvam V., Lanctot M., Dieleman S., Grewe D., Nham J., Kalchbrenner N., Sutskever I., Lillicrap T., Leach M., Kavukcuoglu K., Graepel T., Hassabis D. Mastering the game of Go with deep neural networks and tree search. Nature. 2007:484-503.
9. Omid E., Netanyahu N., Wolf L. DeepChess: End-to-end deep neural network for automatic learning in chess. Proc. of ICANN 2016: 25th Intern. Conf. on Artificial Neural Networks, Barcelona, Spain. Springer LNCS. 2016; (9887):88-96.
10. Makarov I.M., Lohin V.M. Intellektual'nye sistemy avtomaticheskogo upravleniya [Intelligent automatic control systems]. Moscow: Fizmatlit; 2001: 578. (In Russ.)
11. Belov M.P., Chan D.H. Intelligent controller based on non-linear optimal control of robotic manipulators [Intellektual'nyj kontroller na osnove nelinejnogo optimal'nogo upravlenija robotami-manipulja-torami]. Izvestiya SPbGETU LETI. 2018; (9):76-86. (In Russ.)
12. Alvarado R., Valdovinos L., Salgado-Jimenez T., Gomez-Espinosa A., Fonseca-Navarro F. Neural network-based self-tuning PID control for underwater vehicles. Sensors (Basel). 2016: 16(9):898-903.
13. Kumar R., Srivastava S., Gupta Artificial Neural Network based PID controller for online control of dynamical systems. Proc. of Sensors IEEE 1st Intern. Conf. on Power Electronics, Intelligent Control and Energy Systems (ICPEICES), Delhi, 2016. Available at: https://ieeexplore.ieee. org/document/7853092
14. Zribi A., Chtourou M., Djemel M. A new PID neural network controller design for nonlinear processes. Available at: http://arxiv.org/abs/1512.07529
15. Voevoda A.A., Romannikov D.O. Synthesis of regulators for multichannel systems using neural networks. Scientific Bulletin of NSTU. 2019; 4(77):7-16. D0I:10.17212/1814-1196-2019-4-7-16. (In Russ.)