Научная статья на тему 'РАЗРАБОТКА ЭНЕРГОЭФФЕКТИВНОГО НЕЙРОРЕГУЛЯТОРА МОМЕНТА ТЯГОВОГО ЭЛЕКТРОПРИВОДА МЕТОДОМ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ'

РАЗРАБОТКА ЭНЕРГОЭФФЕКТИВНОГО НЕЙРОРЕГУЛЯТОРА МОМЕНТА ТЯГОВОГО ЭЛЕКТРОПРИВОДА МЕТОДОМ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
33
6
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕЙРОННЫЕ СЕТИ / ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ / ТЯГОВЫЙ ЭЛЕКТРОПРИВОД / МОМЕНТ ДВИГАТЕЛЯ / BLDC

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Аносов Владимир Николаевич, Орел Егор Олегович

В работе предложена методика синтеза нейросетевого регулятора момента тягового электропривода на базе BLDC-двигателей на основании принципа обучения нейронных сетей с подкреплением. В результате испытаний на участке стандартизированного цикла движения WLTP Class 1 синтезированный нейрорегулятор позволил обеспечить более точное и энергоэффективное управление моментом тягового электропривода по сравнению с классическим регулятором: получены более низкая интегральная ошибка момента на исследуемом участке (на 30,4%) и более экономичное потребление энергии от источника питания (на 25,8%).

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по электротехнике, электронной технике, информационным технологиям , автор научной работы — Аносов Владимир Николаевич, Орел Егор Олегович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DEVELOPMENT OF AN ENERGY-EFFICIENT NEURAL NETWORK TORQUE CONTROLLER FOR A TRACTION ELECTRIC DRIVE BY THE METHOD OF REINFORCEMENT LEARNING

A method for synthesizing a neural network torque controller for a traction electric drive with BLDC motors based on the principle of reinforcement learning of neural networks is proposed in the article. The synthesized neuro-controller made it possible to provide more accurate and energy-efficient control of the traction electric drive torque in comparison with the classical controller as a result of tests on the section of the WLTP Class 1 standardized motion cycle. There is a gain in the integral torque error (by 30.4%) and more economical energy consumption from the power source (by 25.8%) obtained in an experimental run.

Текст научной работы на тему «РАЗРАБОТКА ЭНЕРГОЭФФЕКТИВНОГО НЕЙРОРЕГУЛЯТОРА МОМЕНТА ТЯГОВОГО ЭЛЕКТРОПРИВОДА МЕТОДОМ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ»

INSTRUMENTATION FOR PERIODIC QUALITY CONTROL OF ELECTRICAL SYSTEMS OF A NEW

VEHICLE

A.V. Kritsky, V.N. Kozlovsky, A.S. Podgorny, D.I. Panyukov

The article presents the results of the analysis of the system ofperiodic quality control of the electrical systems of new cars existing at car assembly enterprises.

Key words: car, on-board electrical complex, quality, reliability.

Kritsky Alexey Viktorovich, postgraduate, kritskiyav@yandex.ru, Russia, Samara, Samara State Technical University,

Kozlovsky Vladimir Nikolaevich, doctor of technical sciences, professor, head of the department, Ko-zlovskiy-76@mail.ru, Russia, Samara, Samara State Technical University,

Podgorny Alexander Sergeevich, candidate of technical sciences, professor, senior researcher, zxcvbnm89207@yandex.ru, Russia, Samara, Samara State Technical University,

Panyukov Dmitry Ivanovich, doctor of technical sciences, professor, head of the department, dip-home@yandex.ru, Russia, Samara, Samara State Technical University

УДК: 621.3.078.4

DOI: 10.24412/2071-6168-2023-5-212-213

РАЗРАБОТКА ЭНЕРГОЭФФЕКТИВНОГО НЕЙРОРЕГУЛЯТОРА МОМЕНТА ТЯГОВОГО ЭЛЕКТРОПРИВОДА МЕТОДОМ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ

В.Н. Аносов, Е.О. Орел

В работе предложена методика синтеза нейросетевого регулятора момента тягового электропривода на базе BLDC-двигателей на основании принципа обучения нейронных сетей с подкреплением. В результате испытаний на участке стандартизированного цикла движения WLTP Class 1 синтезированный нейрорегулятор позволил обеспечить более точное и энергоэффективное управление моментом тягового электропривода по сравнению с классическим регулятором: получены более низкая интегральная ошибка момента на исследуемом участке (на 30,4%) и более экономичное потребление энергии от источника питания (на 25,8%).

Ключевые слова: нейронные сети, обучение с подкреплением, тяговый электропривод, момент двигателя, BLDC.

Поиск эффективных методов регулирования переменных состояния тягового электропривода является одним из центральных вопросов электротехники. Особенно важным для автономных транспортных средств (ТС) является экономное использование энергии.

Большинство классических подходов основаны на применении ПИД-регуляторов [1-4]. Однако, они не позволяют учитывать существенные нелинейности в математическом описании объектов управления. Данный недостаток играет важную роль при регулировании движения ТС с высокими требованиями к качеству и точности.

Регуляторы на основе нейросетей при правильном обучении могут стать эффективным решением для обеспечения адаптивности и автономности системы управления [5]. Нейронные сети также могут быть использованы для решения задач управления в условиях неполноты информации и нестационарности объектов управления. Обучение этих сетей происходит на основе реальных входных/выходных данных объекта управления или его модели. В качестве выходной характеристики могут быть как величины ПИД-регуляторов [6], так и просто желаемые величины регулируемых переменных [7].

Большая часть описанных в литературе нейросетевых регуляторов обучаются по методике «с учителем». В связи с невысоким уровнем исследованности интерес представляет метод обучения нейронных сетей с подкреплением (reinforcement learning). Его суть заключается в итеративном совершении действий в рабочей среде с целью поиска оптимальной стратегии поведения [8].

В данной работе представлены разработка и исследование нейросетевого регулятора момента тягового электропривода методом обучения с подкреплением.

Объект управления. В качестве объекта управления было выбрано ТС массой 3000 кг, которое предполагается использовать для перевозки пассажиров на небольшие расстояния в городской черте и на территориях предприятий.

Особенностью данного транспортного средства является бесконтактный подвод электрической энергии от кабеля, заложенного в дорожное полотно [9, 10].

ТС приводится в движение с помощью тяговых мотор-колёс на базе BLDC-двигателей НРМ-20к, технические характеристики которых приведены в таблице.

Техническая спецификация BLDC-двигателя HPM-20k

Характеристика Значение Характеристика Значение

Мощность, Вт 20000 Электрический угол между датчиками Холла, град. 120

Номинальное напряжение, В 72 Число пар полюсов, шт 4

Номинальный ток, А 1000 Уровень защиты IP54

Время работы на максимальном токе, с 10 Тип охлаждения Жидкость

Номинальная скорость, об/мин 3600 Вес, кг 39

Максимальный момент, Н*м 55 Размеры, мм 570*370*400

Индуктивность фазы, мГн 182 Тип магнитов NdFeB (неодимо-вые магниты)

Система автоматического управления. Для выбранного объекта управления используется трёхконтурная система автоматического управления (рисунок 1). Регуляторы напряжения и скорости были синтезированы методом СПР [3]. Для целей исследования регулятор момента синтезирован двумя методами: СПР и с использованием искусственных нейронных сетей.

и„

Регулятор скорости

и„

и„

»«то»» ^Sd^

U——> момеетя напряжен its

~60кГц

I ^ 1_

Логика коммутации

Выпрямитель

DC/DC ¡¡инвертер

Ж

Инвертор напряжения

BLDC мотор

-Н-М VV

Шгрузка

Рис. 1. Структурная схема САУ

По сравнению с классическими нейрорегуляторы на основе метода обучения с подкреплением обладают рядом преимуществ. Во-первых, их тренировка производится во взаимодействии с реальным объектом управления или его цифровым двойником, что позволяет более детально учитывать особенности поведения системы при наличии нелинейностей, которыми принято пренебрегать при синтезе классических регуляторов. Во-вторых, настройка таких регуляторов не требует глубокого знания теории автоматического управления, так как для тренировки нейрорегуляторов важно сформулировать образ идеального целевого состояния объекта управления, после чего алгоритмы обучения «самостоятельно» стремятся минимизировать ошибку показателей качества регулирования. Наконец, для настройки нейро-регулятора требуется внимание специалистов только на этапах запуска тренировки и во время проверки результатов. В случае необходимости повышения качества работы в ранее неучтенных ситуациях можно запустить дополнительный процесс обучения с учетом новых вводных.

Наиболее значимыми зонами внимания при разработке нейросетевых регуляторов являются наличие достаточно больших вычислительных мощностей и тщательно проработанных математической модели цифрового двойника и рабочих циклов состояния объекта управления в процессе тренировки. Чем более точное будет описание, тем выше вероятность корректной отработки нейросетевым агентом действий в реальной среде. При этом доступная вычислительная мощность и время тренировки обратно пропорциональны. Стоит отметить, что разработчикам нейрорегуляторов не обязательно иметь своё «железо»: высокопроизводительные видеокарты, процессоры и модули памяти достаточно дороги и труднодоступны в связи с современными ограничениями, накладываемыми на международную торговлю. Доступная альтернатива - аренда облачных вычислительных мощностей на время тренировки нейросетевых регуляторов у компаний-вендоров [11].

Синтез нейрорегулятора момента тягового электропривода. Нейросетевые агенты, созданные методом обучения с подкреплением, по структуре разделяют на три основные категории:

1. Ценностно-ориентированный (value-based) подход предполагает использование только прописанных критериев ценности для выбора наилучшего действия в определенной среде. Для этого не требуется прямое определение политики действий - вместо этого оценивается эффективность каждого варианта действий. Такой подход особенно эффективен в случаях, когда среда является дискретной и имеет ограниченное количество возможных действий. Такие агенты называют критиками.

2. Политико-ориентированный (policy-based) подход использует только нейросетевых агентов для определения действия, и полагается на прямое определение политики их действий. Он имеет низкую вычислительную сложность и может быть применен в непрерывных средах, но чувствителен к помехам и может сходиться к локальному оптимуму. Эти агенты называют акторами.

3. Метод «Актор-Критик» (Actor-Critic) является смешанным подходом и предполагает поиск наилучших действий актором с обратной связью критика (рисунок 2). Критик корректирует действия актора и помогает ему улучшить свои результаты. Алгоритм обучения направлен на оптимизацию ожидаемого совокупного долгосрочного значения целевой функции посредством постоянного обновления параметров политики действий актора на основе данных о действиях, реакции рабочей среды и значений целевой функции. Такой подход позволяет достичь максимальной эффективности в решении поставленных перед нейрорегулятором задач.

STATE (СОСТОЯНИЕ)

ACTOR _

(POLICY)

¡ОШИБКА

CRITIC

REWARD

{ЗНАЧЕНИЕ

ЦЕЛЕВОЙ

ФУНКЦИИ)

РАЕОЧАЯ СРЕДА

ACTION (ДЕЙСТВИЕ)

Рис. 2. Структура подхода «Актор-Критик»

Для разработки нейрорегулятора выбран метод Actor-Critic для непрерывных сред, известный как TD3 (Twin Delayed Deep Deterministic Policy Gradient) [12]. Этот метод является улучшенной версией алгоритма DDPG (Deep Deterministic Policy Gradients) [13]. Моделирование производилось с использованием Matlab Simulnk (рисунок 3).

Control

I '<*) = " I

1 w.Hall 1 Vehicle

Рис. 3. Имитационная модель объекта управления

В качестве обратной связи от рабочей среды были использованы текущие измерения момента двигателя, ошибки регулирования момента и накопительное значение ошибки (рисунок 4).

а>

а>

-T—EH ■S 1

, — -Ф-

f1"" " <i_> CD • •vJL

UJ 4 torguemees 1

CD *[*£>*

^

s. . ,-,

> шп

Í l-l 1

•¿И*- <D

■ WWO

Рис. 4. Структура нейрорегулятора в среде Matlab Simulink

214

Уравнение целевой функции (критика) Q сформулировано с целью минимизации среднеквадратичной ошибки регулирования момента, а также максимизации времени работы алгоритма управления без аварийных прерываний, в т.ч. из-за превышения максимальных допустимых амплитудных значений момента, указанных в таблице:

Q = f 10dt - error2 -(106 if stop > 0 else 0).

Jo

Результаты моделирования. Оценка работоспособности синтезированного нейрорегулятора была произведена путем сравнения качества работы с регулятором момента на основе метода СПР при запуске имитационной модели объекта управления для отработки кривой скорости в соответствии с участком международного стандартизированного цикла движения WLTP Cycle 1. Оценка производилась по двум критериям: величина интегральной ошибки регулирования на всем протяжении цикла, а также объем потребленной энергии, вычисленный как интеграл мгновенной потребленной мощности двигателя (рисунок 5).

-- Мч СПР

3= --.-."._!■ и- J -Ц-|

ч——t-p-Ч Г

ШШВЭв

ыищотед

Интегральная ошибка момента = 547.7 Н*м

< на 30,4% Интегральная ошнока момента = 787.2 Н*м

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Потребленная энергия < на 25.8%

Рис. 5. Сравнение переходных процессов с нейрорегулятором (ЯЬ) и с регулятором по методу СПР

В результате проведенного моделирования было выяснено, что интегральная ошибка момента двигателя при работе с классическим регулятором, синтезированным по СПР, на 30,4% больше, чем при использовании нейрорегулятора. Классический регулятор более стабильно отработал возмущающие воздействия при прямом направлении вращения магнитного поля BLDC-мотора, однако показал большие по амплитуде колебания момента при работе в режиме многократных переключений направления вращения магнитного поля в двигателе, необходимого для перевода ТС в режим торможения. При этом экономия потребленной энергии в системе с нейрорегулятором составила 25,8% по отношению к схеме с СПР.

Заключение. Таким образом, нейрорегулятор, полученный на основе метода обучения нейронных сетей с подкреплением по методике «Актор-Критик», позволяет обеспечить более точное управление переменными состояния тягового электропривода, а также экономию энергии по сравнению с классическим регулятором, синтезированным с помощью метода систем подчиненного регулирования.

Список литературы

1. Денисенко В.В. ПИД-регуляторы: принципы построения и модификации // В записную книжку инженера. 2006. №4. С. 66-74.

2. Настройка типовых регуляторов по методу Циглера-Никольса: метод. указания к выполнению лаб. работы для студентов, обучающихся по направлениям 210100 «Электроника и наноэлектрони-ка» и 201000 «Биотехнические системы и технологии» / сост. О.С. Вадутов; Национальный исследовательский Томский политехнический университет. Томск: Изд-во Томского политехнического университета, 2014. 10 с.

3. Кириллов А.В., Степанюк Д.П., Ясенев Н.Д. Электрический привод. Курс лекций // Уральский федеральный университет [Электронный ресурс] иЯЬ: https://studv.urfu.ru/Aid/Publication/13509/1/КтЦру Stepanvuk Yasenev.pdf (дата обращения: 07.06.2023).

4. Панкратов В.В. Синтез нелинейных систем методом больших коэффициентов // Сб. науч. тр. Новосибирск: НГТУ, 1996. № 1. С. 31 - 38.

5. Феофилов Д.С. Сравнительный анализ качества процессов управления для нейросетевых и классических регуляторов // Известия Тульского государственного университета. Технические науки. 2021. Вып. 11. С. 68-72.

6. Nepomnyashchiy O., Kazakov F., Ostroverkhov D., Tarasov A., Sirotinina N. A neural regulator for efficient control of electric vehicle motors // EAI Endorsed Transactions on Energy Web. 2018. №7. С. 1-8.

7. Alhanjouri M. Speed Control of DC Motor using Artificial Neural Network // International Journal of Science and Research (IJSR). 2017. №7. С. 2140 - 2148.

8. Herbrich R., Graepel T. Machine Learning: An Algorithmic Perspective, Second Edition. Boca Raton: CRC Press, 2015. 457 с.

9. Аносов В.Н. Математическое описание источника питания для бесконтактного подвода энергии как элемента системы управления = Mathematical description of a power supply source for contact-less energy supply as a control system element / В.Н. Аносов, В.М. Кавешников, Е.О. Орел // Доклады Академии наук высшей школы Российской Федерации. 2018. № 4 (41). С. 44-51. DOI: 10.17212/1727-27692018-4-44-51.

10. Аносов В.Н., Кавешников В.М., Орел Е.О. Структурное и имитационное моделирование источника питания как элемента системы управления // Известия Тульского государственного университета. Технические науки. 2022. Вып. 9. С. 448-453.

11. VK Cloud Домашняя страница / VK Cloud [Электронный ресурс] // ИТ-платформа бизнес-класса от VK: [Электронный ресурс] URL: https://mcs.mail.ru (дата обращения: 12.06.2023).

12. Fujimoto S., van Hoof H., Meger D. Addressing Function Approximation Error in Actor-Critic Methods // arXiv:1802.09477 [cs.AI]. 2018.

13. Guha S. Deep Deterministic Policy Gradient (DDPG): Theory and Implementation // Towards Data Science [Электронный ресурс] URL: https://towardsdatascience.com/deep-deterministic-policy-gradient-ddpg-theory-and-implementation-747a3010e82f (дата обращения: 07.06.2023).

Аносов Владимир Николаевич, д-р техн. наук, профессор, anosovvn@gmail. com, Россия, Новосибирск, Новосибирский государственный технический университет,

Орел Егор Олегович, аспирант, eg.orel@ya.ru, Россия, Новосибирск, Новосибирский государственный технический университет

DEVELOPMENT OF AN ENERGY-EFFICIENT NEURAL NETWORK TORQUE CONTROLLER FOR A TRACTION ELECTRIC DRIVE BY THE METHOD OF REINFORCEMENT LEARNING

V.N. Anosov, E.O. Orel

A method for synthesizing a neural network torque controller for a traction electric drive with BLDC motors based on the principle of reinforcement learning of neural networks is proposed in the article. The synthesized neuro-controller made it possible to provide more accurate and energy-efficient control of the traction electric drive torque in comparison with the classical controller as a result of tests on the section of the WLTP Class 1 standardized motion cycle. There is a gain in the integral torque error (by 30.4%) and more economical energy consumption from the power source (by 25.8%) obtained in an experimental run.

Key words: neural networks, reinforcement learning, traction electric drive, torque control, BLDC.

Anosov Vladimir Nikolaevich, doctor of technical sciences, professor, anosovvn@gmail. com, Russia, Novosibirsk, Novosibirsk state technical university,

Orel Egor Olegovich, postgraduate, eg.orel@ya.ru, Russia, Novosibirsk, Novosibirsk state technical

university

i Надоели баннеры? Вы всегда можете отключить рекламу.