СРАВНИТЕЛЬНЫЙ АНАЛИЗ СИСТЕМ ГЛУБОКОГО ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ И СИСТЕМ ОБУЧЕНИЯ С УЧИТЕЛЕМ

Жиленков Антон Александрович; Силкин Артем Анатольевич; Серебряков Михаил Юрьевич; Колесова София Васильевна

УДК 681.5

DOI: 10.24412/2071-6168-2022-10-109-112

СРАВНИТЕЛЬНЫЙ АНАЛИЗ СИСТЕМ ГЛУБОКОГО ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ И СИСТЕМ ОБУЧЕНИЯ С УЧИТЕЛЕМ

А.А. Жиленков, А.А. Силкин, М.Ю. Серебряков, С.В. Колесова

В этой статье проведен обзор о происхождении глубокого обучения, продемонстрированы отличия глубокого обучения от традиционного машинного обучения, а также объяснено понятие глубокого обучения с подкреплением.

Ключевые слова: глубокое обучение, обучение с подкреплением, глубокое обучение с подкреплением, машинное обучение.

Глубокое обучение является довольно популярным решением в области машинного обучения за счет его выдающейся производительности в различных областях, т.е. не только в классических задачах компьютерного зрения, но и для многих других практических целей. К ним, например, относятся обработка естественного языка, фильтрация социальных сетей, машинный перевод, биоинформатика, проверка различных материалов, настольные игры, где эти методы, основанные на глубоком обучении, демонстрируют результаты, сравнимые или даже превосходящие оные от экспертов в данных областях. Глубокое обучение поспособствовало изменению методов, которыми мы обрабатывали, анализировали и манипулировали данными.

Глубокое обучение. Прилагательное «глубокий» в глубоком обучении стало применяться из-за использования многослойной сети. На рис. 1 показана простая архитектура глубокого обучения с классической полносвязной стратегией. Общее сравнение между глубоким и традиционным машинными обучениями проводится в таблице. При глубоком обучении исходные данные, такие как изображения, непосредственно передаются в глубокую нейронную сеть с несколькими уровнями, которые постепенно извлекают более высокоуровневые характеристики, в то время как при традиционном машинном обучении соответствующие характеристики входных данных вручную извлекаются экспертами. Кроме того, глубокое обучение часто требует большого количества данных для достижения оптимальных результатов, что подразумевает необходимость в значительных вычислительных ресурсах.

Глубокие модели могут быть интерпретированы, как искусственные нейронные сети, обладающие глубокими структурами. Идея об искусственных нейронных сетях далеко не нова, т.к. ее истоки зародились еще в 1940-х годах [1]. В последующие годы исследовательское сообщество стало свидетелем множества важных вех, связанных с перцептронами, алгоритмами обратного распространения, пакетной нормализацией и т.д [2]. Все это превратилось в поток непрерывных алгоритмических улучшений, появлявшихся наряду с крупномасштабными обучающими данными и быстрой разработкой высокопроизводительных параллельных вычислительных систем, таких как графические процессоры (GPU), которые позволили глубокому обучению начать процветать в настоящее время [3].

Первый значимый успех глубокого обучения произошел в 2012 году и основывался на свёр-точной нейронной сети для решения задачи классификаций. Она итеративно применяла сотни тысяч пар меток данных, чтобы изучить параметры с расчетом потерь и обратным распространением. Хоть данная техника постоянно совершенствовалась после ее значительного успеха, и в настоящее время является одной из самых популярных структур глубокого обучения, она не совсем подходит для управления рассматриваемыми нами роботизированными манипуляциями, так как требуется слишком много времени для получения большого количества изображений углов суставов манипулятора с определенными помеченными данными, необходимыми для обучения модели. Тем не менее существует ряд исследований, которые используют свёрточную нейронную сеть для изучения крутящего момента двигателя, необходимого для управления роботом с помощью необработанных RGB-видеоизображений. Однако, куда более перспективной идеей является использование DRL, о чем мы поговорим далее.

Сравнение традиционного машинного обучения и глубокого обучения

Параметры Традиционное машинное обучение Глубокое обучение

Требования к набору данных Хорошо работает с небольшим набором данных Требуется большой набор данных

Традиционное машинное обучение Глубокое обучение

Точность Наблюдается эффект плато Имеет отличный потенциал для демонстрации наилучшей производительности

Извлечение характеристик Отбираются вручную Изучаются автоматически

Структура алгоритма Простая модель Многослойная модель

Время обучения модели Возможно быстро обучить модель Имеет вычислительную интенсивность

Требования к оборудованию Может работать не с самым передовым и мощным оборудованием Требует высокопроизводительных компьютеров

Вхеоиоп МОП Скригып слои 1 ■ ■ ■ £'фи[уп N Бьполкет с лой

Рис. 1. Простая архитектура модели глубокого обучения

Обучение с подкреплением. Обучение с подкреплением [4] - это подраздел машинного обучения, связанный с тем, как найти оптимальную стратегию поведения для максимизации результата динамичным и автономным методом проб и ошибок, при этом данный подход схож с методами мозга человека или животного, поскольку общее определение интеллекта - это способность воспринимать информацию или делать из нее определенные выводы, а затем сохранять полученный результат как знание, которое можно будет применить к адаптивному поведению в окружающей среде. Эта методология самообучения активно изучается во многих областях, таких как теория игр, теория управления, теория информации, системы оптимизации, системы рекомендаций и статистика [5].

На рис. 2 показана универсальная модель обучения с подкреплением, которая является биологически правдоподобной, поскольку ее регулировка осуществляется за счет применения к агенту наказания или вознаграждения. При этом выбор между ними определяется его состоянием, которое изменяется в зависимости от условий окружающей его среды, которые либо благоприятны (подкрепляют) для определенного поведения/действия, либо неблагоприятны (подавляют). Обучение с естественным подкреплением обусловлено эволюционным давлением оптимальной поведенческой адаптации к неблагоприятным условиям окружающей среды.

Вожагражденне/нака ганне

I I

Агент

Окружающая среда

Человек

или робот

1_I

Поведение

Рис. 2. Универсальная модель обучения с подкреплением

Когда агент принимает определенное состояние, он выбирает свое следующее действие в соответствии со своей текущей политикой поведения, а затем получает от среды вознаграждение за выполнение этого действия. Получив эту награду, он запоминает совершенное действие, как правильное для текущего состояния, т.е. обучается верной политике поведения, после чего переходит в новое состояние, выбирает новое действие, после чего этот процесс повторяется. Для более простого понимания этого процесса можно сравнить обучение с подкреплением со структурой того, как мы играем в видеоигру, в которой персонаж (непосредственно агент) участвует в серии испытаний или действий, чтобы получить за их прохождение наивысший балл, который в данном случае выступает вознаграждением.

Выводы

Обучение с подкреплением отличается от машинного способа обучения с учителем, в котором машине сразу доступен обучающий набор помеченных примеров, содержащих пары с известным входом и известным выходом. В интерактивных проблематиках, таких как сфера управления роботом с использованием обучения с подкреплением, часто бывает нецелесообразно получать примеры желаемого поведения, которые будут одновременно правильными и репрезентативными для всех ситуаций, в которых агент должен будет действовать. Вместо меток в нашем случае робот будет получать вознаграждения, которые в целом являются более слабыми сигналами. Обучение с подкреплением не относится к тем ви-

дам неконтролируемого обучения, суть которых заключается в поиске структуры, скрытой в наборе немаркированных данных. При применении обучения с подкреплением подразумевается, что агент научится вести себя в той или иной среде, основываясь только на этих редких вознаграждениях, получаемых с задержкой после совершения действия, вместо того чтобы искать в ней скрытую структуру. Таким образом, обучение с подкреплением можно рассматривать, как третью парадигму машинного обучения, наряду со способом обучения с учителем и неконтролируемым обучением, а также, возможно, и с другими парадигмами будущего [6-10].

Список литературы

1. Pitts W., McCulloch W.S. How we know universals the perception of auditory and visual forms. Bull. Math. Biophys. 1947, 9. P. 127-147.

2. Popov A.V. Analysis of perspective models of artificial neural networks for control of robotic objects / A.V. Popov, K.S. Sayarkin, A.A. Zhilenkov // Proceedings of the 2018 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering, ElConRus 2018, St. Petersburg and Moscow, 29 января - 01 2018 года. St. Petersburg and Moscow: Institute of Electrical and Electronics Engineers Inc., 2018. P. 958-961. DOI 10.1109/EIConRus.2018.8317248. - EDN MAULBZ.

3. Liu, R. Multispectral Images-Based Background Subtraction Using Codebook and Deep Learning Approaches. Ph.D. Thesis, Université Bourgogne Franche-Comté, Belfort, France, 2020.

4. Ivanov A.V. Acquisition and processing data system based on technologies of inertial capture of the movement / A.V. Ivanov, A.A. Zhilenkov // Proceedings of the 2018 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering, ElConRus 2018, St. Petersburg and Moscow, 29 января - 01 2018 года. St. Petersburg and Moscow: Institute of Electrical and Electronics Engineers Inc., 2018. P. 882-885. DOI 10.1109/EIConRus.2018.8317229.

5. Sutton R.S., Barto A.G. Reinforcement Learning: An Introduction; MIT Press: Cambridge, MA, USA, 2018.

6. Zhilenkov A.A. Based on MEMS sensors man-machine interface for mechatronic objects control / A. A. Zhilenkov, D. Denk // Proceedings of the 2017 IEEE Russia Section Young Researchers in Electrical and Electronic Engineering Conference, ElConRus 2017, St. Petersburg, 01-03 февраля 2017 года. St. Petersburg, 2017. P. 1100-1103. DOI 10.1109/EIConRus.2017.7910747. EDN XNFDNP.

7. Chernyi S.G. Automated system for ship draught measurement with component of intelligent systems / S.G. Chernyi, A.N. Ivanovskii // Journal of Information Technologies and Computing Systems. 2022. № 2. С. 59-69.

8. Yemelyanov V.A. The mathematical models of the operation process for critical production facilities using advanced technologies / V.A. Yemelyanov, A.A. Zhilenkov, S.G. Chernyi, A. Zinchenko, E. Zinchen-ko // Inventions. 2022. Т. 7. № 1.

9. Авдеев Б.А. Исследование работы системы управления гребного электропривода автономных подводных аппаратов / Б.А. Авдеев, А.В. Вынгра, С.Г. Черный // Информационные технологии и вычислительные системы. 2022. № 3. С. 108-121.

10. Черный С.Г., Жуков В.А., Соболев А.С., Зинченко А.А., Зинченко Е.Г. Обзор эффективных методов идентификации параметров электрической сети судов для повышения эксплуатационных качеств // Морская радиоэлектроника. 2022. № 1 (79). С. 42-47.

Жиленков Антон Александрович, канд. техн. наук, доцент, заведующий кафедрой, [email protected], Россия, Санкт-Петербург, Санкт-Петербургский государственный морской технический университет,

Силкин Артем Анатольевич, канд. техн. наук, главный конструктор, [email protected], Россия, Санкт-Петербург, АО «НЦПЭ»,

Серебряков Михаил Юрьевич, преподаватель, Россия, Санкт-Петербург, Санкт-Петербургский государственный морской технический университет,

Колесова София Васильевна, магистрант, Россия, Санкт-Петербург, Санкт-Петербургский государственный морской технический университет

COMPARATIVE ANALYSIS OF DEEP REINFORCEMENT LEARNING SYSTEMS AND SUPERVISED

LEARNING SYSTEMS

A.A. Zhilenkov, A.A. Silkin, M.Y. Serebryakov, S.V. Kolesova

This article will talk about the origin of deep learning, demonstrate the differences between deep learning and traditional machine learning, and explain the concept of deep reinforcement learning.

Key words: deep learning, reinforcement learning, deep reinforcement learning, machine learning.

111

Zhilenkov Anton Aleksandrovich, candidate of technical sciences, docent, head of the department, [email protected], Russia, St. Petersburg, Saint Petersburg State Maritime Technical University,

Silkin Artem Anatolyevich, candidate of technical sciences, chief designer, [email protected], Russia, St. Petersburg, JSC «NC PE»,

Serebryakov Mikhail Yurievich, lecturer, Russia, St. Petersburg, Saint Petersburg State Maritime Technical University

Kolesova Sofya Vasilyevna, master, Russia, St. Petersburg, Saint Petersburg State Maritime Technical University

УДК 681.5;629.331:574

DOI: 10.24412/2071-6168-2022-10-112-114

АНАЛИЗ НЕГАТИВНОГО ВЛИЯНИЯ ЭЛЕКТРОМОБИЛЕЙ НА ОКРУЖАЮЩУЮ СРЕДУ

П.А. Шишкина

Вопрос об экологичности электромобилей и других транспортных средств, работающих на электричестве, стоит весьма остро из-за большого количества невыясненных моментом и подводных камней, включая вопрос о росте потребляемой электрической энергии, а также проблеме производства и утилизации аккумуляторных батарей. Поэтому в данной работе будет проведен анализ проблемы экологичности электромобилей и их конструкций на предмет уменьшения выбросов и отходов. Выяснены положительное и отрицательное влияние электромобилей на экологию и окружающую среду. Приводится исторический экскурс в области создании и разработки электрических автомобилей. Выявлены конструктивные особенности автомобилей с электрическим двигателем, которые наиболее влияют на экологию и окружающую среду, как в положительном, так и в отрицательном качестве. Проводится аналитическое сравнение влияния на окружающую среду и экологию автомобилей с электрическим двигателем и двигателем внутреннего сгорания. Ставятся и формулируются основные проблемы, которые на данный момент не решен и требуют пристального внимания и комплексных исследований.

Ключевые слова: электрические автомобили, экология, конструкция, влияние, автомобили,

анализ.

Современный мир стремится к более экологичной жизни, снижению объема выбросов, увеличению переработки отходов, уменьшению влияния человека на окружающую среду. Одним из методов такой тенденции является постепенная замена автомобилей и другого движущегося транспорта с двигателями внутреннего сгорания на электромобили [1-3]. При этом вопрос об экологичности этого вида транспорта стоит весьма остро из-за большого количества невыясненных моментом и подводных камней, поэтому в данной работе будет проведен анализ проблемы экологичности электромобилей.

Электромобили не являются новыми изобретениями, эта идея исследовалась в течение 2 столетий [4-5]. Все началось в 1828 году, Аниос Едлик, венгерский инженер и физик, изобрел первый электродвигатель, который он использовал для создания первого автомобиля с электроприводом. Всего через 6 лет, в 1834 году, Томас Дэвенпорт из Вермонта, разработал подобную идею, но на этот раз транспортное средство двигалось по короткому круговому электрифицированному пути. Еще в 1834 году в Голландии, Сибрандус Стратинг, школьный учитель в Гронингене, и его помощник Кристофер Беккер построили небольшой электромобиль, работающий от не перезаряжаемых первичных элементов (одноразовой батареи). В 1899 году La Quero Contente, электромобиль, стал первым автомобилем, который преодолел отметку в 100 км/ч в парке Агриколь д'Ашер в Париже. Со строительством более прочных дорог и открытием больших запасов нефти в 20 веке, что привело к широкой доступности доступного бензина, автомобили с бензиновым двигателем стали дешевле для поездок на большие расстояния. Таким образом, электромобили стали терять свои позиции на автомобильном рынке и стали ограничиваться городским использованием из-за низкой скорости и уменьшенного запаса хода. С бензиновыми автомобилями можно было путешествовать дальше и быстрее. 28% автомобилей, произведенных в США в 1900 г., были электрическими, но с началом массового производства автомобилей с двигателем внутреннего сгорания Генри Форда и снижением себестоимости их производства начался резкий спад производства транспортных средств с электроприводом. Прошли годы без серьезных разработок в области электромобилей, пока в 1959 году American Motors Corporation (AMC) и Sonotone Corporation не объявили о совместном расследовании, в пользу производства электромобиля с питанием от самозаряжающейся батареи. 31 июля 1971 года электромобиль был признан первым транспортным средством, исследовавшим Луну. Лунный вездеход был отправлен во время миссии «Аполлон-15». Из-за снижения цен на бензин и увеличения количества покупок спортивных автомобилей (поскольку они более доступны для вождения, несмотря

COMPARATIVE ANALYSIS OF DEEP REINFORCEMENT LEARNING SYSTEMS AND SUPERVISED LEARNING SYSTEMS

Текст научной работы на тему «СРАВНИТЕЛЬНЫЙ АНАЛИЗ СИСТЕМ ГЛУБОКОГО ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ И СИСТЕМ ОБУЧЕНИЯ С УЧИТЕЛЕМ»