УДК 004.8
Кузнецов А.А.
аспирант
Поволжский государственный университет телекоммуникаций и информатики (Россия, г. Самара)
ОБЗОР ВОЗМОЖНОСТИ ОБУЧЕНИЕ РОБОТОВ
ПРИ ПОМОЩИ АЛГОРИТМОВ ГЛУБОКОГО ОБУЧЕНИЯ
Аннотация: глубокое обучение с подкреплением стало многообещающим подходом для автономного приобретения сложных моделей поведения на основе наблюдений с датчиков низкого уровня. Хотя большая часть исследований была сосредоточена на приложениях в видеоиграх и моделируемом управлении, что не связано с ограничениями обучения в реальных условиях, глубокое обучение также продемонстрировала многообещающие возможности, позволяющие физическим роботам осваивать сложные навыки в реальном мире. В то же время робототехника реального мира предоставляет привлекательную область для оценки таких алгоритмов, поскольку она напрямую связана с тем, как люди учатся в реальном мире. Обучение восприятию и передвижению в реальном мире сопряжено с многочисленными проблемами, некоторые из которых легче решить, чем другие, а некоторые из них часто не рассматриваются в исследованиях, а только фокусируются только на моделируемых областях.
Ключевые слова: роботы, глубокое обучение, алгоритмы обучения.
Роботизированное обучение находится на пересечении машинного обучения и робототехники. С точки зрения исследователя машинного обучения, заинтересованного в изучении интеллекта, робототехника является привлекательной средой для изучения, поскольку она позволяет взглянуть на ограничения, с которыми сталкиваются люди и животные при обучении, раскрывая аспекты интеллекта, которые в противном случае могли бы быть
незаметны для изучения, когда мы ограничиваемся моделируемой средой. Например, роботы получают потоки необработанных сенсорных наблюдений в результате своих действий и практически не могут получить большие объемы детального наблюдения, кроме наблюдения за показаниями этих датчиков. Это создает сложную, но очень реалистичную задачу обучения [1, а 20]. Кроме того, в отличие от агентов в видеоиграх, роботы не сразу получают оценку или функцию вознаграждения, которая формируется в соответствии с их потребностями, и вместо этого им необходимо разработать собственное внутреннее представление прогресса в достижении целей. С точки зрения исследований в области робототехники, использование методов, основанных на обучении, является привлекательным, поскольку оно может позволить роботам перемещаться в менее структурированную среду, обрабатывать неизвестные объекты и изучать представление состояния, подходящее для множества задач.
Несмотря на то, что это интересная среда, для исследователя машинного обучения существует значительный барьер для перехода в робототехнику и наоборот. Помимо стоимости робота, существует множество вариантов дизайна при выборе способа настройки алгоритма и робота [2, а 10]. Например, алгоритмы обучения с подкреплением требуют изучения опыта, который робот самостоятельно собирает, открывая множество вариантов в том, как инициализируется обучение, как предотвратить небезопасное поведение и как определить цель или вознаграждение. Аналогичным образом, алгоритмы машинного обучения и также предоставляют ряд важных вариантов проектирования и гиперпараметров, выбор которых может быть сложным. Мотивированная этими проблемами для исследователей в соответствующих областях, наша цель в этой статье - предоставить высокоуровневый обзор того, как можно подходить к глубокому изучению в контексте робототехники, обобщить способы решения ключевых проблем в глубоком обучении в некоторых наших собственных предыдущих работах, а также предоставить взгляд на основные проблемы, которые еще предстоит решить, многие из
которых еще не являются предметом активных исследований в сообществе глубокого обучения исследователей [3, с. 88]. Были опубликованы высококачественные обзорные статьи о применении машинного обучения к робототехнике. Одни исследователи сосредоточились на методах поиска политики для робототехники в то время как Кобер и др. сосредоточились на глубоком обучении [4, с. 115]. Совсем недавно учёные в этой области рассмотрели алгоритмы обучения для задач манипулирования. Они определены текущие области исследований в области глубокого обучения, которые имеют отношение к робототехнике, и описаны некоторые проблемы в применении методов глубокого обучения к робототехнике. Дадим краткое, неформальное введение в глубокое обучение, противопоставляя его классическим методам программирования поведения роботов. Задача робототехники формализуется путем определения состояния и пространства действий, а также динамики, которые описывают, как действия влияют на состояние системы. Пространство состояний включает в себя внутренние состояния робота, а также состояние мира, которым предполагается управлять. Довольно часто состояние не поддается непосредственному наблюдению - вместо этого робот оснащен датчиками, которые обеспечивают наблюдения, которые можно использовать для определения состояния. Цель может быть определена либо как целевое состояние, которое должно быть достигнуто, либо как функция вознаграждения, которая должна быть максимизирована. Мы хотим найти контроллер (известный как политика на языке обучения), который сопоставляет состояния с действиями таким образом, чтобы максимизировать вознаграждение при выполнении. Если состояния можно наблюдать прямо или косвенно, и известна модель динамики системы, проблема может быть решена с помощью классических методов, таких как планирование или оптимальное управление. Эти методы используют знания динамической модели для поиска последовательностей действий, которые при применении из начального состояния переводят систему в желаемое целевое состояние или максимизируют достигнутое вознаграждение [5, с. 506]. Однако,
если динамическая модель неизвестна, проблема попадает в область глубокого обучения. В парадигме глубокого обучения образцы последовательностей состояний-действий (траекторий) требуются для того, чтобы научиться управлять роботом и максимизировать вознаграждение. В глубоком обучении на основе моделей выборки используются для изучения динамической модели среды, которая, в свою очередь, используется в алгоритме планирования или оптимального управления для выработки политики или последовательности элементов управления. В глубоком обучении без моделей динамика они явно не моделируется, но вместо этого оптимальная политика или функция ценности изучаются непосредственно путем взаимодействия с окружающей средой. Как основанный на моделях, так и безмодельный способ имеют свои сильные и слабые стороны, и выбор алгоритма в значительной степени зависит от требуемых свойств. Используемые сенсорные входные данные варьируются от низкоразмерной информации о проприоцептивном состоянии до высокомерных пикселей камеры, а пространства действий включают как непрерывные, так и дискретные действия. Обобщая существующий опыт из этих тематических исследований, автор стремится получить общее представление о типах роботизированных задач, которые сегодня можно решить с помощью глубокого обучения.
СПИСОК ЛИТЕРАТУРЫ:
LeCun Y., Bengio Y., Hinton G. Deep Learning. Nature. 2015. vol. 521. pp. 436-444. DOI: 10.1038/nature14539.
Ravi D., Wong Ch., Deligianni F., et al. Deep Learning for Health Informatics. IEEE Journal of Biomedical and Health Informatics. 2017. vol. 21, no. 1. pp. 4 -21. DOI: 10.1109/JBHI.2016.2636665.
Schmidhuber J. Deep Learning in Neural Networks: an Overview. Neural Networks. 2015. vol. 1. pp. 85-117, DOI: 10.1016/j.neunet.2014.09.003.
McCulloch W.S., Pitts W. A Logical Calculus of the Ideas Immanent in Nervous Activity. The Bulletin of Mathematical Biophysics. 1943. vol. 5, no. 4. pp. 115-133. DOI: 10.1007/BF02478259.
Hinton G., Salakhutdinov R. Reducing the Dimensionality of Data with Neural Networks. Science. 2006. vol. 313, no. 5786. pp. 504-507. DOI: 10.1126/science. 1127647.
Kuznetsov A.A.
graduate student
Volga Region State University of Telecommunications and Informatics
(Russia, Samara)
OVERVIEW OF THE POSSIBILITY OF TRAINING ROBOTS USING DEEP LEARNING ALGORITHMS
Abstract: deep reinforcement learning has become a promising approach for the autonomous acquisition of complex behaviors based on observations from low-level sensors. Although most of the research has focused on video game applications and simulated control, which is not related to the limitations of real-world learning, deep learning has also demonstrated promising opportunities for physical robots to master complex skills in the real world. At the same time, real-world robotics provides an attractive field for evaluating such algorithms, since it is directly related to how people learn in the real world. Learning to perceive and move in the real world involves numerous problems, some of which are easier to solve than others, and some of them are often not addressed in research, but only focus on simulated areas only.
Keywords: robots, deep learning, learning algorithms.