Модель детерминированной сети роботов

Картавцев Константин Викторович; Мелехова Ольга Николаевна; Тимченко Сергей Викторович

УДК 681.51

К.В. Картавцев, О.Н. Мелехова, С.В. Тимченко

Модель детерминированной сети роботов

Излагаются варианты разработки и реализации алгоритмов управления автономными роботами, рассматриваются задачи взаимодействия и коллективного поведения группы автономных роботов, направленного на решение общей задачи, области применения мультиагентных систем.

Ключевые слова: автономный робот, групповое управление, маршрут, образ, датчик, агент, нейронная сеть, обучение, мобильная система.

В последние годы в области мехатроники, робототехники и искусственного интеллекта активно разрабатываются мультиагентные технологии и мультиагентные робототехни-ческие системы. При этом роботы рассматриваются как интеллектуальные агенты, имеющие собственные базы данных и знаний и каналы связи для обмена информацией между собой в процессе решения общей задачи. Описываются модели виртуального пространства агентов-роботов и принципы построения одно- и мультиагентных моделей виртуальной реальности.

Мультиагентное управление позволяет руководить деятельностью автономных роботов, планировать их поведение и взаимодействие, адаптироваться к изменениям, произошедшим в среде, изучать и разрешать конфликты между роботами на стратегическом уровне управления, т.е. с помощью обмена информацией [10].

Возможные области исследования и применения:

1. Работа в опасной среде. Например, устранение последствий аварий, транспортировка взрывчатых веществ, обезвреживание бомб, минных полей на земле и на море. Большинство существующих роботов для таких задач действуют в режиме дистанционного управления. Следующим важным шагом является предоставление таким роботам автономии.

2. Сборочная линия крупных заводов. Роботы уже давно выполняют такие задачи, как сборка, установка деталей, доставка материалов, сварка и окраска. При решении многих из этих задач роботы оказались более экономически эффективными по сравнению с работниками-людьми.

3. Разведка. Автономные роботы могут проводить исслодования планет, подводные исследования, могут создавать карты расположения различных объектов, трехмерные модели карт. Роботы становятся очень эффективными средствами сбора информации в тех областях, доступ к которым является сложным (или опасным) для людей.

4. Медицина. Благодаря высокой точности роботы стали незаменимым инструментальным средством при выполнении некоторых видов операций. За последний десяток лет произошел значительный прогресс в миниатюризации медицинской техники: наряду с углублением теоретических исследований появилось достаточное количество практических разработок нанороботов, способных функционировать в качестве автономных и управляемых на расстоянии сенсоров, источников энергии, сборщиков и передатчиков собранной информации об организме человека.

5. Развлечения. Одной из интересных задач искусственного интеллекта, которые изучаются в этой области, является робототехнический футбол - соревновательная игра, весьма напоминающая тот футбол, в который играют люди, но проводимая с участием автономных мобильных роботов.

Изучение группового управления агентами предпочтительно начинать с централизованного как наиболее простого алгоритмически. Последующая область исследований - это развитие децентрализации и присвоение части функций и задач центра на местный уровень.

Задачи, которые необходимо решить в этой области:

1. Разработка алгоритмов децентрализованного управления, а именно:

- координация движения роботов в пространстве;

- распределение общей цели между роботами;

- создание алгоритма оптимизации состава роботов на нижнем уровне иерархии (определение оптимального числа роботов, выбор алгоритма распределения общих целей, определение функционального состава).

2. Разработка правил объединения всей иерархической системы управления группой роботов, вплоть до верхнего уровня планирования.

3. Создание методики выбора критериев оптимизации алгоритмов управления муль-тиагентной системой. Например, время достижения цели, расходование ресурсов, цена и т.д [1,2].

4. Разработка алгоритмов обработки информации поступающей от роботов.

5. Разработка методики обработки отказов.

6. Следующая по сложности задача группового управления роботами - это определение области самостоятельных действий роботов. Создание алгоритмов самостоятельного выполнения роботами промежуточных задач. Возможным классом подзадач здесь являются:

- разработка алгоритма движения роботов к промежуточным целям;

- самостоятельный сбор информации об исследуемой области;

- обмен информацией между агентами.

Для самостоятельного решения роботами промежуточных задач необходима некая система управления, которая бы руководила действиями робота в зависимости от состояния окружающей среды [9]. Такую систему управления можно реализовать с помощью различных методов и математических моделей.

1. Самый простой вариант реализации такого алгоритма - конечный автомат (это модуль, имеющий конечное число возможных состояний и функционирующий в дискретном времени).

В каждый такт дискретного времени на вход автомата, управляющего автономным роботом, поступают данные об окружающей среде; под ее воздействием автомат меняет свое состояние; состояние, в которое автомат перейдет, определяется предыдущим его состоянием и текущими данными об окружающей среде, полученными роботом.

Достоинством данного метода являются простота реализации и отсутствие неоднозначных ситуаций в управлении. Недостатком является невозможность адаптации к окружающей среде.

2. Более сложный вариант реализации алгоритма управления роботом - использование математического аппарата нейросетевых алгоритмов. Нейронная сеть - это программная модель взаимодействия нейронов головного мозга человека [4]. Основные задачи, которые решаются с помощью нейронных сетей, - это задачи распознавания (образов, текстов и т.п.). Важнейшая особенность нейронных сетей - наличие памяти и способность к обучению. Для обучения нейронных сетей используют некоторую обучающую базу входных данных и правильных откликов на эти данные.

В результате такого обучения система управления на основе нейронной сети позволит агенту самостоятельно принимать правильные решения, даже если при обучении была рассмотрена лишь малая часть возможных состояний окружающей среды. Множество систем распознавания образов основано на использовании многослойного персептрона. Персептрон обучают, подавая множество образов по одному на его вход и подстраивая веса до тех пор, пока для всех образов не будет достигнут требуемый выход [7,8].

Для обучения реального робота нужно выявить основные причины, побуждающие робота к действиям. Причинами служат показания датчиков робота, которые сигнализируют о внутреннем состоянии робота и о состоянии окружающей среды. На рис. 1 показано взаимодействие робота с окружающей средой посредством датчиков расстояния и преобразования данных в бинарный массив для дальнейшей обработки.

Возможные внутренние индикаторы: объем зарядки батареи, уровень сигнала связи с центром управления, объем задействованной памяти, данные таймера и т.д.

Цель

Бинарный массив 0000000000000000000111000

Рис. 1. Формирование образа текущей ситуации

Список возможных внешних событий и объектов, влияющих на поведение агента: динамические препятствия (люди, другие роботы и т.д.), статические препятствия (стены, рельеф и т.д.), препятствия, которые нельзя предвидеть (источники света, звука и т.д.).

Процесс обучения позволит определить список интересов робота, и список ситуаций, которых он будет избегать. Причем обучение будет происходить автоматически, согласно принципам работы нейронных сетей [6].

Один из вариантов реализации алгоритма управления роботом, основанного на ней-росетевом математическом аппарате, является использование алгоритмов теории обучения с подкреплением [3]. Обучение с подкреплением представляет класс задач, в которых автономный агент, действуя в определенной среде, должен найти оптимальную стратегию взаимодействия с ней. Одним из популярных методов, используемых для решения таких задач, является Q-Learning. Информация для обучения автономного агента предоставляется в форме «награды» которая имеет определенное количественное значение для каждого перехода агента из одного состояния в другое. Никакой другой дополнительной информации для обучения агенту не предоставляется.

Q(xt,at)^ rt +Y-maxQ(xt+1,a), (1)

aeA

где rt - награда, полученная при переходе системы из состояния xt в состояние xt+i, а Y - дисконт-фактор 0 < у < 1, at - действие, выбранное в момент времени t из множества всех возможных действий A. Таким образом, Q представляет дисконтированную сумму награды, которую получит система с момента времени t. Данная сумма зависит от последовательности выбираемых действий, определяемой политикой управления. Системе требуется найти политику управления, которая максимизирует Q для каждого состояния.

Важным свойством использования нейросетевого аппарата для реализации управления агентом и, в частности, использование алгоритма Q-Learning является возможность его применения даже в тех случаях, когда агент не имеет предварительных знаний о среде. Также достоинство данного метода - автоматическое обучение агента. Недостатком могут служить появление ошибок, зацикливаний при обучении, сложность реализации.

Литература

1. Тимофеев А.В. Мультиагентные системы планирования поведения транспортных роботов в среде с препятствиями // Экстремальная робототехника: матер. 10-й науч.-техн. конф. - СПб., 1999. - С. 20-26.

2. Станкевич Л.А. Мультиагентная технология в когнитивных системах управления автономными роботами // Экстремальная робототехника: матер. 10-й науч.-техн. конф. -СПб., 1999. - С. 13-20.

3. Жданов А.А. Об одной методологии автономного адаптивного управления / А.А. Жданов, С.В Арсеньев, В.А. Половников // Труды Ин-та системного программирования РАН. - 1999. - М.: Биоинформсервис, 2000. - Т. 1. - С. 66-83.

4. Уоссерман Ф. Нейрокомпьютерная техника: теория и практика. - М.: Мир, 1992. - 240 с.

5. Бакиров А.К. Проблемы управления распределенными мобильными системами /

A.К. Бакиров, А.А. Кирильченко // Препринт ИПМ. - № 64. - М., 2000. - 26 с.

6. Кирильченко А.А. Обоснование алгоритмов выбора пути в условиях неопределенности / Препринт Ин-та прикл. матем. им. М.В. Келдыша АН СССР. - М., 1991. - 25 с.

7. Каллан Роберт. Основные концепции нейронных сетей: пер. с англ. - М.: Изд. дом «Вильямс», 2001. - 287 с.

8. Круглов В.В. Искусственные нейронные сети. Теория и практика / В.В. Круглов,

B.В. Борисов. - М.: Горячая линия-Телеком, 2001. - 382 с.

9. Каляев И.А. Распределенные системы планирования действий коллективов роботов / И.А. Каляев, А.Р. Гайдук, С.Г. Капустян. - М.: Янус-К, 2002. - 292 с.

10. Мещеряков Р.В. Модель сети роботов с граничными состояниями / Р.В. Мещеряков, О.Н. Мелехова // Кибернетика и высокие технологии XXI века: матер. X Меж-дунар. науч.-техн. конф. (C&T-2009). Воронеж, 13-15 мая 2009 г. - Воронеж: ВГТУ, 2009. - С. 73-80.

Картавцев Константин Викторович

Аспирант каф. комплексной информационной безопасности электронно-вычислительных систем ТУСУРа

Тел.: 8-923-431-30-83

Эл. адрес: konstanteen@sibmail.com

Мелехова Ольга Николаевна

К.т.н., инженер научно-исследовательской лаборатории по информатике LIP6,

University Pierre and Marie Curie, Paris6, France

Тел.: +33-1-44-27-88-61

Эл. адрес: olga.melekhova@lip6.fr

Тимченко Сергей Викторович

Доктор физ.-мат. наук, профессор, зав. каф. прикладной математики и информатики ТУСУРа

K.V. Kartavcev, O.N. Melechova, S.V. Timshenko Model robot's deterministic network

Sets out options for the development and implementation of control algorithms for autonomous robots, we consider the problems of interaction and collective behavior of autonomous robots, aimed at addressing the overall problem, the application of multi-agent systems.

Keywords: The autonomous robot, group management, route, image, sensor, agent, training, neuron network, mobile sistem.

Модель детерминированной сети роботов Текст научной статьи по специальности «Компьютерные и информационные науки»

Текст научной работы на тему «Модель детерминированной сети роботов»