М.А. Ровбо, П.С. Сорокоумов
Национальный исследовательский центр «Курчатовский институт»,
Москва, Россия
УДК 004.8
DOI: http://dx.doi.org/10.21686/1818-4243-2018-5-84-93
Архитектура системы управления интеллектуальным агентом на основе семиотической сети
Целью данной работы является создание метода целенаправленного влияния на интеллектуального агента, способного изменить поведение группы, составленной из таких агентов. Актуальность темы исследования определяется тем, что воздействие на коллектив — сложная задача, имеющая большое практическое значение. Известно, что правильное управление группой работников, школьников или студентов оказывает благотворное влияние на участников, повышает достигаемые ими практические результаты и сплачивает их, поэтому разработанные методы могут быть использованы для повышения эффективности менеджмента и образования. С технической точки зрения, актуальностьюра-боты является развитие подхода к управлению группами роботов или программных агентов с элементами социальных структур. Способы целенаправленного управления коллективами, состоящими из людей, давно развиваются в рамках педагогики, социологии, психологии и других гуманитарных наук. Достигнутые при этом результаты весьма значительны, однако многие разработанные концепции имеют значительные недостатки. Часть созданных подходов плохо формализуется, и их применение является скорее искусством, чем наукой. В других случаях использование известных методов может быть неудачным из-за нестрогой постановки задачи и множества плохо поддающихся учёту побочных факторов и условий.
Чтобы улучшить ситуацию, разумно описать задачу влияния на коллектив более строго — например, с использованием методологий, активно развивающихся в рамках исследований по искусственному интеллекту. Способы влияния на коллектив, изученные на простейших модельных объектах, в дальнейшем можно применить к конкретным практическим задачам, например, в области образования или менеджмента, с сохранением строгости и высокой надёжности.
В данном исследовании предлагается формализовать влияние на поведение коллектива как задачу оптимизации управления сложной системой. Для этого поведение отдельного члена коллектива (агента) моделируется с использованием целевой функции, участвующей в выборе одного из возможных действий в соответствии с параметрами — относительными приоритетами допустимых действий, и методов оптимизации. Считается, что эти параметры поддаются внешнему контролю. Знания каждого агента об окружающем мире описываются в виде семиотической сети, пригодной для анализа текущего состояния агента и планирования его деятельности. Поведение управляемого разработанной системой одиночного агента исследуется на примере расширенной задачи фуражировки с проведением вычислительных экспериментов на компьютерной модели. Оптимизация приоритетов выполнения различных целей определяет успешность работы агента.
Помимо приоритетов, свобода действий агента ограничивается необходимостью выживания. В этих условиях агент должен адаптироваться к внешней среде и внешним требованиями, при этом он будет способен как поддерживать своё функционирование, так и добиваться целей в соответствии с приоритетами.
Моделирование работы двух типов агентов показало применимость подхода с сохранением адаптивных свойств агента. При этом целевое поведение меняется в широких пределах. Результаты, полученные для одиночного агента, в дальнейшем планируется дополнительно проверить для групп социально взаимодействующих агентов.
Ключевые слова: семиотическая сеть; прикладная семиотика; управление; робот; фуражировка
Maksim A. Rovbo, Petr S. Sorokoumov
National Research Center "Kurchatov Institute", Moscow, Russia
Control system architecture of an intelligent agent based on a semiotic network
The aim of this research is to develop a novel method of affecting actions of an intelligent agent that allows changing the group behavior of such agents. The topic is relevant because group control is a complex and important task with considerable practical value. Proper management of a group of workers, schoolchildren or students has a beneficial effectfor the participants, increases practical results achieved by them and uniting them. Therefore, the developed method can improve the efficiency of education. From the technical point of view, the relevance of the work is in the contribution to the development of an approach to controlling groups of robots or software agents with elements of social structures. Many management methods for groups ofpeople have been developed in pedagogy, management, psychology, and other humanities. The achieved results are significant; however, many developed methods have important drawbacks. Some of the created approaches are non-formalizable, and
their use is more an art than a science. In other cases, known methods may be unsuccessful because of a non-strict formulation of the problem and the multitude of adverse factors and applicability conditions. It is reasonable to develop a more robust method to influence team behavior. Some methods in artificial intelligence describe how to build a control system for distributed groups of agents: teams, packs or swarms. If these methods can be reformulated to be useful for specific practical tasks, as education or management, then rigor and reliable control of social groups will be possible. It is possible to formalize control of a team's behavior as an optimization task. The behavior of an individual team member (agent) is modeled using an objective function, which is considered in the selection of one of the possible actions. Relative priorities of allowed actions are factors of this choice as parameters of the optimization
* Работа выполнялась при частичной поддержке гранта РФФИ 17-29-07083 офи_м и при поддержке НИЦ «Курчатовский институт» (приказ от 05.07.2018 №1601).
process. An external controller can set these parameters. The world model of the agent is described as a semiotic network that is used to analyze the current state of the agent and plan its activities. The behavior of a single agent with the proposed method is investigated in a foraging task setting using a computer simulation. Different goals' priorities optimization determines the performance of the agent. Agent's freedom of action is limited by the priorities and the need for survival. The agent adapts to the conditions prevailing in the envi-
ronment with these limiting factors. At the same time it is capable of both maintaining its functioning and achieving goals in accordance with its priorities. Simulation of two different types of agents showed the applicability of the approach and its preservation of the adaptive properties of the agent. The results acquired for a sole agent will be investigated for groups of socially interacting agents in future works.
Keywords: semiotic network, applied semiotics, control, robot, foraging
Введение
В групповой робототехнике имеется ряд задач, в которых роботы должны совместно работать на определённой территории в течение продолжительного времени: наблюдение за местностью, патрулирование, фуражировка (сбор чего-либо и перемещение собранного в определенную точку и т.п.). В случае, приближенном к реальности, такой группе мобильных роботов необходимо не только решать поставленную задачу в узком смысле, но и обеспечивать надежное функционирование всей группы. Для этого надо учитывать побочные факторы: безопасность членов группы, своевременную подзарядку, корректное окончание работы и т.п. Цель данного исследования состоит в том, чтобы найти наиболее перспективные методы непрямого влияния на социальных агентов, не нарушающего гоме-остазис социума.
Если выбрать архитектуру агентов и принципы их взаимодействия так, чтобы группа была устойчива, то есть обладала свойством гомеостазиса на данной ограниченной территории, то побочные требования будут учитываться и по возможности удовлетворяться. Этого можно достичь методами группового управления, в которых участники совместно вырабатывают планы действий: теория общих намерений [1], общих планов [2].
С математической точки зрения решение некоторого класса задач как проблемы группового управления описано в [3].
Другим подходом является построение модели инди-
видуального агента. Одной из таких моделей является Belief-Desire-Intention (BDI, убеждения-желания-намерения) [4]. При этом проблемой в некоторых методах является коммуникация между агентами с различными моделями мира, решение которой предлагается с помощью построения общего понятийного каркаса [5]. Такая ситуация может возникать в системах, не имеющих надежного постоянного канала связи, когда агенты функционируют независимо друг от друга.
При решении задачи в такой постановке естественно обратить внимание на биоподобные алгоритмы, в особенности на те, что воспроизводят поведение муравьев, для которых децентрализованное управление обработкой территории и решение ряда различных задач на ней является естественным. Предлагаемый в данной статье метод основан на концепции управления группой искусственных агентов путем введения элементов социальной структуры в виде ограниченного набора механизмов взаимодействия, описанной в работе [6]. Такая система автономна, устойчива и способна решать одновременно несколько задач, в том числе поддержание собственной работоспособности. Однако, чтобы добиться от системы достижения целей, которые выходят за рамки заранее определенных, необходимо управлять поведением агентов, не нарушая функционирование социума.
Определим постановку задачи следующим образом: переформулируем эту проблему
как задачу оптимизации, в которой целевая функция доступна для вычисления агентом локально. В некоторых случаях можно допустить и её вычисление внешним наблюдателем по состоянию среды. Целевая функция формируется заново под каждую задачу, в то время как параметры, доступные для настройки, можно попробовать выбрать фиксированными для коллектива в целом. Для этого предлагается рассмотреть архитектуру одного отдельного агента и определить его характеристики, которые лучше всего подходят для воздействия на поведение многоагентной системы. Поскольку в этом случае агент входит в объект управления, который предоставляет лишь часть своих параметров для управляющего алгоритма, то в дальнейшем будем называть такой способ влияния непрямым.
В данной работе предлагается метод управления на основе семиотической сети и оптимизации приоритетов агента. Согласно обзору, приведенному в работе [7], теория построения систем на основе знаковых моделей пока развита слабо и описывается только в качестве общего подхода, несмотря на ее большие возможности. В качестве ожидаемых преимуществ такого подхода можно выделить следующие:
• естественное решение проблемы связывания объекта и его представления (symbol grounding problem) в виде процедуры перцепции;
• гибкое целеполагание с несколькими, возможно конфликтующими, целями, за счет механизмов интенции;
• естественная основа для коммуникации и кооперации в многоагентных системах, однако требующая специальных методов из-за индивидуально -сти картины мира агентов, например как в работе [5];
• возможность объяснения поведения агента человеку за счет знаков и логического вывода [8], иначе говоря, интерпретируемость.
Данная работа направлена на развитие этого направления.
В качестве тестовой была выбрана задача фуражировки на клеточном поле. Одна из клеток представляет базу, которая обеспечивает агенту подзарядку при наличии в ней пищи. Агент может подбирать и переносить на базу находящиеся на поле объекты: пищу и неактивных, выведенных из строя агентов - но для работы ему требуется восполнять собственный запас энергии. В качестве упрощения, активный агент имеет полную информацию о местности, так как в данной работе целью исследования является механизм непрямого управления, а не проблема неполноты информации. Кроме того, рассматривается только один активный агент, поскольку делается предположение о возможности его стабильного функционирования в такой среде. Исследование свойств коллектива из агентов, функционирующих по предложенному методу, когда каждый из них активен, запланировано в следующих этапах работы.
1. Факторы поведения социума
Рассматриваемый класс многоагентных систем основан на механизмах социального поведения [6]: когезия, подражательное поведение, симпатическая индукция, коммуникативные сигналы и т.д. В дальнейшем будем как синоним биоподобному агенту употреблять термин «анимат»,
когда требуется подчеркнуть схожесть его структуры или поведения с определенными представлениями о функционировании живых организмов, будь то пищевое поведение или же когнитивные структуры. У каждого такого агента есть и элементы управляющей структуры, не относящиеся к социальным проявлениям, например, фиксированные комплексы действий (ФКД), выполняющие отдельные подзадачи, индивидуальное обучение, эмоционально-по-требностное управление [9]. Эти механизмы в сочетании с адаптивностью каждого отдельного агента обеспечивают устойчивость работы социума. При управлении социумом важно не разрушить его, что может произойти при сильном изменении каких-либо параметров или прямом воздействии на механизмы нижнего уровня. Можно выделить следующие категории параметров, доступных для управления:
• параметры механизмов индивидуального поведения агента;
• параметры социальных механизмов агента;
• параметры, внешние по отношению к агенту.
Изменение параметров, внешних по отношению к агенту, назовём инфраструктурным управлением. К таким параметрам относятся, например, наличие рядом других агентов или определённых элементов среды. Так как поведение агента зависит от подобных внешних факторов, то они позволяют эффективно воздействовать на него. Это является важным, с практической точки зрения, способом управления коллективом агентов, однако одновременно и наиболее тяжелым для исследования и реализации.
Социальные механизмы агента — к примеру, подражательное поведение, формирование иерархических структур в группах индивидов — обе-
спечивают необходимые вну-тригрупповые связи. В естественных социальных системах (в сообществах муравьев) они могут использоваться при обороне жилища [10], мобилизации рабочих и организации фуражировки (сбора пищи) [11, 12]. Определение подходящего формального представления этих параметров является нетривиальной задачей в силу сложности взаимодействий: параметрами могут быть, например, количество находящихся рядом агентов или их относительные положения. Однако составить их исчерпывающий набор сложно.
Внутренние параметры гораздо удобнее для управления, однако система должна предоставить их для изменения в том или ином виде внешнему алгоритму, что накладывает дополнительные ограничения на типы систем, которыми можно управлять. Параметры социальных механизмов и параметры, связанные с индивидуальным поведением агента, в основном различаются по функциональному смыслу, однако для внешней управляющей системы они схожи. Если управление с помощью внешних параметров происходит обязательно с помощью системы, расположенной за пределами агента, то внутренние параметры можно оптимизировать в рамках отдельного агента. Примером такого воздействия является паразитическое манипулирование, основанное на потребностно-эмоциональ-ной схеме управления [13]. В этой модели манипулирования паразит влияет на функцию определения цели объекта, меняя её параметры. Ту же концепцию можно использовать и для поставленной задачи, если менять параметры модуля оптимизации целевой функции. В случае, если адаптивность агента реализуется как оптимизация, то вместо непосредственного изменения параметров можно просто под-
менить целевую функцию на желаемую.
Далее будет рассматриваться возможность построения системы управления устойчиво функционирующего агента на основе индивидуальных параметров как наиболее простого в реализации и доступного для изучения способа.
2. Архитектура агента
Для того чтобы можно было перенести свойства биологической системы управления на искусственную, принципы, лежащие в их основе, должны быть близки на определённом уровне абстракции. В качестве теоретического базиса, который позволяет совместить биологическую структуру с искусственной системой управления, естественно взять теорию функциональных систем П.К. Анохина (далее в тексте - ТФС). Её основные идеи тесно перекликаются с кибернетикой и теорией управления и в то же время соответствуют моделям процессов управления в биологических организмах. Согласно ТФС, в этих процессах основную роль играют отдельные регулирующие контуры, отвечающие за ту или иную функцию [14]. Такие контуры выстраиваются в иерархическую систему управления с обратными связями.
Будем считать, что отдельный агент имеет полноценную многоуровневую структуру управления: у него есть собственные сенсоры, эффекторы, система рефлексов и прочие низкоуровневые элементы. Их реализация может быть, в частности, биоподобной, то есть соответствовать нейрофизиологическим представлениям о строении нервных систем. На верхнем когнитивном уровне содержатся алгоритмы планирования, целеполагание и т.п. В качестве универсального метода объединения этих уровней естественно использовать иерархическую структуру
на основе сетей по аналогии с ТФС. Заметим, что семиотическая сеть [15] обладает естественной иерархией: отдельные элементы объединяются в знаки, которые могут далее связываться в более абстрактные высокоуровневые конструкции (например, путем формирования нового знака с описанием из других знаков), поэтому в качестве модели для реализации такой структуры будем использовать семиотическую сеть. Также знаковая структура подходит для описания некоторых социальных механизмов [9], коммуникативных аспектов и подражательного поведения [9,16],что позволяет объединить когнитивный и нейрофизиологический уровень в анимате на основе формальной модели и увязать их с социальными механизмами.
В этой работе предлагается конкретизация и модификация архитектуры семиотической сети, описанной в работе [15], для задачи непрямого управления мобильным роботом, то есть при отсутствии возможности сообщить роботу цель и необходимости рассматривать его как объект управления. Непрямое управление может быть желательно в тех случаях, когда прямое вмешательство в работу агента может нарушить его адаптивные свойства, либо когда группа агентов уже создана и успешно функционирует в среде, но требуется использовать ее для решения каких-то дополнительных задач.
В предлагаемой схеме управления используется понятие иерархической стратегии, иначе говоря, опции, взятой из обучения с подкреплением [17]. Опция — это стратегия управления с определенной вероятностью завершения на каждом шаге, которая оптимизирует свою целевую функцию, как правило, может вызываться вместо элементарного действия другой опцией, и сама может вызывать опции. Та-
кой подход позволяет обучать систему решению подзадач с подкреплением и ускорять обучение за счет использования уже известных агенту стратегий решения других задач. В данном случае опции фиксированы и заданы вручную как способ построения иерархий действий — высокоуровневых конструкций, используемых как элементы плана семиотической системой. В данной модели они реализуют ФКД. Низкоуровневые действия при этом могут быть скрыты от системы и отсутствовать в знаковом описании. Это также позволяет показать пересечение между предлагаемой структурой управления и другими подходами, обозначив способ их комбинации с помощью семиотической модели.
Предлагаемая архитектура (Рис. 1) состоит из:
• модуля непрерывного управления, который обеспечивает связь основных частей и хранит текущий план, выполняемую опцию или конечный автомат;
• библиотеки высокоуровневых действий или поведений, реализованных в виде конечных автоматов и иерархических стратегий. Этот уровень мог бы использоваться отдельными алгоритмами при обучении соответствующими методами;
• знаковой модели мира (семиотической сети), реализованной в виде описания на языке логики первого порядка;
• модуля планирования, работающего со знаковой моделью.
Можно заметить некоторую аналогию с поглощающими (subsumption) архитектурами, основанными на поведенческих модулях разного уровня [18], которые способны обеспечить выполнение нескольких целей и рефлексивные реакции, однако их возможности должны быть целиком заранее спроектированы и заложены на этапе создания, так как по-
Рис. 1. Архитектура системы управления робота с семиотической
моделью
ведение таких систем определяется структурой связей.
В отличие от архитектур, создаваемых для совместного использования роботами онто-логий и предоставления своих возможностей как сервисов, например в архитектуре SO-MRS [19] и проекте RoboBrain [20], мы рассматриваем проблему использования понятий для управления индивидуального робота со своей картиной мира. Также важно отметить, что текущая работа основана на концепциях, описываемых в [21], в которых немалую роль играет процесс формирования знака, что делает системы знаков разных роботов зависящими не только от их возможностей и назначения, но и от опыта.
Как описывалось выше, при непрямом управлении роботом с такой архитектурой возникает проблема выбора параметров, которые можно было бы использовать для изменения поведения анимата. В описанной системе такими параметрами естественно сделать настройки, влияющие на выбор текущей задачи, то есть интенциональную составляющую. Решение задачи может осуществляться одним из механизмов нижнего уровня, например, соответствующим конечным автоматом. Такой подход к управлению оправдан, когда планирование само по себе не может гарантировать достижения цели или слишком затруднено, что является рас-
пространенной ситуацией в реальной среде. Тогда обучением будет являться оптимизация этих параметров для выполнения некоторой заданной извне цели. Если такая оптимизация осуществляется параллельно различными членами коллектива с передачей информации о параметрах и эффективности работы через коллектив, то её можно назвать социальным обучением. В текущей работе для простоты этот механизм не рассматривается, и параметры запоминаются системой симуляции.
3. Структура семиотической сети
Все воспринимаемые агентами сущности в семиотической картине мира агента представляются знаками. Каждый знак состоит из четырёх компонентов:
• имени;
• образа, то есть набора воспринимаемых агентом параметров состояния означаемого объекта. Образ реализуется набором истинных утверждений о восприятии означаемой сущности в виде фактов (замкнутых атомарных формул логики первого порядка);
• функционального значения, то есть набора аксиом об означаемом объекте, суждения по которым можно выносить всегда и без выполнения действий. Каждая аксиома реализуется оператором STRIPS, то есть комбинацией условий
выполнения аксиомы и выводимых из неё следствий (изменений образа при выполнении условий);
• личностного смысла, то есть набора действий, которые могут быть выполнены с означаемой сущностью. Каждое действие реализуется также операторомSTRIPS, поэтому вычисление вносимых действием изменений эквивалентно воображаемому его совершению.
Формально, здесь рассматривается знак, представляющий собой четверку <п, р, т, а>, где п — имя знака, р — множество свойств знака, составляющих его образ (перцепт), т — множество функциональных значений в виде троек <Ст, Ат, Dm>, а—множество действий, относящихся к знаку, в виде троек <Са, Аа, Da>. В этих тройках Са и Ст — условия, при которых оператор можно применить, Аа и Ат — множество добавляемых фактов, Da и Dm — множество удаляемых фактов. Помимо этого, элементам из р соответствуют алгоритмы распознавания перцептивной системы, напрямую определяющие наличие данного свойства у наблюдаемого объекта (или в целом в наблюдаемой ситуации), а элементам из а — действия (простые или сложные; в данном случае в основном используются иерархические стратегии, выполняющие функцию фиксированных комплексов действий, т.е. решающих определенную подзадачу).
Так как разные знаки могут включать в себя сходные логические формы, между знаками имеются логические связи. Благодаря связям логический вывод в системе может выполняться эффективнее, чем в неструктурированном представлении на основе правил.
Картина мира формируется на основе индивидуальных восприятий агента, поэтому у разных агентов они различаются. Один из знаков может
иметь смысл «субьективного Я». Это означает, что агент способен выбрать совершаемое им действие из личностных смыслов этого знака. «Субъективное Я» позволяет различать агенту при рассуждениях знания о себе и других агентах и объектах.
Видно, что данное представление обеспечивает естественный способ распознавания образов путём сопоставления проверяемого образа и образов имеющихся знаков. Однако можно сформировать и новый знак путём обобщения восприятий. Подробное формальное описание этого процесса изложено в [21]. В программном обеспечении агентов, использованных в экспериментальной части настоящей работы, эта возможность не реализуется.
4. Планирование и целеполагание
Знаковое представление позволяет планировать действия агента и рассчитывать реакцию на них других объектов. Класс задач планирования, который удаётся решить этим методом, совпадает с давно известной и широко распространённой системой на основе правил STRIPS. Однако планирование на знаках может работать быстрее, так как благодаря структурности, вносимой межзнаковыми отношениями, в процессе сопоставлении правил не нужно рассматривать все имеющиеся варианты. Достаточно проверить значения и личностные смыслы только в знаках, имеющих высказывания сходных типов в образе. Это преимущество должно стать особенно значимым, если описание будет использоваться для решения сложных задач с большим количеством малосвязных знаков, например, при планировании движений по разреженной карте.
Потребности в знаковом представлении могут быть описаны в виде правил, входящих
в состав значений; приоритеты потребностей при этом задаются в виде условий правил. Таким образом, выделение специфической категории модельных сущностей для приоритетов не требуется. Выбор удовлетворяемой потребности выполняется внешним по отношению к модели алгоритмом, который и позволяет ре-ализовывать разные сценарии работы агента.
Для принятия решения о своём следующем действии агенту необходимо проверить, какие из правил, входящих в состав его списка личностных смыслов, могут быть выполнены. Выражения, входящие в условия выполнимости правил, следует искать либо в образе, либо в списке добавлений какого-либо правила, выражающего значение знака. Когда все выполнимые действия будут найдены, агент выбирает одно из них по своему сценарию, пытается его выполнить и при успехе корректирует свою картину мира в соответствии с использованным правилом.
Изложенная модель не включает рефлексы, потому что они реализуются на более низких уровнях управления, не требующих целеполагания и учёта потребностей.
5. Эксперименты
Для проверки работоспособности изложенной концепции было выполнено моделирование работы отдельного агента, работающего на территории группы. Исследование поведения одного агента, работающего с предложенным способом управления, позволяет проверить применимость метода и определить проблемы и особенности такого управления, возникающие вне зависимости от группового взаимодействия, обладающего своими собственными характеристиками. Изучение группы таких агентов в данной работе не приводилось, и является сле-
Рис. 2. Модельная среда для фуражировки. Светло-серые клетки — препятствия, двойной квадрат — гнездо; светлые кружки — еда, темные — неактивные агенты, нуждающиеся в помощи; ромб — активный агент
дующим этапом исследования метода.
В вычислительном эксперименте использовалась модель фуражировки, среда которой показана на рис. 2.
Агенту был доступен ограниченный участок в виде клеточного поля с препятствиями, пищей и неактивными агентами, которых можно «спасти», принеся в гнездо. При принесении в гнездо пищи или другого агента на карте генерировался случайно расположенный новый элемент того же типа. У активного агента имеется запас энергии, который расходуется на каждом шаге. Для восполнения запаса энергии агенту требуется прийти в гнездо и «съесть» один объект еды, который там лежит, восстанавливающий ему фиксированное количество энергии. Заметим, что объект еды должен уже быть в гнезде, иначе агент не сможет восполнить энергию. При уменьшении запаса энергии до 0 активный агент теряет возможность действовать и ждет конца эпизода.
Решаемая оптимизационная задача ставилась для агента в виде целевой функции
о 0) =
г=0
где Щ — награда за выполнение задачи (равна 1 на текущем шаге t, если агент принес, в зависимости от постановки, единицу еды в гнездо или другого агента, и 0 в остальных случаях); t — номер шага симу-
О 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
Приоритет подзарядки Приоритет подзарядки
Рис. 4. Производительность требующего подзарядки агента, не использующего семиотические сети (в средних баллах за один запуск), в зависимости от параметров, определяющих приоритеты действий, а) при оптимизации количества собранной пищи; б) при оптимизации числа спасённых. Точкой отмечен результат оптимизации
О 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
Приоритет подзарядки Приоритет подзарядки
Рис. 5. Производительность требующего подзарядки семиотического агента (в средних баллах за один запуск) в зависимости от параметров,
определяющих приоритеты действий, а) при оптимизации количества собранной пищи; б) при оптимизации числа спасённых. Точкой отмечен результат оптимизации
ляции, эпизод которой заканчивается на шаге T; в = (p_food, p_rescue, p_recharge) — вектор параметров поведения агента, состоящий из, соответственно, веса выбора ФКД сбора пищи, спасения неактивного агента и зарядки (съедания пищи в гнезде).Эти значения веса служили целеполагающим механизмом, т.е. интенциональной составляющей: агент выбирал, чем ему заняться, пользуясь вероятностями, пропорциональными соответствующим весам. В качестве методов оптимизации использовались стандартные методы без производной (Nelder-Mead [22] и Powell [23]), которые меняли параметры агента между эпизодами.
Знаковая модель для экспериментов задавалась вручную с помощью специально разработанного представления. Знак агента включал в действиях (элемента знака а) доступные ему ФКД (сбора пищи, спасения и пополнения энергии), некоторые базовые действия (движение), информацию об их условиях выполнения и последствиях. Перцепт описывал активность и неактивность агента, а также несет ли он что-нибудь или нет.
В простейшем случае при работе агент не требует подзарядки, то есть энергии хватает на всё время моделирования. Эффективность сбора пищи в этом случае для различ-
Среднее количество собранной еды за 20 эпизодов
(100 шагов на эпизод , стартовая энергия 100)
Вес ФКД сбора еды
Рис. 3. Сбор пищи без необходимости подзарядки (вероятность ФКД подзарядки нулевая). Обведенной точкой показано найденное процедурой оптимизации сочетание параметров
ных приоритетов показана на рис. 3. Видно, что процедуре оптимизации удалось найти локальный максимум, достаточно близкий по величине к глобальному. Необходимо отметить, что использованные методы оптимизации плохо приспособлены для поиска оптимального значения на стохастических функциях, что явно видно на более сложных случаях оптимизации в пространстве с тремя параметрами (рис. 4, рис. 5), и вместо них в дальнейшем стоит попробовать применить методы симу-ляционной оптимизации [24].
Для требующих подзарядки агентов были проведены серии экспериментов, в которых их поведение задавалось разными типами систем принятия решений:
• на основе фиксированных иерархических стратегий, заданных вручную (Рис. 4);
• на основе семиотической сети, на нижнем уровне которой были некоторые из фиксированных стратегий (Рис. 5).
Фиксированные стратегии нижнего уровня в данном случае выступали как реализации ФКД, т.е. известных роботу способов решения какого-то набора задач, в то время как высокоуровневые стратегии представлялись как часть описания знаковой системы и использовались при планировании. Сравнение характеристик работы между этими двумя методами управления показало, что по эффективности система на основе семиотической сети примерно совпадает с системой на фиксированных стратегиях при похожем наборе низкоуровневых возможностей робота.
Оптимизация придает системе необходимые адаптивные качества: оптимизированный агент работает в условиях
потребности в энергии (и заблаговременного сбора пищи в гнездо) продолжительное время (энергия не заканчивается за время эксперимента, значительно превышающее время работы на начальном запасе энергии), в то время как без нее при многих наборах параметров поведения агенту не удается поддерживать свой уровень энергии и эффективно достигать цель ни в случае сбора пищи, ни в случае спасения агентов. Это видно на графиках пространства параметров (Рис. 4, Рис. 5).
6. Обсуждение и дальнейшие исследования
Заметим, что в экспериментах рассматривались только системы с одним активным агентом, возможностью перезапуска среды и сохранением данных предыдущего эксперимента в процессе оптимизации. Так как подход разрабатывается в первую очередь для возможности применения в реальных группах роботов, такая постановка идеализирована, в частности, для запоминания эффективности работы при заданных характеристиках может потребоваться специальный механизм (например, сбор информации о функционировании отдельных агентов другими — сохранение её в «коллективной памяти»). Передача, распределенное хранение в групповой робо-тотехнической системе, а также вопросы доступности этой информации для агентов не рассматривались, хотя являются важными для практической реализации подхода. Исследование адаптации поведения одного агента под поставленную извне цель является первым этапом работы, после которого необходимо будет рассмотреть характеристики функциони-
рования целой группы таких агентов.
Стоит отметить, что методы оптимизации, допускающие большую степень параллелизма, являются предпочтительными, поскольку позволяют использовать несколько роботов в коллективе одновременно. Можно ожидать, что для реальных групп роботов лучшие результаты покажут методы симуляционной оптимизации, поскольку они разработаны с учетом присутствия случайности в оптимизируемой функции. Для централизованных систем управления со стабильным каналом связи специального механизма запоминания не требуется. Вместо перезапуска в реальной системе может применяться либо перенастройка параметров агента, либо использование другого робота с новыми параметрами, если текущий вышел из строя.
Информация о значении целевой функции, вообще говоря, в приведенных экспериментах предоставлялась «гнездом» в виде наград за выполнение подзадач. Поэтому, несмотря на то, что агент мог вычислить значение этой функции самостоятельно, без глобального наблюдателя, применение такого способа управления в задачах с более сложной целевой функцией (например, упорядочение блоков в определенную структуру), которую агенту сложнее оценить самостоятельно, затруднено и требует дополнительных исследований.
Также стоит отметить, что агент наблюдал сразу всю область симуляции («видел» достаточно далеко). Это позволило избежать рассмотрения механизмов памяти и сосредоточить внимание на базовых элементах системы управления, однако сама семиотиче-
ская сеть вполне позволяет использовать память, поэтому анализ механизмов запоминания на ее основе и их влияние на эффективность поведения агента может быть отдельным исследованием.
Заключение
Предложена архитектура системы управления индивидуальным роботом на основе семиотической сети. Рассмотрен упрощенный пример работы такой системы, в котором абстрагировались механизмы выделения знаков, сохранения информации в коллективе и использовалась простая целевая функция. Были проведены эксперименты с симуляцией на примере задачи фуражировки.
Предложенная система управления является в первую очередь архитектурным решением, но для успешной работы в более сложных средах требует специальных методов для ускорения выбора действий (сокращение пространства поиска при планировании), формирования текущего восприятия мира, разрешения конфликтов на этапе перцепции, определения текущей цели (поведенческой доминанты). В рассмотренном примере эти элементы были выбраны достаточно простыми, чтобы продемонстрировать в принципе возможность применения такой архитектуры.
Развитие предложенной структуры управления требует изучения ее особенностей на группе агентов при изменении параметров социальных механизмов, в том числе с использованием более приближенной к реальности симуляции, например, Gazebo. Также интересным представляется анализ возможности управления группой на основе внешних параметров.
Литература
1. Cohen P.R., Levesque H.J. Teamwork // Nous. 1991. Vol. 25. № 4. P. 487-512.
2. Grosz B.J., Kraus S. Collaborative plans for complex group action // Artif. Intell. 1996. Vol. 86. № 2. P. 269-357.
3. Каляев И.А., Гайдук А.Р., Капустян С.Г. Модели и алгоритмы коллективного управления в группах роботов. Москва: Физматлит, 2009. 280 с.
4. Rao A.S., Georgeff M.P. BDI Agents: From Theory to Practice // Proc. First Int. Conf. Multiagent Syst. 1995. Vol. 95. P. 312-319.
5. Кулинич А.А. Метод построения семиотической среды функционирования группой интеллектуальных агентов // IV Всероссийский научно-практический семинар «Беспилотные транспортные средства с элементами искусственного интеллекта» (БТС-ИИ-2017), Казань, 5-6 октября 2017. Казань: Центр инновационных технологий, 2017. С. 193-203.
6. Карпов В.Э., Карпова И.П., Кулинич А.А. Социальные сообщества роботов. Москва: ЛЕНАНД, 2019. 352 с.
7. Kulinich A.A. Contingency, cognitive and semiotic approaches to decision-making in the organizations // Open Education. 2016. № 6. С. 9-17.
8. Miller T. Explanation in Artificial Intelligence: Insights from the Social Sciences [Электрон. ресурс]. 2017. Режим доступа: http://arxiv.org/ abs/1706.07269. (Дата обращения: 06.10.2018.)
9. Карпов В.Э. Об одной реализации знак -ориентированной системы управления мобильного робота // Искусственный интеллект и принятие решений. 2015. № 3. С. 53-61.
10. Длусский Г.М. Муравьи рода Формика. Москва: Наука, 1967. 236 с.
11. Dlussky G.M., Voltzit O.V., Sulkhanov A.V. Organization of group foraging in ants of genus Myrmica // Zool. Zhurnal. 1978. Т. 57. № 1. С. 65-77.
12. Богатырёва О.А., Шиллеров А.Е. Синергетика социальности. Новосибирск: Изд-во Сиб. отд-ния Рос. акад. наук, 1998. 292 с.
13. Karpov V. The parasitic manipulation of an animat's behavior // Biol. Inspired Cogn. Archit. 2017. Т. 21. С. 67-74.
14. Анохин П.К. Избранные труды. Философские аспекты теории функциональной системы. Ред. Константинов Ф.В., Ломов Б.Ф., Швырков В.Б. М.: Наука, 1978. 400 с.
15. Осипов Г.С., Панов А.И., Чудова Н.В. Управление поведением как функция сознания. I. Картина мира и целеполагание // Известия Российской Академии Наук. Теория и системы управления. 2014. № 4. С. 49-62.
16. Карпов В.Э. Сенсорная модель подражательного поведения роботов // Открытые семантические технологии проектирования интеллектуальных систем = Open Semantic Technologies for Intelligent Systems (0STIS-2016): материалы VI междунар. науч.-техн. конф. Минск: БГУИР,
2016. С. 471-476.
17. Sutton R.S., Barto A.G. Reinforcement learning: an introduction // UCL,Computer Science Department, Reinforcement Learning Lectures.
2017. 1054 с.
18. Springer Handbook of Robotics. Ed. Siciliano B., Khatib O. Berlin, Heidelberg: Springer Berlin Heidelberg, 2008. 1611 с.
19. Skarzynski K. et al. SO-MRS: A multi-robot system architecture based on the SOA paradigm and ontology // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics).
2018. Т. 10965 LNAI. С. 330-342.
20. Saxena A. et al. RoboBrain: Large-Scale Knowledge Engine for Robots [Электрон. ресурс]. 2014. Режим доступа: http://arxiv.org/ abs/1412.0691. Дата обращения: 06.10.2018.
21. Осипов Г.С. и др. Знаковая картина мира субъекта поведения. Москва: ФИЗМАТЛИТ, 2017. 261 с.
22. Gao F., Han L. Implementing the Nelder-Mead simplex algorithm with adaptive parameters // Comput. Optim. Appl. 2012. Т. 51. № 1. С. 259277.
23. Powell M.J.D. An efficient method for finding the minimum of a function of several variables without calculating derivatives // Comput. J. 1964. Т. 7. № 2. С. 155-162.
24. Amaran S. et al. Simulation optimization: a review of algorithms and applications // Ann. Oper. Res. Springer US. 2016. Vol. 240. № 1. C. 351-380.
References
1. Cohen P.R., Levesque H.J. Teamwork. Noûs. 1991; 25(4): 487-512.
2. Grosz B.J., Kraus S. Collaborative plans for complex group action. Artif. Intell. 1996; 86(2): 269-357.
3. Kalyayev I.A., Gayduk A.R., Kapustyan S.G. Modeli i algoritmy kollektivnogo upravleniya v gruppakh robotov = Collective control models and algorithms in groups of robots. Moscow: Fizmatlit; 2009. 280 p. (In Russ.)
4. Rao A.S., Georgeff M.P. BDI Agents: From Theory to Practice. Proc. First Int. Conf. Multiagent Syst; 1995; 95: 312-319.
5. Kulinich A.A. The method of building a semi-otic environment of operation by a group of intellectual agents. IV Vserossiyskiy nauchno-praktich-eskiy seminar «Bespilotnyye transportnyye sredstva s elementami iskusstvennogo intellekta» = IV Russian Scientific and Practical Seminar "Unmanned Vehicles with Elements of Artificial Intelligence" (BTS-
II-2017), Kazan, October 5-6, 2017. Kazan: Center for Innovative Technologies; 2017. P. 193—203. (In Russ.)
6. Karpov V.E., Karpova I.P., Kulinich A.A. Sotsial'nyye soobshchestva robotov = Social community of robots. Moscow: LENAND; 2019. 352 p. (In Russ.)
7. Kulinich A.A. Contingency, cognitive and se-miotic approaches to decision-making in the organizations. Open Education. 2016; 6: 9—17.
8. Miller T. Explanation in Artificial Intelligence: Insights from the Social Sciences [Internet]. 2017. Available from: http://arxiv.org/abs/1706.07269. [cited: 06.10.2018].
9. Karpov V.E. On one implementation of the sign - oriented control system of a mobile robot. Iskusstvennyy intellekt i prinyatiye resheniy = Artificial Intelligence and Decision Making. 2015; 3: 53-61. (In Russ.)
10. Dlusskiy G.M. Murav'i roda Formika = Ants of the genus Formica. Moscow: Science; 1967. 236 p. (In Russ.)
11. Dlussky G.M., Voltzit O.V., Sulkhanov A.V. Organization of group foraging in ants of genus Myrmica. Zool. Zhurnal. 1978; 57(1): 65-77. (In Russ.)
12. Bogatyreva O.A., Shillerov A.E. Sinergeti-ka sotsial'nosti = Synergy of sociality. Novosibirsk: Publishing house Siberian Branch RAS; 1998. 292 p. (In Russ.)
13. Karpov V. The parasitic manipulation of an animat's behavior. Biol. Inspired Cogn. Archit. 2017; 21: 67-74. (In Russ.)
14. Anokhin P.K. Izbrannyye trudy. Filosofski-ye aspekty teorii funktsional'noy sistemy. = Selected Works. Philosophical aspects of the theory of a functional system. Eds. Konstantinov F.V., Lomov B.F., Shvyrkov V.B. Moscow: Science; 1978. 400 p. (In Russ.)
15. Osipov G.S., Panov A.I., Chudova N.V. Control of behavior as a function of consciousness. I. Picture of the world and goal setting. Izvesti-
Сведения об авторах
Максим Александрович Ровбо
Инженер-исследователь
НИЦ «Курчатовский институт»,
Москва, Россия
Эл. почта: rovboma@gmail.com
Тел.: 8 (985) 305-29-67
Петр Сергеевич Сорокоумов
Инженер-исследователь НИЦ «Курчатовский институт», Москва, Россия
Эл. почта: petr.sorokoumov@gmail.com
ya Rossiyskoy Akademii Nauk. Teoriya i sistemy upravleniya = Journal of Computer and Systems Sciences International. 2014; 4: 49—62. (In Russ.)
16. Karpov V.E. Sensornaya model' podrazhat-el'nogo povedeniya robotov. Otkrytyye semantiches-kiye tekhnologii proyektirovaniya intellektual'nykh sistem = Open Semantic Technologies for Intelligent Systems (OSTIS-2016): materials of the VI Intern. scientific and technical conf. Minsk: BGUIR;
2016. P. 471-476. (In Russ.)
17. Sutton R.S., Barto A.G. Reinforcement learning: an introduction. UCL, Computer Science Department, Reinforcement Learning Lectures.
2017. 1054 p.
18. Springer Handbook of Robotics. Eds. Siciliano B., Khatib O. Berlin, Heidelberg: Springer Berlin Heidelberg; 2008. 1611 p.
19. Skarzynski K. et al. SO-MRS: A multi-robot system architecture based on the SOA paradigm and ontology. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2018; 10965 LNAI: 330-342.
20. Saxena A. et al. RoboBrain: Large-Scale Knowledge Engine for Robots [Internet]. 2014. Available from: http://arxiv.org/abs/1412.0691. [cited: 06.10.2018].
21. Osipov G.S. et al. Znakovaya kartina mira sub"yekta povedeniya = Symbolic picture of the world of the subject of behavior. Moscow: FIZ-MATLIT; 2017. 261 p. (In Russ.)
22. Gao F., Han L. Implementing the Nel-der-Mead simplex algorithm with adaptive parameters. Comput. Optim. Appl. 2012; 51(1): 259-277.
23. Powell M.J.D. An efficient method for finding the minimum of a function of several variables without calculating derivatives. Comput. J. 1964; 7(2): 155-162.
24. Amaran S. et al. Simulation optimization: a review of algorithms and applications. Ann. Oper. Res. Springer US. 2016; 240(1): 351-380.
Information about the authors
Maksim A. Rovbo
Researcher-engineer NRC "Kurchatov Institute ", Moscow, Russia E-mail: rovboma@gmail.com Tel.: 8 (985) 305-29-67
Petr S. Sorokoumov
Researcher-engineer NRC "Kurchatov Institute", Moscow, Russia
E-mail: petr.sorokoumov@gmail.com