АГРЕССИЯ В МИРЕ АНИМАТОВ, ИЛИ О НЕКОТОРЫХ МЕХАНИЗМАХ УПРАВЛЕНИЯ АГРЕССИВНЫМ ПОВЕДЕНИЕМ В ГРУППОВОЙ РОБОТОТЕХНИКЕ
Карпова И. П.1
(Национальный исследовательский университет «Высшая школа экономики», Национальный исследовательский центр «Курчатовский институт», Москва) Карпов В. Э.2
(Национальный исследовательский центр «Курчатовский институт», Московский физико-технический институт,
Москва)
Обсуждаются возможные способы реализации агрессии как одного из механизмов формирования социального поведения в группах роботов. Агрессия рассматривается как способ разрешения конфликтов за ресурсы. В качестве основы использованы особенности агрессивного поведения эусоциальных насекомых (муравьев). Предлагается реактивная модель поведения, в которой агрессивный компонент интегрирован в потребностно-эмоциональную архитектуру системы управления анимата. Также рассматривается использование агрессивного компонента на феноменологическом уровне управления поведением. Проведены эксперименты по имитационному моделированию реализации доминирования в группе и решения задачи распределения кормовых участков. Показано, что добавление в систему управления параметра «агрессивность» обеспечивает разнообразие поведения анимата с учетом состояния среды, а также реализует групповое взаимодействие в естественной форме.
Ключевые слова: групповая робототехника, модели социального поведения, агрессивное поведение, эмоциональная система управления, задача фуражировки.
1. Введение
Данная работа выполнена в рамках фундаментальных исследований по применению моделей социального поведения как
1 Ирина Петровна Карпова, к.т.н., доцент (karpova_ip@mail.ru).
2 Валерий Эдуардович Карпов, к.т.н., доцент (karpov_ve@mail.ru).
единой методологической основы для организации управления в групповой робототехнике [14]. Базовый принцип групповой робототехники заключаются в том, что при объединении усилий относительно простых роботов, обладающих ограниченными когнитивными способностями, возникает синергетический эффект, и группа может справиться с задачами, которые не по плечу отдельным роботам из этой группы.
Применение моделей социального поведения в групповой робототехнике относится к категории биоинспирированных подходов. Его основная идея заключается в том, что для появления эмерджентных свойств необходимо, чтобы группа роботов образовала социальное сообщество. Поэтому требуется изучить и реализовать механизмы и модели, необходимые для превращения группы роботов в такое сообщество (модели когезии, доминирования, контагиозного поведения и т.д.).
С точки зрения этологов одним из базовых механизмов, формирующих социальное поведение, является так называемое агонистическое, или агрессивное поведение [25]. Считается, что агрессивное поведение (АП) не является отдельным типом социального поведения, как, например, подражательное или родительское. Есть отдельные действия, которые особь выполняет при возникновении тех или иных ситуаций и которые сторонний наблюдатель может воспринимать как агрессивные. Но агрессия является неотъемлемой частью различных видов социального поведения, таких как брачное, родительское, территориальное, групповое (иерархическое) поведение. Исходя из этого, в рамках исследований моделей социального поведения в групповой робототехнике реализация этого механизма является необходимым условием создания моделей поведения более высокого уровня.
Существует ряд работ, в которых для решения некоторых задач робототехники применяются подходы, использующие понятие агрессивного поведения животных. Например, в [29] рассматривается задача борьбы за ресурсы и предлагается заменить бой между роботами для выяснения вопроса, кто из них сильнее, на демонстрацию агрессии (как у животных). Величина агрессии определяется тем, какой вклад в выполнение общей
задачи может внести данный робот. Робот подсчитывает количество времени, которое он потратил на достижение цели: если оно больше, чем у соперника, то соперник уступает (отступает назад в узком коридоре и дает пройти более агрессивному). Развитие этого подхода для команды роботов представлено в [45]. Там две группы роботов определяют, какая из них первая пройдет по узкому коридору, а какая уступит дорогу, в соответствии оценкой потерь, которые при этом понесет та или иная группа.
К сожалению, зачастую авторы подобного рода работ, используя понятие агрессии и даже иногда ссылаясь на работы этологов, делают это чисто формально, на уровне заимствования терминов.
С другой стороны, в области многоагентных систем также иногда используется понятие агрессии. Например, агрессия может рассматриваться как способ разрешения конфликтов, которые возникают при образовании коалиций [36]. А в [41] агент оценивает полезность ресурса, за который идет борьба, и потери, которые он может понести в борьбе за этот ресурс. Агент борется за ресурс, если его полезность превышает ожидаемые потери, в противном случае он отступает (точно так же, как это происходит у животных). Эта модель позволяет определить порог чувствительности (срабатывания) - уровень агрессивности, при котором агент принимает решение бороться за ресурс. Агрессивность агента в данной модели также играет роль отрицательной обратной связи: она повышается при проигрыше за ресурс и понижается, если агент выиграл. (Это необходимо для того чтобы ресурсы распределялись более равномерно.) Но подобный вариант учета агрессии не подходит для реализации, например, доминантного поведения, так как у животных уровень агрессивности доминирующей особи после победы повышается, что способствует ее закреплению в качестве лидера [19].
Еще один пример реализации агрессивного поведения на основе количественной модели рассмотрен в [18]. В этой модели уровень агрессии особи А определяется тремя параметрами: «накопленной агрессивностью», т.е. тем уровнем агрессивности, который есть у особи в каждый момент времени; наличием объ-
екта агрессии; наличием других особей своего вида (своей семьи). Накопленная агрессивность (как и у многих животных) коррелирует с близостью к центру «своей» территории и рассчитывается как величина, обратно пропорциональная расстоянию от своего «муравейника». Правило разрешения конфликтов основано на учете наличия поблизости (в зоне прямой видимости заданным радиусом Х) других особей своего вида. Подсчи-тываются суммы уровней агрессивности «своих» среди соседей (А) и уровней агрессивности «чужих» среди соседей (Ап). Далее с вероятностью р = А/(А + А„) особь побеждает в конфликте, а с вероятностью (1 - р) - проигрывает. Данная модель АП учитывает только два фактора - близость к центру «своей» территории и численность соседей - и может быть использована только для решения частной задачи: разрешения территориальных конфликтов между агентами (роботами) на основе локального взаимодействия. В некотором смысле эта работа относится к категории макромоделей, так как описывает поведение не отдельного агента, а группы.
Нас же интересуют конструктивные, биологически обоснованные схемы (модели) агрессивного поведения, которые можно применить к решению различных задач групповой робототехники. Под конструктивностью модели понимается возможность ее использования в системе управления робота. Используя термин «агрессия», «агрессивное поведение», мы имеем в виду интерпретацию действий особи сторонним наблюдателем. Это позволит нам естественным образом описывать поведенческие аспекты функционирования робота (анимата).
Цель работы - определить компоненты системы управления (СУ), влияющие на поведение анимата таким образом, что это поведение расценивается как агрессивное, а также, в конечном итоге, определение способов управления поведением с точки зрения его агрессивности.
Структура статьи такова. В разделе 2 обсуждаются определения агрессивного поведения. Затем рассматриваются основные способы проявления агрессии у животных и особенности агрессивного поведения муравьев как эусоциальных животных. В разделе 3 описывается архитектура системы управления ани-
мата, в которой эмоции являются основой для управления поведением анимата, определяя общую оценку текущей ситуации. Раздел 4 содержит описание экспериментов по имитационному моделированию, поставленных с целью выявить изменение поведения анимата в зависимости от величины текущего уровня его агрессивности. В разделе 5 определяются базовые механизмы, необходимые для воспроизведения такого наблюдаемого в природе феномена, как разведка и распределение муравьев по участкам. Оказывается, что такими механизмами являются доминирование (как результат агрессивных действий) и память. В Заключении обобщается изложенный материал и определяются направления дальнейших исследований.
2. Агрессивное поведение
В соответствии с биологическим словарем [3] агонистиче-ское поведение у животных (от греч. agonistikos - способный к борьбе, воинственный) - это сложный комплекс действий, наблюдаемый во время конфликтов между особями одного вида и включающий взаимные угрозы, нападения на соперника, бегство от него, преследования и демонстрации подчинения. Агрессивное поведение направлено в первую очередь на особь того же вида как на соперника в борьбе за ресурсы (за территорию, за самку и т.п.), хотя встречаются и исключения (например, борьба между птицами разных видов за удобное дупло).
Агрессивное поведение (АП) участвует в формировании многих видов социального поведения, в частности [20, 25, 42]:
1. Поддержание территориального гомеостаза с целью обеспечения жизненного пространства, необходимого для пропитания особи или группы особей.
2. Брачное поведение (поединки между самцами, способствующие отбору более сильных и выносливых животных для продолжения рода).
3. Забота о потомстве, включающая защиту потомства от любых приближающихся к нему животных, в том числе особей своего вида.
4. Формирование группы с иерархическими отношениями, которые обеспечивают ее управляемость - иерархическую структуру взаимного подчинения.
5. Поддержание группового (стайного, семейного) гомеоста-за: в группу не принимают чужаков - особей из других групп.
Агрессия имеет настолько разнообразные причины возникновения и способы проявления, что существует множество подходов к ее дефиниции. Мы ограничимся определениями АП применительно к животным. Представители этологического подхода рассматривают агрессию у животных как естественную, эволюционно отработанную и адаптивную форму поведения, которая позволяет животным существовать в условиях ограниченных ресурсов и сопутствует конкуренции за пищу, за партнера при спаривании, за место обитания [19]. К сожалению, даже в рамках этого подхода нет общепринятого определения агрессии. К. Лоренц в своей широко известной книге «Агрессия» фактически обходится вообще без определения, так как сложно считать таковым фразу: «В книге речь идет об агрессии, т.е. об инстинкте борьбы, направленном против собратьев по виду». Лоренц ограничивается феноменологией этого явления. Аналогичным образом поступает другой известный исследователь Н. Тинберген, который в книге «Социальное поведение животных» много пишет об агрессии и определяет ее как поведение, проявляющееся в результате одновременного возникновения у особи двух противоположных побуждений - к нападению и к бегству. Р. Хайнд в своем классическом труде «Поведение животных» приводит такое определение: «Адресованное другой особи поведение, которое может привести к нанесению повреждений и часто связано с установлением определенного иерархического статуса, установлением превосходства, получением доступа к определенному объекту или права на какую-то территорию» [27].
Наиболее конструктивным с нашей точки зрения является подход, при котором агрессия рассматривается «как следствие конфликта интересов особи, пары или группы» [2]. Это позволяет использовать понятие агрессии для разрешения конфликтов между особями или группами особей (аниматов) путем
непосредственного воздействия на объект-причину конфликта. (Конфликт - несоответствие требуемого (целевого) состояния текущему.)
В целом агрессивное поведение у животных выполняет ви-досохраняющую функцию. Мы не будем подробно описывать, как именно с помощью агрессии животные устанавливают границы своей территории или иерархию в группе (более подробно это изложено, например, в [38]). Но основные механизмы агрессивного поведения необходимо рассмотреть более детально для того, чтобы взять их за основу при реализации отдельных моделей социального поведения в групповой робототехнике.
Обычно агрессия возникает при появлении соперника. Мы рассматриваем агрессию в отношении соперника - особи своего вида, так как именно этот вид агрессии участвует в формировании социального поведения. Агрессивное поведение как процесс включает в себя ряд этапов: 1) демонстрация угрозы; 2) схватка; 3) умиротворение. Сначала при возникновении конфликта животное находится в состоянии страха (более или менее выраженном) - тут-то и реализуется знаковая форма конфронтации: ритуальная демонстрация ранга, размеров, силы и прочего. Затем, оценив ситуацию, животное либо убегает (возобладал страх), либо вступает в схватку (ярость пересилила страх). Наконец, после окончания физической, силовой стадии, победившее животное умиротворяется, а потерпевшее поражение - примиряется (смиряется) с ним.
При этом внутривидовая агрессия очень редко переходит в фазу поединка, а чаще ограничивается демонстрацией угроз. Демонстрации угрозы имеют строго специфическую для вида форму, из-за которой их принято называть фиксированными комплексами действий (ФКД, [25]). Ритуализацию можно объяснить тем, что поединок может приводить к ранению или гибели более слабой особи, что отрицательно скажется на выживании вида в целом. Поэтому в ходе эволюции развивались механизмы, подавляющие АП и предотвращающие переход к открытому поединку. Агрессивное поведение подавляется (тормозится) либо устранением причины (соперника, помехи и т.п.), либо демонстрацией подчинения со стороны другой особи.
При изучении агрессии для применения в рамках групповой робототехники мы в первую очередь ориентируемся на поведение муравьев как представителей эусоциальных насекомых. АП является частью механизма, обеспечивающего выделение общины насекомых как единого целого [8]. Объектами агрессивных действий являются особи других видов, конспецифичные особи из других общин и члены собственной общины. Проявление агрессивного поведения у муравьев можно разделить на два класса [7, 8]:
1) внутрисемейная агрессия (стимулирующие воздействия; формирование субординационных структур, конкурентная борьба между рабочими одной семьи; контроль состава семьи);
2) внесемейная агрессия (охрана, защита расплода и репродуктивных особей, других рабочих, гнезда, кормового участка).
К особенностям агрессивности у муравьев (и других общественных насекомых) относится возрастание индивидуальной агрессивности особи с возрастом последней. При этом агрессивность и активность собранных в группу наиболее агрессивных рабочих особей существенно снижается, а группирование неагрессивных муравьев ведет к возрастанию их общей активности и появлению среди них особей с агрессивным поведением [8]. Процентное распределение муравьев по степени агрессивности оказывается в конечном итоге одинаковым независимо от вариантов перегруппировки и равным таковому при случайном составе групп.
При формировании субординационных структур, основанных на взаимодействии индивидов, наблюдается выраженная индивидуальная агрессивность муравьев. В определенных пределах она может оцениваться как один из механизмов стабильности общины. (Избыточная агрессивность может приобретать неадаптивный характер). Внутри гнезда АП наблюдается при взаимодействии старых рабочих или рабочих с самками. Расплод и молодые рабочие, наоборот, ведут себя лояльно и стимулируют развитие лояльного отношения индивидов друг к другу как более распространенного типа отношения внутри общины.
Интересно, что физиологическое состояние и психические наклонности муравьев влияют на их специализацию: более ак-
тивные и любознательные рабочие муравьи становятся разведчиками; менее активные - фуражирами или сборщиками пади. Агрессивность муравьев увеличивается с возрастом, и самые агрессивные и опытные муравьи (в частности, у рода Формика) находятся на куполе муравейника и являются наблюдателями. В координации действий индивидов основную роль играют имитационное поведение или стимуляция «подобного подобным». Например, при возникновении угрозы муравьи-наблюдатели принимают агрессивную позу, атакуют. Другие муравьи реагируют на эти характерные движения и позы (ФКД) и почти мгновенно переключаются на оборону, что подтверждает тезис о целостной реакции каждой особи на воспринимаемый сигнал. При этом в социуме с глубокой дифференциацией целостная реакция проявляется уже только на уровне группы особей или всего сообщества [8].
Также оседлые муравьи с помощью агрессивного поведения защищают свою территорию (точнее, кормовой участок) от представителей других гнезд и других видов муравьев. Определенную роль при этом играет численность муравьев. Встретившись на кормовом участке, одиночные охотники, зная, что поблизости никого из своих нет, предпочитают мирно разойтись. Но достаточно кому-нибудь из неосторожных фуражиров увлечься и оказаться слишком близко от чужого гнезда, где численность хозяев уже достаточно велика, его сразу же атакуют, и если он не спасется бегством, то будет уничтожен [7].
Субординационные структуры формируются в тех ситуациях, когда необходима координация действий группы муравьев, например, при организации фуражировки. Если признанный лидер группы существует, то подчиненные особи просто подражают его действиям. Если же лидера нет, то вопрос о лидерстве решается прямой конкуренцией между несколькими наиболее активными фуражирами. Впоследствии лидерство победившей особи признается другими фуражирами. Вообще, всякое сообщество со сложившейся системой субординации само активно поддерживает уже имеющуюся структуру, и инициатива в этом в первую очередь принадлежит подчиненным особям [4].
Роль турниров у муравьев при установлении лидерства играют попытки переноса одной особью другой. Это своеобразная ритуализация форм борьбы за лидерство, отражающая общую тенденцию последовательного смягчения форм внутрипопуля-ционных отношений и перехода от агрессии и конкуренции к кооперации, взаимопомощи и взаимной стимуляции. Вообще все формы поведенческого взаимодействия конспецифичных особей в сообществе носят конвенциональный характер, т.е. основаны на соблюдении ими определенных правил поведения [8].
Следовательно, у муравьев агрессия также участвует в формировании рассмотренных выше видов социального поведения. Но часто выделить агрессивные действия как таковые невозможно, так как одни и те же действия в разных ситуациях могут рассматриваться как проявление агрессии, а в других -нет. Считать или нет то или иное действие агрессивным - определяет наблюдатель с учетом контекста и обстоятельств, при которых это происходит.
Далее рассмотрим, как вышесказанное может быть отражено в структуре системы управления анимата, и определим компоненты системы управления, влияющие на поведение анимата таким образом, чтобы это поведение могло расцениваться как агрессивное.
3. Обобщенная модель агрессивного поведения
В процессе функционирования анимат оценивает свое собственное состояние и состояние окружающей среды и осуществляет некоторые действия, которые определяются его потребностями и возможностями.
Согласно классической парадигме, поведение анимата можно представить как последовательность «состояние -действие - состояние - действие...». Пусть имеется целевое (SG) и текущее (Sc) состояние. Переход анимата из состояния в состояние осуществляется с помощью действия (комплекса действий, запуска поведенческой процедуры и проч.) Act:
(1) —^ Sa .
Определим, что мы будем понимать под агрессивными действиями. Во-первых, для проявления агрессии необходимо наличие некоторого целевого объекта О , на которое осуществляется воздействие. (Зачастую в отсутствие объекта - цели агрессии - выбирается некоторый подходящий (случайный) объект.) Во-вторых, будем полагать, что цель оказания воздействия - устранение этого объекта. Это можно записать так:
(2) Sg=SC \ OA.
Устранение объекта агрессии подавляет агрессивное поведение. Устранение может заключаться как в удалении О из сцены, так и в изменении поведения О, которое выражается в демонстрации подчинения со стороны О.
Если Act (1) - это действие по устранению причины несоответствия текущего состояния целевому путем оказания на объект деструктивного воздействия, то такое действие будем называть агрессивным. Другими словами, агрессивное поведение осуществляет преобразование текущего состояния так, чтобы устранить причину несоответствия.
3.1. ЭМОЦИИ КАК МЕХАНИЗМ РЕГУЛЯЦИИ ПОВЕДЕНИЯ
Мы рассматриваем агрессивное поведение как способ разрешения конфликтов. Под конфликтом понимается наиболее радикальный острый способ разрешения значимых противоречий, возникающих в процессе взаимодействия, заключающийся в противодействии субъектов конфликта и обычно сопровождающийся негативными эмоциями [1]. Следовательно, появление негативной эмоции может служить признаком возникновения конфликта и внутренней причиной проявления агрессии.
Эмоции являются одним из основных механизмов регуляции поведения, отвечающим за контрастирование сенсорного восприятия и за стабилизацию поведения. Эти функции характерны не только для живых организмов, но применимы также к техническим системам. В работе [35] была предложена архитектура системы управления анимата, в которой эмоции являются основой для управления поведением анимата, определяя общую
оценку текущей ситуации. Этот подход базируется на потреб-ностно-информационной теории эмоций П.В. Симонова [22].
Потребность - это та нужда, которую время от времени испытывает организм и которую он стремится устранить через поведение [5]. Потребности живого организма можно разделить на три группы:
1) биологические (витальные): метаболические потребности (в кислороде, воде, пище и т.д.); потребность в отдыхе и сне; потребность в самосохранении и т.п.
2) зоосоциальные: потребности находиться в окружении представителей своего вида (семьи, популяции); потребности выполнять видотипичные поведенческие действия; потребности занимать в группе определенное положение;
3) «идеальные» (так называемые потребности саморазвития [24]): потребность в получении новой информации; потребность преодоления препятствий, открытая И.П. Павловым и названная им рефлексом свободы.
Биологические (или витальные) потребности направлены на сохранение жизни индивида. У большинства животных они имеют более высокий приоритет по сравнению с другими потребностями.
Зоосоциальные потребности, так же как и витальные, развиваются как результат выраженного изменения внутреннего равновесного состояния животного организма. Материальной основой их возникновения служат два фактора: изменение возбудимости (электрического состояния) определенных групп нейронов (нервных центров) и изменение гормонального статуса организма. Зоосоциальные потребности обеспечивают стабилизацию внутреннего состояния отдельного представителя группы и стабилизируют группу в целом [21]. Зоосоциальные потребности реализуются через взаимодействие с другими особями своего вида во время полового, родительского, территориального поведения.
К идеальным потребностям в первую очередь относят потребность в получении новой информации, которая лежит в основе ориентировочно-исследовательского поведения. (Потребность анимата в получении новой информации можно назвать
«любопытством» в некотором метафорическом смысле, вводя ее для большей наглядности примеров.)
Что же касается муравьев, то у них (как и у других эусоци-альных насекомых) над индивидуальными потребностями превалируют потребности семьи (муравейника). Действия муравья определяются, в конечном счете, общественной необходимостью, любой вид его деятельности носит ярко выраженный социальный характер. Семья (точнее, ее потребности) побуждают особь к действию, причем обычно в самой общей форме (нужна пища, холодно и т. п.). Задача и место ее выполнения конкретизируются при индивидуальном взаимодействии муравья с другими членами семьи в процессе их жизнедеятельности.
В соответствии с теорией П.В. Симонова предполагается, что эмоции являются оценкой текущей потребности (ее качества и ценности) и возможности ее удовлетворения. Мозг оценивает эту возможность на основе генетической предрасположенности и ранее полученного индивидуального жизненного опыта. В общем виде отношение этих факторов описывается формулой (3) E = ДЩ, р(1Жеа, 1^)),
где Е - эмоция, ее величина, качество и знак; N - сила и качество текущей необходимости; р(1„ееа,Лш) - оценка возможности удовлетворить потребность на базе врожденного и полученного жизненного опыта; 1„ееа - информация о способе, необходимом для удовлетворения потребности; I^ - информация об имеющихся средствах, ресурсах и времени, которые субъект действительно имеет в настоящем. Это главным образом качественная формула, иллюстрирующая принцип формирования положительных и отрицательных эмоций от различных воздействий.
Здесь следует сделать важное замечание. Разумеется, существует множество теорий эмоций: от психоэволюционной теории Плутчика до попыток введения так называемой алгебры эмоций [26]. Да и сам Симонов говорил о существовании базисного фонда бесконечно разнообразной эмоциональной жизни человека, выделяя четыре эмоциональных состояния: гнев, страх, удовольствие и отвращение [23]. Серьезный обзор и критический анализ теорий эмоций, в том числе и теории Симонова, приведен в работе [11]. Однако дело в том, что в основном
рассуждения об эмоциях, согласно тому же П.В. Симонову, носят в основном абстрактно-описательный характер и являются прежде всего антропоцентрическими. Мы же здесь говорим о том, что с конструктивной точки зрения физиологический эмоциональный уровень поведения анимата - будучи, естественно, примитивным по сравнению с уровнем высших позвоночных -хорошо описывается именно в терминах информационно-потребностной теории Симонова.
Мы можем объяснить выражение (3) следующим образом: индивид оценивает свои текущие потребности или то, что он должен сделать (поесть, найти еду, уклониться от препятствия, убежать и т.д.). Затем он оценивает индивидуальные возможности удовлетворения этих потребностей. Разница между потребностями и возможностями определяет эмоциональную оценку текущей ситуации. Если особь имеет некоторые потребности и при этом возможности для их удовлетворения достаточны, то она положительно оценивает ситуацию. В противном случае ее эмоции негативны. Подчеркнем, что в отличие от чувств эмоции относятся к ситуации, а не к объекту. Чувства направлены на некоторый абстрактный или реальный объект (любить что-либо, бояться чего-либо и т.д.). Напротив, эмоции, такие как удовольствие, удивление или страх, отражают оценку ситуации. Поэтому при наличии негативных эмоций даже в отсутствие противника особь может совершать агрессивные действия, но тогда они направлены на случайный объект, который находится поблизости и на котором можно «сорвать зло» [20].
В принципе, введения эмоциональной составляющей достаточно, чтобы реализовать простые формы поведения анимата. При этом разнообразие поведения во многом может определяться значениями параметров такой системы управления. Но если мы говорим о моделировании социального поведения и опираемся при этом на модели поведения животных, то надо учитывать, что в реальной природе поведение животных характеризуется большим разнообразием. Например, при наличии одинаковых уровней потребностей разные особи в одной и той же ситуации будут действовать по-разному: одна нападет, другая убежит. В первую очередь это зависит от уровня агрессивности:
более высокий уровень агрессивности способствует тому, что особь чаще выбирает нападение, чем бегство/подчинение. И даже одна и та же особь в одинаковых ситуациях может вести себя по-разному. У нее ничего не изменилось, ни потребности, ни сила, но она убегает вместо того, чтобы нападать, и наоборот, в зависимости от того, какой у нее уровень агрессивности. Таким образом, уровень агрессивности непосредственно влияет на поведение особи.
Итак, мы полагаем, что в общем случае поведение, которое может интерпретироваться как агрессивное, возникает при наличии сильных отрицательных эмоций, связанных с нереали-зованностью тех или иных потребностей особи (анимата). В системе управления анимата состояние каждого блока действия характеризуется своей частной эмоцией ЕУсловие выбора действия определяется эмоциональным состоянием анимата: (4) Са = Са(Е), Е = {Е}.
Рассмотрим эту систему управления на частном примере.
3.2. ПРИМЕР СИСТЕМЫ УПРАВЛЕНИЯ АНИМАТА
Пусть имеется анимат со следующими потребности и сенсорными возможностями:
1. Потребности: пища, вода, самосохранение, отдых, любопытство.
2. Сенсоры: пища, вода, свет, чужак, усталость , голод , жажда ( - три последних являются виртуальными сенсорами и отражают внутреннее состояние анимата).
Правила поведения анимата: он избегает света и чужаков. «Чужак» - это представитель одного и того же с аниматом вида, но из другого «гнезда» (другой группы). При этом в отсутствие опасных факторов, а также чувств усталости, голода и жажды, анимат «гуляет», т.е. исследует территорию, реализуя потребность в получении новой информации. Рис. 1 иллюстрирует схему управляющей системы такого анимата (пунктиром здесь обозначены отрицательные связи, т.е. отсутствие пищи, воды и т.д.).
Рис. 1. Схема управления анимата
Мы не будем перегружать схему поведения дополнительными связями, указывающими, например, что любопытство заставляет анимата блуждать (т.е. исследовать территорию) тогда, когда анимат не голоден, не устал, не видит опасность и т.п. Здесь также не отражены вентили и обратные связи. В реальной схеме присутствуют так называемые вентильные элементы, соответствующие каждому сенсору. Они являются элементами контура положительной обратной связи, идущей от выходных элементов (действий). Эти контуры реализуют эмоциональный
компонент СУ. Положительные обратные связи отвечают за стабилизацию работы системы, контрастирование восприятия, реализуют эффект кратковременной памяти и прочие феномены и функции, присущие эмоциям (более подробно см. [12, 13]). Поэтому надо иметь в виду, что фактически на месте каждого сенсора находится сенсорно-вентильная пара, которая реализует частную эмоцию.
Формальное описание системы управления вплоть до представления ее в виде структурной схемы приведено в монографии [16]. Однако следует понимать, что задача приведенной выше схемы - не собственно анализ архитектуры системы и особенностей поведения анимата, а выделение основных интересующих нас компонентов - потребностей, сенсорики и поведенческих процедур.
В качестве универсального средства для реализации самих поведенческих процедур используются конечные автоматы [28]. Каждый автомат реализует свой ФКД, и система управления анимата разделена на два уровня: уровень управления поведением и уровень реализации ФКД.
Автоматы, реализующие ФКД, являются параметризируе-мыми. Это означает, что нет отдельных автоматов для поиска, например, еды, воды и пр. Искомый объект задается как параметр для некоторого обобщенного автомата, реализующего процедуру поиска. Это удобно как минимум с технической точки зрения.
Потребности в пище и воде, а также наличие соответствующих сенсоров и поведенческих блоков введено для того, чтобы подчеркнуть наличие одинаковых структур в системе управления, отличающихся лишь одним параметром - «пища» и «вода». То же самое касается и смысла введения боязни аниматом «чужаков» и «света".
Очевидно, что блоки схемы, связанные с «пищей» и «водой», являются в некотором смысле однотипными, имеющими возможность определенной унификации. Выше мы уже говорили о таком аспекте унификации, как использование обобщенных автоматов. Здесь также имеется возможность введения некоторого обобщения, при котором вводится действие потребления,
направленное на «пищу» и «воду» (это - параметры действия). Или действие поиска, определяемое заданной целью - той же «пищей» или «водой».
Обобщение приводит к тому, что у процедур потребления и поиска появляются несколько точек входа, задающих параметры процедур. Точки входа в общем случае представляют собой тройки типа (5) Р = (П, У, О),
где П - потребность, У - условие, О - объект, на который направлено действие.
Например, для процедуры «Потребление» точка входа, связанная с пищей, задается наличием потребности в пище (П), условием в виде ощущения голода (У) и объектом потребления - собственно пищей (О). На рис. 2 представлена схема организации таких обобщенных процедур (пунктиром также обозначены отрицательные связи, т.е. отсутствие пищи, воды и т.д.).
Здесь следует отметить, что возможно дальнейшее обобщение. Например, вводятся абстрактные сущности, называемые «Потребность», «Целевой объект» (то, на что направлено действие) и «Условие», активируемые уже конкретными потребностями, значениями сенсоров и т.п. Однако все это относится уже к уровню непосредственной реализации поведения, на котором могут быть реализованы поведенческие реакции в виде тех же конечных автоматов. Даже схема обобщения на рис. 2 не является удобной для решения нашей основной задачи - определения агрессивных компонентов поведения.
Дело в том, что крайне важно определить явные внутренние конфликты при выборе и совершении тех или иных действий. Эти внутренние конфликты, связанные с невозможностью удовлетворения тех или иных потребностей, определяют эмоциональное состояние анимата. При этом значения частных эмоций, связанных с теми или иными вентилями действий, задают факторы инициации агрессивного поведения. В этом причина того, что для понимания сути вопроса более удобным (хотя и более громоздким) является представление явной схемы поведения, изображенной на рис. 1.
3.3. АГРЕССИВНЫЙ КОМПОНЕНТ ПОВЕДЕНИЯ
Все рассуждения, приведенные в этом разделе, основаны на следующем постулате. Когда мы говорим об агрессии или агрессивном поведении, мы имеем в виду те действия, которые сторонним наблюдателем могут быть расценены как агрессивные в данном контексте и при обстоятельствах, при которых это происходит. С учетом сложившейся практики применения эти термины удобно использовать для описания отдельных действий (ФКД), являющихся частью некоторых моделей поведения.
Будем полагать, что анимат умеет выполнять некоторые действия, реализующие тот или иной аспект поведения, которое принято называть агрессивным: демонстрацию, угрозу, непосредственно нападение и т.п. Механизм реализации этих действий несущественен.
Выше было сказано, что всякое действие определяется тройкой (Потребность, Условие, Объект) (4). В зависимости от того, каким образом определяются компоненты этой тройки, мы получаем различные схемы поведения.
Условие запуска любого действия - наличие отрицательных эмоций, связанных с нереализованностью тех или иных потребностей. Если бы мы говорили о реализации агрессивного поведения в «чистом виде», то это можно сделать, например, с помощью некоторой функции, зависящей от самых разных факторов. В простейшем случае она может быть константой, описывающей склонность анимата к агрессии (к активным действиям в случае возникновения конфликта). Или являться функцией, зависящей от расстояния до гнезда, и в этом случае мы получаем проявления феномена «территориальной агрессии» - нападение на чужака с целью изгнания его с территории, прилегающей к гнезду.
Важным вопросом является выбор объекта агрессии, т.е. того, на кого эти действия направлены. Например, объектом агрессии может стать тот объект, с которым связано действие, характеризующееся минимальной (максимальной отрицательной) эмоцией: (6) Оагр = о,: Ei = min E.
Напомним, что только агрессия, направленная на представителей одного с особью вида, участвует в регуляции социального поведения (см., например, [10]). Поэтому из всех объектов, вызывающих отрицательные эмоции, выбираются только «свои», т.е. другие аниматы. В качестве объекта агрессии выбирается тот, который вызывает наибольшие отрицательные эмоции.
На нижнем, рефлекторном уровне можно рассматривать реакцию особи на появление «чужака», т.е. особи из другой группы. «Чужак» в конечном итоге всегда вызывает отрицательную эмоцию, и действия в отношении «чужака» можно расценивать как агрессивное поведение. При этом особь испытывает противоположные побуждения: потребность в защите гнезда или охране кормового участка велит напасть на «чужака», а потребность в самосохранении - убегать от него. В том и в другом
случае действия особи направлены на устранение причины отрицательных эмоций: устранении «чужака» путем его изгнания или самоустранении путем бегства.
Теперь рассмотрим ситуацию, при которой у особи возникает конфликт с другим представителем своей группы. Например, у особи есть потребность двигаться вперед, а на пути стоит другая особь той же группы. Естественно, это мешает особи удовлетворять свою потребность и вызывает отрицательную эмоцию. При этом у особи есть минимум два способа разрешить этот конфликт: обойти препятствие или оттолкнуть его. Второй способ может быть расценен как агрессивное поведение, потому что фактически является атакой на особь своей группы.
Совершенно другая ситуация возникает тогда, когда агрессия проявляется как результат подражательного поведения. Особь, наблюдая действия другой особи своего вида, в том числе агрессивные, отождествляет себя с этой особью и начинает совершать те же действия. (Более подробно это рассмотрено в [15]). Здесь играет роль соотнесение особью своего субъективного Я с другой особью своего вида, позволяющее особи воспринять ее состояние как свое, испытывая при этом те же отрицательные эмоции. Следствием этого будут действия, которые можно интерпретировать как агрессивные: принятие угрожающей позы, сближение и нападение. Выбор объекта агрессии при этом происходит в соответствии с некоторой общей схемой поведения, определяющей приоритетность разных объектов: в первую очередь таким объектом будет «чужак», если он есть (если их несколько, то ближайший или произвольный); затем -сам агрессор. У муравьев аналогичное подражательное поведение может возникать как реакция на запах муравьиной кислоты: когда они ощущают этот запах, они воспринимают его как сигнал к атакующим действиям, выстреливая кислоту во все движущиеся объекты, которые попадают в поле зрения.
Рассмотрим подробнее схемы поведения, в которых в явном виде принято выделять агрессивный компонент: территориальное поведение (охрана кормового участка), доминирование и самосохранение (рис. 3, рис. 4). Если не включать в эти схемы элемент агрессии, то поведение анимата будет определяться
только силой потребности. Например, если потребность в доминировании больше потребности в самосохранении, то анимат будет нападать на соперника, если меньше - убегать.
Потребности
^Самосохранение^
Бегство I подчинение.
Рис. 3. Схема охраны территории (кормовых участков)
Здесь и далее белым кругом обозначены возбуждающие, а черным - тормозящие входы, т.е. входы, увеличивающие и уменьшающие выходную активность элемента соответственно.
Потребности Сенсоры
^Доминирование^
_С
^амосохранение
Рис. 4. Схема доминирования
Включение в схему управления анимата агрессивного компонента позволяет более компактно описывать поведенческие процедуры, вводя в них некий элемент унификации. Этот компонент будет отвечать за оценку текущей ситуации. Комплексно эту оценку можно выразить следующим образом. Если анимат
оценивает ситуацию как угрозу, он нападает на источник этой угрозы; если он оценивает ее как опасность, он убегает. Обобщенная схема поведения с учетом агрессивного компонента приведена на рис. 5.
Потребности
Сенсоры
Агрессивность Действия
(Самосохране
Рис. 5. Обобщенная схема видов поведения с агрессивным компонентом
Таким же образом можно добавить к этой схеме дополнительные потребности.
С технической точки зрения агрессивный компонент может быть реализован с помощью некоторого набора параметров, изменяя которые можно задавать различные тактики поведения анимата, не меняя структуру системы управления.
Аналогичный подход описан в работе [34], где рассматривались принципы паразитического управления аниматом с эмоциональной СУ. Изменение поведения анимата достигалось за счет применения таких механизмов, как изменение весов потребностей, изменение оценочных каналов СУ и влияния на параметры контура обратной связи. В частности, рассматривалась задача перенаправления агрессии особи-хозяина на объект, который оценивается ею как опасный или нейтральный. Было показано, что изменяя некоторые параметры, например, активность тормозящих синапсов, паразит может заставить хозяина нападать на те объекты, на которые в обычном состоянии особь не нападает. Другим рассматриваемым механизмом было пря-
мое выстраивание реакций, когда последовательность ФКД задавалась некоторым управляющим устройством (автоматом), а паразитическое манипулирование сводилось к изменению весов связей в переходах между состояниями этого автомата.
Этому можно дать нейрофизиологическое обоснование. В нейрофизиологии существует так называемый эффект пластичности. Пластичность - это фундаментальное свойство клетки, которое проявляется в относительно устойчивых модификациях реакций нейрона и во внутриклеточных его преобразованиях, обеспечивающих изменение эффективности и направленности межнейронных связей. Свойство пластичности играет особую роль в процессе развития и постоянных изменений нейронной схемы, которые происходят при изменении сенсорного ввода на всех этапах существования организма [40]. Свойство пластичности нейрона лежит в основе процессов научения и памяти целостного организма, проявляющихся на поведенческом уровне. Эффект пластичности, в частности, заключается в том, что изменение весов связей между нейронами может приводить к изменению поведения, и при этом не требуется появления новых правил.
Правила поведения можно описать в терминах коэффициентов определенности (КО), принятых в классической МУСШ-подобной продукционной модели [12]. Для каждого правила существует некоторый априорный вес (значимость), который мы обозначим юк - КО правила. Тогда результирующий КО заключения можно определить как произведение КО правила на КО посылки юС:
(7) ю = юк юс.
Пусть значения всех входных сигналов (в том числе датчиков) нормированы на отрезке [0, 1]. Тогда отрицание может определяться как обратная величина (—ю = 1 - ю), операции «И» и «ИЛИ» сведутся к вычислению минимума и максимума соответственно, а с подтверждающими правилами (посылками) можно поступить естественным образом:
(8) ю = ю1 + ю2 - ю1 ю2.
Таким образом, для изменения поведения необходимо либо менять КО правил, либо вводить в схему дополнительные фик-
тивные сенсоры, которые будут увеличивать или уменьшать силу синаптических связей. Мы остановимся на втором варианте и будем вводить дополнительные сенсоры. С их помощью, в частности, можно реализовать такое поведение анимата, проявления которого сторонний наблюдатель будет воспринимать как агрессивное.
Теперь надо выбрать параметры, которые будут имитироваться этими фиктивными сенсорами. В качестве основных характеристик АП, которые изучаются в исследованиях на животных, обычно учитываются следующие [19]:
1) наследуемый («врожденный») уровень агрессивности -склонность к агрессивным (активным) действиям;
2) текущий уровень агрессивности (возбуждения), который может понижаться или повышаться в зависимости от состояния животного, результатов его действий и др.;
3) пороговый уровень срабатывания (порог ответа центральной нервной системы на стимуляцию), при снижении которого животное чаще проявляет склонность к нападению, чем стремление к бегству.
Наличие некоторого врожденного уровня агрессивности подтверждается, например, высокими показателями наследуемости агрессивности, которые установлены при исследовании разных видов животных, в частности, мышей [39] и птиц [31]. Влияние результатов взаимодействий особей на уровень их агрессивности подтверждается многими исследованиями. После драки текущая агрессивность особей снижается независимо от результатов столкновения (наступает стадия умиротворения). Но в следующем столкновении с незнакомым партнером победившее в драке животное бывает более агрессивным, а агрессивность особей, терпящих поражение, наоборот, подавляется [33].
С учетом вышесказанного можно выбрать эти три параметра для имитации агрессивной составляющей поведения анимата. Правила их задания и изменения могут быть следующими. Начальный уровень агрессии А0 не меняется в течение существования анимата. Он задает начальное значение силы связи между посылками и действием «нападение», а величина, обрат-
ная ему, задает начальное значение силы связи между посылками и действием «бегство». Более высокое значение Ао определяет более агрессивного анимата (т.е. склонного к вступлению в конфликт). Текущий уровень Ас, изначально равный А0, увеличивается при возникновении конфликта и с возрастом анимата; Ас уменьшается как при поражении, так и при победе. Пороговый уровень А1 увеличивается при поражении и уменьшается при победе.
Схема управления с учетом агрессивной составляющей, реализованной с помощью трех параметров, приведена на рис. 6. Для унификации сенсоры «свой» и «чужой» объединены в один сенсор «помеха», так как в случае возникновения конфликта и свой, и чужой рассматриваются как помеха (источник отрицательных эмоций). В контексте данной задачи есть внешние события «победа» и «поражение», влияющие на текущий уровень агрессивности. Мы рассматриваем положительный стимул (изгнание соперника или его подчинение) как победу, а отрицательный стимул (нанесение повреждений и т.п.) как поражение.
Рис. 6. Схема управления с учетом уровня агрессивности (три параметра). Стрелки с «засечками» - операция отрицания (~Х = 1 - X)
Для отображения на схеме влияния текущего уровня агрессивности и порогового уровня введены два виртуальных внутренних сенсора: сенсор А и сенсор Р соответственно. Сенсор А усиливает синаптические связи между сенсорами «помеха» и «дом близко» и действием «нападение» и ослабляет синаптиче-скую связь между сенсором «помеха» и действием «бегство»; сенсор Р - наоборот.
Но, благодаря независимости указанных параметров, можно редуцировать эту схему и оставить только два параметра -начальный и текущий уровни (А0 и Ас). А0, как и прежде, задает начальное значение Ас, а сам Ас определяет текущую склонность анимата к вступлению в конфликт. Величина параметра Ас увеличивается после его победы (Ж = 1) и уменьшается после поражения (Ж = 0). Изменение Ас (ДАс) определяется коэффициентами усиления а и ослабления в соответствующих синаптиче-ских связей:
[1 - е^, если Ш = 1,
(9) Л4 = \ , ,
[е-*, если Ш = 0.
Таким образом, Ас будет играть роль памяти анимата об исходах предыдущих столкновений. При этом на макроуровне также будет обеспечена управляемость поведения, что подтверждается результатами экспериментов, приведенными в следующем подразделе. На рис. 7 представлена гибридная нейро-продукционная система, дополненная сенсорно-вентильной парой, имитирующей фиктивный сенсор А (параметр Ас), и двумя внешними событиями «победа» и «поражение».
На рис. 7 представлены вентильные элементы, о которых говорилось выше. Это - элементы контура положительной обратной связи эмоционального компонента СУ. Роль сервисных элементов (или нейронов, СН) заключается в определении единственного выходного сигнала - реакции системы. В некотором смысле мы можем рассматривать их как элементы сети Кохоне-на, действующих по принципу «Победитель забирает все». Смысл входных синапсов «возбуждение» и «торможение» очевиден: увеличение и уменьшение выходной активности элементов соответственно.
Потребности Сенсоры Вентили Действия ФКД
_„ . связь между эмоциональ-
СН - сервисный .._ . о- возбуждение
. - «НЕ» — действием и .....ная обратная
нейрон _ г л- торможение
потребностью связь ш
Рис. 7. Архитектура эмоциональной СУ с учетом уровня агрессии (два параметра)
4. Реализация обобщенной модели агрессивного поведения
Для подтверждения работоспособности предложенной схемы было проведено имитационное моделирование с использованием системы многоагентного моделирования Куогцш [17]. В
экспериментах исследовалось поведение анимата, обладающего потребностями в пище, самосохранении, комфорте и доминировании. Анимат перемещался по полигону (рис. 8), на котором присутствовали помехи (обозначены красным цветом) и была еда (зеленым).
Ы т. л
Рис. 8. Внешний вид окна моделирования
Для того чтобы уменьшить влияние случайных факторов, помехи не перемещались по полигону, а располагались стационарно. При обнаружении помехи анимат нападал на нее или убегал в зависимости от величины потребностей и своего внутреннего состояния (Ас); в случае нападения его выигрыш или проигрыш определялся соотношением его силы Еа и силы противника и рассчитывался на основе вероятности (10) р = Еа/^а + Гс).
В ходе экспериментов ставилась следующая задача: выявить изменение поведения анимата в зависимости от значений и коэффициентов, которые определяют величину текущего уровня агрессивности. На Ас влияют значение А0, коэффициенты усиления и ослабления силы синаптических связей (а и в) и величина потребностей в самосохранении и доминировании В.
Изменение поведения анимата выражается в соотношении действий «нападение» или «бегство».
Были проведены две серии экспериментов по 10 запусков для каждой комбинации значений исходных параметров; каждый эксперимент - 5000 тактов модельного времени. Потребность в доминировании изменялась от 0,2 до 0,4. Для получения более контрастных результатов в первой серии анимат имел дело с противниками, которые существенно превосходили его по силе, а во второй серии, наоборот, он был существенно сильнее противников. Полученные в ходе экспериментов результаты отражены на рис. 9. Здесь К - соотношение коэффициентов усиления и ослабления синаптических связей а и в: К = а/(а + в).
Рис. 9. Результаты экспериментов: а) серия со слабыми противниками; б) серия с сильными противниками
С одной стороны, эти эксперименты (рис. 9) показали достаточно очевидные результаты. Увеличение потребности в доминировании В, как и увеличение коэффициента усиления а по сравнению с коэффициентом ослабления в (значение К), приводят к росту уровня агрессивности. С другой стороны, эксперименты подтвердили возможность управления поведением ани-
мата с помощью введенных параметров и позволили провести количественную оценку исследуемой зависимости.
5. О профессиональной карьере аниматов
Перейдем теперь от структурной (или реактивной) модели агрессивного поведения к верхнему, феноменологическому уровню управления.
5.1. АГРЕССИВНЫЙ КОМПОНЕНТ ПОВЕДЕНИЯ
В мирмекологии описывается такой интересный феномен, как «профессиональная карьера» муравьев. Суть этого явления заключается в следующем. Изначально молодой особи достается самый неудобный, удаленный от гнезда кормовой участок. В ходе освоения этого участка, по мере роста опыта и пр., муравей постепенно переходит на более удобные, расположенные все ближе к гнезду участки. Вершиной профессиональной карьеры является получение места наблюдателя на куполе гнезда. При этом опытный муравей, прошедший весь этот сложный путь роста, хорошо знает всю ту территорию, которую он успел освоить в процессе своей длительной трудовой деятельности. См., например, работы Захарова [9] или Длусского [6, 30]. Этот механизм освоения территории характерен для муравьев рода Formica, однако есть все основания полагать, что он имеет и сугубо техническую целесообразность с точки зрения стратегии решения задач территориального поведения искусственных агентов - роботов.
Попробуем далее определить, каким образом могла бы решаться задача воспроизведения такого феномена, какие базовые механизмы могут лежать в основе этого поведения.
Судя по всему, проанализировав описание феноменов пищевого поведения (см. ту же работу [9]), схема поведения муравья на «алгоритмическом» уровне выглядит следующим образом:
1. В начале трудового дня муравьи выходят из гнезда и начинают движение по дороге.
2. Обнаружив свободный кормовой участок, муравей начинает его освоение. При этом он, благодаря хорошей памяти, запоминает сам участок и его окружение.
3. Если на участке появляется другой муравей, происходит некий конфликт, в результате которого более молодой или неопытный индивид изгоняется с территории.
4. В результате естественной убыли (смертность, потеря ориентации и пр.) некоторые участки остаются без хозяина. Поскольку муравьи, судя по всему, вовсе не стремятся отправиться именно на свой участок, а пытаются занять первый попавшийся, то рано или поздно на оставшийся без хозяина участок находятся претенденты.
5. Из претендентов на спорном участке остается наиболее агрессивный (опытный, старый).
Итак, эта достаточно четкая схема поведения включает в себя два важнейших компонента: механизм памяти и механизм разрешения конфликта (то поведение, которое можно отнести к категории агрессивного).
Здесь следует отметить, что нашей задачей не является формализация задачи групповой фуражировки, так, как это было предложено в работе [32]. Мы рассматриваем один частный феномен - механизм самоорганизации группы агентов (анима-тов) при решении задачи распределения кормовых участков.
5.2. ПОСТАНОВКА ЗАДАЧИ
Рассмотрим следующую модельную задачу. Пусть имеется гнездо как зона начального положения аниматов. От гнезда идет дорога, проходящая мимо ряда кормовых участков. Каждый кормовой участок окружен некоторым множеством ориентиров - объектов, регистрируемых сенсорной системой аниматов. На рис. 10 приведен пример такого участка - зоны обитания аниматов.
Гнездо
Кормовой участок
Ориентир
Рис. 10. Полигон с кормовыми участками К1-К4
Кормовые участки обозначены, как К1, К2, КЗ и К4. В этом мире аниматов существуют следующие виды объектов: дорога, ориентиры, кормовые участки и особи-аниматы. Анимат-муравей снабжен множеством сенсоров, умеющих регистрировать расстояние до объектов и их характеристики (для наглядности - цвет). Сами аниматы имеют возможность генерировать некий сигнал, который может быть зарегистрирован другими участниками. Это своего рода маяк, позволяющий определить состояние анимата, степень его «агрессивности». Причины возникновения агрессии и способы ее проявления мы подробно рассмотрели ранее, поэтому здесь будем говорить не о внутренних механизмах, а о результатах ее проявления.
Задача заключается в реализации механизма распределения аниматов по территории таким образом, чтобы (а) обеспечивалось накопление опыта (знаний об окружающем мире) аниматов и (б) сохранялась устойчивость системы к внешним возмущениям (естественная убыль участников процесса не нарушала бы единой схемы территориального распределения).
Перечень умений анимата весьма ограничен. Его деятельность складывается из следующих поведенческих процедур:
1) поиск дороги;
2) движение по дороге;
3) поиск кормового участка;
4) запоминание сцены;
5) оценка ситуации.
Двигательные процедуры (1)-(3) реализуются естественным образом, с помощью, например, конечных автоматов. Интересно, что реализация функции запоминания, накопления опыта и узнавания участков является в данной схеме несущественной с точки зрения организации поведения. Одна из простейших реализаций механизма памяти выглядит следующим образом:
Память и опыт. Оказавшись на кормовом участке (для этого регистрируется цвет соответствующего поля), анимат начинает циклический осмотр: регистрируется текущий угол поворота и определяется код объекта (цвет ориентира), попавшего в поле зрения анимата. Таким образом, получается описание текущей сцены следующего вида:
(11) Sc(t) = {(а, {О/})}-
Здесь а - угол поворота, {О/} - множество зарегистрированных в данном положении ориентиров. При этом угол поворота а определяется некоторым шагом, который может быть и весьма большим. Например, в проведенных экспериментах достаточно было осуществлять поворот с шагом в 4 румба (4/32 окружности). Количество регистрируемых ориентиров (их видов или цветов) тоже ограничено. Итак, текущая сцена - это упорядоченный список из элементов {О/}.
Память анимата представляет собой список зарегистрированных сцен Sci с соответствующими весами со{.
(12) Ы{1) = [№, ©,-)].
Распознав сцену в некоторый момент, анимат сопоставляет ее со списком уже имеющихся. Если обнаруживается похожая сцена, то текущая сцена считается знакомой. Анимат в этом случае увеличивает значение соответствующего веса ®г-. Этот вес играет большую роль в поведении анимата, так как он характеризует степень знакомства анимата с этим участком, его опыт. Реализация процедуры сопоставления сцен определяется тем, каким образом регистрируются ориентиры: с использова-
нием вероятностного аппарата, коэффициентов уверенности, двоичной логики и т.п. В любом случае можно использовать результат пересечения компонент двух сцен - текущей Sc(t) и находящейся в списке Scf.
(13) d(Sc{t),Sci) = ЛSc(t)k,Sc(t)k .
k
Итак, по мере появления на том или ином участке анимат запоминает окружение (сцену), регистрируя при этом количество посещений этого участка (параметр co¡).
Конфликты. Процедура оценки ситуации запускается при обнаружении соперника на участке и заключается в том, что анимат устанавливает уровень своей агрессивности и сравнивает его с уровнем агрессивности соперника. Если противник более агрессивен, то анимат покидает участок - управление передается автомату, реализующего процедуру поиска дороги и т.д. Уровень агрессивности определяется следующим соотношением:
(14) A(t) = ^Age(t) + k2®t.
Здесь Age(t) - возраст анимата (в некоторых единицах времени - циклов моделирования), cot - вес текущей сцены (степень «знакомства» участка), k1, k2 - некоторые весовые коэффициенты. Таким образом, уровень агрессивности зависит от возраста (мирмекологи утверждают, что чем старше особь, тем она более агрессивна) и от того, насколько особь знакома с участком, т.е. считает его своим.
Вопросы начального размещения. С одной стороны, в муравьином семействе основной активной силой является опытный муравей-разведчик. Он исследует новые территории, он знаком с окружающей территорией, он даже переносит неопытных молодых особей, не способных к ориентации новом для них пространстве [6]. С другой стороны, по наблюдениям тех же биологов первыми на кормовые участки выходят молодые особи. Именно такой порядок выхода (сначала молодые, затем более опытные) был реализован в проведенных вычислительных экспериментах. С технической точки зрения такая стратегия удобна тем, что молодые особи, первыми приходя на
ближайшие свободные участки, успевают запомнить их до того, когда придет более опытный индивид и прогонит молодого.
Вычислительные эксперименты. Был проведен ряд экспериментов по моделированию поведения группы аниматов на полигоне, представленном на рис. 11. Для этого использовалась среда моделирования Kvorum [17], в которой каждый анимат снабжался множеством поведенческих автоматов. Общий управляющий алгоритм пищевого поведения, схема которого была приведена выше, был реализован мета-автоматом. Задачей мета-автомата было активизировать частные поведенческие процедуры (автоматы) в зависимости от текущих условий и состояния системы. Схема мета-автомата (фактически реализующего общую стратегию пищевого поведения) приведена на рис. 11. Она содержит автоматы, соответствующие процедурам Sleep («спать»), SearchRoad («искать дорогу»), MoveRoad («двигаться по дороге»), SearchFood («искать пищу»), LookAround («оглядеться») и EstimateSit («оценить ситуацию»).
Рис. 11. Мета-автомат, реализующий стратегию пищевого поведения
Мета-автомат реализован как автомат Мили. Пометки на дугах интерпретируются как условие перехода (числитель) и выполняемая процедура (знаменатель). Условие eoj (end of job, конец работы) - это предикат, определяющий условие завершения работы автомата, реализующего соответствующую процедуру. Следует отметить, что переходы из состояния ES определяются результатами выполнения функции оценки EstimateSit: если соперник слабее (менее агрессивен), то анимат остается на кормовом участке (считается победителем - winner). Иначе -начинает искать дорогу, т.е. покидает участок. Автомат прину-
дительно сбрасывается в начальное состояние при наступлении события «ЕпёО/ЖБау» - конец рабочего дня, возвращение в гнездо.
5.3. РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТОВ
Типичная конфигурация эксперимента предполагала, что кормовых участков меньше, чем имеется аниматов-претендентов. В данном случае - 5 аниматов и 4 участка Е1-К4. Участок - это ближайший гнезду. Все аниматы имели ограниченный срок жизни - 100 условных циклов (на один цикл -«год» - приходилось 5000 тактов модельного времени). Кроме того, у аниматов имелся разный начальный возраст: от 1 «года» (анимат А-1, самый молодой) до 40 «лет» (анимат А-5).
На рис. 12 представлен жизненный путь анимата «среднего возраста». По оси абсцисс отложен возраст анимата (от 20 до 100), по оси ординат - количество посещений кормовых участков.
Рис. 12. Жизненный путь анимата «среднего возраста»
Как видно, основной кормовой участок для анимата-«середняка» - это участок . На ближние участки и К2 претендуют более опытные особи. Несмотря на то, что этот анимат посещает ближние участки первым (сначала выходят более молодые), он оттуда изгоняется. Характерными моментами в жизни анимата А-3 являются точки Т1, Т2 и Т3. В момент времени Т1 «умирает» самый старый анимат А-5, который занимал участок ^1. Начинается перераспределение участков, но анимат пока продолжает работать на своем участке (переходной процесс, ему мешает более старший коллега А-2). Начиная с момента времени Т2 анимат А-3 начинает осваивать ближайший участок ^1, который освободил «умерший» к тому моменту времени анимат А-2. Точка Т3 - это окончание устойчивого развития. К этому моменту разница в возрасте аниматов перестает играть значительную роль (как это было в начальный период), разница между уровнями агрессивности у соседей нивелируется (для анимата А-3 участок все-таки не самый знакомый).
Для наглядности ниже изображены графики распределения по территории для самого молодого (рис. 13а) и самого старшего (рис. 13 б) аниматов.
Анимат А-1 начинает осваивать участок лишь к концу своей жизни (вершина его профессиональной карьеры). Поведение же анимата А-5 совсем просто - он постоянно пребывает на участке .
Различные аномалии, типа той, когда анимат А-5 в возрасте 70 «лет» некоторое время поработал на участке ^3, объясняются тем, что и сами сцены распознаются аниматами не всегда однозначно, и существуют помехи при самом движении. Например, если на пути анимата обнаруживается другой индивид, то срабатывает рефлекс обхода препятствия. Иногда это приводит к тому, что анимат теряет цель, пропускает кормовой участок или сходит с дороги.
а) б)
Рис. 13. Жизненный путь аниматов: а) молодая особь: возраст от 1 до 100 циклов; б) опытная особь: возраст от 40 до100 циклов
5.4. ВЫВОДЫ
Сама по себе задача фуражировки, составной частью которой является этап распределения аниматов (роботов, агентов) по кормовым участкам, является весьма популярной в групповой робототехнике (см., например, [37]). Действительно, это весьма наглядная задача, ориентированная на получение практически значимых результатов [43]. Однако в основном при решении этой задачи авторы сосредотачиваются на реализации весьма нетривиальных процедур - от схем разделения труда до совместного планирования распределения участков [44].
В отличие от таких подходов, описанная поисковая схема не требует привлечения никаких дополнительных, искусственных механизмов. Разумеется, ожидать оптимальности решения в такой схеме не приходится. Вопросы оптимальности размещения - это хорошо известная задача, решенная, к примеру, для игр автоматов при распределении ресурсов (кормушек) [28]. Здесь же основным вопросом было определение базовых меха-
низмов, требуемых для получения такого наблюдаемого в природе феномена, как разведка и распределение муравьев по участкам. Оказывается, что такими механизмами является доминирование (как результат агрессивных действий) и память.
6. Заключение
Итак, были рассмотрены два аспекта агрессивного поведения: внутренний, на уровне архитектуры системы управления анимата, и внешний, феноменологический. Несмотря на то, что агрессивность поведения является относительной и ситуативной и имеет оценочный характер, использование понятия агрессии позволяет нам естественным образом описывать поведенческие аспекты функционирования робота (анимата).
Предложенная обобщенная модель агрессивного поведения (раздел 4) позволяет, с одной стороны, учесть опыт предыдущих столкновений (участия в конфликтах), а с другой стороны, имитировать феномен увеличения агрессивности с возрастом ани-мата и эффект забывания собственного опыта. Изменяя значения параметров, мы можем управлять этим поведением и создавать более или менее агрессивных (активных) аниматов. Таким образом, введение в систему управления дополнительного параметра «агрессивность» позволяет обеспечить разнообразие поведения анимата в зависимости от состояния среды и управление аниматом или группой аниматов без дополнительных правил поведения.
Мы старались очень аккуратно обращаться с термином «агрессия» при описании фуражировки (раздел 5). Можно ли считать поведение аниматов при обнаружении претендента на участок агрессивным - это спорный вопрос. С одной стороны, генерация некоторого воспринимаемого и оцениваемого «соперником» сигнала может рассматриваться как принятие «агрессивной» позы или как некий суррогат процедуры нападения. С другой стороны, мы не можем однозначно определить изгнание как агрессивное действие, потому что оно должно приводить к некоторому ущербу, а изгоняемый соперник никакого урона не несет. (Если не считать ущербом необходимость
уходить дальше от гнезда). Кроме того, этот подход не противоречит обобщенной модели агрессивного поведения и базируется на тех же параметрах и эффектах.
Предложенный механизм поведения, имитирующий учет агрессивной составляющей, не зависит от решаемой задачи и может использоваться как базовый при реализации различных моделей социального поведения в групповой робототехнике. В дальнейшем планируется исследовать поведение группы анима-тов, обладающих агрессивным компонентом.
Работа выполнена при финансовой поддержке грантов РНФ 16-11-00018 (архитектура системы управления) и РФФИ 17-29-07083-офи_м (регулятивные механизмы управления поведением).
Литература
1. АНЦУПОВ А.Я., ШИПИЛОВ А.И. Конфликтология. - М.: ЮНИТИ, 2000. - 551 с.
2. БУТОВСКАЯ М.Л. Агрессия и примирение как базовые свойства социальных систем: человек и другие приматы // Материалы конференции «Антропология на пороге III тысячелетия», Москва, 29-31 мая 2002 г. - М.: Старый сад, 2004.- С. 125-160.
3. ГИЛЯРОВ М.С. Биологический энциклопедический словарь / Под ред. М.С. Гилярова. - М.: Советская энциклопедия, 1989. - 864 с.
4. ГОЛЬЦМАН М.Е. Социальный контроль поведения млекопитающих: ревизия концепции доминирования // Итоги науки и техники. Сер. зоол. позв. - 1983. - Т. 12. -С.71-150.
5. ДАНИЛОВА Н.Н., КРЫЛОВА АЛ. Физиология высшей нервной деятельности. - Ростов-на-Дону: Феникс, 2005. -478 с.
6. ДЛУССКИЙ Г.М. Муравьи рода Формика. - М.: Наука, 1967. - 233 с.
7. ЗАХАРОВ А.А. Муравей, семья, колония. - М.: Наука, 1978. - 144 с.
8. ЗАХАРОВ А.А. Организация сообществ у муравьев. - М.: Наука, 1991. -277 с.
9. ЗАХАРОВ А.А. Муравьи лесных сообществ, их жизнь и роль в лесу. - М.: Товарищество научных изданий КМК,
2015. - 404 с.
10. ЗОРИНА З А., ПОЛЕТАЕВА И.И., РЕЗНИКОВА Ж.И. Основы этологии и генетики поведения. Учебник. 2-е изд. - М.: Изд-во МГУ: Изд-во «Высшая школа», 2002. - 383 с.
11. ИЛЬИН Е.П. Эмоции и чувства. - С-Пб.: Питер, 2007. -784 с.
12. КАРПОВ В.Э. Эмоции роботов // Труды XII национальной конференции по искусственному интеллекту с международным участием КИИ-2010, 20-24 сентября 2010 г., Тверь. -Т.3. - М.: Физматлит, 2010. - С. 354-368.
13. КАРПОВ В.Э. Эмоции и темперамент роботов. Поведенческие аспекты // Известия РАН. Теория и системы управления. - 2014. - №5. - С. 126-145.
14. КАРПОВ В.Э. Модели социального поведения в групповой робототехнике // Управление большими системами. -
2016. - Вып. 59. - С. 165-232.
15. КАРПОВ В.Э. Сенсорная модель подражательного поведения роботов // Материалы VI междунар. науч.-техн. конф. "Открытые семантические технологии проектирования интеллектуальных систем" (Open Semantic Technologies for Intelligent Systems, 0STIS-2016), Минск, 18-20 февраля 2016 г. - Минск: БГУИР, 2016. - С. 471-476.
16. КАРПОВ В.Э., КАРПОВА И.П., КУЛИНИЧ А.А. Социальные сообщества роботов. - М.: УРСС, 2019. - 352 с.
17. КАРПОВ В.Э., РОВБО М.А., ОВСЯННИКОВА Е Е. Система моделирования поведения групп робототехнических агентов с элементами социальной организации Кворум // Программные продукты и системы. - 2018. - Т. 31, №3. -С. 581-590.
18. КАРПОВА И.П. Об одной реализации модели агрессивного поведения в групповой робототехнике // Материалы 10-й Всероссийской мультиконференции по проблемам управления (МКПУ-2017), 11-16 сентября 2017 г., с. Дивномор-ское. - Т.2. / Под ред. И.А. Каляева. - 2017. - С. 289-292.
19. КУДРЯВЦЕВА Н.Н., МАРКЕЛЬ А.Л., ОРЛОВ ЮЛ. Агрессивное поведение: генетико-физиологические механизмы // Вавиловский журнал генетики и селекции. - 2014. - Т. 18, №4/3. - С. 1133-1155.
20. ЛОРЕНЦ К. Агрессия (так называемое «зло»). - М.: Республика, 1994. - 272 с.
21. МСХА. Потребности животных // Зооинженерный факультет МСХА [Электронный ресурс]. - URL: http://www.activestudy.info/potrebnosti-zhivotnyx (дата обращения: 22.05.2018).
22. СИМОНОВ П.В. Потребностно-информационная теория эмоций // Вопросы психологии. - 1982. - Т. 6. - С. 44-56.
23. СИМОНОВ П.В. Мотивированный мозг. - М.: Наука, 1987. - 272 с.
24. СИМОНОВ П.В. Созидающий мозг (нейронные основы творчества). - М.: Наука, 1993. - 111 с.
25. ТИНБЕРГЕН Н. Социальное поведение животных / Пер. с англ. под ред. акад. РАН П.В. Симонова. - М.: Мир, 1993. -81 с.
26. ФОМИНЫХ И.Б. Классификация эмоций: информационный подход // Труды 4-й Международной научно-практической конференции "Интегрированные модели и мягкие вычисления в искусственном интеллекте". - 2007. - Т. 2. - М.: Физ-матлит, 2007.
27. ХАЙНД Р. Поведение животных. - М.: Мир, 1975. - 856 с.
28. ЦЕТЛИН М.Л. Исследования по теории автоматов и моделированию биологических систем. - М.: Наука, 1969. - 316 с.
29. BROWN S. et al. Rational aggressive behaviour reduces interference in a mobile robot team // Ргос. Int. Conf. Adv. Robot. ICAR '05. - 2005. - P. 741-748.
30. DLUSSKY G.M., VOLTZIT O.V., SULKHANOV A.V. Organization of group foraging in ants of genus Myrmica // Zool. Zhurnal. - 1978. - Vol. 57, No. 1. - P. 65-77.
31. DRENT P.J., VAN OERS K., VAN NOORDWIJK A.J.. Realized heritability of personalities in the great tit (Parus major) // Proc. R. Soc. B Biol. Sci. - 2003. - Vol. 270, No. 1510. -P. 45-51.
32. FEDOSEEVA E.B. A Technological Approach to the Description of Group Foraging in the Ant Myrmica rubra // Entomol. Rev. - 2015. - Vol. 95, No. 8. - P. 984-999.
33. HSU Y., EARLEY R.L., WOLF L.L. Modulation of aggressive behaviour by fighting experience: Mechanisms and contest outcomes // Biol. Rev. Camb. Philos. Soc. - 2006. - Vol. 81, No. 1. - P. 33-74.
34. KARPOV V. The parasitic manipulation of an animat's behavior // Biol. Inspired Cogn. Archit. - 2017. - Vol. 21. - P. 67-74.
35. KARPOV V.E. Emotions and Temperament of Robots: Behavioral Aspects // J. Comput. Syst. Sci. Int. - 2014. - Vol. 53, No. 5. - P. 743-760.
36. KULINICH A.A. A model of agents (robots) command behavior: The cognitive approach // Autom. Remote Control. -2016. - Vol. 77, No. 3. - P. 510-522.
37. LABELLA T.H., DORIGO M., DENEUBOURG J.-L. Division of Labour in a Group of Robots Inspired by Ants' Foraging Behaviour // Technical Report No. TR/IRIDIA/2004-013, October 12, 2006.
38. MANNING A., DAWKINS M.S. An Introduction to Animal Behaviour. - Cambridge University Press, 1998. - 450 p.
39. VAN OORTMERSSEN G.A., BAKKER T.C.M. Artificial selection for short and long attack latencies in wild Mus musculus domesticus // Behav. Genet. - 1981. - Vol. 11, No. 2. -P.115-126.
40. SCHAEFER N. et al. The malleable brain: plasticity of neural circuits and behavior - a review from students to students // J. Neurochem. - 2017. - Vol. 142, No. 6. - P. 790-811.
41. SCHEUTZ M., SCHERMERHORN P. The More Radical, the Better: Investigating the Utility of Aggression in the Competition among Different Agent Kinds // Proc. 8th Int. Conf. Simul. Adapt. Behav "From Anim. to Animat". - 2004. - P. 445-454.
42. SHILOV I.A. Population homeostasis // Zool. Zhurnal. -2002. - Vol. 81, No. 9. - P. 1029-1047.
43. SICILIANO B., KHATIB O. Springer Handbook of Robotics / Eds.: B. Siciliano, O. Khatib. - Springer International Publishing, 2016. - 2227 p.
44. ZAHADAT P., SCHMICKL T. Division of labor in a swarm of autonomous underwater robots by improved partitioning social inhibition // Adapt. Behav. - 2016. - Vol. 24, March. - P. 1-11.
45. ZHANG Y., VAUGHAN R. Ganging up: Team-based aggression expands the population/performance envelope in a multirobot system // Proc. IEEE Int. Conf. Robot. Autom. - 2006. -P. 589-594.
AGGRESSION IN THE ANIMATS WORLD, OR ABOUT SOME MECHANISMS FOR AGGRESSIVE BEHAVIOR CONTROL IN GROUP ROBOTICS
Irina Karpova, National Research University Higher School of Economics, National Research Center «Kurchatov Institute», Moscow, Cand.Sc., associate professor (karpova_ip@mail.ru). Valery Karpov, National Research Center «Kurchatov Institute», Moscow Institute of Physics and Technology, Moscow, Cand.Sc., associate professor (karpov_ve@mail.ru).
Abstract: Some possible ways of implementing aggression as one of the mechanisms for the social behavior formation in robots groups are discussed in this work. Aggression is considered as a way to resolve conflicts over resources. The features of the aggressive behavior of eusocial insects (ants) are used as a basic model. A reactive model of behavior was proposed. The aggressive component is integrated into the demand-emotional architecture of the animat's control system, which is presented as a hybrid neuroproduction system. Also, the question of using an aggressive component at the phenomenological level of behavior management. Imitation modeling experiments were carried out on the example of realization of domination in a group. The issue of determining the basic mechanisms for feed areas distribution, which is a part of the foraging task, is also considered. It is shown that such mechanisms are domination (as the result of aggressive actions) and the animats
memory. The simulation results confirm that the addition of the "aggressiveness" parameter to the control system provides a variety of animats behavior taking into account the environment state. The proposed aggressive behavior model does not depend on the solved problem, and allows you to manage the group in natural form.
Keywords: group robotics, social behavior models, aggressive behavior, emotion control system, foraging task.
УДК 004.896+007.52 ББК 32.816
DOI: 10.25728/ubs.2018.76.6
Статья представлена к публикации членом редакционной коллегии М.В. Губко.
Поступила в редакцию 22.06.2018.
Опубликована 30.11.2018.