Научная статья на тему 'Формирование оптимального маршрута больших групп интеллектуальных агентов'

Формирование оптимального маршрута больших групп интеллектуальных агентов Текст научной статьи по специальности «Математика»

CC BY
136
23
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНТЕЛЛЕКТУАЛЬНЫЕ АГЕНТЫ / ВЫБОР МАРШРУТА / РЕШЕТКА ЦЕЛЕЙ / ИГРОВАЯ СЕМАНТИКА. / INTELLIGENT AGENTS / ITINERARY CHOICE / GOAL LATTICE / GAME SEMANTICS.

Аннотация научной статьи по математике, автор научной работы — Максимов Дмитрий Юрьевич

В подходе Artificial General Intelligence (Universal AI) интеллект рассматривается как информационный процессор, потребляющий и выдающий информацию, которой и определяется поведение системы. В рамках этого подхода M. Hutter получил способ выбора оптимальной траектории агента в абстрактной среде. Однако этот способ требовал численных оценок вознаграждения при том или ином движении, способ получения которых оставался открытым. Также этот метод не подходит для оценок движения группы агентов. В настоящей работе оценки вознаграждений предоставляются самой средой и предложен способ выбора траектории, который применим для группы агентов. Параллельное выполнение группой интеллектуальных агентов ряда задач, представляется тензорным произведением соответствующих процессов в категории игр Конвея, которая сопоставлена среде и движениям агентов. Оптимальный маршрут группы определяется как игра с наибольшим суммарным выигрышем в этой категории. Выигрыш представлен степенью определенности (видимости) цели агента, т.е. некоторым множеством, а не числом. Доказано, что такое определение выигрыша может быть использовано в категорной конструкции для игр Конвея. В этой категории тензорное произведение является операцией линейной логики. Также линейная логика применяется для выбора целей, которые система может достичь, из всего множества видимых целей. Для этого все множество целей представляется в виде решетки, на которой задана структура линейной логики. Решетка целей в этом случае становится множеством истинностных значений логики. Целям, которые достигаются параллельно, также соответствует тензорное произведение (как и параллельным процессам в среде), но только теперь это произведение элементов решетки целей. Цели выбираются по наибольшей степени истинности того элемента решетки, который соответствует их параллельному достижению. В результате получена формула для оценки наиболее выигрышного маршрута в абстрактной среде для группы агентов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

An optimal itinerary generation of large intellectual agent groups

Intelligence is represented in the Artificial General Intelligence (or Universal AI) approach as an information processor which consumes and gives out information. This information completely determines the system behavior. M. Hutter has obtained an optimal agent trajectory selecting in an abstract environment within this approach. However, the method demands number assessments of the reward in such a movement, and the way to obtain these assessments was not defined. The method does not also fit to estimate an agent group movement. In this paper, reward assessments are represented by the environment. The way to choose a trajectory for an agent group is also suggested. A group of intelligent agents which fulfill a set of tasks in parallel is represented by the tensor multiplication of corresponding processes in the Conway game category. The category corresponds to the environment and agents'' moves. An optimal itinerary of the group is defined as a play with maximal total reward in the category. The reward is represented as a degree of certainty (visibility) of an agent goal, i.e., by some set, not a number. It is proved that such a reward determination may be used in the categorical construction of Conway games. The tensor product in the category is the operation of linear logic. Such logic is also used in selecting goals which the system can achieve of all visible ones. In the purpose, the whole goal set is represented as a lattice with the linear logic structure. The goal lattice is the truth value set of the logic in this case. The tensor product of the lattice elements corresponds to goals which are achieved in parallel. The system goals are chosen by the highest truth value of the lattice element which corresponds to they parallel achieving processes. Such a construction results in the formula of the optimal itinerary estimation in an abstract environment for an agent group.

Текст научной работы на тему «Формирование оптимального маршрута больших групп интеллектуальных агентов»

ФОРМИРОВАНИЕ ОПТИМАЛЬНОГО МАРШРУТА БОЛЬШИХ ГРУПП ИНТЕЛЛЕКТУАЛЬНЫХ АГЕНТОВ

Максимов Д. Ю.1

(ФГБУН Институт проблем управления им. В.А. Трапезникова РАН, Москва)

В подходе Artificial General Intelligence (Universal AI) интеллект рассматривается как информационный процессор, потребляющий и выдающий информацию, которой и определяется поведение системы. В рамках этого подхода M. Hutter получил способ выбора оптимальной траектории агента в абстрактной среде. Однако этот способ требовал численных оценок вознаграждения при том или ином движении, способ получения которых оставался открытым. Также этот метод не подходит для оценок движения группы агентов. В настоящей работе оценки вознаграждений предоставляются самой средой и предложен способ выбора траектории, который применим для группы агентов. Параллельное выполнение группой интеллектуальных агентов ряда задач, представляется тензорным произведением соответствующих процессов в категории игр Конвея, которая сопоставлена среде и движениям агентов. Оптимальный маршрут группы определяется как игра с наибольшим суммарным выигрышем в этой категории. Выигрыш представлен степенью определенности (видимости) цели агента, т.е. некоторым множеством, а не числом. Доказано, что такое определение выигрыша может быть использовано в категорной конструкции для игр Конвея. В этой категории тензорное произведение является операцией линейной логики. Также линейная логика применяется для выбора целей, которые система может достичь, из всего множества видимых целей. Для этого все множество целей представляется в виде решетки, на которой задана структура линейной логики. Решетка целей в этом случае становится множеством истинностных значений логики. Целям, которые достигаются параллельно, также соответствует тензорное произведение (как и параллельным процессам в среде), но только теперь это произведение элементов решетки целей. Цели выбираются по наибольшей степени истинности того элемента решетки, который соответствует их параллельному достижению. В результате получена формула для оценки наиболее выигрышного маршрута в абстрактной среде для группы агентов.

Ключевые слова: интеллектуальные агенты, выбор маршрута, решетка целей, игровая семантика.

1 Дмитрий Юрьевич Максимов, науч. сотр. (dmmax@inbox.ru).

1. Введение

Важными задачами при описании движения групп агентов являются задача целераспределения и задача определения оптимального маршрута. В случае когда эти агенты предполагаются интеллектуальными, они должны самостоятельно решать эти задачи. Данная работа посвящена тому, чтобы представить решение этих задач агентами в абстрактной среде только на основании информации, которая предоставляется средой, и информации о целевом предназначении системы, которая заложена изначально и представлена структурами на множестве целей системы.

В подходе Artificial General Intelligence (AGI) или Universal Artificial Intelligence (UAI) искусственный интеллект представляется как информационный процессор, потребляющий и выдающий информацию, и исследования в этом направлении фокусируются на системах, действующих разумно [10, 11, 12, 14, 15, 20, 23, 24, 25]. В рамках AGI предложен способ выбора оптимальной траектории движения в абстрактной среде наиболее интеллектуального агента в смысле некоторой меры интеллектуальности [16]. Эта модель основана на вероятностном моделировании среды, определении следующего движения такой системы на основании предыдущего опыта, числовой оценке вознаграждения позиций системы и максимизации предполагаемого будущего вознаграждения вдоль траектории. Однако способ получения этой числовой оценки отсутствует. Также нет моделей, представляющих поведение групп таких агентов.

В [18] также рассматриваются вероятностные свойства траектории движущегося агента. Агент находит маршрут, близкий к оптимальному, на решетке, состоящей из клеток с разной непроходимостью. С помощью имитационного моделирования изучается распределение времени выхода агента в конечную точку для случайных ландшафтов разного вида. Для описания движения групп агентов в [3,4] описывается клеточный автомат, моделирующий движение агентов, и исследуются его особенности в связи с типом ландшафта, по которому перемещаются агенты.

В [5, 6, 7] продемонстрировано, что достаточно только наличия структуры (решеточной или еще и моноида, что определяет линейную логику) на множестве задач [6, 7] или целей [5] системы для того, чтобы система вела себя вполне разумно и даже похоже на поведение, например, колонии муравьев [7]. Вероятностного моделирования среды, в отличие от [16] и [18], не предполагается.

В этой статье предлагается развитие подхода [5, 6, 7] исходя из идеи, что параллельное выполнение процессов достижения разных целей и разными агентами в абстрактной среде можно представить как тензорное произведение в линейной логике. Представление параллельно выполняемых процессов тензорным произведением уже использовалось в [21], но в этой работе процессы достижения в среде системой интеллектуальных агентов своих целей формально описываются как игра с вознаграждениями позиций. Такие игры моделируется в категории игр Кон-вея, определенной в [22]. Но, в отличие от [22], вознаграждение позиций представляется множествами, описывающими информацию о целях (представляющими степень их определенности). Таким образом, вознаграждения предоставляются средой и являются элементами решетки множеств, а не числами, как в [16]. Доказано, что такое изменение определения вознаграждения соответствует конструкции [22] и не меняет выводов этой работы.

Кроме того, так же как ив [7], структуры решетки и линейной логики на множествах целей агентов и системы используются для определения приоритетов различных параллельных процессов в такой категории игр. Эти структуры задаются исходя из представлений о назначении системы, в отличие от аналогичных структур в категории игр, которые задаются средой. Выбираются параллельные процессы достижения таких целей, переход на достижение которых имеет наибольшую оценку в решетке целей системы. Решетки целей агентов формируются агентами как их всевозможные намерения и могут использоваться для уточнения выбора маршрута в системе в случае, если однозначной оценки выигрыша маршрута получить не удается.

В результате получена формула, которая определяет маршрут группы и выбор ею целей с наибольшим суммарным вознаграждением. Эта формула отражает движение по пути наибольшей определенности или наибольшей видимости целей, вдоль которого средой предоставляется наибольшая информация о совокупности целей. Выбор же этой совокупности из всего множества видимых целей определяется из представлений о назначении группы, которые определяют логическую структуру на множестве ее задач и, следовательно, оценки той или иной совокупности целей.

Работа построена следующим образом: в разделе 2 как можно проще вводится необходимый математический аппарат. Доказываются теоремы о соответствии используемого определения вознаграждений конструкции из [22]. В разделе 3 представлены способы выбора целей и оптимального маршрута группы. Также обсуждаются трудности такого подхода и способы их преодоления. Раздел 4 заключает работу.

2. Используемый математический аппарат

2.1. РЕШЕТКИ [1]

Определение 1. Частично-упорядоченное множество - это множество, на котором определено бинарное отношение х ^ у, удовлетворяющее для всех х, у, г следующим условиям:

— х ^ х (рефлексивность);

— если х ^ у и у ^ х, то х = у (антисимметричность);

— если х ^ у и у ^ х, то х ^ г (транзитивность).

Это означает, что, в отличие от линейно-упорядоченного множества, не все элементы сравнимы между собой.

Определение 2. Верхней гранью подмножества X частично-упорядоченного множества Р называется такой элемент а е Р, который содержит все х е X.

Определение 3. Точная верхняя грань подмножества X (зирХ) — это такая его верхняя грань, которая содержится в любой другой его верхней грани.

Понятие точной нижней грани (т/Х) определяется двойственно (т.е. это наибольший элемент Ь € Р, содержащийся во всех

Ж € X).

Определение 4. Решетка - это частично-упорядоченное множество, имеющее для любых двух элементов их точную верхнюю грань (или объединение) V и точную нижнюю грань (или пересечение А).

Определение 5. Полурешетка - это частично-упорядоченное множество, в которой для любых двух элементов определена только одна операция — объединение в верхней полурешетке или пересечение в нижней.

Определение 6. Полная решетка - это решетка, в которой любые два подмножества имеют объединение и пересечение. Это означает, что в непустой полной решетке есть наибольший «Т» и наименьший «0» элементы. На диаграмме решетки (например, как на рис. 1) чем больше элемент (т.е. вершина, узел диаграммы решетки), тем выше он расположен, и сравнимые между собой элементы лежат на одном пути из 0 в Т.

Т

^ V

0

Рис. 1. Пример диаграммы решетки

Объединение элементов на диаграмме — ближайший наибольший элемент для обоих, пересечение — ближайший наименьший для обоих. Заметим, что любая конечная решетка является полной.

Определение 7. Образующими решетки (ее генераторами)

называются те элементы, из которых путем применения операций объединения и пересечения получаются все остальные элементы.

Определение 8. В решетках для любых элементов а, b может быть определена импликация с = а ^ b как наибольший элемент, который пересекается с а так же, как Ь: с Л а = b Л а.

Определение 9. Решетка, имеющая импликации, называется брауэровой решеткой. В такой решетке импликация —а = а ^ 0 называется псевдодополнением а.

В брауэровых решетках выполняются законы дистрибутивности для объединения и пересечения. Все конечные дистрибутивные решетки являются брауэровыми.

2.2. ЛИНЕЙНАЯ ЛОГИКА

Исторически первая и наиболее простая семантика линейной логики [13] — это семантика фазового пространства. В этом случае на решетке задано умножение элементов ■, которое определяет дополнительные к решеточным логические операции.

Определение 10. Фазовым пространством называется пара (М, ±), где М — коммутативный (мультипликативный) моноид (В, ■, 1), в котором несущее множество В является решеткой (решеткой подмножеств моноида), а ± С В — произвольный элемент решетки (т.е. подмножество моноида), который принимается за false.

В линейной логике элемент false отличается от 0 (т.е. наименьшего элемента решетки) в общем случае (в отличие от классической или интуиционистской логик). В линейной логике определены следующие мультипликативные (т.е. определяющиеся монои-дальным умножением) операции:

Определение 11. Линейная импликация ^ на элементах решетки X,Y С М производится следующим образом: X ^ Y = {ф ■ ж е Г, Ух е X}.

Определение 12. Дуальный элемент X ^ = X ^ _L — линейное отрицание X.

Определение 13. Ко-тензорное произведение, которое связано с линейной импликацией ^ на элементах решетки X,Y С М, производитеся следующим образом: X^Y = X± ^

Y = (Х± ■ Y±)±.

Элемент false является нейтральным элементом операции 2?. Линейная логика — ресурсозависима: в ней посылка (ресурс) может быть употреблена только один раз. Поэтому импликация X ^ Y интерпретируется как потребление X и получение

Y [13].

Определение 14. Определена также мультипликативная конъюнкция или тензорное произведение, следующим образом: X ® Y = (Х ^ Y±)± = (X ■ Y)±± = (XY±)±. I — нейтральный элемент мультипликативной конъюнкции, дуальный

Определение 15. Здесь везде X,Y — факты, т.е. такие подмножества М, что X = Xили, эквивалентно, X = Y± для некоторого Y с М.

Важно отметить, что консеквентом импликации может быть только факт. Истинными (valid) считаются факты, которые включают в себя моноидальную единицу 1. Например, I = = {1}^

Определение 16. На фактах определены также решеточные, дуальные друг другу, операции аддитивной конъюнкции & и аддитивной дизъюнкции ® (по сути это пересечение и объединение элементов решетки): X&Y = X Л Y; X ® Y = (X V = (Xх Л Y±)±.

Их нейтральные элементы - Т для ® и 0 для & - также связаны отношением дуальности: Т^ = 0; 0^ = Т, где Т = М = 0±; 0 = М± = 0^. Дуальность операций понимается как в теории множеств: V^ = Л, Л^ = V, т.е., например, (а V Ь)± = а± Л Ь±, где дуальность означает дополнение.

Нам потребуется также определение экспоненциала !. Для этого в фазовом пространстве выделяются два взаимно дуальных множества открытых Ор и замкнутых С1 фактов.

Определение 17. Множество замкнутых фактов F обладает следующими свойствами: 52

• & замкнуто относительно аддитивной конъюнкции &.

• & конечно замкнуто относительно мультипликативной дизъюнкции (т.е. мультипликативная дизъюнкция конечного числа слагаемых содержится в &).

• ± — наименьший факт (относительно включения) в &.

• для всех X е & Х^Х = X.

Определение 18. Множество открытых фактов 3, которое дуально &, обладает дуальными свойствами:

• 3 замкнуто относительно аддитивной дизъюнкции ®.

• 3 конечно замкнуто относительно мультипликативной конъюнкции

• I — наибольший факт (относительно включения) в 3.

• для всех X е 3 X ® X = X.

Наименьшим открытым фактом является 0. Соответственно, наибольшим замкнутым — Т. В такой структуре экспоненциалы определяются так:

• IX — наибольший открытый факт, включенный в X;

• ?Х — наименьший замкнутый факт, содержащий в себе X.

Легко заметить, что мы имеем две полурешетки — нижнюю & и верхнюю 3.

В этом определении фазового пространства первичным является определение умножения элементов, которое задает все мультипликативные операции. В результате получается линейная логика с определенными свойствами. Но на практике можно исходить из определения классов открытых и замкнутых фактов. Эти классы определяются требованиями задачи. Например, поскольку консеквентом импликации может быть только факт, естественно

потребовать минимальности количества не-фактов. Тогда требование выполнения свойств линейной логики приводит к определению произведений всех элементов решетки [7, 21].

Для этого при выборе элементов, дуальных к не-фактам, следует использовать свойство

1) X С X

Для определения умножения можно использовать еще следующие требования:

2) X ^ X ^ I;

3) I ^ X = X;

4) X ^ (В&С) = (Х ^ В)&(Х ^ С);

5) X ^ Вх = X ^ С±, если В± = С±.

Последнее условие означает, что один и тот же факт может быть дуалом как факта, так и не-факта.

6) IX ^ 0 = —IX [19].

Здесь —IX — решеточная операция отрицания, т.е. наибольший элемент решетки, не пересекающийся с IX.

В результате получается недоопределенная система уравнений для определения произведений элементов решетки, поскольку этих свойств не хватает для однозначного вычисления. Однако это приводит к большей гибкости при выборе варианта поведения (см. разд. 3.3).

2.3. ИГРЫКОНВЕЯ

Определение 19. Игра (game) Конвея определяется в [22] как корневой граф, в котором вершины V являются позициями игры, дуги Е С V х V — ее движениями и каждой дуге присвоена полярность ±1 в зависимости от того, движение это игрока или оппонента.

Определение 20. Траектория (play) — это путь из корня

*

графа. Путь альтернирован, если полярности на соседних ребрах чередуются.

Определение 21. Стратегия определяется как непустое множество альтернированных путей четной длины, которые начинаются движением оппонента, замкнуто по префиксу четной длины (т.е. префикс четной длины также принадлежит стратегии) и детерминировано. Детерминированность означает, что два разных пути с общим префиксом, которые различаются двумя движениями, должны совпадать.

Определение 22. Дуальная игра (play) Xх определяется как игра, в которой полярности у всех дуг обращены.

Определение 23. Тензорное произведение X ® Y двух игр Конвея X = (Vx,Ех) и Y = (Vy,Еу) определяется как асинхронное произведение графов двух этих игр: позициями произведения являются пары (х, у), которые обозначаются х ® у, с корнем *х= ® *y, так что Vx®y = Vx х Vy; движения

, . . , \z ® у, если х ^ z е Ех, ,

(ребра) Ex ® Еу = {х ® у ^ < } и по-

I х ® z, если у ^ z е Еу;

лярность движения в X ® Y наследуется из соответствующего

движения в X или Y.

Тензорное произведение таких игровых процессов интерпретируется как их параллельное выполнение [22]. Можно также определить тензорное произведение стратегий [22], которые являются морфизмами в категории таких игр, но оно нам не потребуется и здесь не приводится.

В категории таких игр моделируется линейная логика (обобщенная). Объектами этой категории являются игры Конвея, а морфизмами X ^ Y — стратегии в X^ ^ Y = X ^ Y. Следует заметить, что на графах игр операция ^ совпадает с ® в этом определении, так что в [22] они даже не различаются. Для стратегий определена их композиция [22], но это определение нам не потребуется и здесь не приводится.

Игра Конвея с вознаграждением [22] — это игра с дополнительным весом в каждой вершине {1,1/2, 0}, в зависимости от

выигрышности позиции: позиция считается выигрышной, если ее вес 1 или 1/2. Для тензорного произведения игр эти веса подчиняются булевским правилам конъюнкции и импликации. Таким образом, игра X ® Y Конвея с вознаграждением определяется как игра X ® Y с вознаграждениями кх(х ® у) = кх (х) Л ку (у) и игра X ^ Y имеет вознаграждения kx^Y (х ^ у) = кх (х) ^ кг (У).

Определение 24. Стратегия является выигрышной, если каждая траектория (play) заканчивается в выигрышной позиции.

В категории игр Конвея с вознаграждениями морфизмами являются выигрышные стратегии.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Докажем, что категорная конструкция не меняется, если числовые веса заменяются множествами, которые образуют брау-эрову решетку, булевская конъюнкция — решеточной, а веса в линейной импликации выражается через решеточные операции. Чем большее множество связано с позицией, тем она выигрышней. Выигрышными считаются все позиции с весами, отличными от 0 (пустого множества). Предполагается, что существует некоторое универсальное множество, содержащее все остальные, которое является наибольшим элементом Т решетки. В таком случае оценки выигрыша для тензорного произведения и импликации представляются следующим образом: kx(х ® у) = кх (х) ® kY (у) = кх (х) Л ку (у), kx^Y (х ^ у) = кх (х) ^ ку (у) = кх± (х) V ку (у) = —кх (х) V ку (у), где —к — псевдодополнение множества к. Таким образом, в дуальной игре X^ с вознаграждениями выигрыш позиции определяется как —к, где к — выигрыш в игре X.

В получающейся брауэровой решетке М предполагается, что не существует такого элемента к = 0, что к получается как пересечение всех элементов х = 0 решетки М: к = ДхеМ х. Это означает, что —к = 0, Ук = Т. В разделе 3.2 выигрыш к = Т никогда не возможен, поэтому примем, что —к = 0, Ук £ М.

В этом случае так определенные выигрышные стратегии образуют композиции, как требуется для морфизмов:

Предложение 1. Стратегия р о а : X ^ Z является выигрышной, когда две стратегии а : X ^ У и р : У ^ Z -выигрышные.

Доказательство. Стратегии в категории игр Конвея подчиняются правилу композиции [22]. Поэтому достаточно проверить условие выигрышности. Но это условие выполняется тривиально в силу кх^у = —кх V ку и —к = 0, У к € М.

Докажем также, что введенное определение для выигрышей линейной импликации законно:

Предложение 2. Категория игр Конвея с вознаграждениями, в которой выигрыши позиций принимают значения в брауэро-вой решетке, является симметричной моноидально-замкнутой.

Доказательство. Категория игр Конвея является симметричной моноидально-замкнутой [22]. Поэтому достаточно проверить условие (кх ® ку) ^ кг = кх ^ (ку ^ кг). Но это условие выполняется в силу выполнимости в брауэровых решетках формулы — (кх А ку) V кг = —кх V (—ку V кг).

Таким образом, для введенного определения морфизмов как выигрышных стратегий с выигрышем, оценивающимся множеством, категорная конструкция [22] не меняется.

3. Выбор маршрута

3.1. ВЫБОР ЦЕЛЕЙ

Отождествим цели системы с процессами или задачами их достижения и далее будем использовать эти понятия как синонимы. Примем, что наиболее желательное поведение системы состоит в достижении всех целей, а неприемлемое поведение состоит в бездействии. В таком случае ценности различных вариантов поведения системы, т.е. ценности разных наборов возможных процессов, образуют решетку целей М. Чем выше в диаграмме решетки расположен набор выполняемых процессов, тем такое поведение более ценно, однако не все элементы решетки сравнимы между собой (рис. 2).

В этой решетке пересечения означают подпроцессы, кото-

рые входят в различные задачи. Например, элемент с\ обозначает движение роботов-дворников при выносе Е и поиске Х\ мусора в [7]. Объединения генераторов соответствуют объединению различных процессов, которые не выполняются параллельно.

Рис. 2. Пример решетки задач системы. Элементы Xг и Е являются генераторами, т.е. отдельными процессами

Определим на решетке моноидальное умножение элементов и классы открытых Ор и замкнутых С1 фактов (на рис. 2 обведены линиями), т.е. структуру линейной логики в соответствии с правилами 1-6 раздела 2.2. В этом случае параллельно выполняемым процессам достижения разных целей будет соответствовать тензорное произведение соответствующих элементов решетки. Приоритеты различных параллельно выполняемых процессов и, соответственно, выбор наиболее предпочтительного варианта определяются из сравнения оценок соответствующих тензорных произведений (произведение элементов решетки - это тоже элемент решетки, и чем выше он лежит на диаграмме решетке, тем он более ценен).

Тогда линейную импликацию X ^ У на этой решетке можно рассматривать как переход от выполнения одного набора

процессов X к другому У. Значения таких импликаций можно сравнивать так же, как тензорные произведения и так же выбирать наиболее предпочтительный вариант перехода в случае необходимости нового выбора целей. Эта импликация выражается через умножение элементов и вычисление дуальных так: X ^ У = (X • У±)± = (X ® У±)± (раздел 2.2). Поскольку умножения элементов вычисляются неоднозначно (соответствующая система линейных уравнений недоопределена), то в общем случае такие импликации и тензорные произведения только на основании этой системы уравнений могут иметь несколько значений, что может быть использовано для устранения неопределенности при сравнении несравнимых значений в решетке (раздел 3.3).

Исходно предполагается, что система I агентов движется в некоторой абстрактной среде, первоначально не видя целей. Эта среда никак не формализована, а просто представляет для агентов источник информации (которую агенты оценивают сами, по своим моделям) о возможности движения и о целях. Поэтому I процессов движения в среде aj должны быть добавлены в образующие решетки целей М. Поскольку цели в среде присутствуют, но не видны, это означает, что среда видна до некоторого горизонта, причем горизонт может меняться в зависимости от направления. После обнаружения п целей bi система должна выбрать к из них в соответствии со своей решеткой целей и своими возможностями. Именно, выбираются те к целей, достижение которых возможно и для которых переход от свободного движения к их достижению имеет наибольшую оценку в решетке целей М: а\ ® ... ® щ ^ Ь\ ® ...Ък = (а\ ® ... ® щ ® (Ь\ ® ...Ък= тах. Это максимальная оценка импликации, представляющей переход от параллельного выполнения одних процессов к параллельному выполнению других. Эта оценка должна быть наибольшей среди всех возможных параллельных процессов достижения целей из п обнаруженных.

3.2. ОПРЕДЕЛЕНИЕ ВЫИГРЫША ПОЗИЦИЙ

Рассмотрим процесс взаимодействия системы со средой как игру Конвея. В этой игре среда - это игрок, который предоставля-

59

ет системе (оппоненту) информацию об объектах среды. Поэтому стратегии являются выигрышными для среды и выигранная игра заканчивается в позиции, в которой системе предоставляется наиболее полная информация. Система движется в среде из одной позиции в другую, используя на каждом шаге эту информацию, для того чтобы достичь свои цели. Эти цели являются некоторыми объектами среды и, с другой стороны, являются элементами решетки целей системы. Для системы из I агентов получается I параллельных процессов (корневых графов) достижения целей системы и, соответственно, полная игра будет их тензорным произведением. Таким образом, изначально система находится в среде в корневой позиции * = *1 ® ... ® * полной игры I агентов А = А1 ® ... ® А1, имея решетку общих целей М. В силу того что среда видна только до горизонта, все пути в этой игре конечны и решетки намерений отдельных агентов М.г = 1,...,1, не определены до тех пор, пока нет видимых целей (предполагается, что агенты заранее не специализированы на определенные цели).

Игра Аг представляет все возможные свободные (не имеющие конкретной цели) движения агента г в среде. Реальная траектория выбирается из требования максимального общего выигрыша вдоль предполагаемого пути. При этом движения агента в среде оцениваются в соответствии с критерием оптимальности свободного движения а^ в игре Аг или процесса Ь^ в игре В^ достижения цели Ь^. Здесь различаются в обозначениях цель Ь ^ (процесс ее достижения) как элемент решетки целей и игра В^ (конкретная реализация процесса достижения цели, конкретный путь в среде).

В случае процесса свободного движения а^ в игре Аг таким критерием оптимальности может быть наибольшая степень свободы будущих движений, или наибольшая степень видимости из позиций предполагаемого пути, или и т.д., лишь бы эта информация описывалась множеством, которое является образом среды. В случае процесса достижения цели Ь ^ положим, что чем лучше цель видна, т.е. чем больше о ней информации предоставляется средой, тем больше выигрыш. Таким образом, при движении

системы в среде информация, предоставляемая системе средой в позиции pi о цели bj или о среде а (т.е. образ цели или среды), является выигрышем в этой позиции и описывается множеством k(pi, bj) или k(pi, а). В случае если система имеет в памяти некий образ цели или образ среды (при движении по определенному маршруту в среде), это множество может соответствовать степени пересечения образа из памяти с полученным от среды. Чем больше это пересечение, чем более отчетливо идентифицируется цель, тем выигрыш больше. Однако в силу того, что невозможно иметь в памяти полный, всесторонний образ цели, невозможно получить и полное совпадение образа в памяти с образом, полученным от среды. Поэтому выигрыш не может быть равен максимальному элементу решетки множеств, описывающей цель.

Предположим, что система обнаружила п целей bi...bn. Тогда выигрышная стратегия игры А1 = А\ ® ... ® А[ ^ В\ ® ...Вк определяет переход к новой игре А' I параллельных процессов достижения к целей, которые могут быть достигнуты с наибольшей оценкой, из обнаруженных п в следующем смысле.

Будем выбирать путь из требования максимизации выигрыша вдоль пути внутри горизонта видимости:

(1) (ai ® ... ® Щ ^ bi ® ... ® Ък) =

= А^В-1 ®...®Вк ((а1 ® ... ® albi ® ... ® Ък) =

- ((°1 ® ... ® v <1 ...®Bk(bi ® ... ® Ьк) -

= -tf?M®...®Ai)(а1 ® ... ® а1) v кРвЛ...®вк(Ь1 ® ... ® Ък) = = maxM I (-kAl (ai) Л... Л -kAl Ы) I J (kBi (bi) Л... Л кВк (bk))].

plays

play play

Здесь максимум берется среди всех возможных путей. Выигрыш

kVAll...®Al^B1®...®Bk (fli ® ... ® al ^ Ь1 ® ... ® Ьк) максимизируется в игре А1 и соответствует конкретному пути в среде, конкретной

реализации процесса а1 ® ... ® щ ^ bi ® ... ® Ьк достижения

к целей. При этом сами параллельные процессы достижения к

целей выбираются из требования наибольшей оценки в решет-

ке целей для этих процессов2. Эта формула аналогична формуле из [16] в том смысле, что максимизируется выигрыш вдоль планируемого пути, но сам путь и оценки выигрыша вычисляются иначе. Кроме того, в [16] нет способа выбора целей, к которым планируется путь.

Смысл формулы (1) в том, что, в соответствии с семантикой линейной импликации, система переходит от выполнения процессов свободного движения А^ к процессам достижения целей В^. Выигрыши вычисляются для стратегии (т.е. пути) игры А± В (с упрощением обозначений). При этом максимизируется информация о целях kвj (Ь^) и минимизируется информация о свободном движении к^ (а^) (поскольку максимизируются псевдодополнения - к аз ((!])). Такие к и —к можно рассматривать как аргументы и контраргументы для соответствующего движения в соответствии с идеями ДСМ-метода правдоподобного вывода [2, 8, 9]: чем лучше цель видна (т.е. чем больше о ней информации), тем сильнее аргументы для перехода на ее достижение. Также чем сильнее контраргументы против свободного движения (т.е. чем меньше информации о возможности такого движения), тем сильнее аргументы для перехода от свободного движения к достижению какой-либо цели.

3.3. ТРУДНОСТИ ВЫБОРА

Первое замечание касается стабильности выбора целей в процессе их достижения. Поскольку только что обнаруженные цели видны плохо (так как степень видимости с расстоянием уменьшается), то идентифицировать их при обнаружении можно только с какой-то вероятностью. Поэтому выбор параллельных процессов достижения приоритетных целей из всех обнаруженных может меняться в процессе движения. Так же как и намерения отдельных агентов.

2 Следует подчеркнуть, что операции ® и ^ для игр А, В и для целей а, Ъ разные. Для целей они определяются структурой линейной логики на решетке целей, - это внутренняя характеристика системы. А для игр структура линейной логики задается средой.

Второе замечание касается трудностей вычисления маршрута для больших групп. Поскольку выбор основан на переборе вариантов всех возможных путей, то с ростом числа агентов растет и объем вычислений. В случае близкого горизонта видимости, когда длина планируемых путей мала (например, у муравьев или роботов-дворников [7]), увеличение числа агентов не сильно скажется на времени вычисления, но с увеличением дальности видимости сложность вычислений может стать серьезной проблемой.

Третье замечание относится к однозначности определения маршрута и выбора целей. Здесь основное достоинство метода — решеточная структура выигрышей и множества целей — становится недостатком: в решетке не все элементы сравнимы между собой. Поэтому в случае необходимости выбора между несравнимыми значениями нужны дополнительные меры. Для этого можно воспользоваться большей степенью видимости какой-то цели по сравнению с другими (пример 1) при выборе целей и разной ценностью целей в решетках намерений отдельных агентов при выборе маршрута(пример 2).

Пример 1. Предположим, что решетка целей группы роботов-дворников имеет вид рис. 2 и два робота находятся в состоянии поиска мусора Хь Это означает, что в системе выполняется процесс Х1 ® Х1. При обнаружении двух куч мусора, в одной из которых есть объект, требующий распила (задача Хэ), возможны следующие переходы к выполнению других процессов:

1) Х1 ®Х1 ^Е ®Е = (Х1 ®Х1 ® (Е ® Е)±)±;

2) Х1 ®Х1 ^Е ®Хэ = (Х1 ®Х1 ® (Е ® Х3)±)±;

3) Х1 ® Х1 ^ Хэ ® Хэ = (Х1 ® Х1 ® (Х3 ® х3)±)±.

В варианте 1 оба робота переключаются на вынос мусора. В варианте 2 один робот выносит мусор, а другой пилит то, что нельзя вынести. В варианте 3 оба робота переключаются на распил. В [7] вычислены все используемые здесь произведения, откуда следуют следующие возможные значения импликаций, которые оценивают варианты переходов:

1) Хг ® Хг ^ Е ® Е = сз;

2) Хг ® Хг ^ Е ® Хзз = ^з;

3) Хг ® Хг ^ Хзз ® Хзз = ггв.

Оказывается, что в первом варианте оценка меньше, чем в двух других, а оценки вариантов 2 и 3 несравнимы. Но предположим, что мусор, который не требует распила, виден лучше, или он ближе, или есть еще какое-нибудь преимущество. Тогда вариант 2 предпочтительнее для перехода, поскольку он включает задачу

выноса Е не требующего распила мусора наряду с распилом Х3. •

Пример 2. В случае несравнимости выигрышей при выборе маршрута можно использовать метод из [5]. Пусть имеется игры трех агентов А^ ив позициях рг обнаружены цели Ьг, &2 (рис. 3).

Рис. 3. Пример игры (изображены только движения системы) Предположим также, что выигрыши в позициях рг удовлетворяют следующим условиям:

(2) кАг(Рг,Ьг) > кА2(РгМ) >зкАз(РгМ),

(3) кАз(рг,Ь2) озкА2(РгМ) > кА1 (рг,Ь2),

где знак м означает несравнимость. Ясно, что цель Ьг будет достигаться агентом-1, поскольку он видит ее лучше других. Пусть для двух оставшихся агентов решетки желаний имеют вид рис. 4. 64

Рис. 4. а) решетка желаний агента-2, б) решетка желаний

агента-3

На этом рисунке bi - это желания агента, цели, которые агент хотел бы достичь; Uy2 — возможное намерение, в которое входят два желания, т.е. U\2 - это те желания, которые система способна осуществить. Таким образом, агент-2 может при возможности достичь целей Ь\ , &2, а агент-3 имеет еще дополнительную цель Ьз. Тогда, в соответствии с [5], ценность намерения агента можно оценить формулой:

(4) V'intention = ^desires /Ndesires total,

где Vintention — ценность намерения, ndesires — количество желаний в намерении, Ndesires total — общее количество желаний агента. Эта формула оценивает намерение по двум параметрам: количеству желаний, входящих в намерение и близости намерения к наиболее желательному, т.е. к наибольшему элементу решетки, который объединяет все цели. Таким способом можно сравнивать ценности вершин в разных решетках. Например, ценность варианта U\2: Vu12 =2/3. Поскольку Vb2 = 1/2 в решетке агента-2, а Vb2 = 1/3 в решетке агента-3, то следует выбрать агента-2 на достижение цели 62, поскольку этот выбор более ценен. Таким образом, агент-3 остается свободным и может искать цель 63. Результирующая игра изображена на рис. 3 жирными линиями. •

Наконец последний тонкий момент связан с тем, что цель может быть видна, но пути в среде к ней может не быть. Это означает, что может не быть монотонной последовательности выигрышей kа (Pi, bj ), которые относятся к достижению цели bj, в позициях pi движения А.

4. Заключение

В работе представлен подход к решению группой интеллектуальных агентов двух задач: задачи целераспределения и задачи выбора оптимального маршрута в среде. Решение этих задач основано только на информации, которую агенты получают от среды, и информации о целевом назначении системы агентов, которая заложена в систему изначально и представлена структурой линейной логики на множестве целей системы.

Эта структура получается из общих требований выполнения свойств линейной логики на решетке целей системы и представляет внутреннюю логику, присущую системе. Решетка же целей получается из соотношения между собой задач, которые призвана решать система (ее целей), и представления о наиболее активном поведении системы, когда достигаются все цели, как о наиболее ценном, а о бездействии — как о наименее ценном. В результате процессы параллельного достижения некоторых целей представляются как тензорное произведение в линейной логике на решетке целей, и можно выбирать те процессы, переход на выполнение которых наиболее ценен. Такой переход представляется линейной импликацией, значение которой оценивается наибольшим возможным элементом решетки целей. Так происходит выбор достижимых целей из всех обнаруженных.

Интересно, что маршрут выбирается тоже используя структуру линейной логики, но только эта структура задается средой: все возможные маршруты можно представить как пути в категории игр, в которой моделируется эта линейная логика. Опять переход от одной игры к другой представляется линейной импликацией и выбирается такая результирующая игра, суммарный выигрыш вдоль которой наибольший. Выигрыш, в свою очередь, определяется образами среды или цели в позициях игры. Это то, что агент видит на планируемом пути и эта информация предоставляется средой.

Получается, что в предложенном способе определения целей и маршрута в рамках подхода ИАТ, т.е. при представлении

агента как информационного процессора, линейная логика играет важную роль. До конца причина этого явления не понятна, но, возможно, дело в том, что в линейной логике посылка в выводе может использоваться только раз, что соответствует переходу от одного процесса, который завершается, к другому, который начинается. Это как раз соответствует внутренней логике процессов, происходящих в такой системе.

Литература

1. БИРКГОФ Г. Теория решеток. - М.: Изд-во «Наука», -1984. - 567 с.

2. ВИНОГРАДОВ Д.В. Еще один вариант логики аргументации // Научно-техническая информация. - Сер. 2. - №5. -М.: ВИНИТИ, 2006. - С. 1-4.

3. КУЗНЕЦОВ А.В. Упрощенная модель боевых действий на основе клеточного автомата // Известия РАН. Теория и системы управления. - 2017. - Т. 56, № 3. - С. 59-71.

4. КУЗНЕЦОВ А.В. Организация строя агентов с помощью клеточного автомата // Управление большими системами. - 2017. - №70. - С. 136-170.

5. ЛЕГОВИЧ Ю.С., МАКСИМОВ Д.Ю. Выбор исполнителя в группе интеллектуальных агентов // Управление большими системами. - 2015. - №56. - С. 78-94.

6. МАКСИМОВ Д.Ю. Реконфигурирование системной иерархии методами многозначной логики // Автоматика и телемеханика. - 2016. - №3. - С. 123-136.

7. МАКСИМОВ Д.Ю., ЛЕГОВИЧ Ю.С., РЫВКИН С.Е. Влияние структуры системных задач на поведение системы // Автоматика и телемеханика. - 2017. - №4. - С. 135-148.

8. ФИНН В.К. Об одном варианте логики аргументации // Научно-техническая информация. - Сер. 2. - №5-6. - М.: ВИНИТИ, 1996. - С. 3-19.

9. ANSHAKOV O.N, FINN V.K., VINOGRADOV D.V. Logical Means for Plausible Reasoning of JSM-type / Многозначные логики и их применение: Т.2: Логики в системах искусственного интеллекта; [под ред. В.К. Финна]. - М.: Изд-во ЛКИ, 2008. - С. 226-236.

10. BOSTROM N. Superintelligence: Paths, Dangers, Strategies. -New York: Oxford University Press, 2014.

11. EVERITT T., HUTTER M. Universal artificial intelligence // In: "Foundations of Trusted Autonomy. Studies in Systems, Decision and Control" / Eds.: Abbass H., Scholz J., Reid D. -Springer, Cham, 2018. - Vol. 117. - P. 15-46.

12. FALLENSTEIN B., SOARES N. Problems of Self-reference in Self-improving Space-Time Embedded Intelligence // Int. Conf. on Artificial General Intelligence. - 2014. - P. 21-32.

13. GIRAR J.-Y. Linear logic // Theoretical Computer Science. -1987. - No. 50. - P. 1-102.

14. GOERTZEL B. Artificial general intelligence: concept, state of the art, and futureprospects // Journal of Artificial General Intelligence. - 2014. - Vol. 5, No. 1. - P. 1-48.

15. HEIN A.M., CONDAT H. Can Machines Design? An Artificial General Intelligence Approach // ArXiv.org, 2018. -URL: https://arxiv.org/pdf/1806.02091.pdf (дата обращения: 16.10.2018).

16. HUTTER M. One Decade of Universal Artificial Intelligence // Theoretical Foundations of Artificial General Intelligence. -2012. - P. 66-88.

17. KUZNETSOV A.V. Model of the motion of agents with memory based on the cellular automaton // Int. Journal of Parallel, Emergent and Distributed Systems. - 2018. - Vol. 33, No. 3. -P. 290-306.

18. KUZNETSOV A., SHISHKINA E., SITNIK S. Probabilistic Properties of Near-Optimal Trajectories of an Agent Moving over a Lattice // Journal of Optimization Theory and Applications. - 2018. - https://doi.org/10.1007/s10957-018-1374-6.

19. LAFONT Y. Linear Logic Pages - URL: http://iml.univ-mrs.fr/ lafont/pub/llpages.pdf (дата обращения: 16.10.2018).

20. LEIKE J., HUTTER M. Bad Universal Priors and Notions of Optimality // JMLR: Workshop and Conf. Proc. - 2015. -Vol. 40. - P. 1-16.

21. MAXIMOV D., LEGOVICH Y., GONCHARENKO V. A Way to Facilitate Decision Making in a Mixed Group of Manned and Unmanned Aerial Vehicles // ArXiv.org, -2018. - URL: https://arxiv.org/abs/1809.10441 (дата обращения: 16.10.2018).

22. MELLIES P.-A., TABAREAU N. Resource modalities in tensor logic // Ann. Pure. Appl. Logic. - 2010. - No. 5. - P. 632-653.

23. SOARES N. Formalizing Two Problems of Realistic World-Models // Intelligence.org. - 2015. - URL: https://intelligence.org/files/RealisticWorldModels.pdf (дата обращения: 16.10.2018).

24. SOARES N., FALLENSTEIN B. Questions of Reasoning Under Logical Uncertainty // Intelligence.org. - 2015. - URL: https://intelligence.org/files/QuestionsLogicalUncertainty.pdf. (дата обращения: 16.10.2018).

25. SOARES N., FALLENSTEIN B. Toward Idealized Decision Theory // ArXiv.org, - 2015. - URL: https://arxiv.org/abs/1507.01986. (дата обращения: 16.10.2018).

AN OPTIMAL ITINERARY GENERATION OF LARGE INTELLECTUAL AGENT GROUPS

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Dmitry Maximov, Institute of Control Sciences of RAS, Moscow, researcher (dmmax@inbox.ru).

Abstract: Intelligence is represented in the Artificial General Intelligence (or Universal AI) approach as an information processor which consumes and gives out information. This information completely determines the system behavior. M. Hutter has obtained an optimal agent trajectory selecting in an abstract environment within this approach. However, the method demands number assessments of the reward in such a movement, and the way to obtain these assessments was not defined. The method does not also fit to estimate an agent group movement. In this paper, reward assessments are represented by the environment. The way to choose a trajectory for an agent group is also suggested. A group of intelligent agents which fulfill a set of tasks in parallel is represented by the tensor multiplication of corresponding processes in the Conway game category. The category corresponds to the environment and agents' moves. An optimal itinerary of the group is defined as a play with maximal total reward in the category. The reward is represented as a degree of certainty (visibility) of an agent goal, i.e., by some set, not a number. It is proved that such a reward determination may be used in the categorical construction of Conway games. The tensor product in the category is the operation of linear logic. Such logic is also used in selecting goals which the system can achieve ofall visible ones. In the purpose, the whole goal set is represented as a lattice with the linear logic structure. The goal lattice is the truth value set of the logic in this case. The tensor product of the lattice elements corresponds to goals which are achieved in parallel. The system goals are chosen by the highest truth value of the lattice element which corresponds to they parallel achieving processes. Such a construction results in the formula of the optimal itinerary estimation in an abstract environment for an agent group.

Keywords: intelligent agents; itinerary choice; goal lattice; game semantics.

УДК 004.8, 007.5 ББК 22.18, 39.17 DOI: 10.25728/ubs.2019.78.3

Статья представлена к публикации членом редакционной коллегии Я.И. Квинто.

Поступила в редакцию 15.11.2018. Дата опубликования 31.03.2019.

i Надоели баннеры? Вы всегда можете отключить рекламу.