Гибридный метод принятия решений интеллектуальным агентом при формировании пути в неизвестном окружении

Вишневская Татьяна Ивановна; Иванов Андрей Сергеевич

Сведения об авторах

Information about authors

Александр Олегович Анохин

Магистрант

Alexander Anokhin

Master student

Volgograd State Technical University

Russia, Volgograd

E-mail: alex.anokhin.st@gmail.com

ВолгГТУ

Россия, Волгоград

Эл. почта: alex.anokhin.st@gmail.com

Александр Вадимович Катаев

канд. техн. наук, доц.

Alexander Kataev

PhD, Associated professor Volgograd State Technical University Russia, Volgograd

E-mail: alexander.kataev@gmail.com

ВолгГТУ

Россия, Волгоград

Эл. почта: alexander.kataev@gmail.com

УДК 004.056.57 ГРНТИ 81.93.29

Т.И. Вишневская, А.С. Иванов

МГТУ им. Н.Э. Баумана

ГИБРИДНЫЙ МЕТОД ПРИНЯТИЯ РЕШЕНИЙ ИНТЕЛЛЕКТУАЛЬНЫМ АГЕНТОМ ПРИ ФОРМИРОВАНИИ ПУТИ В НЕИЗВЕСТНОМ ОКРУЖЕНИИ

В работе представлен вариант решения задачи навигации в неизвестном окружении с помощью использования нейро-нечеткой сети типа ANFIS. Описаны основные методы решения задачи, структура нейро-нечеткой сети, обучающая выборка, проблемы, возникшие во время обучения модели. Продемонстрирован результат работы обученной модели в тестовом окружении. Описаны возможные варианты применения разработанного метода.

Ключевые слова: навигация, неизвестное окружение, нейронные сети, нечеткая логика, ANFIS.

HYBRID DECISION MAKING METHOD FOR PATHFINDING IN UNKNOWN ENVIRONMENT

The paper presents a method for solving the navigation problem in an unknown environment by using ANFIS neuro-fuzzy network architecture. Paper discusses methods for solving described problem, the structure of the neuro-fuzzy network, training data and problems that arose during the training of the algorithm. The resulting model is tested in simulation environment. Possible applications of the developed method are described.

Keywords: navigation, unknown environment, neural networks, fuzzy logic, ANFIS.

Задача поиска пути возникает в самых различных областях - при непосредственно навигации на местности, например, при прокладывании маршрутов; при маршрутизации и организации передачи данных в сети; при проектировании печатных плат. В некоторых случаях полученный результат может не являться путём в привычном смысле слова, а представлять собой лишь некоторый набор элементов, связанных определенным отношением. Задача поиска пути в неизвестном окружении возникает при разработке программного обеспечения для беспилотных автомобилей и автономных роботов.

Существуют различные группы методов решения задачи навигации в неизвестном пространстве, например, методы, основывающиеся на представлении пространства в виде графа, которые сводят задачу навигации к исследованию окружающей среды и решения задачи поиска пути в графе. Также используются методы обучения на основе нейронных сетей, использующие обучение с подкреплением [1], в котором нейронная сеть обучается на симуляторе, а каждое действие, принятое моделью во время обучения, поощряется функцией награды. Возможен вариант решения задачи с помощью использования нечетких систем, которые описывают входные параметры системы с

T.I. Vishnevskaya, A.S. Ivanov

Bauman Moscow State Technical University

Введение

помощью функций нечеткой логики и формируют базу знаний, которая основывается на представлении решения данной задачи экспертом.

Целью данной работы является разработка и реализация метода, основанного на нейро-нечеткой сети типа ANFIS и изучение возможности его использования для решения задачи навигации в неизвестном окружении.

Реализуемая в данной работе система служит для поддержки принятия решений экспертом при решении задачи навигации в неизвестном и частично известном окружении.

Описание тестового окружения агента.

В данной работе тестовым окружением является двумерная карта препятствий с двумя за-

цель - красным кругом, препятствия - коричневыми прямоугольниками.

Модель позволяет абстрагироваться от сложности симуляции условий реального мира и позволяет рассматривать агента как сущность, обладающей множеством действий (совершить шаг на заданное расстояние и совершить поворот на необходимый угол) и имеющий ограниченную информацию об окружающей среде, что позволяет решать только задачу навигации в неизвестном окружении.

Использование модели позволяет ускорить процесс тестирования и разработки и снижает стоимость разработки.

Минусом модели является ее абстрактность: модель не учитывает многих факторов, встречающихся в реальной жизни: так как окружение двумерное, оно не учитывает наклон поверхности и возможное наличие ям или возвышенностей, которые могут играть роль при реальной работе агента.

Также в данной модели не играют роли физические характеристики агента, выполняющего навигацию: его вес, возможная скорость перемещения, невозможность мгновенного поворота на определенный угол.

Таким образом, для достижения поставленных целей необходимо решить следующие задачи:

• собрать выборку данных для обучения модели;

• провести обучение модели на собранных данных;

• протестировать работу обученного модели на модели окружения.

Анализ возможных методов решения задачи навигации в неизвестном окружении

Методы решения задачи можно разделить на следующие категории:

• использующие теорию графов;

• алгоритмы на основе нейронных сетей;

• нечеткие системы;

• гибридные модели.

данными точками: первоначальным расположением агента и конечной точкой, в которую должен прийти агент. Под агентом подразумевается программа, которая получает информацию об окружающей среде через сенсоры и оказывает влияние на происходящие процессы через актуа-торы (методы взаимодействия с окружающей средой) и пытается оптимизировать какой-либо процесс. Интеллектуальный агент использует более высокий уровень технологий по сравнению с триггерными системами.

Окружающая среда агента определяет, какая информация доступна сенсорам и какие варианты взаимодействия с ней существуют.

Рис. 1. Пример тестового окружения

На рисунке 1 показан пример окружения. Положение агента обозначено черной точкой,

Главной проблемой решения задачи графовыми алгоритмами является первичное построение навигационной сети. В компьютерных играх для навигации в пространстве последняя создается дизайнером вместе с геометрией игрового уровня. В робототехнике - строится роботом путем исследования области, в которой находится агент, или задается вручную. Процедура создания навигационной сети может занять много времени и ресурсов, а иногда исследование среды небезопасно. Также, исследование и построение графа неэффективно в быстро меняющейся среде: за время, потраченное на исследование, окружение могло измениться и полученный результат уже не является актуальным. Основными графовыми алгоритмами поиска пути в неизвестном окружении являются модификации алгоритма A*, в частности, алгоритмы LPA* [2] и D* Lite [3].

Модели на основе нейронных сетей позволяют решить задачу навигации в неизвестном окружении [1], но требуют большого количества данных для обучения, вычислительных ресурсов и тщательного тестирования модели. Использование нейронных сетей приводит к тому, что созданная модель является 'черным ящиком, процесс принятия решений которой может быть непонятен. Наиболее успешными архитектурами нейронных сетей для решения задач автономного управления являются архитектуры, основанные на подходе алгоритмов обучения с подкреплением, цель которого - максимизировать постоянно уменьшающуюся награду путем взаимодействия со средой. Примеры алгоритмов обучения с подкреплением: Q-Leaming [4], A3C [5], REINFORCE [6].

Методы решения на основе нечеткой логики представляют задачу в виде множества лингвистических переменных, описывающих состояние системы, над которыми определены правила, позволяющие их преобразовывать и в зависимости от значения принимать различные решения. Использование этого подхода к построению интеллектуальных агентов позволяет избежать часть проблем моделей на основе нейронных сетей, например, составление обучающей выборки или модели окружения, но требует базу знаний, создание которой занимает время на оптимизацию параметров модели и подбор подходящих правил.

Нечеткие системы обладают следующими преимуществами:

• предоставляет удобную формализацию сложной обработки данных;

• позволяет описать поведение в виде базы знаний, что унифицирует решение и предоставляет возможность удобных модификаций в будущем;

• применительно к движению может выдавать готовые управляющие воздействия (т.е. не угол разворота, а, например, скорости двигателей).

Преимуществом алгоритмов, основывающихся на теории графов над нейронными сетями и нечеткой логикой в контексте задачи поиска пути в неизвестном окружении является то, что первые алгоритмы могут строить оптимальный маршрут, а маршруты, составленные нечеткими системами и нейронными сетями, всегда будут являться аппроксимациями оптимального пути.

Под гибридными моделями предполагается модель, использующая в качестве базовой нейронную сеть, которая интерпретируется как система нечеткого вывода. Такие модели называются нечеткими нейронными сетями. Этот подход объединяет свойства адаптивности нейронных сетей с интуитивностью механизма нечеткого вывода.

В данной работе для решения задачи будет использоваться нейро-нечеткая сеть типа ANFIS.

Описание структуры нейро-нечеткой сети типа ANFIS.

ANFIS (Adaptive Neuro-Fuzzy Inference System) является одной из реализаций гибридной модели. В этой модели вывод соответствует набору нечетких правил ЕСЛИ-ТО, которые способны менять свои параметры и могут аппроксимировать нелинейные функции.

Архитектура сети ANFIS [7]:

• Слой фаззификации - применяет функции принадлежности к входным данным. Обычно применяются гауссовы функции принадлежности

• Слой применения нечетких правил - вычисляет степень истинности правил, применяемых к нечетким значениям, полученным на первом слое.

^Ш) = ехР( ), где - настраиваемые в процессе обучения параметры.

• Слой дефаззификации - переводит нечеткие значения, полученные на предыдущем слое в четкое представление, которое передается на вход контроллеру. Этот слой состоит из трех подслоев: слоя вычисления заключений правил, слоя нормализации степеней выполнения правил и слой агрегации результата.

Структура сети в графическом виде представлена на рисунке 2.

Параметры /лi,ai,wi настраиваются в процессе обучения сети. Символом П обозначено попарное произведение нечетких значений, символом £ - сумма всех значений с предыдущего слоя.

Главным ограничением, которое возникает при использовании ANFIS, является то, что в ANFIS допускается только один выходной параметр, функция которого является константой или линейной. Данное ограничение связано с использованием в ANFIS алгоритма вывода Сугено [8].

Если в задаче несколько выходных параметров, можно решить эту проблему путем обучения нескольких сетей, каждая из которых управляет собственным параметром.

Результат применения нейро-нечеткой сети для решения задачи поиска пути в неизвестном окружении.

Входными данными для агента являются 16 показаний лидаров и угол между текущим положением агента и целью. Лидар (LIDAR - Light Identification Detection and Ranging) - технология получения и обработки информации об удалённых объектах с помощью активных оптических систем, использующих явления поглощения и рассеяния света в оптически прозрачных средах. Выходные данные - значение, на которое должен быть совершен поворот.

Для обучения нейро-нечеткой сети была размечена обучающая выборка из 300 примеров с различными целевыми и начальными точками. Пример части входных данных для модели приведен в таблице 1.

Таблица 1. Пример входных данных

in «1 1г h и h 1, 1? «я 1с ^10 1и ¿14 «14 в

-1 -1 -1 64 13 16 74 66 -1 -1 -1 64 42 23 -1 3.62

-1 -1 4 2 2 2 4 6 -1 -1 14 14 -1 54 54 24 1.65

4 4 6 12 10 12 16 -1 -1 -1 -1 -1 -1 -1 -1 4 0.31

12 12 40 62 -1 -1 90 -1 32 34 -1 -1 -1 -1 16 12 5.22

10 6 8 18 -1 82 -1 -1 82 -1 64 54 -1 -1 86 10 0.6

Значения - показания лидаров от -1 до 100. Значение -1 означает, что в зоне видимости лидара препятствий нет. в - значение угла между текущим положением агента и положением цели в пределах от 0 до 2 п.

Так как в большинстве случаев угол между текущим положением агента и положением цели является оптимальным выходом нейро-нечеткой системы, сеть переобучалась на входных данных и всегда возвращала это значение. Для борьбы с этим был использован слой Dropout [9] между слоями применения нечетких правил и слоем дефаззификации, который в процессе обучения, с вероятностью 0.5 обнулял значение, полученное при применении нечеткого правила. Это помогло справиться с проблемой переобучения и не отразилось на скорости обучения.

Изменение параметров нейро-нечеткой сети проводилось алгоритмом ADAM [10] с параметром

скорости обучения, равным 10 _4. В качестве функции ошибки была использована MSE =-(yi-yi)2,

где yi - предсказанное значение, ух - истинное значение. Обучение происходило с каждым примером из обучающей выборки по отдельности в течение 300 эпох.

Результат работы обученного агента представлен на рисунке 3. Путь агента выделен черной кривой.

Рис. 3. Результат работы агента при решении задачи регрессии

Рис. 4. Пример застревания агента

Рис. 5. Результат работы агента при решении задачи классификации

Нейро-нечеткая сеть не всегда справляется с задачей навигации и может попасть в ситуацию, из которой не может выбраться. Пример такой ситуации показан на рисунке 4.

Описанная выше проблема была решена путем изменения типа решаемой задачи с регрессии на классификацию. В этой задаче выход агента -направление движения: влево, вправо, вверх или вниз. На рисунке 5 показан пример работы агента, обученного задаче классификации.

Для решения задачи классификации необходимо изменить структуру сети: слой дефаззи-фикации возвращает 4 значения, которые с помоев

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

щью функции Softmax(y{) —-— преобразовы-

Y,je >

ваются в вероятность принадлежности входных данных к каждому из классов. Кроме того, функция ошибки была заменена на NLL — — log ру., где pyi - вероятность принадлежности примера к правильному классу. Использование новой метрики позволило ускорить обучение агента и улучшить эффективность использования обучающих примеров при обучении.

Схема алгоритма навигации с использованием предлагаемой модели показана на рисунке 6. Выявлены следующие преимущества реализованной модели по сравнению с подходом на основе глубоких нейронных сетей, использующих обучение с подкреплением:

• быстрая сходимость: обучение 300 эпох на 300 примерах обучающей выборки происходит около 5 минут на обычном процессоре, когда обучение глубоких нейронных сетей может происходить в течение нескольких часов на графическом процессоре,

• малый размер модели: обученная модель содержит около 4000 настраиваемых параметров.

Преимущества над нечеткой схемой управления:

• отсутствие необходимости корректировки функций принадлежности и правил, т.к. параметры модели подстраиваются под обучающую выбору.

Заключение

Авторы считают, что в данной работе были достигнуты следующие результаты:

1. Описаны существующие подходы к решению задачи поиска пути в неизвестном окружении;

2. Разработан метод для решения задачи навигации в неизвестном окружении, основанный на модификации модели ANFIS;

3. Предложена модель, позволяющая решать задачу поиска пути, приведены проблемы, возникшие в процессе обучения модели, и действия, принятые для решения этих проблем;

4. Проведено тестирование разработанной модели на примере решения задачи в тестовом окружении.

Рис. 6. Cхема алгоритма навигации с использованием полученной модели

Литература

1. Lei X., Zhang Z., Dong P. Dynamic Path Planning of Unknown Environment Based on Deep Reinforcement Learning // Journal of Robotics. 2018. Т. 2018. С. 10. - DOI: 10.1155/2018/5781591.

2. Koenig S., Likhachev M., Furcy D. Lifelong Planning A // Artif. Intell. - Essex, UK, 2004. Май. Т. 155. № 1/2. С. 93-146. ISSN 00043702. - DOI: 10.1016/j.artint.2003.12.001. - URL: http://dx.doi.org/ 10.1016/j.artint.2003.12.001. (дата обращения: 30.11.2019)

3. Koenig S., Likhachev M. D*Lite // Eighteenth National Conference on Artificial Intelligence. — Edmonton, Alberta, Canada : American Association for Artificial Intelligence, 2002. С. 476-483. ISBN 0262-51129-0. - URL: http://dl.acm.org/citation.cfm?id=777092. 777167. (дата обращения: 30.11.2019)

4. Watkins C.J. C. H., Dayan P. Q-learning // Machine Learning. 1992. С. 279-292.

5. Asynchronous Methods for Deep Reinforcement Learning / V. Mnih [и др.] // CoRR. 2016. Т. abs/1602.01783. arXiv: 1602.01783. - URL: http://arxiv.org/abs/1602.01783. (дата обращения: 30.11.2019)

6. Williams R.J. Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning // Mach. Learn. - Hingham, MA, USA, 1992. Май. Т. 8. № 3/4. С. 229-256. ISSN 08856125. - DOI: 10.1007/BF00992696. - URL: https://doi.org/10.1007/ BF00992696. (дата обращения: 30.11.2019)

7. Рутковская Д., Пилиньский М., Рутковский Л. Нейронные сети, генетические алгоритмы и нечеткие системы. - М: Горячая Линия - Телеком, 2006. 452 с.

8. Jang J.-s. R. ANFIS: Adaptive-Network-Based Fuzzy Inference System // IEEE Transactions on Systems, Man, and Cybernetics. 1993. Т. 23. С. 665-685.

9. Dropout: A Simple Way to Prevent Neural Networks from Overfitting / N. Srivastava [и др.] // Journal of Machine Learning Research. 2014. Т.15. С. 1929-1958. - URL: http://jmlr.org/papers/v15/srivastava14a. html. (дата обращения: 30.11.2019)

10.Kingma D.P., Ba J. Adam: A Method for Stochastic Optimization // CoRR. 2014. Т. abs/1412.6980. - URL: http://dblp.uni-trier.de/db/journals/corr/corr1412.html#KingmaB14. (дата обращения: 30.11.2019)

11.Benchmark Environments for Multitask Learning in Continuous Domains / P. Henderson [и др.] // ICML Lifelong Learning: A Reinforcement Learning Approach Workshop. 2017.

12.Рассел С., Норвиг П. Искусственный интеллект: современный подход. - М.: Издательский дом «Вильямс», 2006. 1408 с.

Сведения об авторах

Татьяна Ивановна Вишневская

канд. физ.-мат. наук, доцент, факультет Информатика и системы управления МГТУ им. Н.Э. Баумана, Россия, Москва Эл. почта: iu7vt@bmstu.ru

Андрей Сергеевич Иванов

студент магистратуры, факультет Информатика и системы управления МГТУ им. Н.Э. Баумана Россия, Москва

Эл. почта: andreymag96@gmail.com

Information about authors

Tatyana Ivanovna Vishnevskaya

Ph.D., Physical and mathematical sciences, Associate Professor, Department of Computer Science and Control Systems Bauman Moscow State Technical University Russia, Moscow E-mail: iu7vt@bmstu.ru

Andrey Sergeevich Ivanov

Master's degree student, Department of Computer Science and Control Systems

Bauman Moscow State Technical University Russia, Moscow

E-mail: andreymag96@gmail.com

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Вишневская Татьяна Ивановна, Иванов Андрей Сергеевич

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Вишневская Татьяна Ивановна, Иванов Андрей Сергеевич

HYBRID DECISION MAKING METHOD FOR PATHFINDING IN UNKNOWN ENVIRONMENT

Текст научной работы на тему «Гибридный метод принятия решений интеллектуальным агентом при формировании пути в неизвестном окружении»