Противодействие беспилотным летательным аппаратам с использованием информационных технологий

Борисов-Потоцкий Андрей Сергеевич

fO

сч о сч

о ш m

X

<

m О X X

Борисов-Потоцкий Андрей Сергеевич

старший научный сотрудник, ФКУ НПО «Специальная техника и связь» Министерства внутренних дел Российской Федерации, andreysborisov@yandex.ru

Статья посвящена проблеме противодействия беспилотным летательным аппаратам с использованием информационных технологий. Автором обосновывается актуальность и практическая значимость темы исследования. Высказывается позиция, согласно которой система, оснащенная искусственным интеллектом и, соответственно, исключающая участие человека, может стать эффективным средством противодействия беспилотным летательным аппаратам. Предлагается и обосновывается целесообразность применения метода глубокого обучения с подкреплением (DPL), позволяющего противодействовать одному беспилотному летательному аппарату в трехмерном пространстве посредством другого (цели). Акцентируется на том, что несмотря на доказательную успешность применения данного метода в двумерном пространстве, ¿D-разрез - во многом более сложная процессуальная композиция, особенно в контексте временного ресурса. Автором представляется алгоритм «deep q-network» (DQN) с дуэльной сетевой архитектурой и приоритетным воспроизведением опыта, позволяющий засечь беспилотный летательный аппарат - цель в среде симулятора Airsim. Представлены результаты обучения и тестирования моделей с использованием различных сценариев для мониторинга программ обучения беспилотных летательных аппаратов. Согласно им, наилучшие модели получаются при трансфертном ретроспективном обучении. Также доказано, что для поимки беспилотного летательного аппарата - цели наиболее оптимален DQfD-алгоритм (алгоритм «глубокого q-обучения на основе демонстраций»), сочетающий в себе имитационное обучение и обучение с подкреплением. В рамках данного алгоритма экспертные, а также самостоятельно генерируемые агентом данные, отбираются и систематизируются; агент при этом продолжает обучение, сохраняя информацию по итогам демонстраций. Заключается о преимуществах DQfD-алгоритма, в частности, об ускорении процесса обучения беспилотных летательных аппаратов, даже с учетом небольшого объема демонстрационных данных.

Ключевые слова: противодействие беспилотному летательному аппарату, искусственный интеллект, информационные технологии, глубокое обучение с подкреплением, симулятор.

Введение

Методы искусственного интеллекта (англ. artificial intelligence, AI), такие как обучение с подкреплением (англ. reinforcement learning, RL) уже давно используются для противодействия беспилотным летательным аппаратам. Дроны, оснащенные RL-функцией (то есть самообучения на основе проб и ошибок), способны перемещаться в среде с препятствиями. Согласно данным исследователей [1], это позволяет изучать особенности, разрабатывать новые средства автоматизации и, в целом, совершенствовать навигацию беспилотни-ков на местах, в том числе, для целей преследования объектов-целей. Так, отмечается, что RL-функциональные агенты могут отклонять беспилотник-цель, даже оснащенный автоматизированной системой предотвращения столкновений. Также подчеркивается эффективность обучения с подкреплением при поиске «брешей» в безопасности автономных систем. В исследовании Ли Х. [2] представлено отслеживание и захват вторгшегося беспилотника с использованием беспилотника, основанного на зрении, для его защиты.

Интересные данные приводят М. Ахлуфи и соавт.; они представили результаты апробации алгоритма обнаружения, основанного на методологии глубокого обучения с подкреплением (англ. deep reinforcement learning, DPL) [3]. С его помощью, во-первых, становится возможным не только обнаружить беспилотник - цель, но и оценить его местоположением; во-вторых, алгоритм позволяет найти лучший альтернативный вариант поведения для отслеживания объекта-цели, а также прогнозирование действий последнего. Кроме того, контролируемое DP-обучение осуществляется с использованием широкого спектра, в том числе графических данных, собираемых беспилотником. О возможности прогнозирования локации бес-пилотника - цели также пишут Л. Хи и соавт.; в качестве инструмента авторы указывают глубинный детектор объектов и предложение района поиска [4]. Кроме того, они указывают о потенциальной пользе синтеза DPL с другим методом глубокого обучения - так называемым имитационным обучением (англ. simulation training, ST). В цитируемой публикации предложена модель навигации беспилотника в неизвестной среде с использованием демонстрационных данных. Авторы заключили о том, что экспертная демонстрация может ускорить процесс обучение уже на этапе имитации. Результаты моделирования показывают, что беспилотный летательный аппарат учится избегать препятствия в неизвестной 3D-среде.

Наиболее значимый вклад в исследуемый вопрос был привнесен разработчиками алгоритма фильтрации, используемого при обучении передаче. Его суть заключается в предварительной обработке ретроспективного опыта с отсеиванием негативного опыта и ошибок. В качестве практического примера можно привести опыт противодействия беспилотным летательным аппаратам при помощи агента с искусственным интеллектом (используемый метод - англ. deep reinforcement learning double deep Q-network, DQN) в двумерном пространстве (с ограничением спектра действий - движение вперед, отклонение вправо или влево) [5]. Система обучается ориентированию в ограниченной географической системе и направляется к объекту - цели, находящемуся на одной траектории с агентом. Для случая трехмерного пространства рекомендован

DPL-метод с использованием дуэльной сети и воспроизведением приоритетного опыта, загружаемого в систему, с предварительной фильтрацией данных.

Подобный опыт, однако с использованием более современного алгоритма обнаружения объектов, описан в работе М. Тана и соавт. [6]. Обучаемый беспилотник, перемещающийся в двумерном пространстве, помимо базовых действий также способен менять высоту. Более того, система учитывает временной резерв отслеживания целевого объекта. Подробно модель ИИ-агента с аналогичным функционалом описана в исследовании Э. Четин и соавт. [7]; ими предлагается модель обнаружения беспилотников, обучаемых на основе графической информации для целей оптимизации детектора агента. К сожалению объемы статьи ограничены и не представляется возможным перечислить и другие практики интеграции методологии глубокого обучения с подкреплением. Однако, становится очевидным тот факт, что поиск решения проблемы противодействия беспилотным летательным аппаратам с использованием информационных технологий как никогда актуален и значим.

Материалы и методы

Дадим краткую характеристику инструментов и методов, которые были использованы для обучения и тестирования алгоритмов глубокого обучения с подкреплением. Так, Python используется для обучения и тестирования DRL-алгоритмов. OpenAI-Gym - это средство моделирования алгоритмов обучения с последующим подкреплением; интерфейс с открытым исходным кодом [8], имеющий совместимость с нейросете-выми инструментами, такими как Tensorflow [9], Keras-RL [10]. Он оснащен самыми современными алгоритмами DPL-обуче-ния, используемыми для интеграции с библиотекой Keras. Keras-RL может работать с OpenAI-Gym, поэтому разработчик может с легкостью определить индивидуальные обратные вызовы. Согласно С. Шах и соавт., обратные вызовы Keras-RL и функции редактируются с учетом использования приоритетно воспроизводимого опыта. Для тренировки и тестирования алгоритмов обучения с подкреплением используется симулятор Airsim [11]. Его основное достоинство заключается в наличии широкого спектра возможностей для исследований и разработок, включая, компьютерное зрение, глубокое обучение и обучение с подкреплением. Также нами используются DQN-архи-тектура, двойной DQN и дуэльной сети.

Окружающая среда

Рисунок 1 - Взаимодействие агента и окружающей среды при обучении с подкреплением

Под RL-подходом в рамках настоящего исследования понимаются ИИ-система, основанная на имитирующем челове-

ческое поведение обучении. RL-агент способен принимать решения и действовать, взаимодействуя с внешней средой, представляющей состояния, выраженные при помощи информации о текущем статусе агента (см. рисунок 1). Каждое его последующее действие, таким образом, обновляет состояние среды. Целью агента является максимизация вознаграждения в ответ на то или иное его действие. В рамках RP-подхода состояния сопоставляются с вероятностью возможных действий на каждом временном отрезке, то есть согласно политике. Она выбирается таким образом, чтобы максимизировать совокупное вознаграждение с течением времени (см. уравнение (1)). При этом, речь в данном случае идет не о немедленном вознаграждении Rt+1, а о накопленном, то есть о возврате Gt. Фундаментальные RL-концепции описаны Р.С. Саттоном и соавт. [12].

Прим.: состояние представлено как St, а пространство состояний представлено как S. Взаимодействие между агентом и окружающей средой происходит с дискретными временными шагами t. Действие и пространство действий представлены как At и A(St) соответственно. Значения вознаграждения обновляются каждый раз, Rt+i, и новое состояние становится St+i.

Gt = Rt+i + У%+з + - = Х"=о У* , (1) где y £ [0, 1] - коэффициент дисконтирования. Коэффициент дисконтирования y определяет важность будущих вознаграждений. Коэффициент, равный 0, сделает агента недальновидным, учитывая только текущие вознаграждения, в то время как коэффициент, приближающийся к 1, заставит его стремиться к долгосрочному высокому вознаграждению.

Согласно В. Мних и соавт., целью метода DQN является использование глубокой сверточной нейросети для аппроксимации оптимальной функции «действие - значение» [13]. Он предоставляет интеративно обновленные представления действий и целевые значения, а также предлагает воспроизведение опыта, рандомизирующего данные, улучшая тем самым их распределение. В своем исследовании, авторы пришли к выводу о том, что DPL-алгоритмы вполне способны превзойти уровень производительности человека (видео, настольные игры), реализовав двойную глубокую Q-сеть (DDQN), а также расширение функции deep Q-network (DQN) [14]. Алгоритм двойного DQN (DDQN) остается таким же, как и исходный DQN, за исключением замены целевого значения предполагаемой доходности, им определяемого. В DDQN обновлению -на каждом шаге и при случайном выборе - подлежит только одна оценка, тогда как извлекаются уже две. Требования к памяти, таким образом, также будут удваиваться; вычислительные условия, затрачиваемые на каждом шаге, при этом, останутся прежними. В работе Э. Четин и соавт., где приводятся данные об использовании рассматриваемого алгоритма, аргументируется его высокая результативность противодействия беспилотнику - цели в двумерном пространстве. Общей целью DQN является использование глубокой сверточной нейронной сети для аппроксимации оптимальной функции «действие - значение», определяемой согласно формуле (2): 9n(s,a) = maxE[rt+yrt+1 + y2rt+2 + -|st = s,at = a,n],

n

(2)

Стандартное обновление Q-learning для параметров сети 0 после выполнения действия в состоянии St и наблюдения за немедленным вознаграждением Rt+i и результирующим состоянием St+i является:

9 = et + a[ytQ -Q(St,At,6t)]VetQ(St,At,6t), (3)

где предполагаемый результат, определенный как Q-целе-вой показатель yt?

I I

О DD А J=

У{ =Rt+i + YmaxQ(St+1)a; в).

(4)

Это обновление напоминает стохастический градиентный спуск, обновляющий текущее значение Q(St, A; в) с учетом ошибки временной разницы (англ. temporal difference, TD) до целевого значения у®.

Однако, в архитектуре дуэльной сети нет необходимости оценивать значение каждого выбора действия, поскольку оно вычисляется в DQN и Double-DQN [15]. Вместо того, чтобы следовать сверточным слоям с помощью одной последовательности полностью связанных слоев, дуэльная сеть имеет два новых потока. Один из потоков оценивает значение состояния V(s; в, в), а другой поток оценивает преимущество для каждого действия и выводит |A| размерный вектор A(s, a; 9, а). 9 - параметры сверточных слоев, в то время как а и в - параметры двух потоков полностью

связанных слоев. Нижние уровни дуэльной сети такие же, как и в оригинальном DQN. Наконец, два потока объединяются для получения единой выходной функции О, показанной в уравнении (5), как это сделано в DQN [13]. Архитектуру дуэли агентов можно увидеть на рисунке 2.

а; в,а,р) = У(я; в, Д) а; в, а). (5)

Преимущество использования дуэльной архитектуры заключается в том, что агент может узнать, какие состояния более ценны, не изучая каждое действие в каждом состоянии. Другими словами, нет необходимости вычислять значение каждого действия при этом значении состояния, если состояние не является хорошим. Функционально решаются следующие две задачи:

со

CS

о

CS

О Ш

m

X

<

m О X X

Скалярные входные данные

Расстояние до цели

FC FC FC

t=> V(s; e, ß)

Скалярные вшдные данные

Расстояние до цели

Рисунок 2 - Дуэльная архитектура

FC FC FC

I—S Q(s, a; 9, a, ß)

I—y A(s, a; 9, a)

1. Воспроизведение опыта с приоритетом. Воспроизведение опыта с приоритетом (PER) реализуется для того, чтобы заставить агента быстрее обучаться [15]. Ранее события отбирались единообразно из памяти воспроизведения. Другими словами, переходы заменяются без учета их значимости. Однако в зависимости от приоритетности опыт и важные переходы заменяются чаще. Таким образом, агент учится эффективно.

2. Обнаружение беспилотных летательных аппаратов с помощью современной модели обнаружения объектов - Efficient Net. EfficientNet-B0, подмена Efficient Net [6], используется для обнаружения беспилотных летательных аппаратов. Efficient Net -популярная современная модель обнаружения объектов благодаря своей точности и эффективности. EfficientNet-B0 адаптирован для объектов небольшого размера.

Результаты

Модель глубокого обучения с подкреплением была построена с использованием архитектуры дуэльной сети и обучена с

помощью DDQ, включая воспроизведение опыта с приоритетом. Она строилась путем объединения состояния изображения и скалярных входных данных, таких как расстояния до цели. Изображение является входным сигналом сверточной нейронной сети (CNN), за ним следует слой сглаживания, а затем слой объединения, соединяющий выходные данные CNN со скалярными входными данными [16]. На рисунке 2 показано представление модели нейронной сети, включая архитектуру дуэли. Рассмотрим подробнее основные компоненты:

а) окружающая среда. Airsim simulation предоставляет множество сред, доступных в Unreal Engine [17] для исследований и разработок AIR. Городской район выбран для противодействия беспилотникам из-за сходства в реальных условиях, таких как большое количество беспилотных летательных аппаратов в городских районах.

б) состояния. Состояния агента складываются из изображений и скалярных входных значений, которые позже объединяются. Однако в двух разных моделях DRL используются разные состояния изображения [18-20]:

- состояние изображения с глубиной обнаружения дрона изображение размером 84 * 84 пикселя и изображение сцены размером 256 * 144 пикселя снимаются с помощью встроенной камеры дрона. Предсказанное изображение, показанное на рисунке 3 (б), обрабатывается моделью обнаружения бес-пилотника для создания ограничивающих рамок при обнаружении целевого беспилотника на изображении. Изображение глубины, показанное на рисунке 3 (а), используется в модели DRL для обнаружения препятствий. После обработки изображений область ограничивающего прямоугольника на изображении глубины заполняется белым цветом, и внутри области белого ограничивающего прямоугольника создаются круги, похожие на мишень в игре в дартс. Окончательное изображение можно увидеть на рисунке 3 (г).

- состояние изображения без обнаружения беспилотни-ком. Изображение глубины, показанное на рисунке 4, с непрерывным захватом 256 * 144 пикселей. Это изображение имеет размер по умолчанию, который может выводить А^т. Кроме того, на изображении рисуется сетка, если беспилотник приближается к границам геозоны во всех направлениях. Сетки начинают отображаться на изображении, когда расстояние между дроном и пределами геозоны становится меньше или равно 1 м. Толщина сетки увеличивается по мере того, как бес-пилотник приближается к границам геозоны;

- скалярные входные данные. Скалярные входные данные содержат расстояния агента до цели в направлениях х, у и г и эвклидово расстояние dxdydzdt

а также движение вверх и вниз. Действия подробно представлены в таблице 1 и на рисунке 5.

Таблица 1 Действия

Действие Движение

0 2 м/с в +х направление

1 30 отклонение на градус лево

2 25 отклонение на градус право

3 0.25 м/с в +z направление

4 0.25 м/с в ^ направление

+Vx <=>

(а) Изображение глубины

(б) Прогнозирование

Рисунок 5 - Действия агента

г) вознаграждения. Функция вознаграждения включает в себя дополнительные вознаграждения, которые наказывают агента во время эпизода, и вознаграждение за успешный эпизод. Кроме того, добавлена награда за промежуточный шаг: АРасстояние, которое представляет собой изменение расстояния до цели между текущим шагом и предыдущим шагом. В этой статье штраф за столкновение с каким-либо препятствием в окружающей среде не реализован. Функция вознаграждения показана в таблице 2.

Таблица 2

ГШ

Рисунок 4 - Изображение глубины

в) действия. Агент может выполнять пять различных действий, таких как движение вперед, отклонение влево и вправо,

Вознаграждения Причина

+100 Цель поймана

-1 + АРасстояние Шаги эпизодов от 0-50

-2 + АРасстояние Шаги эпизодов от 50-100

-3 + АРасстояние Шаги эпизодов от 100-150

-4 + АРасстояние Шаги эпизодов от 150-200

(в) Изображение замаскировано (г) Конечное состояние

Рисунок 3 - Обнаружение беспилотного летательного аппарата и обработка изображений

Обсуждение

Представим результаты обучения и тестирования. Модели обучаются на настольном ПК с графическим сопроцессором NVIDIA GeForce RTX 3060 Ti с 8 ГБ видеопамяти. На рисунке 6 показаны основные компоненты экспериментальной установки и взаимодействия между инструментами DRL, такими как Tensorflow, Keras и OpenAl Gym, модель обнаружения БПЛА с помощью Python Pipe, которая выполняет параллельную обработку и моделирование. Во время обучения применяется линейная эпсилон-жадная политика. Для обучения моделей DRL реализованы различные этапы обучения и отожженная часть раздела обучения. Кроме того, модели также проходят обучение, загружая опыт из другого тренинга. Другими словами, время на тренировку может быть разным в разных моделях. В целом, полная тренировка с 75 000 шагов может занять примерно 48 часов.

Краткое описание моделей представлено в таблице 3. Модели обучаются путем реализации различных сценариев, таких как различные целевые местоположения беспилотников, телепортация и случайный курс в начале каждого эпизода во время обучения. Кроме того, некоторые модели были обучены путем внедрения обучения передаче данных и использования

X X

о го А с.

X

го m

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

о

м о м

CJ

со сч о сч

0 ш СО

1

<

СО

0

1 I

различных сетевых архитектур, таких как дуэльная сеть. Различные участки отжига и общее время подготовки также исследованы и приведены в таблице 3.

Средние показатели эффективности моделей DRL представлены вместе на рисунке 7. Видно, что только вторая модель имеет положительные средние вознаграждения в начале и на протяжении всего обучения благодаря переносу обучения путем загрузки опыта с одного из предыдущих тренингов. С другой стороны, на этом рисунке видно, что одна из моделей работает очень медленно и не достигает положительного среднего вознаграждения при обучении, в то время как другие модели достигают положительного среднего вознаграждения через некоторое время обучения.

Action А,

Снмулятор (Unreal Engine) ф

г |

DRL Агент

Программное обеспечение в иние (SITU

Модель оЬнаружения Ьеспнлошнка

CD

Рисунок 6 - Экспериментальная установка Таблица 3

Настройка моделей

Модели Целевое местоположение в направ лении X Целевое место-положе-ние в напр ав-ле-нии Z Телепор-тация и случайный курс Трансфер-ное обучение Архитектура дуэльной сети Состояние изображения Скалярные состояния Этап ы отжига Этап ы обучения Обнаружение беспи-лотника

модель-1 8 -5 НЕТ НЕТ ДА (256,14 4) dxdydz dt 15,0 00 <50,0 00 НЕТ

модель-2 10 -5 НЕТ ДА ДА (84,84) dxdydzd 1 20,0 00 >50,0 00 ДА

модель-3 8 -5 НЕТ НЕТ ДА (84,84) dxdydz dt 15,0 00 <50,0 00 ДА

модель-4 8 -5 НЕТ НЕТ ДА (84,84) dxdydz dt 20,0 00 >50,0 00 ДА

модель-5 10 -5 НЕТ НЕТ ДА (84,84) dxdydz dt 15,0 00 <50,0 00 ДА

модель-6 8 -5 НЕТ НЕТ НЕТ (84,84) dxdydz dt 15,0 00 <50,0 00 ДА

модель-7 8 -5 ДА НЕТ НЕТ (84,84) dxdydz dt 100, 000 <50,0 00 ДА

модель-8 8 -5 ДА (Случайный заголовок) НЕТ НЕТ (84,84) dxdydz dt 50,0 00 >50,0 00 ДА

модель-9 8 -5 НЕТ НЕТ НЕТ (84,84) dxdydz dt 15,0 00 <50,0 00 ДА

В таблице 4 представлены максимальные, минимальные и средние совокупные вознаграждения моделей DRL. Также показаны показатели успешности во время обучения. Модели 1 и 2, как видно, имеют максимальные показатели успешности и максимальные средние совокупные результаты. Третья модель имеет минимальный процент успеха с одним из самых низких общих номеров эпизодов.

30,000

40,000

10,000 20,000

Время шага, I

Рисунок 7 - Результаты обучения всех моделей Таблица 4

моделирует статистику вознаграждений за обучение

50,000

Модели Среднее совокуп- Макс. Совокуп- Мин. Совокуп- Показатели

ное вознагражде- ное вознаграж- ное вознаграж- успеха

ние дение дение

модель-1 83.11 94.48 -429.27 95%

модель-2 83.82 94.12 -420.99 98%

модель-3 -3.73 97.33 -426.16 47%

модель-4 65.91 98.09 -427.04 88%

модель-5 65.24 96.16 -424.30 88%

модель-6 64.49 98.21 -416.40 83%

модель-7 -29.40 96.25 -252.38 5%

модель-8 71.80 97.16 -421.06 86%

модель-9 72.08 97.14 -418.69 85%

Модели, продемонстрировавшие лучшие результаты обучения, определяются согласно результатам тренировок и тестов. Если в тренинге больше успешных эпизодов с меньшим количеством сбоев и он стабилен во время тренинга, модель считается хорошей. Все модели представлены на рисунке 7. Как видно, первые две позиции показали наилучшие результаты обучения. Несмотря на то, что обе модели имеют дуэльную сетевую архитектуру и приоритет в воспроизведении опыта, в функционале первой отсутствует действие по обнаружению беспилотников - целей и обучения передаче данных. Вторая модель способна исполнять данные задачи; как видно на рисунке 8, она начинает обучение с положительных вознаграждений и достигает высокого результата за относительно короткое время.

Как видно на рисунке 8, модель 2 начинает обучение с положительных вознаграждений и достигает своих максимальных уровней за короткое время. Видно, что передача опыта с предыдущего тренинга ускоряет процесс обучения. Таким образом, первая модель начинает обучение с нуля, но может получить высокие награды, как и вторая модель, однако в первом случае наблюдается большее количество сбоев на старте обучения.

В дальнейших исследованиях по проблеме противодействия БПЛА с использованием информационных технологий предлагается сравнить результаты обучения «лучших» моделей с теми, которые не добились успехов в обучении и протестировать их в среде с лучшими весами контрольных точек.

Model_l Model_2

л.--'"1" /

/

/ л/

5,000 10,000 15,000 20,000 25,000 30,000 35,000 40,000 Время шага, Г

Рисунок 8 - Модели, продемонстрировавшие лучшие результаты обучения

Выводы

Системы противодействия беспилотникам для обнаружения неизвестной цели более функциональны с использованием искусственного интеллекта. В рамках настоящей статьи был рассмотрен метод глубокого обучения с подкреплением. «Работа» в трехмерном пространстве - чрезвычайно сложная задача, в сравнении со средой 2D; она может отличаться нестабильностью, даже при условии длительного обучения агента. Для решения данной проблемы предложен алгоритм DQN с дуэльной сетевой архитектурой и приоритетным воспроизведением опыта для обнаружения объекта - цели. Опыт ретроспективного обучения, при этом, передается до начала очередного его этапа путем предварительной обработки данных о таком опыте и устранения неудачных (ошибочных) действий. Как показывают результаты исследования, обучение беспилотных летательных аппаратов имеет прогресс.

Так, снижается количество случае столкновения с геозонами и препятствиями в окружающей среде. Безусловно, такие среды, формулируемые в симуляторе, требуют интеллектуального изучения ввиду различного рода препятствий (воздушные кабели, деревья, дома, автомобили и проч.) для агента. Для достижения данной цели целесообразно применение другого алгоритма - «deep q-learning from demonstrations», и результаты обучения и тестирования которого сравниваются с другими моделями, представленными в этом исследовании. В этой модели демонстрационные данные играют важную роль для достижения более высоких результатов во время обучения. Главное ее преимущество заключается в том, что даже после предварительного обучения алгоритм позволяет использовать демонстрационные данные во время обучения.

Тем не менее, результаты немного лучше с точки зрения среднего количества шагов, которые делает обучаемый бес-пилотник во время теста, но среднее совокупное вознаграждение значительно ниже по сравнению с представленными моделями. Таким образом, действия, которые предпринял демонстратор, нелегко классифицировать, и поэтому различия между данными демонстратора и агента становятся более важными. В будущей работе планируется усовершенствовать DQfD для использования в системе борьбы с беспилотниками с помощью демонстратора-человека. Люди могут использовать другую политику, которую обучающийся беспилотник усвоил бы в ходе обучения, и эта информация может быть скрыта в представлении состояния обучающегося беспилот-ника. Алгоритмы глубокого обучения с подкреплением развиваются, и в будущем могут возникнуть проблемы.

Идентификация БПЛА с помощью систем обнаружения является очень важной частью решений по борьбе с беспилотниками, поскольку местонахождение целевого беспилотника является основной частью алгоритма глубокого обучения с

подкреплением. Правильные действия, которые должен предпринять обучающийся беспилотник, также имеют решающее значение для системы противодействия БПЛА, поскольку это напрямую влияет на время взаимодействия.

Литература

1. Bertoin D., Gofrio A., Grasse, D., Gupta J.S. Autonomous drone interception using deep reinforcement learning // In the materials of ATT'22: Seminar "Traffic and Transport Agents", Vienna, Austria, July 25, 2022. 15 p.

2. Shim D.H. Development of a counter-drone system using a deep reinforcement learning algorithm: PhD. Thesis, Korea Institute of Advanced Science and Technology, Daejeon, Korea, 2021.

3. Akhloufi M. A., Arola S., Bonnet, A. Drones Chasing Drones: Reinforcement Learning and Deep Search Area Proposal // Drones. 2021. Vol. 3(3). P. 58. D0l:10.3390/drones3030058.

4. He L., Aouf N., Whidborne, J.F., Song B. Deep reinforcement learning based local planner for UAV obstacle avoidance using demonstration data // arXiv 2020. arXiv:2008.02521.

5. Qetin E., Barrado C., Pastor E. Counter a Drone in a Complex Neighborhood Area by Deep Reinforcement Learning // Sensors (Basel). 2020 Apr 18. Vol. 20(8). pp. 2320. DOI: 10.3390/s20082320.

6. Tan M., Pang R., Le Q.V. EfficientDet: Scalable and Efficient Object Detection // 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 10778-10787.

7. Qetin E., Barrado C., Pastor, E. Improving real-time drone detection for counter-drone systems // The Aeronautical Journal. 2021. Vol. 125(1292). pp. 1871-1896. D0I:10.1017/aer.2021.43.

8. Brockman G., Cheung V., Pettersson L., Schneider J., Schulman J., Tang J., Zaremba W. OpenAI gym // arXiv preprint arXiv:1606.01540, 2016.

9. Abadi M., Agarwal A., Barham P. et al. TensorFlow: Largescale machine learning on heterogeneous distributed systems, 2016. Software available at: https://www.tensorflow.org (date of access: 10.10.2023).

10. Plappert, M. Keras RL. 2016. Software available at: https://github.com/keras-rl/keras-rl (date of access: 10.10.2023).

11. Shah S., Dey D., Lovett C., Kapoor A. AirSim: High-Fidelity Visual and Physical Simulation for Autonomous Vehicles. In: Hutter, M., Siegwart, R. (eds) Field and Service Robotics // Springer Proceedings in Advanced Robotics. 2018. Vol 5. Springer, Cham. DOI: 10.1007/978-3-319-67361-5_40.

12. Sutton R.S., Barto A.G. Reinforcement Learning: Introduction; MIT Press: Cambridge, Massachusetts, USA, 1998.

13. Mnih V., Kavukcuoglu K., Silver D. et al. Human-level control through deep reinforcement learning // Nature. 2015. Vol. 518. pp. 529-533. DOI: 10.1038/NATURE14236.

14. Hasselt H.V., Guez A., Silver, D. Deep Reinforcement Learning with Double Q-Learning // AAAI Conference on Artificial Intelligence. 2015. Vol. 30(1). DOI: 10.1609/aaai.v30i 1. 10295.

15. Wang Z., Schaul T., Hessel M., Hasselt H., Lanctot M., Freitas N. Dueling Network Architectures for Deep Reinforcement Learning // In Proceedings of the 33rd International Conference on Machine Learning, New York, NY, USA, 20-22 June 2016. Vol. 48. pp. 1995-2003.

16. Unreal Engine 4. Software available at: https://www.unrealengine.com/en-US/what-is-unreal-engine-4 (date of access: 10.10.2023).

17. Shaul T., Quan J., Antonoglu I., Silver D. Repetition with experience priority // arXiv 2015. arXiv:1511.05952.

18. Ростопчин В.В. Ударные беспилотные летательные аппараты и противовоздушная оборона - проблемы и перспективы противостояния // Беспилотная авиация. 2019. - URL:

I I

О

ГО

>

JZ

I

го m

о

м о м со

https://www.researchgate.net/publication/331772628_Udarnye_b espilotnyejetatelny e_apparatyj_protivovozdusnaa_oborona_-problemy_i_perspektivy_protivostoania (дата обращения: 10.10.2023)

19. Макаренко С. И. Робототехнические комплексы военного назначения - современное состояние и перспективы развития // Системы управления, связи и безопасности. 2016. № 2. С. 73-132.

20. Аниськов Р. В., Архипова Е. В., Гордеев А. А., Пугачев А. Н. К вопросу борьбы с незаконным использованием беспилотных летательных аппаратов коммерческого типа // Вопросы оборонной техники. Серия 16: Технические средства противодействия терроризму. 2017. № 9-10 (111-112). С. 7175.

Countering unmanned aerial vehicles using information technology Borisov-Polotsky A.S.

NPO "Specialized Equipment and Communications" of the Ministry of Internal Affairs of Russia

JEL classification: C10, C50, C60, C61, C80, C87, C90_

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

The article is devoted to the problem of countering unmanned aerial vehicles using information technology. The author substantiates the relevance and practical significance of the research topic. The position is expressed that a system equipped with artificial intelligence and, accordingly, excluding human participation, can become an effective means of countering unmanned aerial vehicles. The feasibility of using the deep reinforcement learning (DPL) method is proposed and justified, allowing one to counteract one unmanned aerial vehicle in three-dimensional space through another (target). It is emphasized that despite the proven success of using this method in two-dimensional space, a 3D cut is in many ways a more complex procedural composition, especially in the context of a temporary resource. The author presents a "deep q-network" (DQN) algorithm with a dual network architecture and priority reproduction of experience, which makes it possible to detect an unmanned aerial vehicle - a target in the Airsim simulator environment. The results of training and testing models using various scenarios for monitoring training programs for unmanned aerial vehicles are presented. According to them, the best models are obtained using transfer retrospective learning. It has also been proven that the DQfD algorithm (the "deep q-learning from demonstrations" algorithm), which combines imitation learning and reinforcement learning, is most optimal for capturing a target unmanned aerial vehicle. Within the framework of this algorithm, expert data, as well as data independently generated by the agent, are selected and systematized; the agent continues training, storing information based on the results of the demonstrations. The advantages of the DQfD algorithm are, in particular, the acceleration of the training process of unmanned aerial vehicles, even taking into account a small amount of demonstration data. Keywords: counter-unmanned aerial vehicle, artificial intelligence, information technology, deep reinforcement learning, simulator.

fO СЧ

о

СЧ

References

1. Bertoin D., Gofrio A., Grasse, D., Gupta J.S. Autonomous drone interception using

deep reinforcement learning // In the materials of ATT'22: Seminar "Traffic and Transport Agents", Vienna, Austria, July 25, 2022. 15 p.

2. Shim D.H. Development of a counter-drone system using a deep reinforcement

learning algorithm: PhD. Thesis, Korea Institute of Advanced Science and Technology, Daejeon, Korea, 2021.

3. Akhloufi M. A., Arola S., Bonnet, A. Drones Chasing Drones: Reinforcement

Learning and Deep Search Area Proposal // Drones. 2021. Vol. 3(3). P. 58. D0l:10.3390/drones3030058.

4. He L., Aouf N., Whidborne, J.F., Song B. Deep reinforcement learning based local

planner for UAV obstacle avoidance using demonstration data // arXiv 2020. arXiv:2008.02521.

5. Qetin E., Barrado C., Pastor E. Counter a Drone in a Complex Neighborhood Area

by Deep Reinforcement Learning // Sensors (Basel). 2020 Apr 18. Vol. 20(8). pp. 2320. DOI: 10.3390/s20082320.

6. Tan M., Pang R., Le Q.V. EfficientDet: Scalable and Efficient Object Detection //

2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 10778-10787.

7. Qetin E., Barrado C., Pastor, E. Improving real-time drone detection for counter-

drone systems // The Aeronautical Journal. 2021. Vol. 125(1292). pp. 1871-1896. D0I:10.1017/aer.2021.43.

8. Brockman G., Cheung V., Pettersson L., Schneider J., Schulman J., Tang J.,

Zaremba W. OpenAI gym // arXiv preprint arXiv:1606.01540, 2016.

9. Abadi M., Agarwal A., Barham P. et al. TensorFlow: Largescale machine learning

on heterogeneous distributed systems, 2016. Software available at: https://www.tensorflow.org (date of access: 10.10.2023).

10. Plappert, M. Keras RL. 2016. Software available at: https://github.com/keras-rl/keras-rl (date of access: 10.10.2023).

11. Shah S., Dey D., Lovett C., Kapoor A. AirSim: High-Fidelity Visual and Physical

Simulation for Autonomous Vehicles. In: Hutter, M., Siegwart, R. (eds) Field and Service Robotics // Springer Proceedings in Advanced Robotics. 2018. Vol 5. Springer, Cham. DOI: 10.1007/978-3-319-67361-5_40.

12. Sutton R.S., Barto A.G. Reinforcement Learning: Introduction; MIT Press: Cambridge, Massachusetts, USA, 1998.

13. Mnih V., Kavukcuoglu K., Silver D. et al. Human-level control through deep reinforcement learning // Nature. 2015. Vol. 518. pp. 529-533. DOI: 10.1038/NATURE14236.

14. Hasselt H.V., Guez A., Silver, D. Deep Reinforcement Learning with Double Q-

Learning // AAAI Conference on Artificial Intelligence. 2015. Vol. 30(1). DOI: 10.1609/aaai.v30i1.10295.

15. Wang Z., Schaul T., Hessel M., Hasselt H., Lanctot M., Freitas N. Dueling Network

Architectures for Deep Reinforcement Learning // In Proceedings of the 33rd International Conference on Machine Learning, New York, NY, USA, 20-22 June 2016. Vol. 48. pp. 1995-2003.

16. Unreal Engine 4. Software available at: https://www.unrealengine.com/en-US/what-is-unreal-engine-4 (date of access: 10.10.2023).

17. Shaul T., Quan J., Antonoglu I., Silver D. Repetition with experience priority // arXiv

2015. arXiv:1511.05952.

18. Rostopchin V.V. Strike unmanned aerial vehicles and air defense - problems and

prospects of confrontation // Unmanned aviation. 2019. - URL: https://www.researchgate.net/publication/331772628_Udarnye_bespilotnye_let atelny e_apparaty_i_protivovozdusnaa_oborona_-

problemy_i_perspektivy_protivostoania (access date: 10/10/2023) Makarenko S.I. Robotic systems for military purposes - current state and development prospects // Control, communication and security systems. 2016. No. 2. P. 73-132.

Aniskov R.V., Arkhipova E.V., Gordeev A.A., Pugachev A.N. On the issue of combating the illegal use of commercial unmanned aerial vehicles // Issues of defense technology. Episode 16: Technical means of countering terrorism. 2017. No. 9-10 (111-112). pp. 71-75.

19.

20.

О Ш

m x

<

m о x

X

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Борисов-Потоцкий Андрей Сергеевич

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Борисов-Потоцкий Андрей Сергеевич

Countering unmanned aerial vehicles using information technology

Текст научной работы на тему «Противодействие беспилотным летательным аппаратам с использованием информационных технологий»