Научная статья на тему 'ПРОАКТИВНОЕ УПРАВЛЕНИЕ СОСТАВОМ И СТРУКТУРОЙ СИСТЕМЫ ПРОСТРАНСТВЕННОГО МОНИТОРИНГА В УСЛОВИЯХ ВОЗДЕЙСТВИЯ ДЕСТАБИЛИЗИРУЮЩИХ ФАКТОРОВ'

ПРОАКТИВНОЕ УПРАВЛЕНИЕ СОСТАВОМ И СТРУКТУРОЙ СИСТЕМЫ ПРОСТРАНСТВЕННОГО МОНИТОРИНГА В УСЛОВИЯХ ВОЗДЕЙСТВИЯ ДЕСТАБИЛИЗИРУЮЩИХ ФАКТОРОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
127
23
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПРОАКТИВНОЕ УПРАВЛЕНИЕ / АГЕНТНО-ОРИЕНТИРОВАННЫЙ ПОДХОД / ИМИТАЦИОННОЕ МОДЕЛИРОВАНИЕ / НЕЙРОСЕТЕВЫЕ ТЕХНОЛОГИИ / ТЕОРИЯ ИГР / МАШИННОЕ ОБУЧЕНИЕ / ОБУЧЕНИЕ «С ПОДКРЕПЛЕНИЕМ»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Шайдулин З. Ф., Балдычев М. Т., Тимошенко А. В., Омельшин А. А.

В работе рассмотрены вопросы повышения целевого показателя функционирования системы пространственного мониторинга, выраженного в максимизации количества обнаруженных объектов поиска в условиях воздействия дестабилизирующих факторов. Показано, что такая задача может быть решена путем интеграции имитационного моделирования и искусственного интеллекта в модуле моделирования и прогнозирования подсистемы проактивного управления системы пространственного мониторинга. В рамках предложенного подхода имитационная модель позволяет генерировать множество вариантов течения антагонистического конфликта и используется в качестве площадки для обучения нейросетевого модуля, который отвечает за структуру системы пространственного мониторинга. Взаимодействие нейросетевого модуля с имитационной моделью реализовано посредством интеграции интеллектуального агента. Реализован процесс обучения «с подкреплением». Выявлено, что предлагаемая интеграция возможна путем применения агентно-ориентированного подхода. На основе данного подхода представлено структурно-функциональное описание имитационной модели действия системы пространственного мониторинга в условиях воздействия дестабилизирующих факторов. Представленные результаты подтверждают эффективность рекомендаций по управлению элементами системы при использовании обученного в ходе имитационного моделирования нейросетевого модуля. Выполнено сравнение с базовыми стратегиями поиска объектов. Определены перспективы применения нейросетевых технологий и машинного обучения «с подкреплением» в подсистеме проактивного управления системы пространственного мониторинга и пути их достижения.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Шайдулин З. Ф., Балдычев М. Т., Тимошенко А. В., Омельшин А. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

PROACTIVE MANAGEMENT OF THE COMPOSITION AND STRUCTURE OF THE SPATIAL MONITORING SYSTEM UNDER THE INFLUENCE OF DESTABILIZING FACTORS

The article considers issues of increasing the target performance of the spatial monitoring system expressed in the maximization of the number of detected search objects under the influence of destabilizing factors. It is shown that such a task can be solved by integrating simulation modeling and artificial intelligence in the modeling and forecasting module of the proactive management subsystem of the spatial monitoring system. Within the framework of the proposed approach, the simulation model allows generating many variants of the course of an antagonistic conflict and is used as a training ground for the neural network module, which is responsible for the structure of the spatial monitoring system. The interaction between the neural network module and the simulation model is realized by integrating a mental agent into the simulation model with reinforcement learning. It is revealed that the proposed integration is possible by applying an agent-based approach. Based on this approach, the paper presents a structural and functional description of the simulation model for the spatial monitoring system that functions under the influence of destabilizing factors. The results of simulation modeling, which confirm the effectiveness of recommendations to manage the elements of the system using the neural network module trained during the simulation, are also presented. The comparison with the basic strategy of the object search is executed. The authors outline the prospects of applying the neural network technology and reinforcement machine learning in the proactive control subsystem of the spatial monitoring system and ways to achieve them.

Текст научной работы на тему «ПРОАКТИВНОЕ УПРАВЛЕНИЕ СОСТАВОМ И СТРУКТУРОЙ СИСТЕМЫ ПРОСТРАНСТВЕННОГО МОНИТОРИНГА В УСЛОВИЯХ ВОЗДЕЙСТВИЯ ДЕСТАБИЛИЗИРУЮЩИХ ФАКТОРОВ»

УНИВЕРСИТЕТ итмо

НАУЧНО-ТЕХНИЧЕСКИИ ВЕСТНИК ИНФОРМАЦИОННЫХ ТЕХНОЛОГИИ, МЕХАНИКИ И ОПТИКИ ноябрь-декабрь 2021 Том 21 № 6 http://ntv.ifmo.ru/

SCIENTIFIC AND TECHNICAL JOURNAL OF INFORMATION TECHNOLOGIES, MECHANICS AND OPTICS November-December 2021 Vol. 21 No 6 http://ntv.ifmo.ru/en/

ISSN 2226-1494 (print) ISSN 2500-0373 (online)

ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ. МЕХАНИКИ И йПТИКИ

АВТОМАТИЧЕСКОЕ УПРАВЛЕНИЕ И РОБОТОТЕХНИКА AUTOMATIC CONTROL AND ROBOTICS

doi: 10.17586/2226-1494-2021-21-6-848-857 УДК 004.942

Проактивное управление составом и структурой системы пространственного мониторинга в условиях воздействия дестабилизирующих факторов

Зуфар Фаатович Шайдулин1, Михаил Тимурович Балдычев2, Александр Васильевич Тимошенко3®, Александр Александрович Омельшин4

1'2'4 Военный университет радиоэлектроники, Череповец, 162622, Российская Федерация 3 АО «Радиотехнический институт имени академика А.Л. Минца», Москва, 127083, Российская Федерация

1 [email protected], https://orcid.org/0000-0003-4201-0672

2 [email protected], https://orcid.org/0000-0002-2618-7470

3 u567ku78@gmaiLcomи, https://orcid.org/0000-0002-9791-142X

4 [email protected], https://orcid.org/0000-0001-6900-3662

Аннотация

В работе рассмотрены вопросы повышения целевого показателя функционирования системы пространственного мониторинга, выраженного в максимизации количества обнаруженных объектов поиска в условиях воздействия дестабилизирующих факторов. Показано, что такая задача может быть решена путем интеграции имитационного моделирования и искусственного интеллекта в модуле моделирования и прогнозирования подсистемы проактивного управления системы пространственного мониторинга. В рамках предложенного подхода имитационная модель позволяет генерировать множество вариантов течения антагонистического конфликта и используется в качестве площадки для обучения нейросетевого модуля, который отвечает за структуру системы пространственного мониторинга. Взаимодействие нейросетевого модуля с имитационной моделью реализовано посредством интеграции интеллектуального агента. Реализован процесс обучения «с подкреплением». Выявлено, что предлагаемая интеграция возможна путем применения агентно-ориентированного подхода. На основе данного подхода представлено структурно-функциональное описание имитационной модели действия системы пространственного мониторинга в условиях воздействия дестабилизирующих факторов. Представленные результаты подтверждают эффективность рекомендаций по управлению элементами системы при использовании обученного в ходе имитационного моделирования нейросетевого модуля. Выполнено сравнение с базовыми стратегиями поиска объектов. Определены перспективы применения нейросетевых технологий и машинного обучения «с подкреплением» в подсистеме проактивного управления системы пространственного мониторинга и пути их достижения. Ключевые слова

проактивное управление, агентно-ориентированный подход, имитационное моделирование, нейросетевые

технологии, теория игр, машинное обучение, обучение «с подкреплением»

Благодарности

Часть исследования выполнена при поддержке гранта Российского научного фонда № 21-19-00481. Ссылка для цитирования: Шайдулин З.Ф., Балдычев М.Т., Тимошенко А.В., Омельшин А.А. Проактивное управление составом и структурой системы пространственного мониторинга в условиях воздействия дестабилизирующих факторов // Научно-технический вестник информационных технологий, механики и оптики. 2021. Т. 21, № 6. С. 848-857. doi: 10.17586/2226-1494-2021-21-6-848-857

© Шайдуллин З.Ф., Балдычев М.Т., Тимошенко А.В., Омельшин А.А., 2021

Proactive management of the composition and structure of the spatial monitoring

system under the influence of destabilizing factors Zufar F. Shaidulin1, Mikhail T. Baldytchev2, Alexander V. Timoshenko3®, Alexandr A. Omelshin4

i,2,4 Military University of Radio Electronics, Cherepovets, 162622, Russian Federation

3 Joint Stock Company "Academician A.L.Mints Radiotechnical Institute", Moscow, 127083, Russian Federation

1 [email protected], https://orcid.org/0000-0003-4201-0672

2 [email protected], https://orcid.org/0000-0002-2618-7470

3 [email protected]®, https://orcid.org/0000-0002-9791-142X

4 [email protected], https://orcid.org/0000-0001-6900-3662

Abstract

The article considers issues of increasing the target performance of the spatial monitoring system expressed in the maximization of the number of detected search objects under the influence of destabilizing factors. It is shown that such a task can be solved by integrating simulation modeling and artificial intelligence in the modeling and forecasting module of the proactive management subsystem of the spatial monitoring system. Within the framework of the proposed approach, the simulation model allows generating many variants of the course of an antagonistic conflict and is used as a training ground for the neural network module, which is responsible for the structure of the spatial monitoring system. The interaction between the neural network module and the simulation model is realized by integrating a mental agent into the simulation model with reinforcement learning. It is revealed that the proposed integration is possible by applying an agent-based approach. Based on this approach, the paper presents a structural and functional description of the simulation model for the spatial monitoring system that functions under the influence of destabilizing factors. The results of simulation modeling, which confirm the effectiveness of recommendations to manage the elements of the system using the neural network module trained during the simulation, are also presented. The comparison with the basic strategy of the object search is executed. The authors outline the prospects of applying the neural network technology and reinforcement machine learning in the proactive control subsystem of the spatial monitoring system and ways to achieve them. Keywords

proactive management, agent technologies, simulation modeling, neural network technologies, game theory, machine

learning, reinforcement learning

Acknowledgements

This work is partially supported by the Russian Science Foundation (project No. 21-19-00481). For citation: Shaidulin Z.F., Baldytchev M.T., Timoshenko A.V., Omelshin A.A. Proactive management of the composition and structure of the spatial monitoring system under the influence of destabilizing factors. Scientific and Technical Journal of Information Technologies, Mechanics and Optics, 2021, vol. 21, no. 6, pp. 848-857 (in Russian). doi: 10.17586/2226-1494-2021-21-6-848-857

Введение

Современные системы пространственного мониторинга (СПМ) являются многокомпонентными структурно-сложными системами, состоящими из большого количества разнородных элементов [1]. В силу гетерогенности и распределенности такие системы характеризуются структурной сложностью, экстремальностью функционирования, трудностью принятия решений и выбора сценариев поведения, нетривиальностью их формального описания и моделирования.

В этих условиях для обеспечения требуемой степени автономности, качества и оперативности управления СПМ необходимо обеспечить модельно-алго-ритмическое описание всех возможных процессов при их функционировании. На основе данных процессов возможно решить весь перечень задач комплексной автоматизации и интеллектуализации процессов управления элементами СПМ в различных условиях, в том числе при воздействии дестабилизирующих факторов.

Исходя из этого, при решении задач управления составом и структурой СПМ необходимо применять принципиально новый подход к проектированию и применению соответствующих автоматизированных систем, в частности систем проактивного управления [2], которое предполагает организацию управ-

ления составом и структурой на основе прогностических данных. Для обеспечения достоверными и своевременными данными должны быть разработаны специализированные имитационные модели, методы и алгоритмы, обеспечивающие обработку и анализ в реальном времени сверхбольших объемов гетерогенной информации. Выполнено прогнозирование последствий принимаемых управленческих решений и учета структурной динамики СПМ при воздействии дестабилизирующих факторов с целью формирования наилучших рекомендаций по управлению составом и структурой СПМ.

Построение имитационных моделей функционирования СПМ и изучение особенностей ее элементов находятся в области моделирования антагонистического конфликта.

В работах [3-6] рассмотрено развитие имитационных комплексов, направленных на изучение конфликта в воздушно-космической сфере. В приведенных работах имитация динамики изменения пространственно-временной картины течения конфликта ограничена набором заранее сформированных сценариев и не учитывает возможные нестандартные действия противоборствующих сторон, в том числе и возможное воздействие дестабилизирующих факторов. Стоит отметить и отсутствие канонического решения при

поиске экстремума целевого параметра имитационной модели, в частности в условиях большого количества вариабельных параметров имитационной модели [7].

В связи с этим совершенствование научно-методического аппарата, применяемого при имитационном моделировании, разработка методов и алгоритмов, обеспечивающих поиск экстремумов целевого показателя имитационной модели, а также прогноз последствий при стохастическом изменении вариабельных параметров и на основе этого формирования эффективных рекомендаций по управлению составом и структурой СПМ в условиях воздействия дестабилизирующих факторов является крайне актуальной задачей.

Цель работы — повысить целевой показатель функционирования СПМ, выражающийся в максимизации количества обнаруженных объектов поиска в условиях воздействия дестабилизирующих факторов, за счет комплексного применения имитационного моделирования и искусственного интеллекта при проактивном управлении составом и структурой СПМ.

Цель моделирования процесса функционирования СПМ — максимизация математического ожидания числа обнаруженных объектов поиска в условиях воздействия дестабилизирующих факторов:

f(Sh S2, S3) = max M(s1„ S2j, s3*),

/=1,..., n; j=1,...,n; k=1,...,n

где S1, S2 и S3 — множество стратегий поведения элементов СПМ, объектов поиска и дестабилизирующих факторов; М() — математическое ожидание числа обнаруженных объектов при определенных стратегиях поведения датчиков СПМ (s1), объектов поиска (s2) и дестабилизирующих факторов (s3).

Таким образом, получим многомерный оптимизируемый функционал, поиск которого классическими оптимизационными алгоритмами [8, 9] не представляется возможным. В настоящее время решение подобных задач находится в области создания методов статистического ранжирования и выбора. Подобные задачи также решаются различными регрессионными алгоритмами [10-12], а в имитационном моделировании - за счет агентно-ориентированного подхода [13-18].

Данный подход предусматривает описание имеющейся группировки датчиков СПМ, дестабилизирующих факторов и объектов поиска в виде единой многоагентной системы. В качестве агентов в данной системе понимаются отдельные элементы СПМ, дестабилизирующие факторы и объекты поиска, а также элементы, имитирующие средства нейтрализации. Механизмы взаимодействия агентов между собой и стратегии их поведения, в зависимости от уровня их интеллектуализации, строятся на основе классических эвристик (задачи теории игр - «поиск в условиях конфликта») или формируются и уточняются в процессе обучения нейронной сети (реализация обучения «с подкреплением») [19-27].

Структурно-функциональное описание имитационной модели функционирования СПМ в условиях воздействия дестабилизирующих факторов

Архитектура имитационной модели включает четыре класса агентов:

— «средства нападения» — (объекты поиска) подвижные объекты, целью которых является незаметное преодоление заданного района. Объекты с определенной периодичностью излучают сигналы телеметрии и связи;

— «дестабилизирующие факторы» — средства подавления, осуществляют прикрытие средств нападения из фиксированных районов барражирования;

— «средства поражения» — предназначены для нейтрализации обнаруженных агентов класса «средств нападения» на заданном удалении;

— «датчики мониторинга» — датчики мониторинга, подразделяются на два типа: «активные» — работающие по принципам активной локации; «пассивные» — обнаружение прямого излучения, в определенных условиях возможна работа по вторичному излучению (в том числе на основе принципов биста-тической радиолокации [28]).

Для решения задач сходимости и объективности обучения нейросети необходима разработка высокоэффективных и качественных метрик. Необходимо наличие линейных агентов, действующих в ограниченных рамках, определяемых экспертным путем, а также достоверных исходных данных. При решении задач получения объективных данных о возможных вариантах развития конфликта на локальном участке требуется точечная интеллектуализация агентов отдельных классов и уровней иерархии, в зависимости от цели моделирования.

Исходя из этого, взаимодействие различных классов построено на решении антагонистической задачи теории игр — «поиск в условиях конфликта» [29-32], для которой разработана схема взаимодействия, представленная на рис. 1. Свойства оптимальных траекторий, возможность плоскостного представления зон радиолокационной видимости и электромагнитной доступности позволяют представить среду взаимодействия агентов плоскостью, разбитой на N областей (сеточное разбиение плоскости), и перейти к дискретному виду. Принципиальная применимость предлагаемой архитектуры исследована при помощи среды имитационного моделирования AnyLogic и библиотеки машинного обучения Ру^гск

Задача агентов класса «датчики мониторинга» заключается в максимизации числа обнаруженных агентов класса «средств нападения». Специфика функционирования «пассивных» и «активных» средств пространственного мониторинга заключается в выборе оптимальных траекторий поиска. Основываясь на эвристике методик «распределения поисковых ресурсов» и «поиска в условиях конфликта», решение оптимизационной задачи позволит использовать эмерджентные свойства системы, состоящей из разнотипных агентов,

принятие решения «объект\ обнаружен»

Взаимодействие о средой

Рис. 1. Укрупненная схема взаимодействия агентов имитационной модели системы пространственного мониторинга Fig. 1. Enlarged scheme of interaction of agents of the simulation model for the spatial monitoring system

за счет синтеза и интеграции алгоритмов децентрализованного действия и взаимодействия.

Выявление эмерджентных свойств возможно за счет создания отдельного интеллектуального агента, стоящего выше по иерархии и отвечающего за структуру, состав и действия нижестоящих агентов класса «датчики мониторинга». Основываясь на известных работах по построению интеллектуальных агентов [33, 34], авторами настоящей работы представлено архитектурное решение по интеллектуализации агента, позволяющего координировать действия нижестоящих по иерархии агентов класса «датчики мониторинга» через интеграцию имитационной модели с нейросетевым модулем. Графически данное решение представлено на рис. 2, где Vact — вектор, содержащий данные для реализации действий агента, z — вектор, содержащий информацию о значении метрики, h — вектор, содержащий информацию о состоянии рекуррентного слоя. Нейросетевой модуль включает прогностическую модель, состоящую из рекуррентных слоев (Recurrent Neural Network, RNN), и модель, формирующую управляющее воздействие на деятельность управляемых агентов, представленную линейной полносвязной сетью (Fully Connected Neural Network, FCNN).

Реализация обучения интеллектуального агента алгоритмами машинного обучения «с подкреплением»

Процесс обучения нейросетевого модуля заключается в реализации алгоритмов машинного обучения «с подкреплением», что предусматривает изучение агентом условно стохастической среды с помощью ме-

ханизма «вознаграждения/наказания». Данный подход требует наличия соответствующей метрики, позволяющей определить, насколько «хорошо» скажется выполнение определенного действия агентом на конечной задаче — обнаружении наибольшего числа агентов «средств поражения» (объектов поиска). В рамках исследования для построения метрики использована методика «распределения поисковых ресурсов». На основании методики все существенные переменные, подвергнутые ограничениям, и функция, подлежащая оптимизации, сводятся в аналитическую модель распределения поисковых ресурсов. Сформулированы аналитические выражения для поискового потенциала датчиков мониторинга, размеров районов поиска и вероятностей обнаружения /-го агента «средств нападения» в j-ом районе.

Поисковый потенциал Fj агента датчика мониторинга j-го типа определен через вероятность обнаружения им элемента деструктивного воздействия [35]:

= г^Ш^, 7 0 /=1(у,(0Г

где т — показатель зависимости уровня «заметности» агентов средств нападения; k — показатель варианта работы, который характеризует вид излучения (прямое, вторичное (эхо-сигналы)), по которому осуществляется обнаружение; у^) — скорость элемента деструктивного воздействия в момент времени Tj — общее время поиска; N — количество датчиков мониторинга; Ру(0 — уровень сигнала /-го элемента деструктивного воздействия в ^ом районе.

Рис. 2. Архитектурное решение по интеллектуализации агента и механизм его взаимодействия со средой Fig. 2. Architecture of an intelligent agent and the mechanism of its interaction with the environment

Показатель т для «пассивных» датчиков определяется частотой использования каналов связи и телеметрии, при работе датчика в «бистатическом» режиме показатель зависит от взаимного расположения агента нападения и ближайшего агента датчика «активного» мониторинга. Показатель k — уровень заметности для агентов «активных» датчиков мониторинга — варьируется относительно удаленности объектов поиска от датчика, скорости его движения и активности агентов дестабилизирующих факторов.

Площадь района поиска для каждого типа датчиков выбирается из условия, что математическое ожидание числа обнаруженных элементов деструктивного воздействия за время t будет максимальным. Площадь района поиска для 1-го датчикау-го типа получим:

п ,

М

где ту — число датчиков у-го типа; п — число типов датчиков; — общая площадь.

Вероятность обнаружения /-го элемента деструктивного воздействия в у-ом районе имеет вид:

Ру = 1 - П (1 - у,

I у

где — вероятность обнаружения элемента деструктивного воздействия датчиком 1-го типа в у-ом районе; ху — число датчиков мониторинга 1-го типа, направляемых в у-й район.

Оптимальное размещение разнородных датчиков мониторинга определяется через нахождение оптимальной стратегии для матрицы:

Р =

где Ру — вероятность обнаружения элементов деструктивного фактора в у-м районе при ограничениях

n

XXj. = Nl, l = (1, ..., k), Xj. = {0, 1, ..., N}, n — число

j=1 J J

районов поиска, Nj — число датчиков мониторинга l-го типа.

Логика действий агентов класса «средства нападения» построена в соответствии с «некооперативной» моделью, представленной в [35]. Выбор траектории их движения осуществлен на основе функции поискового потенциала и алгоритма, дополненного физически обоснованными ограничениями кинематики движения объектов поиска. Исходные данные при выборе траектории движения агента класса «средства нападения»: скорость, координаты точки входа (старта) и выхода (финиша) из модельного пространства. Рассмотрим два варианта траекторий:

— запуск агентов класса «средства нападения» из различных точек старта в одну точку выхода (финиша) из модельного пространства (рис. 3, a);

— запуск агентов класса «средства нападения» из различных точек во множество точек финиша (рис. 3, b).

Действия агентов класса «дестабилизирующие факторы» сформулированы на основе типовых сценариев применения средств подавления. Действия имеют следующие ограничения и допущения: агенты размещаются в определенных областях среды взаимодействия, которые выбираются в начале цикла моделирования и неизменны до его окончания (зона подавления рассчитывается в соответствии с уравнением «противоради-олокации» для активных помех [36]).

Агент класса «средства поражения» способен поразить только обнаруженные на допустимом удалении объекты поиска, эффективность поражения варьируется от 30 до 80 % в зависимости от дальности. Очередь объектов, информация о которых поступает в агент класса «средства поражения», организована в виде стека типа FIFO (FirstIn, FirstOut). По истечении времени задержки

х, ед. х, ед.

ф — точка старта; # — точка выхода; А — датчик мониторинга

Рис. 3. Траектория агентов класса «средства нападения» из различных точек старта: в одну точку выхода из модельного

пространства (а) и во множество точек финиша (b)

Fig. 3. Trajectory of agents of the "means of attack" class: from different starting points to one exit point from the model space (а);

from different starting points to many finishing points (b)

сусЫИтв, соответствующей tпр + ¿возд. ^пр — время принятия решения, ^озд — время на осуществления воздействия (поражения)), агент «средства поражения» посылает соответствующему агенту класса «средства нападения» сообщение с командой на поражение и удаляет его из очереди. Пополнение очереди осуществляется посредством обработки получаемых от агентов класса «датчики мониторинга» сообщений с данными об обнаруженных объектах поиска.

Вычислительный эксперимент и анализ полученных результатов

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Определим эффективность стратегий поиска, сформированных в ходе обучения «интеллектуального» агента и стратегий, с использованием классических эвристик.

Под классическими эвристиками в рамках машинного эксперимента подразумеваются стратегии перемещения датчиков мониторинга.

Первая стратегия — патрулирование, при которой датчик совершает движение по прямой из начальной точки А размещения вдоль заданной границы. При достижении края заданной для него зоны ответственности датчик совершает разворот и движется в обратном направлении (рис. 4, а). Данная стратегия для каждого датчика принципиально не учитывает наличие других датчиков и является некооперативной.

Вторая стратегия — барражирование: каждый отдельный датчик воздушного базирования первоначально размещается в точках глобального максимума поискового потенциала. Предложено перемещать датчик таким образом, чтобы данная траектория была физически реализуема (существует минимальный радиус

Рис. 4. Траектория движения агентов класса «датчики мониторинга» в стратегиях патрулирования (а) и барражирования (b) Fig. 4. The trajectory of the "monitoring sensor": in the patrol strategy (a); in the barrage strategy (b)

Количество итераций, ед. Количество итераций, ед.

Рис. 5. Зависимость количества обнаруженных объектов поиска («некооперативная» модель) от варианта управления агентами класса «датчики мониторинга» и количества обучающих итераций. Объекты поиска перемещаются из различных точек старта в одну точку выхода (а) и во множество точек выхода (b) Fig. 5. Dependence of the number of detected search objects ("non-cooperative" model) on the option of managing agents of the "monitoring sensors" class and the number of training iterations: search objects move from different starting points to one exit point (a); search objects move from different starting points to multiple exit points (b)

кривизны); глобальный минимум риска не выходил из сектора обзора сенсора.

Примером реализации алгоритма барражирования может служить вариант, схематично представленный на рис. 4, Ь. Пусть в начальный момент времени сенсор находится в точке А. X — точка глобального максимума поискового потенциала. У датчика имеется три альтернативы движения в точки В, С или D. Длина отрезка составляет АХ = 1. Вычисляются длины отрезков ХВ, ХС и XD и сравниваются с 1. Датчик перемещается в точку, наиболее близкую по евклидовой норме к точке X (в данном случае это точка D, датчик ориентирован в направлении DF). Далее точка D становится начальной, и итерация повторяется. Данный алгоритм позволяет «кружить» вокруг заданной точки, обеспечивая сканирование малозащищенной зоны.

Для демонстрации примера результата вычислительного эксперимента на основе разработанной имитационной модели предложено исходное количество агентов для следующих классов: «средства нападения» — В = 30; «дестабилизирующие факторы» — 3; «датчики мониторинга» — 10. В рамках эксперимента все датчики выбраны «активными», при реализации управления датчиками с помощью классических эвристик 5 из них осуществляли движение в соответствии со стратегией «патрулирование» и 5 — по стратегии «барражирование». В случае реализации управления датчиками интеллектуальным агентом траектории перемещения не регламентировались, скорость движения датчиков фиксирована во всех случаях.

На рис. 5 приведены зависимости количества обнаруженных объектов поиска от варианта стратегий движения агентов класса «датчики мониторинга».

В ретроспективе 500 итераций обучающего моделирования (значение каждой итерации усреднено по 300 не связанных между собой, но идентичных испытаний). Видно, что вариант управления на основе архитектуры интеллектуального агента, в начальной стадии обучения (0-100 итераций), заметно проигрывает в количестве обнаруженных объектов поиска ар-

хитектуре управления на основе заданных стратегий. Заметим, что начиная с 110-130 итерации эффективность интеллектуального агента растет. В то же время эффективность действия агентов в соответствии с применяемыми эвристиками незначительно колеблется в области фиксированного значения.

Анализ результатов машинного эксперимента показал, что потенциальный выигрыш применения интеллектуального агента при поиске агентов класса «средства нападения» достигает около 30 %.

Перспективы применения нейросетевых технологий и машинного обучения в подсистеме проактивного управления системы пространственного мониторинга в условиях воздействия дестабилизирующих факторов

Результаты имитационного моделирования позволяют предположить, что применение предварительно обученных в виртуальной среде интеллектуальных агентов в подсистеме проактивного управления структурой и составом СПМ в условиях воздействия дестабилизирующих факторов формирует высокоэффективные стратегии управления деятельностью элементами СПМ в реальной обстановке. На основании полученных результатов разработана функциональная структура модуля моделирования и прогнозирования подсистемы проактивного управления СПМ, основными элементами которого являются модули имитационного моделирования и прогнозирования, выделенные на рис. 6 зеленым цветом.

В рамках дальнейшего исследования необходимо, с одной стороны, детализировать и повышать адекватность имитационной модели, с другой, обеспечить конечное пространство ее состояний для реализации сходимости процесса обучения нейросети. Перспективным направлением представляется разработка теоретической основы для унификации и комплексирования гетерогенных данных, возникающих в результате усложнения модели и увеличения вариабельных параметров.

Подсистема проактивного управления СПМ

Рис. 6. Укрупненная функциональная структура модуля моделирования и прогнозирования проактивного управления

системы пространственного мониторинга Fig. 6. Enlarged functional structure of the module of modeling and forecasting of proactive control for the spatial monitoring system

Заключение

В работе рассмотрены перспективные пути по повышению эффективности функционирования системы пространственного мониторинга в условиях воздействия дестабилизирующих факторов. Выявлено, что максимизация целевого показателя эффективности мониторинга обеспечивается за счет интеграции имитационного моделирования и искусственного интеллекта на основе агентных технологий в подсистеме проактивно-го управления.

На основании предложенного подхода представлено структурно-функциональное описание имитационной модели функционирования системы пространственного

мониторинга в условиях воздействия дестабилизирующих факторов.

Рассмотрены результаты машинного эксперимента, подтверждающие наличие выигрыша в эффективности рекомендаций по управлению элементами системы пространственного мониторинга, при использовании обученной в ходе имитационного моделирования нейронной сети, на основе рекомендаций, сформированных на базе классических эвристик.

Определены перспективы применения нейросете-вых технологий и машинного обучения «с подкреплением» в подсистеме проактивного управления системы пространственного мониторинга и пути их достижения.

Литература

References

Соколова И.С., Тырсин А.Н. Использование энтропийно-вероятностного моделирования в задачах мониторинга и управления сложными системами // Современные технологии. Системный анализ. Моделирование. 2012. № 4. С. 35-39. Охтилев М.Ю., Мустафин Н.Г., Миллер В.Е., Соколов Б.В. Концепция проактивного управления сложными объектами: теоретические и технологические основы // Известия вузов. Приборостроение. 2014. Т. 57. № 11. С. 7-15.

Sokolova I.S., Tyrsin A.N. Use of entropy-probabilistic modeling in problems of monitoring and management of complex systems.

Modern Technologies. System Analysis. Modeling, 2012, no.4, pp. 3539. (in Russian)

Okhtilev M.Yu., Mustafin N.G., Miller V.E., Sokolov B.V. Concept of proactive control over complex objects: theoretical and technological basis. Journal of Instrument Engineering, 2014, vol. 57, no. 11. pp. 7-15. (in Russian)

3. Имитационное моделирование боевых действий: теория и практика / под ред. П.А. Созинова, И.Н. Глушкова. Тверь, 2013. 528 с.

4. Андреев Г.И., Созинов П.А., Тихомиров В.А. Основы теории принятия решений. М.: Радиотехника, 2017. 648 с.

5. Богданов О.А., Смирнов А.А., Ковалев Д.В. Имитационное моделирование противоборства в воздушно-космической сфере // Программные продукты и системы. 2016. № 1. С. 160-165. https:// doi.org/10.15827/0236-235X.113.160-165

6. Осипов М.П. Влияние численности сражающихся сторон на их потери // Военный сборник. 1915. № 10. С. 93-96.

7. Воробьев А.А., Загодарчук И.В., Филяев М.П. Имитационное моделирование в военном деле // Научные проблемы материально-технического обеспечения Вооруженных Сил Российской Федерации: сборник научных трудов. 2018. № 3(9). С. 42-49.

8. Aksarayli M., Yildiz A. Process optimization with simulation modeling in a manufacturing system // Research Journal of Applied Sciences, Engineering and Technology. 2011. V. 3. N 4. P. 318-328.

9. Kang B.G., Choi S.H., Kwon S.J., Lee J.H., Kim T.G. Simulation-based optimization on the system-of-systems model via model transformation and genetic algorithm: A case study of network-centric warfare // Complexity. 2018. P. 4521672. https://doi. org/10.1155/2018/4521672

10. Ankenman B., Nelson B.L., Staum J. Stochastic kriging for simulation metamodeling // Operations Research. 2010. V. 58. N 2. P. 371-382. https://doi.org/10.1287/opre.1090.0754

11. Chen W., Gao S., Chen C.H., Shi L. An optimal sample allocation strategy for partition-based random search // IEEE Transactions on Automation Science and Engineering. 2014. V. 11. N 1. P. 177-186. https://doi.org/10.1109/TASE.2013.2251881

12. Абчук В.А. Справочник по исследованию операций. М.: Воениздат, 1979. 368 с.

13. Куцев Л.Н., Мещеряков Г.А., Ткаченко П.Н. и др. Математические модели боевых действий. М.: Советское радио, 1969. 240 с.

14. Вентцель Е.С. Элементы теории игр. М.: Физматгиз, 1961. 68 с.

15. Галяев А.А., Маслов Е.П., Рубинович Е.Я. Об одной задаче управления движением объекта в конфликтной среде // Известия Российской академии наук. Теория и системы управления. 2009. № 3. С. 134-140.

16. Дюбин Г.Н., Суздаль В.Г. Введение в прикладную теорию игр. М.: Наука, 1981. 336 с.

17. Chen X., Jiang N., Jing Y., Stojanovski G., Dimirovski G. Differential game model and its solutions for force resource complementary via lanchester square law equation // IFAC Proceedings Volumes. 2011. V. 44. N 1. P. 1429-1433. https://doi.org/10.3182/20110828-6-IT-1002.01042

18. Shoham Y., Leyton-Brown K. Multiagent Systems. Algorithmic, Game-Theoretic, and Logical Foundations. London: Cambridge University Press, 2008. 532 p. https://doi.org/10.1017/ CB09780511811654

19. Новиков Д.А. Рациональная интеллектуализация МАС // Теория активных систем-2011: Труды международной научно-практической конференции. Т. 3. М.: Институт проблем управления им. В.А. Трапезникова РАН, 2011. С. 233-238.

20. Корепанов В.О. Модели рефлексивного группового поведения и управления. М.: ИПУ РАН, 2011. 133 с.

21. Weiss G. Multiagent Systems: a Modern Approach to Distributed Artificial Intelligence. Massachusetts: MIT Press, 1999. 619 с.

22. Борщев А.В., Mahdavi A., Жеребцов А.А. Имитационные модели как виртуальная среда для обучения и тестирования искусственного интеллекта для бизнес-приложений // Девятая всероссийская научно-практическая конференция по имитационному моделированию и его применению в науке и промышленности «Имитационное моделирование. Теория и практика» (ИММОД-2019): Труды конференции. Екатеринбург: Издательство Уральского государственного педагогического университета, 2019. с. 20-29.

23. Кутузов О.И., Татарникова Т.М. Общее в подходе к имитационному моделированию инфокоммуникационных и транспортных сетей // Научно-технический вестник информационных технологий, механики и оптики. 2019. Т. 19. № 5. С. 912-917. https://doi. org/10.17586/2226-1494-2019-19-5-912-917

24. Викснин И.И., Ляховенко Ю.А., Турсуков Н.О. Моделирование поведения неорганизованной группы в случае чрезвычайной ситуации // Научно-технический вестник информационных технологий, механики и оптики. 2019. Т. 19. № 6. С. 1130-1138. https://doi.org/10.17586/2226-1494-2019-19-6-1130-1138

3. Simulation of Combat Operations: Theory and Practice. Ed. by P.A. Sozinov, I.N. Glushkov. Tver, 2013, 528 p. (in Russia)

4. Andreev G.I., Sozinov P.A., Tikhomirov V.A. Fundamentals of Decision Theory. Moscow, Radiotehnika Publ., 2017, 648 p. (in Russian)

5. Bogdanov O.A., Smirnov A.A., Kovalev D.V. Imitation modeling for aerospace confrontation. Software & Systems, 2016, no. 1, pp. 160165. (in Russian). https://doi.org/10.15827/0236-235X.113.160-165

6. Osipov M.P. The impact of the number of fighting parties on their losses. Voennyj sbornik, 1915, no. 10, pp. 93-96. (in Russian)

7. Vorobiev A.A., Zagodarchuk I.V., Filyaev M.P. Simulation modeling in military affairs. Scientific challenges of logistical support of the armed forces of the Russian Federation, 2018, no. 3(9), pp. 4249. (in Russian)

8. Aksarayli M., Yildiz A. Process optimization with simulation modeling in a manufacturing system. Research Journal of Applied Sciences, Engineering and Technology, 2011, vol. 3, no. 4, pp. 318328.

9. Kang B.G., Choi S.H., Kwon S.J., Lee J.H., Kim T.G. Simulation-based optimization on the system-of-systems model via model transformation and genetic algorithm: A case study of network-centric warfare. Complexity, 2018, pp. 4521672. https://doi. org/10.1155/2018/4521672

10. Ankenman B., Nelson B.L., Staum J. Stochastic kriging for simulation metamodeling. Operations Research, 2010, vol. 58, no. 2, pp. 371382. https://doi.org/10.1287/opre.1090.0754

11. Chen W., Gao S., Chen C.H., Shi L. An optimal sample allocation strategy for partition-based random search. IEEE Transactions on Automation Science and Engineering, 2014, vol. 11, no. 1, pp. 177186. https://doi.org/10.1109/TASE.2013.2251881

12. Abchuk V.A. Handbook of Operations Research. Moscow, Voenizdat Publ., 1979, 368 p. (in Russian)

13. Kutcev L.N., Meshcheriakov G.A., Tkachenko P.N. et al. Mathematical models of combat operations. Moscow, Sovetskoe radio Publ., 1969, 240 p. (in Russian)

14. Venttcel E.S. Elements of game theory. Moscow, Fizmatgiz Publ., 1961, 68 p. (in Russian)

15. Galyaev A.A., Maslov E.P., Rubinovich E.Y. On a motion control problem for an object in a conflict environment. Journal of Computer and Systems Sciences International, 2009, vol. 48, no. 3, pp. 458-464. https://doi.org/10.1134/S1064230709030125

16. Diubin G.N., Suzdal V.G. Introduction to Applied Game Theory. Moscow, Nauka Publ., 1981, 336 p. (in Russian)

17. Chen X., Jiang N., Jing Y., Stojanovski G., Dimirovski G. Differential game model and its solutions for force resource complementary via lanchester square law equation. IFAC Proceedings Volumes, 2011, vol. 44, no. 1, pp. 1429-1433. https://doi.org/10.3182/20110828-6-IT-1002.01042

18. Shoham Y., Leyton-Brown K. Multiagent Systems. Algorithmic, Game-Theoretic, and Logical Foundations. London, Cambridge University Press, 2008, 532 p. https://doi.org/10.1017/ CB09780511811654

19. Novikov D.A. Rational intellectualization of multi-agent systems. The Theory of active systems 2011: Proceedings ofInternational Scientific and Practical Conference. Vol. 3. Moscow, Institute of Control Sciences V.A. Trapeznikov Academy of Sciences, 2011, pp. 233-238. (in Russian)

20. Korepanov V.O. Models of reflexive group behavior and management. Moscow, IPU RAN Publ., 2011, 133 p. (in Russian)

21. Weiss G. Multiagent Systems: a Modern Approach to Distributed Artificial Intelligence. Massachusetts: MIT Press, 1999, 619 c.

22. Borshchev A.V., Mahdavi A., Zherebtcov A.A. Simulation models as virtual environments to train and test artificial intelligence for business applications. The 9th all-Russian scientific and practical conference on simulation modeling and its application in science and industry "Simulation modeling. Theory and practice ". Conference proceedings. Ekaterinburg, Ural State Pedagogical University Publ., 2019, pp. 20-29. (in Russian)

23. Kutuzov O.I., Tatarnikova T.M. Common ground between approaches to simulation modeling of infocommunication and transport networks. Scientific and Technical Journal of Information Technologies, Mechanics and Optics, 2019, vol. 19, no. 5, pp. 912-917. (in Russian). https://doi.org/10.17586/2226-1494-2019-19-5-912-917

24. Viksnin I.I., Lyakhovenko J.A., Tursukov N.O. Simulation of unorganized group behavior in case of emergency. Scientific and Technical Journal of Information Technologies, Mechanics and

25. Alsalehi S., Mehdipour N., Bartocci E., Belta C. Neural network-based control for multi-agent systems from spatio-temporal specifications [Электронный ресурс]. URL: https://arxiv.org/ pdf/2104.02737.pdf (дата обращения: 23.05.2021).

26. Arulkumaran K., Deisenroth M.P., Brundage M., Bharath A.A. Deep reinforcement learning: A brief survey // IEEE Signal Processing Magazine. 2017. V. 34. N 6. P. 26-38. https://doi.org/10.1109/ MSP. 2017.2743240

27. Lin L.-J. Self-improving reactive agents based on reinforcement learning, planning and teaching // Machine Learning. 1992. V. 8. N 3-4. P. 293-321. https://doi.org/10.1007/BF00992699

28. Боев С.Ф., Тимошенко А.В., Чеботарь И.В., Балдычев М.Т. Метод комплексного применения бортовых радиотехнических и радиолокационных средств для распознавания радиомолчащих воздушных объектов в условиях радиоэлектронного подавления // Журнал радиоэлектроники. 2017. № 4. С. 2.

29. Ha D., Schmidhuber J. World Models [Электронный ресурс]. URL: https://arxiv.org/pdf/1803.10122.pdf (дата обращения: 17.04.2021).

30. Петросян Л.А., Гарнаев А.Ю. Игры поиска: учебное пособие. СПб.: Изд-во СПбГУ, 1992. 216 с.

31. Петросян Л.А., Зенкевич Н.А. Оптимальный поиск в условиях конфликта: учебное пособие. Л.: Изд-во ЛГУ, 1987. 77 с.

32. Абчук В.А., Суздаль В.Г. Поиск объектов. М.: Советское радио, 1977. 336 с.

33. Taillandier P., Bourgais M., Caillou P., Adam C., Gaudou B. A BDI agent architecture for the GAMA modelling and simulation platform // Lecture Notes in Computer Science. 2017. V. 10399. P. 3-23. https://doi.org/10.1007/978-3-319-67477-3_1

34. Bratman M. Intention, Plans, and Practical Reason. Harvard University Press, 1987. 208 c.

35. Корепанов В.О., Новиков Д.А. Задача о диффузной бомбе // Проблемы управления. 2011. № 5. С. 66-73.

36. Куприянов А.И. Радиоэлектронная борьба. М.: Вузовская книга, 2013. 360 с.

Optics, 2019, vol. 19, no. 6, pp. 1130-1138. (in Russian). https://doi. org/10.17586/2226-1494-2019-19-6-1130-1138

25. Alsalehi S., Mehdipour N., Bartocci E., Belta C. Neural network-based control for multi-agent systems from spatio-temporal specifications. Available at: https://arxiv.org/pdf/2104.02737.pdf (accessed: 23.05.2021).

26. Arulkumaran K., Deisenroth M.P., Brundage M., Bharath A.A. Deep reinforcement learning: A brief survey. IEEE Signal Processing Magazine, 2017, vol. 34, no. 6, pp. 26-38. https://doi.org/10.1109/ MSP.2017.2743240

27. Lin L.-J. Self-improving reactive agents based on reinforcement learning, planning and teaching. Machine Learning, 1992, vol. 8, no. 3-4, pp. 293-321. https://doi.org/10.1007/BF00992699

28. Boev C.F., Timoshenko A.V., Chebotar I.V., Baldychev M.T. A method of complex application of on-board radio engineering and radar means for recognition of radio-silent air objects under radio-electronic suppression. Journal of Radio Electronics, 2017, no. 4. pp. 2. (in Russian)

29. Ha D., Schmidhuber J. World Models. Available at: https://arxiv.org/ pdf/1803.10122.pdf (accessed: 17.04.2021).

30. Petrosian L.A., Garnaev A.Iu. Search Games. Tutorial. St. Petersburg, SPbGU Publ., 1992, 216 p. (in Russian)

31. Petrosian L.A., Zenkevich N.A. Optimal Search under Conditions of Conflict. Tutorial. Leningrad, LGU Publ., 1987, 77 p. (in Russian)

32. Abchuk V.A., Suzdal V.G. Search for Objects. Moscow, Sovetskoe radio Publ., 1977, 336 p. (in Russian)

33. Taillandier P., Bourgais M., Caillou P., Adam C., Gaudou B. A BDI agent architecture for the GAMA modelling and simulation platform. Lecture Notes in Computer Science, 2017, vol. 10399, pp. 3-23. https://doi.org/10.1007/978-3-319-67477-3_1

34. Bratman M. Intention, Plans, and Practical Reason. Harvard University Press, 1987, 208 c.

35. Korepanov V.O., Novikov D.A. The diffuse bomb problem. Problemy Upravleniya, 2011, no. 5, pp. 66-73. (in Russian)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

36. Kupriianov A.I. Electronic Warfare. Moscow, Vuzovskaja kniga Publ., 2013, 360 p. (in Russian)

Авторы

Authors

Шайдулин Зуфар Фаатович — кандидат технических наук, доцент, научно-педагогический работник, Военный университет радиоэлектроники, Череповец, 162622, Российская Федерация, https://orcid. org/0000-0003-4201-0672, [email protected]

Балдычев Михаил Тимурович — кандидат технических наук, научно-педагогический работник, Военный университет радиоэлектроники, Череповец, 162622, Российская Федерация, https://orcid. org/0000-0002-2618-7470, [email protected]

Тимошенко Александр Васильевич — доктор технических наук, профессор, начальник комплексного отдела - заместитель генерального конструктора, АО «Радиотехнический институт имени академика А.Л. Минца», Москва, 127083, Российская Федерация, https://orcid. org/0000-0002-9791-142X, [email protected] Омельшин Александр Александрович — научно-педагогический работник, Военный университет радиоэлектроники, Череповец, 162622, Российская Федерация, https://orcid.org/0000-0001-6900-3662, [email protected]

Zufar F. Shaidulin — PhD, Associate Professor, Scientific Researcher, Military University of Radio Electronics, Cherepovets, 162622, Russian Federation, https://orcid.org/0000-0003-4201-0672, [email protected]

Mikhail T. Baldytchev — PhD, Scientific Researcher, Military University of Radio Electronics, Cherepovets, 162622, Russian Federation, https:// orcid.org/0000-0002-2618-7470, [email protected]

Alexander V. Timoshenko — D.Sc., Professor, Head of Department, Deputy General Designer, Joint Stock Company "Academician A.L.Mints Radiotechnical Institute", Moscow, 127083, Russian Federation, https:// orcid.org/0000-0002-9791-142X, [email protected]

Alexandr A. Omelshin — Scientific Researcher, Military University of Radio Electronics, Cherepovets, 162622, Russian Federation, https://orcid. org/0000-0001-6900-3662, [email protected]

Статья поступила в редакцию 22.09.2021 Одобрена после рецензирования 02.11.2021 Принята к печати 30.11.2021

Received 22.09.2021

Approved after reviewing 02.11.2021

Accepted 30.11.2021

Работа доступна по лицензии Creative Commons «Attribution-NonCommercial»

i Надоели баннеры? Вы всегда можете отключить рекламу.