2. Кибератаки // TADVISER Государство. Бизнес. Технологии URL: https://www.tadviser.ru/шdex.php/Статья:Кибератаки (дата обращения: 27.02.2023).
3. Бодряшкин Я. Потенциальный ущерб от киберпреступности в 2022 году оценили в Р165 млрд URL: https://www.gazeta.ru/business/news/2022/02/17/17304823.shtml (дата обращения: 27.02.2023).
4. Кибератаки Статья: Информационная безопасность (рынок России) // TADVISER Государство. Бизнес. Технологии URL: https://www.tadviser.ru/шdex.php/Статья:КибератакиСтатья:Информационная безопасность %28рынок России%29 (дата обращения: 27.02.2023).
5. WannaCry (вирус-вымогатель) // TADVISER Государство. Бизнес. Технологии URL: https://www.tadviser.ru/index.php/Статья:WannaCrv (вирус-вымогатель) (дата обращения: 27.02.2023).
6. Герасюкова М. Вирус нового поколения: как кибератака NotPetya изменила мир URL: https://www.gazeta.ru/tech/2020/06/26/13132537/petya is three.shtml (дата обращения: 27.02.2023).
Абрамов Дмитрий Александрович, канд. техн. наук, доцент, [email protected], Россия, Тула, Тульский государственный университет,
Токарев Вячеслав Леонидович, д-р техн. наук, профессор, [email protected]. Россия, Тула, Тульский государственный университет
METHODS FOR INCREASING THE EFFECTIVENESS OF REPELLING COMPUTER ATTACKS BY IMPROVING THE EDUCATIONAL PROCESS
D.A. Abramov, V.L. Tokarev
This work is devoted to the problems of industry digitalization arising in the _ field of information security. In the presented work, a method is proposed to reduce the effectiveness of computer attacks by improving the educational process. As measures to improve the educational process, it is proposed to introduce a specialized simulator used to test the practical skills of information security specialists.
Key words: digitalization, digitalization of the industry, information security, cyber attacks, information security specialists training, safety simulator.
Abramov Dmitry Alexandrovich, candidate of technical sciences, docent, [email protected], Russia, Tula, Tula State University,
Tokarev Vyacheslav Leonidovich, doctor of technical sciences, professor, [email protected], Russia, Tula, Tula State University
УДК 621.45.018
DOI: 10.24412/2071-6168-2023-12-590-591
АЛГОРИТМ ОБУЧЕНИЯ И ВАЛИДАЦИИ ИМИТАЦИОННОЙ МОДЕЛИ РИС НА ОСНОВЕ ДАННЫХ
ДИАГНОСТИЧЕСКОГО КОНТРОЛЯ
Е.И. Минаков, А.Ю. Перлов, В.А. Панкратов, С.В. Мацеевич
В статье предложен алгоритм обучения и валидации имитационной модели радиоинформационного средства, основанной на методах машинного обучения. Обосновано использование в качестве обучающей выборки многомерных временных рядов данных диагностического контроля.
Ключевые слова: радиоинформационные средства, прогнозирование технического состояния, машинное обучение, валидация.
Введение и постановка задачи. Высокий уровень цифровизации современных радиоинформационных средств (РИС), развитие систем диагностического контроля их компонентов, а также достижения в области методов искусственного интеллекта, позволяют перейти к решению задачи контроля функциональных характеристик РИС в реальном масштабе времени, а также их прогнозирования [1].
В каждом элементе контроля РИС установлено несколько типов цифровых датчиков, регистрирующих с помощью системы управления и контроля информацию о состоянии параметров технического состояния и входных сигналов в режиме реального времени. Данное обстоятельство обуславливает непрерывное формирование большого потока данных диагностического контроля, представляющих собой многомерные и неравномерные временные ряды [2].
Однако отсутствие изделия как функционально и конструктивно законченной системы до момента сдачи его в эксплуатацию, приводит к необходимости разработки инструмента для обоснования требований к прогнозированию технического состояния (горизонт, точность), разработки и отработки как алгоритмов обработки данных, так и прогнозирования на этапе создания РИС.
Проведенный анализ показал, что помимо подходов для моделирования функционирования РИС с помощью различных САПР, имеющих готовые библиотеки под функциональные узлы РЛС [3-8], эффективным инструментом для решения указанной задачи является имитационная модель (ИМ) РИС, порядок и особенности разработки которого определяются ГОСТ Р 57700.37-2021 «Компьютерные модели и моделирование. Цифровые двойники изделий». Основной сложностью применения САПР по отношению к РИС является необходимость детального описыва-
ния взаимосвязи между данными диагностического контроля и формируемой радиолокационной информацией в реальных условиях функционирования.
В интересах решения задачи прогнозирования отказов на этапе создания РИС предлагается использование ИМ технического состояния изделия, разработанной по данным диагностического контроля с этапа эксплуатации. Наличие большого объема данных позволит выбрать наилучшую модель машинного обучения для прогнозирования отказов с требуемым качеством (точность, горизонт и время вычисления прогноза) к моменту ввода создаваемой РИС в эксплуатацию.
Алгоритм валидации ИМ РИС. Важнейшим этапом для проверки адекватности создаваемой ИМ реальной РИС является процедура валидации, под которой понимается сравнение значений выходных характеристик, формируемых моделью, со значениями выходных характеристик РИС на протяжении всего жизненного цикла создания изделия.
Предлагаемый алгоритм валидации ИМ РИС (рис. 1) основан на определении статистически устойчивых признаков (данные технического контроля и функционального контроля) для прогнозирования значений функциональных характеристик (например, суммарная излучаемая мощность РИС).
Формирование обучающей выборки для ИМ
Создание и обучение ИМ проводится как на этапе пуско-наладочных работ, так и на этапе эксплуатации. В качестве входных данных X(t), наполняющих обучающую выборку X(t), используются: на этапе пуско-наладочных работ:
данные отработки и испытаний производителя СЧ (ячейка/модуль, блок/устройство) РИС, данные функционирования СЧ (РЭК, подрешетка) РИС со стенда главного конструктора, данные функционирования РИС с комплексного имитационного моделирующего стенда; на этапе эксплуатации:
данных технического и функционального контроля СЧ эксплуатируемой РИС, данные по радиолокационной информации эксплуатируемой РИС.
В качестве выходных данных Y(t) используются данные по функциональным характеристикам СЧ или
РИС.
Математическая суть ИМ состоит в создании правила Y(t) =F(X(t),0), которое позволяет связать входные и выходные данные некоторой функциональной связью, которая определяется набором гиперпараметров ИМ 0 = {01,02,~,ЭК}. Впоследствии синтезированная функциональная связь используется для расчета выходных данных по любым другим входным данным.
Для формирования обучающей выборки X(t) необходимо исходные входные данные X(t) привести к стандартному виду, что подразумевает следующие операции:
X —X
1) нормирование вещественных данных на интервал [0, 1]: Xj = у 1 , где Xmax и X^n - максималь-
Xmax Xmjn
ное и минимальное значение среди выборки данных;
2) приведение категориальных данных к набору бинарных данных (one-hot encoding): Xj = {б(1,Х;),5(2,Х;), ...,5(т,Х;)}, где 5(k,Xj) - символ Кронекера, который принимает значение 1, если Xj = k, и значение 0 иначе; m - размер категориальных данных (число категорий). Таким образом, после такого преобразования категориальные данные представляются в виде строки длиной m, в которой стоит 1 в той позиции, какое значение принимают исходные категориальные данные, и 0 в других позициях;
3) заполнение пропущенных данных средним значением, если пропуски имеют очень малую длину, например 1 или 2: Xj = ^ (Xj_k + —l-X^ +Xi+1 + —l-Xi+k), где k = {1,2,3} - малое число, либо полное исключение этого временного отрезка, если его длина составляет порядка 10.
Следующим этапом является сокращение размерности обучающей выборки с целью ускорения процесса обучения и исключения зависимых друг от друга входных данных, поскольку наличие прямых зависимостей приводит к переобучению модели машинного обучения (рис. 2) и негативно сказывается на точности прогноза.
Рис. 2. Пример ошибок, вызванных переобучением модели
Для сокращения размерности применяется метод главных компонент (Principal Component Analysis -PCA), суть которого состоит в отыскании небольшого числа линейных комбинаций исходных данных ХРСД = {XpcA,i}, ХРСДд =ail(X1 —Xcpl)+ai2(X2 —Хср2) + —I- aiM(XM +ХсрМ), которые обладают наибольшей выборочной
дисперсией: S^X,^) = ^^Zk=1(Z]N=1XPCA,ij)2.
Машинное обучение ИМ. Для обучения ИМ могут быть выбраны различные модели машинного обучения: линейная регрессия с регуляризацией, метод направляющих векторов (Support Vector Machine, SVM), дерево решений, ансамблевые модели (случайный лес (Random Forest), градиентный бустинг), нейронные сети (полносвязные сети, сверточные сети и др., а также их комбинация) и другие модели.
Настройка гиперпараметров 0 = {01,02,~, Эк} модели происходит путем их антиградиентного изменения Д0 = — ^Д (где Д обозначает шаг изменения гиперпараметров) по функции ошибки L^'Y(t),Y(t)^, показывающей отклонение рассчитанных по модели выходных данных Y(t) =F(X(t),0) от истинных выходных данных Y(t). В качестве функции ошибки чаще всего выбирают среднеквадратичное отклонение MSE = _Yj) или же среднее абсолютное отклонение MAE = — Yj|. Выбор функции ошибки диктуется характером входных и выходных данных, а также выбранной модели машинного обучения.
Для регуляризации процесса обучения и исключения переобучения модели машинного обучения применяется техника кросс-валидации. Для этого исходная обучающая выборка разделяется на K частей X(t) = {xM(t).....X(K)(t)}, Y(t) ={YM(t).....Y(K)(t)} (обычно K = 3-10). Модель машинного обучения проходит цикл обучения K раз, на каждом из которых одна из частей исходной обучающей выборки является тестовой, на ней оценивается функция ошибки L® =L(F(X(t)\xM(t),0),YM(t)), а все остальные части составляют обучающую выборку. Итоговая значение функции ошибки является средним арифметическим полученных на каждом цикле значений функции ошибки: L= ^ (L® + —I-L®).
Оценка устойчивости выбранной модели машинного обучения (по отношению к малым отклонениям во входных данных) осуществляется путём изучения SHAP-values (значимости признаков в результат модели прогноза) для N обученных в процессе кросс-валидации моделей. Чем выше значение Шэпли, тем значимее признак. Опираясь на значения Шэпли, выбираются наиболее значимые факторы диагностической информации для решения задачи прогноза мощности с помощью имитационной модели.
Использование метода SHAP позволяет также проводить оценку устойчивости построенной модели машинного обучения, что является критически важным во избежание переобучения модели.
По результатам проведенных оценок определяются ключевые статистически устойчивые признаки изменения мощности, являющиеся информативными признаками для решения задачи прогноза отказов (критическое снижение значений мощности).
Для поддержания ИМ в состоянии, с высокой точностью прогнозирующем функциональные характеристики, необходимо регулярно проводить валидацию ИМ и корректировку гиперпараметров модели машинного обучения, заложенной в ИМ. Для валидации ИМ могут применяться такие методы [9] как: экспертиза специалистов, проверка функциональных характеристик, расчет различных метрик по реальным (в том числе ретроспективным) данным, полученным с изделия, и данным, полученным от цифрового двойника. Эти операции проводятся с использованием данных технического и функционального контроля эксплуатируемой РИС и данных функционального контроля и радиолокационной информации эксплуатируемой РИС таким же образом, как и на этапе обучения ИМ.
Процесс валидации может быть запущен многократно в ходе функционирования РИС для поддержания на требуемом уровне степени достоверности (адекватности) имитационной модели реальному изделию.
Выводы.
В статье предложен алгоритм обучения и валидации ИМ РИС, основанный на методах машинного обучения, по данным контрольно-диагностической системы. Алгоритм включает в себя формирование и приведение данных к стандартному виду, обучение заранее выбранной модели машинного обучения и оценку устойчивости данной модели.
Валидацию ИМ РИС предлагается проводить с помощью известных методов (экспертиза специалистов, проверка функциональных характеристик и т.д.) для поддержания высокой точности прогнозирования. Процесс ва-лидации может быть запущен многократно в ходе функционирования РИС.
Разработанная ИМ используется на этапе эксплуатации для прогноза функциональных характеристик РИС, информационной поддержки оператора станции.
Исследование выполнено за счет гранта Российского научного фонда № 21-19-00481, https://rscf.ru/project/21-19-00481/.
Список литературы
1. Дембицкий Н.Л., Логовский А.С., Панкратов В.А., Тимошенко А.В. Контроль функциональных характеристик РЛС ДО с использованием континуальных распределенных вычислителей. Журнал радиоэлектроники [электронный журнал]. 2020. № 1. [Электронный ресурс] URL: http://jrexplire.ru/jre/jari20/3/textpdf (дата обращения: 10.05.2023).
2. A.Y. Perlov, A. V. Timoshenko, V. A. Pankratov, A. M. Kazantsev and K. V. Lvov, "Methods for Failures Forecasting of Complex Radio Electronic Systems," 2020 Systems of Signal Synchronization, Generating and Processing in Telecommunications (SYNCHROINFO), Svetlogorsk, Russia, 2020, P. 1-4. DOI: 10.1109/SYNCHR0INF049631.2020.9166098.
3. Балакин Д.А., Керский Е.В. Разработка цифрового двойника радиолокационной станции дальнего обнаружения // Вестник Концерна ВКО «Алмаз - Антей». 2020. Т. 1. С. 10-18.
4. Коновальчик А.П., Конопелькин М.Ю., Арутюнян А.А. Развитие среды моделирования радиолокационных станций и их устройств // Электронные информационные системы. 2021. Т. 2, № 29. С. 5-16.
5. Коновальчик А.П., Конопелькин М.Ю., Петров С.В. Моделирование радиолокационных станций в отечественной системе автоматизированного проектирования радиолокационных станций // Вестник Ярославского высшего военного училища противовоздушной обороны. 2021. Т. 1. С. 11-17.
6. Коновальчик А.П., Конопелькин М.Ю., Плаксенко О.А., Щирый А.О. Отечественная система автоматизированного проектирования радиолокационных систем, комплексов и станций с учетом средств воздушно-космического нападения // Наукоемкие технологии в космических исследованиях Земли. 2018. Т. 10. № 1. С. 40-47.
7. Коновальчик А.П., Плаксенко О.А., Щирый А.О. Реализация имитационного моделирования в разрабатываемой отечественной САПР РЛС полного сквозного цикла // Новые информационные технологии в автоматизированных системах. 2018. Т. 21. С. 290-293.
8. Коновальчик А.П., Плаксенко О.А., Щирый А.О. Функции имитации боевых действий в разрабатываемой отечественной САПР РЛС полного сквозного цикла // Вопросы радиоэлектроники. 2018. Т. 3. С. 30-34.
9. E.Y. Hua, S. Lazarova-Molnar, D.P. Francis Validation of digital twins: challenges and opportunities. Proceedings of the 2022 Winter Simulation Conference, 2900-2911, 2022.
Минаков Евгений Иванович, д-р техн. наук, профессор, [email protected], Россия, Тула, Тульский государственный университет,
Перлов Анатолий Юрьевич, канд. техн. наук, доцент, [email protected], Россия, Зеленоград, Институт Микроприборов и систем управления (МПСУ),
Панкратов Валерий Анатольевич, научный сотрудник, [email protected], Россия, Москва, Московский авиационный институт (национальный исследовательский университет),
Мацеевич Сергей Вячеславович, инженер, [email protected], Россия, Москва, АО «РТИ»
ALGORITHM FOR TRAINING AND VALIDATING A RIS SIMULATION MODEL BASED ON DIAGNOSTIC CONTROL DATA
A.Y. Perlov, V.A. Pankratov, S.V. Matseevich
The article proposes an algorithm _ for training and validating a simulation model of a radio information _ facility based on machine learning methods. The use of multidimensional time series of diagnostic control data as a training sample is justified.
Key words: radio information tools, technical condition forecasting, machine learning, validation.
Minakov Evgeny Ivanovich, doctor of technical sciences, professor, [email protected], Russia, Tula, Tula State
University,
Perlov Anatoly Yurievich, candidate of technical sciences, docent, [email protected], Russia, Zelenograd, Institute of Micro-devices and Control Systems (MPSU),
Pankratov Valery Anatolyevich, researcher, [email protected], Russia, Moscow, Moscow Aviation Institute (National Research University),
Matseevich Sergey Vyacheslavovich, engineer, cvmac@mail. ru, Russia, Moscow, JSC «RTI»