Maksakov Sergey Anatolevich, candidate of technical sciences, docent, [email protected], Russia, Orel, Academy of FSS of Russia
УДК 534.61
МЕТОД ПОВЫШЕНИЯ НАДЕЖНОСТИ ЗА СЧЕТ РЕКОНФИГУРАЦИИ РЕСУРСОВ В СИСТЕМАХ МОНИТОРИНГА И ДИАГНОСТИКИ ОПАСНЫХ ПРИРОДНЫХ ЯВЛЕНИЙ
Э.В. Мельник, М.В. Орда-Жигулина, Д.В. Орда-Жигулина, А. А. Родина
Описаны метод и алгоритм повышения надежности за счет реконфигурации ресурсов (перераспределения вычислительной нагрузки) между вычислительными узлами туманного, краевого и облачного слоев в системах мониторинга и диагностики опасных природных явлений, построенных на базе нового подхода, основанного на технологиях туманных и краевых вычислений, распределённого реестра и Интернета вещей. В рамках разработанного метода выполнена оценка вероятности безотказной работы для устройств туманного слоя для различного времени работы. Разработанный метод учитывает особенности вычислений в рамках концепции туманных и краевых вычислений и позволяет эффективно использовать имеющиеся резервы каждого «вычислительного слоя» при решении задач мониторинга для повышения надёжности её работы.
Ключевые слова: мониторинг опасных явлений, реконфигурация ресурсов, повышение надежности, вероятность безотказной работы, туманные вычисления, краевые вычисления, системы сбора и обработки данных.
Системы мониторинга и прогнозирования опасных явлений должны иметь возможность работы в режиме реального времени. Это требование связано с тем, что период времени между поступлением в систему новых данных, сигнализирующих о возникновении опасной ситуации, и моментом их фиксации подсистемой анализа данных, должен быть минимизирован. Целесообразность этого требования очевидна: например, в случае схода селевого потока, чем быстрее будут зафиксированы время и место опасного природного явления, тем быстрее будут устранены последствия. Система должна быть способна обрабатывать большие объемы данных, источники которых имеют самую разнообразную природу, обладая при этом достаточным уровнем надежности, прежде всего, доступностью системы и отсутствием простоев в результате отказов.
Ранее авторами был разработан комбинированный метод мониторинга и прогнозирования опасных явлений и процессов (МПОЯ) обработки и передачи информации в системах мониторинга и прогнозирования опасных природных явлений, данный метод реализован на базе технологий туманных и краевых вычислений, распределённого реестра и Интернета вещей [1-3]. Суть метода заключается в том, что на периферийном краевом слое датчиков, собираются и размечаются исходные данные для целей
18
мониторинга и диагностики различных процессов. Затем исходные данные передаются в туманный и облачный слои для их последующей обработки, классификации, верификации и хранения. Вычислительные устройства облачного слоя, в основном, применяются для долгосрочного хранения полных копий размеченных и верифицированных исходных данных. В рамках комбинированного метода МПОЯ архитектура системы мониторинга и прогнозирования будет иметь следующий вид (рис. 1).
Рис. 1. Архитектура системы мониторинга и прогнозирования для различных областей применения
Особенность комбинированного метода МПОЯ заключается в том, что вычислительная нагрузка при решении задач мониторинга опасных явлений связана с большими потоками данных должна размещаться и перераспределяться между устройствами «туманного», «краевого» и «облачного» слоев. В связи с чем необходимо разрабатывать новые методы и алго-
ритмы повышения надежности за счет реконфигурации ресурсов (перераспределения вычислительной нагрузки), учитывающие резервы производительности отдельных узлов внутри каждого слоя - туманного, краевого и облачного.
Метод повышения надежности за счет реконфигурации ресурсов в системе. Одна и та же подзадача мониторинга опасного явления может решаться путем применения разных стратегий и алгоритмов расчета, хранения и обработки данных. Реализация таких стратегий и алгоритмов должна приводить к снижению нагрузки на каналы связи, уменьшению скорости деградации отдельных вычислительных узлов системы и обеспечивать высокий уровень надежности работы всей системы. Следовательно, при разработке стратегий и алгоритмов хранения, передачи и обработки данных при решении задач мониторинга опасных явлений важно оценивать влияние распределения вычислительной нагрузки между «туманным», «краевым» и «облачным» слоями системы на вероятность безотказной работы системы.
С одной стороны, при большой и постоянной вычислительной нагрузке на устройства туманного слоя, их ресурс надежности расходуется быстрее. С другой стороны, при возрастании нагрузки на устройства облачного слоя дополнительная нагрузка ложится на каналы связи. При выходе из строя каналов связи или вычислительных устройств облачного слоя, имеет смысл применять резервирование в туманном слое. То есть, переносить часть обрабатываемых данных из облачного слоя в туманный. Надежность работы системы при этом сохраняется на прежнем уровне за счет того, что использование ресурсов туманного слоя происходит в течение ограниченного времени (например, до восстановления пропускной способности каналов связи облачного слоя), поэтому не будет происходить жесткой деградации устройств туманного слоя.
Комбинированный метод МПОЯ учитывает особенности вычислительного процесса в рамках концепции туманных и краевых вычислений и позволяет эффективно использовать имеющиеся резервы каждого «вычислительного слоя» при решении конкретных задач мониторинга за счет исключения централизации при диспетчировании системы, как показано в публикациях [1 - 4, 13 - 14]. Надежность системы при этом определяется как возможность системы сохранять во времени способность выполнять требуемые функции в заданных режимах и условиях применения, технического обслуживания, хранения и транспортирования [5].
Для системы мониторинга и прогнозирования опасных явлений можно выделить три компонента, от которых зависит надежность системы в целом: надежность вычислительных устройств, которые находятся на туманном уровне, на краевом уровне и облачном слоях. Для определения надежности системы примем, что надежность всей системы зависит от надежности ее отдельных вычислительных узлов, а надежность вычислительного узла зависит от вычислительной нагрузки на него [6 - 10].
20
Повысить надежность системы возможно за счет улучшения такой характеристики системы как безотказность. Количественно безотказность определяется как вероятность безотказной работы (ВБР) [9].
В разработанном ранее комбинированном методе МПОЯ за счет применения концепции туманных вычислений предложено обработку исходных данных проводить в туманном и краевом слоях, что позволяет снизить нагрузку на каналы связи и повысить скорость реакции на события. При этом чрезмерная нагрузка на узлы туманного и краевого слоев будет негативно влиять на показатели надежности этих узлов [8, 9]. Следовательно, для реализации функций, требующих большого объема вычислений, целесообразно использовать ресурсы облачного слоя и его каналы связи с более высокой пропускной способностью. Однако возможны ситуации, в которых указанные ресурсы могут оказаться недоступны, например в случае повреждения каналов связи между туманным и облачным слоями, выхода из строя оборудования дата-центра, в котором реализован облачный слой, высокой нагрузки на ресурсы облачного слоя. Следовательно, для повышения надежности работы системы мониторинга и прогнозирования опасных явлений, часть устройств туманного слоя можно использовать для резервирования задач облачного слоя, потому что при потере канала связи с облаком резервирование в облачном слое будет бесполезно. Кроме того, туманный слой, за счет неограниченной возможности масштабирования, является практически неисчерпаемым по вычислительному резерву. Предлагаемый метод повышения надежности предполагает использование ресурсов туманного слоя в качестве резерва на случай недоступности ресурсов облачного слоя. То есть, при наличии ресурсов облачного слоя они используются для снижения вычислительной нагрузки на узлы туманного слоя, и, соответственно, уменьшения расхода ресурса надежности. При их отсутствии - узлы туманного слоя используются в качестве резервных, что позволяет обеспечить высокие характеристики надежности без дополнительных аппаратных затрат, при этом при распределении вычислительной нагрузки следует учитывать объемы передаваемых данных.
Было проведено математическое моделирование, в рамках которого были рассмотрены случаи, когда нагрузка распределена равномерно между слоями или смещена в область облачного или в область туманного и краевого слоя) в разном процентном соотношении. Для этого был оценена ВБР отдельного узла в каждом из слоев.
На рис. 2 показаны графики ВБР устройств туманного слоя при их загрузке на 30 и 90 % для времени работы устройств 10 000 часов.
Как следует из проведенных расчетов при 10 000 часов непрерывной работы системы ВБР каждого (одиночного) устройства туманного слоя снижается при увеличении его вычислительной нагрузки. В рамках предлагаемого метода мы уменьшаем время работы устройств с повышенной нагрузкой в результате чего уменьшается скорость деградации и повышается ВБР каждого из устройств туманного слоя. Таким образом, ВБР всей подсистемы «туманного слоя» в любой момент времени может быть со-
хранена путем уменьшения нагрузки на каждый вычислитель туманного слоя за счет открытости и масштабируемости системы и резервирования. Кроме того, целесообразно выбирать равномерное распределение вычислительной нагрузки устройств туманного слоя и стараться минимизировать нагрузку на каналы связи. Поэтому имеет смысл оценить ВБР всей подсистемы «туманного слоя» при различном времени непрерывной работы системы мониторинга (от суток до года) и при различном количестве узлов системы. Результаты моделирования приведены на рис. 3, а, б, в.
ВБР 1
0 9
0.3
07
0 о
¡г 1 60 ГОД
2000
«00
6000
3000
10000
Т (часы)
— кривая 1 зо% -кривая 2 90%
Рис. 2. Оценка вероятности безотказной работы одиночного
устройства туманного и краевого слоя для трех типов вычислительных устройств при изменении времени работы устройства от 1 до 10 000 часов
На кривых, представленных на рис. 2, показано снижение ВБР туманного слоя в случае возрастания вычислительной нагрузки на каждый узел «туманного слоя». Из расчетов следует, что при количестве узлов более 2 ООО ВБР системы будет более 90 % и время переключения на «туманный слой» практически не ограничено, при количестве участников от 200 до 300 время использования резерва ограничено, при количестве участников до 10 резервирование в «туманном слое» нецелесообразно, так как повышенная вычислительная нагрузка на небольшое количество узлов «туманного слоя» приводит к их ускоренной деградации. Расчеты были проведены исходя из того, что вероятность отказа элемента системы за интервал времени А0 « 5,787 * Ю-5. Также при расчетах было принято, что номинальная производительность устройств туманного и краевого слоя на порядок ниже, чем облачного.
Было оценено ВБР системы мониторинга и прогнозирования при переносе нагрузки между туманным и облачным слоем для разных значений загрузки туманного, краевого и облачного слоев. Результаты оценки ВБР для переноса нагрузки из облачного в туманный слой показаны на рис. 4 а, б.
ВБР
-кривая 1 1ра6оты=24 ч
-1фИВая 2 1работы=240 ч
---кривая 3 1работы=1000 ч
Количество ВУ
-кривая 1 1ра6оты=24 ч
-кривая 2 1работы=240 ч
-кривая 3 1ра6оты=1000 ч
Количество ВУ
-кривая 1 1работы=24 ч
-кривая 2 1ра6оты=240 ч
-1фивая 3 1работы=1000 ч
Количество ВУ
Рис. 3. Оценка вероятности безотказной работы устройств туманного слоя для различного времени работы подсистемы: а - число устройств в слое от 2000 до 10000; б - число устройств в слое от 200 до 300; б - число устройств в слое от 5 до 20
ВБР 1
0.9 0.8 0.7 0.« 0.5 0.4 0.3
3 3
Е I 5 8
5 и Й «
8!
г-1
I I
33% 41.25% 49,5% 57.75% % загрузки устройств облачного слоя (от ВН системы)
I £ *
а з :: ::
I I
« Я (О Л
£ £ % Я
5
а I
X 5 * 2
^ I
я я
3 |
е-1
з Б п 5 « к
I I & I
? 3
к я 5 с
% загрузки устройств облачного слоя (от ВН системы)
Рис. 4. Оценка вероятности безотказной работы системы при постепенном переносе решаемой задачи мониторинга из облачного слоя в туманный слой (при этом загрузка облачного слоя снижается с 57,75 до 33 %, а загрузка туманного слоя возрастает с 8,25 до 33 %); а - время работы системы для решения всей задачи 720 часов (один месяц); б - время работы системы для решения всей
задачи 8760 часов (один год) 23
Изначально облачный слой был загружен на 57,75 % (что соответствовало загрузке туманного слоя 8,25 %). Затем загрузка облачного слоя снижалась до 33 % (что соответствовало увеличению загрузки туманного слоя до 33 %). Загрузка краевого слоя при этом оставалась постоянной и составляла 34 % краевой слой. Как показали результаты расчета в случае, когда вычислительная нагрузка смещается на туманный уровень при одновременном снижении вычислительной нагрузки на устройства облачного слоя, то ВБР всей системы мониторинга в целом сохраняется на уровне более 90 %. При смещении вычислительной нагрузки в туманный слой требуется использование резервных узлов туманного слоя для решения задач, которые ранее решались на устройствах облачного слоя, чтобы позволяет сохранить ВБР работы системы при равномерной загрузке вычислительных мощностей каждого из участников слоя.
Таким образом, при большом количестве участников системы для повышения ВБР системы вычислительная нагрузка должна быть распределена равномерно среди участников каждого слоя и может быть смещена на уровень туманных и краевых вычислений в случае выхода из строя устройств облачного слоя.
Выводы. Повышение характеристик надежности системы мониторинга опасных явлений осуществляется путем применения, разработанного авторами метода повышения надежности за счет реконфигурации ресурсов системы и переноса части вычислительной нагрузки из облачного в туманный слой. При этом происходит перераспределение вычислительной нагрузки между узлами туманного и облачного слоев за счет резервирования вычислительных ресурсов в «туманном слое». Предложенный метод позволяет эффективно использовать уже имеющиеся вычислительные резервы при решении конкретных задач мониторинга и увеличивать ВБР системы за счет перераспределения нагрузки отдельных вычислительных устройств «туманного» и «облачного» слоев.
Важным преимуществом разработанного метода и его отличием от уже существующих методов обработки и хранения информации в системах мониторинга и диагностики является применение уже существующей информационной инфраструктуры для реализации архитектуры системы. Кроме того, предложенный метод может быть доработан до универсального метода мониторинга и диагностики для различных областей применения: медицинской сферы, сельского хозяйства, производства и т.д.; метод ориентирован на максимальное использование преимуществ современных концепций организации вычислений, в том числе концепций цифровой экономики.
Публикация подготовлена в рамках реализации ГЗ ЮНЦ РАН, № гр. проекта АААА-А19-119011190173-6, а также при поддержке гранта РФФИ №18-05-80092.
Список литературы
1. Kalyaev I., Melnik E., Klimenko A. Distributed Ledger Based Workload Logging in the Robot Swarm // International Conference on Interactive Collaborative Robotics. 2019. P. 119-128.
2. Melnik E.V, Klimenko A.B., Ivanov D.Y. A blockchain-based technique for making swarm robots distributed decision // Journal of Physics: Conference Series. 2019. Vol. 1333. № 5. P. 52013.
3. Melnik E.V, Klimenko A.B. A workload distribution problem model and online constraint forming technique for the control systems in the fog-computing environment // Journal of Physics: Conference Series. 2019. Vol. 1333, № 4. P. 42014.
4. Klimenko A., Safronenkova I. An Ontology-Based Approach to the Workload Distribution Problem Solving in Fog-Computing Environment // Computer Science On-line Conference. 2019. P. 62-72.
5. Avizienis A., Laprie J.-C., Randell B. Fundamental Concepts of Dependability // Tech. Rep. Ser. Newcastle Upon Tyne Comput. Sci. 2001. Vol. 1145. P. 7-12.
6. Глазунов Л.П., Грабовецкий В.П., Щербаков О.В. Основы теории надежности автоматических систем управления: учеб. пособие для вузов. Энегоатомиздат, 1984.
7. Северцев Н.А. Надежность сложных систем в эксплуатации и обработке. М., 1989.
8. Шкляр В.Н. Надежность систем управления. Томск: Изд-во Томского политехнического ун-та, 2011.
9. Строганов А. С. Долговечность интегральных схем и производственные методы ее прогнозирования // Chip News. 2002. № 6. С. 44 - 49.
10. Avizienis A., Laprie J.-C., Randell B. Dependability and Its Threats: A Taxonomy // Building the Information Society. Boston, MA: Springer US, 2004. P. 91 - 120.
11. Введение в «Цифровую» экономику / Кешелава А.В., [и др.]; под общ. ред. Кешелава А.В.; гл. «Цифр.» конс. Зимненко И.А. 2017.
12. Help your mobile applications with fog computing / Hassan M.A. [et al.] // 2015 12th Annual IEEE International Conference on Sensing, Communication, and Networking-Workshops (SECON Workshops). 2015. P. 1 - 6.
13. Combined method of monitoring and predicting of hazardous phenomena / M.V. Orda-Zhigulina1, E.V. Melnik, D. Ya. Ivanov, A.A. Rodina // Adv. Intell. Syst. Comput. 2019. Vol. 984. P. 55 - 61.
14. Применение технологий туманных вычислений в системе мониторинга и прогнозирования опасных природных явлений / Э.В. Мельник, Д.Я. Иванов, М.В. Орда-Жигулина, Д.В. Орда-Жигулина, А. А. Родина // Известия Тульского государственного университета. Технические науки. 2019. Вып. 2. C. 300 - 311.
Мельник Эдуард Всеволодович, д-р техн. наук, заведующий лабораторией, evml 7amail.ru, Россия, Ростов-на-Дону, Южный научный центр Российской Академии наук,
Орда-Жигулина Марина Владимировна, канд. техн. наук, научный сотрудник, iigulina a mail.ru, Россия, Ростов-на-Дону, Южный научный центр Российской Академии наук,
Орда-Жигулина Дина Владимировна, младший научный сотрудник, dinazhigulina@,mail.ru, Россия, Ростов-на-Дону, Южный научный центр Российской Академии наук,
Родина Арина Алексеевна, инженер-исследователь, [email protected], Россия, Ростов-на-Дону, Южный научный центр Российской Академии наук
RELIABILITY METHOD BY RECONFIGURATION RESOURCES IN MONITORING AND DIAGNOSTIC SYSTEMS OF HAZARDOUS PHENOMENA
E. V. Melnik, M. V. Orda-Zhigulina, D. V. Orda-Zhigulina, A.A. Rodina
In this paper describes a method and algorithm for improving reliability by reconfiguring resources (redistributing the computational load) between the computing nodes of the fog, edge, and cloud layers in monitoring and diagnostics of natural hazards based on a new approach based on fog and edge computing, a distributed registry, and the Internet of things. In the framework of the developed method, the probability offailure-free operation for fog layer devices for different operating times is estimated. The developed method takes into account the features of calculations within the framework of the concept of fog and edge computing and allows you to effectively use the available reserves of each "computing layer" in solving monitoring problems and improves the reliability of its work.
Key words: hazardous phenomena monitoring, reconfiguration of resources, increasing reliability, the probability of uptime, fog computing, edge computing, data acquisition and processing systems.
Melnik Eduard Vsevolodovich, doctor of technical science, main researcher, evm17@,mail. ru, Russia, Rostov-on-Don, Southern Scientific Center of the Russian Academy of Sciences,
Orda-Zhigulina Marina Vladimirovna, candidate of technical sciences, researcher, jigulina@,mail. ru, Russia, Rostov-on-Don, Southern Scientific Center of the Russian Academy of Sciences,
Orda-Zhigulina Dina Vladimirovna, junior researcher, dinazhigulina@,mail. ru, Russia, Rostov-on-Don, Southern Scientific Center of the Russian Academy of Sciences,
Rodina Arina Alekseevna, research engineer, ar.rodina@,mail.ru, Russia, Rostov-on-Don, Southern Scientific Center of the Russian Academy of Sciences