Научная статья на тему 'Прикладные аспекты выбора между развитием средств предсказания будущих состояний и оптимизацией задачи подбора граничных значений для мониторинга ИТ-услуги'

Прикладные аспекты выбора между развитием средств предсказания будущих состояний и оптимизацией задачи подбора граничных значений для мониторинга ИТ-услуги Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
13
4
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
мониторинг ИТ-инфраструктуры / машинное обучение / граничные условия / Service Desk / ИТ-услуга / IT infrastructure monitoring / machine learning / boundary conditions / Service Desk / IT service

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Большаков М. А.

Рассматривается вопрос использования накопленных данных систем мониторинга в части решения прикладной задачи — повышения надежности наблюдаемого комплекса. Существуют различные подходы использования методов машинного обучения для использования указанных данных, например реализация задачи восстановления регрессии с целью прогнозирования точного состояния того или иного параметра или реализация задачи классификации для отнесения того или иного временного среза к нормальному или аномальному состоянию. С прикладной точки зрения два этих подхода противопоставлены друг другу — в статье дана концептуальная оценка указанных подходов и определен наиболее практичный для реализации на реальном программно-аппаратном комплексе, занятом в предоставлении ИТ-услуг пользователю.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по электротехнике, электронной технике, информационным технологиям , автор научной работы — Большаков М. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Applied Аspects of the Choice Between the Development of Tools for Predicting Future States and Optimizing the Problem of Selecting Boundary Values for Monitoring an It Service

The issue of using the accumulated data of monitoring systems in terms of solving an applied problem is considered increasing the reliability of the observed complex. There are various approaches to using machine learning methods to use the specified data — for example, the implementation of the regression recovery task in order to predict the exact state of a particular parameter and the implementation of the classification task to classify a particular time slice as normal or abnormal. From an applied point of view, these two approaches are opposed to each other — the article gives a conceptual assessment of these approaches and determines the most practical one for implementation on a real software and hardware complex engaged in providing IT services to the user.

Текст научной работы на тему «Прикладные аспекты выбора между развитием средств предсказания будущих состояний и оптимизацией задачи подбора граничных значений для мониторинга ИТ-услуги»

Прикладные аспекты выбора между развитием средств предсказания будущих состояний и оптимизацией задачи подбора граничных значений для мониторинга ИТ-услуги

М. А. Большаков

Петербургский государственный университет путей сообщения Императора Александра I

Санкт-Петербург, Россия ЪоМакоут@уаМех. ги

Аннотация. Рассматривается вопрос использования накопленных данных систем мониторинга в части решения прикладной задачи — повышения надежности наблюдаемого комплекса. Существуют различные подходы использования методов машинного обучения для использования указанных данных, например реализация задачи восстановления регрессии с целью прогнозирования точного состояния того или иного параметра или реализация задачи классификации для отнесения того или иного временного среза к нормальному или аномальному состоянию. С прикладной точки зрения два этих подхода противопоставлены друг другу — в статье дана концептуальная оценка указанных подходов и определен наиболее практичный для реализации на реальном программно-аппаратном комплексе, занятом в предоставлении ИТ-услуг пользователю.

Ключевые слова: мониторинг ИТ-инфраструктуры, машинное обучение, граничные условия, Service Desk, ИТ-услуга.

Введение

Уровень развития информационных технологий в настоящее время позволяет собирать огромные объемы разнородных данных, в том числе это касается и параметров работы непосредственно элементов ИТ-инфраструктуры. Самые простые SNMP-запросы и множество других (агентских и безагентских) способов определения актуальных параметров состояния оборудования позволяют получать срезы указанных параметров работы практически для любого устройства с наименьшей дискретностью.

С учетом наличия указанных данных и текущих возможностей машинного обучения в части решения задач прогнозирования велик соблазн использовать полученные данные системы мониторинга, собираемые со всех устройств, занятых в предоставлении различных информационных сервисов, для прогнозирования будущих состояний данных сервисов [1]. Однако зачастую ресурсы вычислительного комплекса заняты другими задачами и тогда встает вопрос: целесообразна ли постановка такой задачи перед вычислительными ресурсами или корректнее использовать ресурсы непосредственно на расширение охвата мониторингом и автоматизацию средств реагирования?

Рассмотрим разницу этих подходов в части распределения ресурсов и получаемых эффектов. При этом под системой мониторинга будем понимать систему, которая обнаруживает достижение и переход наблюдаемого параметра через заданное граничное значение и выполнение

некоторого действия в этом случае. Действия при этом делятся на две категории: информирование причастных (отправка сообщения необходимым способом, автоматизированное формирование обращения в систему регистрации заявок (Service Desk) и др.) и непосредственно автоматизированные действия на элементах ИТ-инфраструктуры (перезагрузка, корректировка необходимых настроек и др.).

Основные понятия мониторинга ИТ-инфраструктуры

Существует два принципиально разных подхода к мониторингу: реактивный и проактивный, при этом распространено мнение, что реактивный мониторинг — это пережиток прошлого, и в настоящее время необходимо развивать исключительно проактивный мониторинг. При этом под проактивным мониторингом часто понимается программно-аппаратный комплекс, который позволяет наблюдать за параметрами сопровождаемого объекта и прогнозировать его состояние в будущем исходя из текущих и прошлых значений параметров, то есть решать задачу восстановления регрессии и пытаться предсказать значения наблюдаемых параметров в будущем. Данный подход является некорректным, в реальности тип мониторинга, необходимый к внедрению, определяется не только уровнем зрелости процессов эксплуатации ИТ в организации, но и непосредственно объектами, для которых внедряется выбранный тип мониторинга [2]. Более наглядно различия для реактивного и проактивного мониторинга представлены в таблице 1.

Далее следует определить понятия «инцидент» и «проблема» [3]:

• инцидент — это внеплановое прекращение предоставления сервиса или снижение его качества;

• проблема — неизвестная причина одного или нескольких инцидентов.

Определено, что при управлении инцидентами основная цель управления жизненным циклом всех инцидентов — это скорейшее восстановление ИТ-услуги для пользователей, а при управлении проблемами целью является предотвращение инцидентов в будущем. Методы управления проблемами нацелены на предотвращение и устранение возможности возникновения инцидентов или повторяющихся проблем за счет выявления взаимосвязей и осуществления мер по решению корневых причин их возникновения. В обновленной версии ITIL 4 при управлении

Таблица 1

Сравнение реактивного и проактивного мониторинга

~~~~ ^^^Тип мониторинга Критерий^ ^^^^^ Реактивный Проактивный

Превентивный Предиктивный

Подход к обслуживанию Обслуживание после сбоя/отказа Обслуживание с заранее определенными периодами Непрерывная диагностика и контроль состояния с целью поиска «предотказ-ных» состояний и реагирование до момента отказа оборудования

Полигон внедрения Оборудование, временный отказ которого не несет существенных потерь. Само оборудование при этом редко выходит из строя Оборудование с небольшой стоимостью простоя Оборудование, отказ которого приводит к существенным потерям для бизнеса

проблемами для ИТ-услуги существенно расширен горизонт рассмотрения — теперь рассматриваются проблемы не только непосредственно по работе оборудования, но и по процессам, продуктам, поставщикам и персоналу. При этом все эти направления встроены в общий бэклог по ИТ-услуге, то есть являются неотъемлемой частью общего пула параметров, состояние которых считается определяющим для оценки уровня качества предоставления ИТ-услуги. Такой подход является логичным развитием от мониторинга ИТ-инфраструктуры к мониторингу и управлению ИТ-сервисами и услугами, которые строятся на рассматриваемой ИТ-инфраструктуре, а, следовательно, с увеличением количества переменных для функции прогнозирования общего уровня качества предоставления ИТ-услуги увеличивается и сложность указанной задачи.

Прикладной смысл задачи и решения

Определение функции, которой можно описать значения собираемых с ИТ-инфраструктуры или расчетных (синтетических) параметров более высокого уровня, является нетривиальной задачей и количество переменных в этой функции безусловно велико. Таким образом, следует понимать, что компании, ставящие перед собой такую задачу, должны располагать существенными вычислительными ресурсами, которые можно выделить непосредственно для решения указанной задачи. При этом задача проактивного мониторинга ставится и решается обычно на этапе уже после развертывания непосредственно ландшафта ИТ-инфраструктуры — этапе, когда компании вкладывают огромные средства и закладывают необходимые резервные мощности. Необходимое резервирование и развитые средства балансировки нагрузки на ИТ-инфраструктуру являются обязательными требованиями при формировании ландшафта ИТ-инфраструктуры, и именно эти условия позволяют своевременно подключать дополнительно необходимые ресурсы при их утилизации.

Описанные условия и ставят под сомнение целесообразность прогнозирования точных значений параметров работы, так как это дорого (требуют выделения достаточного количества вычислительных ресурсов) и не всегда может быть точно (например, никогда нельзя гарантировано предсказать действия пользователя, который может резко снизить или увеличить нагрузку на комплекс вследствие нерегламентной (невозможной к внесению в график

заданий заранее) бизнес-задачи или другого форс-мажора).

Более логичным в данном случае является подход глубокой проработки граничных значений, выставляемых при наблюдении за параметрами работы, и автоматизация реакции на превышение данного значения. При этом следует понимать, что один из основных показателей при внедрении системы мониторинга - это доля инцидентов, которые сгенерированы автоматизированно непосредственно системой мониторинга, значение это стремится к 100 %. Чтобы добиться приближения к указанному значению проходит достаточно длительное время, в течение которого специалисты проводят работы по подбору и поддержанию в актуальном состоянии граничных значений для каждого критичного наблюдаемого или расчетного итогового параметра. Помимо технической документации к оборудованию, знаний администраторов и других специалистов технической поддержки обязательно должны приниматься во внимание и значения наблюдаемых параметров при ручном создании инцидента пользователем, то есть обязательно должен происходить анализ параметров в момент, когда уже пользователь обращает внимание на падение уровня качества предоставления ИТ-услуги.

Именно на этом этапе целесообразно начать применять методы машинного обучения, используя в качестве обучающей и тренировочной выборки массивы данных из системы мониторинга и модуля Service Desk:

^11 ■■■

... ХЦ ... Yj ,

%nk ■■■ %тк Yk где Хц — значение /-го параметра в j-й момент времени среди наблюдаемых системой мониторинга либо расчетных n параметров; Yj — метка наличия или отсутствия инцидента в Service Desk в j-й момент времени, принимаемые значения — 1 или 0.

Таким образом, ресурсоемкая задача прогнозирования путем восстановления регрессии трансформируется в задачу бинарной классификации, что требует существенно меньших ресурсов для решения — зачастую метод градиентного бустинга является достаточным для решения указанной задачи [4].

Предложенный подход позволяет всегда поддерживать в актуальном состоянии список на самом деле критичных параметров и формирует базу для рассмотрения (на этапе внедрения и опытной эксплуатации системы мониторинга) устанавливаемых граничных значений администраторами системы. При этом администраторы системы в ходе анализа временного среза, когда инцидент был зафиксирован, могут просматривать в том числе динамику значений этих параметров и устанавливать граничные значения с некоторым запасом [5].

Дальнейшая эксплуатация системы мониторинга и анализ доли инцидентов, которые формируются автоматизированным способом системой мониторинга, направлена на максимизацию данного показателя и здесь обязательным условием успешного внедрения и эксплуатации является анализ на предмет лишних инцидентов. Существуют понятия стоимости инцидента и стоимости реакции на инцидент, где под стоимостью инцидента понимается ущерб, который принес конкретный сбой для бизнеса в целом, а под стоимостью реакции — затраты на привлечение специалистов или других средств реагирования. Разумеется, эти стоимости несопоставимы и порой службы технической поддержки в стремлении перестраховаться от инцидентов совершают ошибку и начинают реагировать на любое отклонение значений критичных параметров, например время от времени перезагружая серверные мощности на всякий случай. Решением такой ситуации является адекватная оценка граничных значений и развитие средств реагирования на отклонения различными способами, ведь перезагрузка оборудования может лишь временно помочь ситуации, то есть является решением непосредственно потенциального инцидента, тогда как более правильной является работа, направленная на предотвращение инцидентов в будущем.

Заключение

В ходе развития методов получения в режиме онлайн значений параметров работы оборудования, занятого в предоставлении ИТ-услуг, и других параметров более высокого уровня (прикладное программное обеспечение, данные об эмуляции работы пользователя, показатели рабочих процессов и пр.) специалисты поддержки имеют в своем распоряжении огромные массивы данных. При

этом зачастую задача использования этих данных ставится как необходимость прогнозирования будущего состояния требуемых параметров через определение функций, описывающих поведение указанных параметров, что требует колоссального объема вычислительных ресурсов и трудозатрат при интерпретации результатов. В то же время существует иной подход, с помощью которого основной фокус направляется на интерпретацию текущего состояния и отнесение его к нормальному или аномальному, то есть решение задачи бинарной классификации, что, безусловно, проще как с точки зрения методов решения, так и с точки зрения временных затрат. Высвобожденные трудозатраты при этом следует направлять на развитие корректных средств реагирования на аномальные состояния — вопрос адекватной реакции на те или иные события с ИТ-инфраструктурой и иными элементами, входящими в контур формирования и предоставления ИТ-услуги, является достаточно объемным и требует дополнительного рассмотрения в отдельной статье.

Литература

1. Саенко, И. Б. Мониторинг и прогнозирование состояния компьютерных сетей на основе применения гибридных нейронных сетей / И. Б. Саенко, Ф. А. Скорик, И. В. Котен-ко // Известия высших учебных заведений. Приборостроение. 2016. Т. 59, № 10. С. 795-800.

DOI: 10.17586/0021-3454-2016-59-10-795-800.

2. Дубровин, М. Г. Концепция проактивного мониторинга и управления объектами ИТ-инфраструктуры // ИТНОУ: Информационные технологии в науке, образовании и управлении. 2020. № 1 (15). С. 44-49.

3. ITIL Foundation: ITIL4 Edition. — Norwich: TSO (The Stationery Office), 2019. — 259 p.

4. Большаков, М. А. Сравнительный анализ методов машинного обучения для оценки качества ИТ-услуг / М. А. Большаков, И. А. Молодкин, С. В. Пугачев // Защита информации. Инсайд. 2020. № 4 (94). С. 36-43.

5. Большаков, М. А. Об использовании алгоритмов анализа и обработки данных системы мониторинга ИТ-сервисов ГВЦ ОАО «РЖД» / М. А. Большаков, С. В. Пугачев // Интеллектуальные технологии на транспорте. 2018. № 4 (16). С. 5-10.

Applied Aspects of the Choice Between the Development of Tools for Predicting Future States and Optimizing the Problem of Selecting Boundary Values for Monitoring an It Service

M. A. Bolshakov Emperor Alexander I St.Petersburg State Transport University Saint Petersburg, Russia bolshakovm@yandex.ru

Abstract. The issue of using the accumulated data of monitoring systems in terms of solving an applied problem is considered -increasing the reliability of the observed complex. There are various approaches to using machine learning methods to use the specified data — for example, the implementation of the regression recovery task in order to predict the exact state of a particular parameter and the implementation of the classification task to classify a particular time slice as normal or abnormal. From an applied point of view, these two approaches are opposed to each other — the article gives a conceptual assessment of these approaches and determines the most practical one for implementation on a real software and hardware complex engaged in providing IT services to the user.

Keywords: IT infrastructure monitoring, machine learning, boundary conditions, Service Desk, IT service.

References

1. Saenko I. B., Skorik F. A., Kotenko I. V. Monitoring and Forecasting Computer Network State Based on the Use of Hybrid Neural Networks [Monitoring i prognozirovanie sos-toyaniya kompyuternykh setey na osnove primeneniya gibrid-nykh neyronnykh setey], Journal of Instrument Engineering [Izvestiya vysshikh uchebnykh zavedeniy. Priborostroenie], 2016, Vol. 59, No. 10, Pp. 795-800. DOI: 10.17586/0021-3454-2016-59-10-795-800.

2. Dubrovin M. G. Concept of Proactive Monitoring and Object Management of IT Infrastructure [Kontseptsiya proak-tivnogo monitoringa i upravleniya obektami IT-infrastruktury], ITNOU: Informacionnye tehnologii v nauke, obrazovanii i upravlenii [ITNOU: Informatsionnye tekhnologii v nauke, obrazovanii i upravlenii], 2020, No. 1 (15), Pp. 44-49.

3. ITIL Foundation: ITIL4 Edition. Norwich, TSO (The Stationery Office), 2019, 259 p.

4. Bolshakov M. A., Molodkin I. A., Pugachev S. V. Comparative Analysis of Machine Learning Methods to Assess the Quality of IT Services [Sravnitelnyy analiz metodov mashinnogo obucheniya dlya otsenki kachestva IT-uslug], Zasita informacii. Inside [Zashchita informatsii. Insayd], 2020, No. 4 (94), Pp. 36-43.

5. Bolshakov M. A., Pugachev S. V. About Algorithms for the Analysis and Processing of Data from IT-Services Monitoring Systems in Main Computing Centre JSC RZD [Ob ispolzovanii algoritmov analiza i obrabotki dannykh sistemy monitoringa IT-servisov GVTs OAO «RZhD»], Intellectual Technologies on Transport [Intellektualnye tekhnologii na transporte], 2018, No. 4 (16), Pp. 5-10.

i Надоели баннеры? Вы всегда можете отключить рекламу.