designing modern monitoring subsystems of heterogeneous information and telecommunications networks is the principle of distribution and decentralization. Result: the paper defines the functions of the network monitoring subsystem and the monitoring server as its key element. A variant of the monitoring server structure is proposed. The assigned monitoring objects are considered, as well as a list of metric data collectedfrom them from the point of view of the functional performance of the network. General requirements for prospective network monitoring systems are formulated, as well as general principles of organization and functioning of information and telecommunications network monitoring subsystems.
Keywords: information and telecommunications network, technical condition, network monitoring subsystem, monitoring server, decentralization of monitoring infrastructure.
Information about Author
Budko Nikita Pavlovich - Doctoral Student. Independent Expert. E-mail: [email protected]. Address: 194064, Russia, St. Petersburg, Butlerova str., build. 9/3, sq. 252.
Для цитирования: Будко Н.П. Общие принципы функционирования и требования к построению структур перспективных систем мониторинга распределенных информационно-телекоммуникационных сетей // Техника средств связи. 2021. № 2 (154). С. 38-60.
For citation: Budko N.P. General principles of functioning and requirements for the construction of structures of promising monitoring systems for distributed information and telecommunications networks. Means of Communication Equipment. 2021. No. 2 (154). Pp. 38-60 (in Russian).
УДК 621.39
Анализ методов оценки временных рядов сервером мониторинга информационно-телекоммуникационной сети общего пользования
Аллакин В.В.
Аннотация. Постановка задачи: на основе анализа научно-методического аппарата оценки временных рядов наблюдаемых метрик выработать подход к формированию методики прогнозирования (превентивной идентификации) аномальных ситуаций по результатам мониторинга функционального состояния сетевых элементов информационно-телекоммуникационных сетей общего пользования. Цель работы: разработка алгоритма методики идентификации аномальных ситуаций сервером мониторинга по наблюдаемым временным рядам метрик сетевых элементов. Используемые методы: методы теории анализа, теории прогноза, теории надежности, теории диагностики, теории классификации, методы кластерного анализа, топологические методы анализа временных рядов, методы поведенческой аналитики, символьное представление временных рядов. Новизна: превентивная идентификация аномального состояния сетевого элемента путем выявления «запрещенных» кодовых комбинаций при наблюдении временных рядов, обработанных заимствованными из биоинформатики методами символической динамики, используемыми ранее в процессе анализа сложных нуклеотидных геномных последовательностей, а также введение особого режима мониторинга, когда при идентификации предотказного технического состояния скважность опроса сервером мониторинга сетевого элемента значительно увеличивается с целью своевременного принятия превентивных управляющих воздействий на сетевую инфраструктуру для недопущения пропуска отказа сетевого элемента или наступления аварии. Результаты: проведен анализ научно-методического аппарата решения задач прогноза временных рядов, в результате чего для достижения поставленной цели исследования выбран метод символического представления временных рядов, на основе которого дана оценка энтропии кодовых слов, описывающих временной ряд наблюдаемой метрики функционирующего сетевого элемента и разработан алгоритм методики идентификации аномальной ситуации на временном ряду его параметров, состоящий из четырех этапов: предварительного, этапа кодирования временных рядов, этапа идентификации вида технического состояния сетевого элемента и завершающего. Практическая значимость: анализ методов оценки временных рядов позволил выработать подход к построению алгоритма функционирования сервера мониторинга для идентификации аномалий в работе информационно-телекоммуникационной сети общего пользования.
Ключевые слова: сервер мониторинга, временной ряд, прогнозирование аномальной ситуации, превентивная идентификация вида технического состояния, особый режим мониторинга.
Введение
Изменение большого числа контролируемых характеристик информационно-телекоммуникационных сетей (ИТКС) общего пользования (ОП) и ее основных элементов (серверов, узлов коммутации, периферийных устройств, каналов передачи данных) носит характер случайного процесса, представляемого временными рядами. При этом статистический характер принятия решений о функциональном состоянии сетевого элемента и ИТКС в целом особенно хорошо прослеживается с ростом размерности объекта и увеличением скважности его опроса серверами мониторинга, что существенно влияет на увеличение количества обрабатываемой измерительной информации (ИИ) сервером мониторинга. А учитывая тот факт, что наблюдение за сетевыми объектами мониторинга осуществляется практически на протяжении всего их жизненного цикла, то задачи обработки временных рядов в современных подсистемах мониторинга справедливо относят к задачам анализа больших данных (Big Data).
Временной ряд показателей надежностных характеристик сетевых элементов ИТКС можно представить случайным процессом [1], в основе которого всегда лежит математическая модель. При этом большинство моделей предполагают, что прогнозирование случайного процесса общего вида основано как на аддитивном представлении случайного процесса в виде суммы декомпозиций трендовой, периодической (циклической) и стохастической компонент, так и на мультипликативном их представлении, т. е. произведении данных компонент. Рассмотрим указанные компоненты случайного процесса:
тренд случайного процесса (рис. 1, а) - некоторая детерминированная компонента, не содержащая периодических составляющих, кроме, тех, периоды которых заведомо больше интервала временного окна наблюдения случайного процесса;
периодическая (циклическая) компонента (рис. 1, b) - определяется как совокупность неслучайных гармонических колебаний, периоды которых заведомо меньше, чем интервал временного окна наблюдения случайного процесса;
случайная компонента (рис. 1, с) - центрированный случайный процесс.
Рис. 1. Основные разновидности случайных процессов, представляемые временными рядами
Выбор какой-либо из известных в настоящее время математических моделей прогнозирования и ее применение к компонентам случайного процесса (временным рядам) зависит, прежде всего, от степени статистической значимости каждой из данных компонент (т. е. доли дисперсии компоненты в дисперсии всего процесса), а также степени ее регулярности, поскольку параметры регулярных компонент изменяются сравнительно медленно, при этом закон их изменения известен или возможно получение его достоверной оценки.
Для прогнозирования отказов (предотказного технического состояния [2]) по временным рядам анализируемых метрик сетевых элементов и ИТКС в целом наибольшую статистическую значимость могут иметь регулярные периодические (циклические) компоненты. Это подтверждается теорией надежности, в соответствии с которой интенсивность отказов элементной компонентной базы (ЭКБ) и состоящих из нее сетевых элементов носит как раз периодический характер. Трендовая компонента в таких рядах, как правило, является монотонной, имеет постоянные либо сравнительно медленно меняющиеся значения параметров, связанные с деградационными процессами в ЭКБ (рис. 1, а). Трудностей с построением ее модели и прогнозом обычно не возникает. В свою очередь, случайная компонента или имеет малую статистическую значимость, или носит периодический характер, аналогичный сезонной (зависимость от режимов функционирования сетевого элемента или условий эксплуатации). Природа таких временных рядов может быть самой различной. Примерами могут служить всевозможные технологические показатели сети - повышение различных параметров информационного обмена на ИТКС в часы наибольшей нагрузки (ЧНН), изменения загрузки ЦПУ в соответствии с режимами работы сетевых элементов (недогруженный, нагруженный, перегруженный режимы работы), ежедневные объемы услуг отдельных сервисов и многие другие.
Цель статьи: выработка подхода к формированию методики прогнозирования (превентивной идентификации) аномальной ситуации во временном ряду метрик сетевых элементов на основе анализа научно-методического аппарата обработки временных рядов серверами мониторинга информационно-телекоммуникационных сетей общего пользования.
1. Анализ научно-методического аппарата решения задач прогноза временных рядов
В настоящее время наиболее распространенными из моделей и методов, направленных на решение задач прогнозирования поведения временных рядов, содержащих регулярные периодические компоненты являются следующие.
Метод Винтерса или обобщенный метод экспоненциального сглаживания [3], заключающийся в способности реализовать обычную фильтрацию с экспоненциально затухающей импульсной переходной функцией. При этом учет периодической компоненты в ходе прогноза обеспечивают путем взятия через интервал периодичности значений прогнозируемого процесса. В тоже время, этот подход, учитывает лишь закономерности процесса, которые проявляются на интервале периодичности, с характерным методу соответствующим экспоненциальным сглаживанием.
Также при анализе временных рядов широко используется сезонная модель авторегрессии проинтегрированного скользящего среднего (АРПСС) (auto regressive integrated moving average) [4]. АРПСС уходит от экспоненциального сглаживания, однако, при этом учет периодической компоненты также как и в предыдущем методе обеспечивается взятием значений прогнозируемого процесса через интервал периодичности. При этом недостатком данной модели является то, что ее упрощение за счет ограничения порядка авторегрессии и скользящего среднего значительно снижает качество прогноза для случаев, когда прогнозируемый процесс имеет сложные корреляционные связи.
Метод сингулярного спектрального анализа [5] изначально предполагает значительную зависимость от решений, принимаемых на каждом его этапе, в частности, от выбора параметров (длины окна анализа, числа компонент), способа группировки компонент, алгоритма восстановления ряда. Это требует крайне высокого уровня компетенций эксперта, адаптирующего данный метод для решения конкретной задачи, и значительно ограничивает возможности его применения.
Топологические методы анализа временных рядов. В последнее время для выявления закономерностей и поиска аномалий в сложных данных больших объемов (Big Data) существенное развитие также получили топологические методы анализа TDA (Topology Date Analysis) [6]. Такой подход предполагает, что в качестве исходных данных при построении и
сравнении базового и текущего профиля используются облака данных как неупорядоченные наборы данных, не привязанные к какой-либо из шкал измерений, например, временной. При этом облако данных (множество Х принадлежит евклидову пространству размерности Х с Е&) представляют в виде множества точек в заданном топологическом пространстве (например, пространстве метрик сетевых элементов ИТКС), к которому применимы процедуры ТОЛ. А поскольку в иЕВЛ исходные данные в основном представлены временными рядами, то временной ряд преобразуется без потери информации в облако точек, рис. 2, где каждому элементу в облаке данных ставится в соответствие точка в соответствующем облаке.
х * / х * \
* X // х \* \
XX I/ ^—^х X \ \
* «XX / Г X X х \ X
х X х I-1х X *
- х ххЖх «;„/■ У
х X * V— * х/ * /
Облако данных Фильтрация по множеству Х:
Xс Rё 0с Х1 с Х2 с... Х-1 с Хс Х+1 ...с Хм = Х
Рис. 2. Общая схема ТОЛ
При этом на первом этапе метода временные ряды, описывающие во времени изменяющееся поведение пользователя или иной сущности, преобразуются в облако точек топологического пространства без потери информации (с использованием методического аппарата теории вложения Такенса-Мане [7] или алгоритма ложных соседей [8]). На этом этапе подбирают такое топологическое пространство, элементами (точками) которого и будут элементы временных рядов. На следующем этапе, после определения топологического пространства (с входящим в него облаком точек) возможно вычисление топологических инвариантов, а также их производных характеристик в интересах выявления особенностей анализируемого временного ряда. Далее, для текущего (актуального по времени измерения) и базового (эталонного) облаков точек строятся топологические зависимости (диаграммы, графики и пр.), характеризующие текущий и базовый профили поведения соответственно. На завершающем этапе, с использованием алгоритма шкалирования на основе обобщенной функции желательности Харрингтона [9], метрик Вассерштейна [10], Чебышева [6] и других методов, выявляют отклонения текущего (наблюдаемого) от базового профиля поведения.
В последнее время для прогнозирования временных рядов также широко используются нейросетевые алгоритмы [11-14]. С учетом специфики разнородности сетевых устройств на распределенных ИТКС, задача контроля и прогнозирования их состояния является нелинейной, не поддающейся строгой формализации традиционными математическими методами. В особых условиях функционирования сетевого оборудования - при воздействии дестабилизирующих факторов внешних (естественной природы), и внутренних (перегруженные режимы работы и сложные условия эксплуатации), когда решение задачи в общем виде невозможно, оправдан нейросетевой подход, позволяющий обеспечить достаточно высокое качество выполнения задачи. Для решения задач аппроксимации нелинейностей важны методики, разрешающие проблемы принятия решений в условиях неполных данных (нехватки априорной, статистической информации) с учетом постоянно изменяющихся условий окружающей среды, что позволяют возможности нейро-технологий. Искусственная нейронная сеть (ИНС) не требуют традиционного программирования: информация обучения ИНС накапливается в весах, а не в программах, что обеспечивает устойчивость работоспособности сети. К другому достоинству ИНС следует отнести свойство обобщения, то есть способность сети давать правильные ответы на любые входные данные, не относящиеся к обучающему множеству.
На рис. 3 приведен пример построения обобщенной схемы модели контроля технического состояния (ТС) сложных технических объектов [12, 13], в которой объединены две ИНС: самоорганизующаяся карта Кохонена [11] и трехслойная гибридная нейросеть. Для фильтрации полученных на выходах нейросети значений показателей ТС и определения выходного класса ТС, соответствующего текущему ТС сетевого элемента, используются блоки, реализующие ступенчатую функцию с заданным порогом активации.
Слой 1
Слой 2
Х1
Х„
Х,
Х„
Отказ
Пре д отка зное состояние
Модель оценки ТС сетевого элемента
Нормальное состояние
Персептрон
Рис. 3. Модель прогнозирования технического состояния сетевого элемента
Функционирование модели предполагает: кластеризацию значений показателей; обработку полученных значений при помощи нейросети; фильтрацию полученных значений и выделение целевого класса, определяющего текущее значение ТС сетевых элементов. Исходя из задач прогнозирования ТС сетевого элемента в [11-13] предложена модель, которая, в отличие от рассмотренной имеет многослойный персептрон, а также использование на выходе модели аппарата дискретного вейвлет-преобразования (ДВП), что характеризует модель относительной простотой структуры и высокой точностью выходных данных.
Персептрон играет в модели роль модуля прогнозирования, который получает на входы результаты работы нейросети, определяющие по совокупности показателей текущее ТС сетевого элемента. Далее он формирует на выходах прогнозные значения, отражающие принадлежность ТС определенному классу состояний через заданный интервал времени. Результаты прогнозирования фильтруются блоками, реализующими фильтрацию полученных значений с использованием ДВП. Тем самым обеспечивается определение одного из результирующих классов ТС, характеризующих прогнозируемое ТС сетевого элемента [12, 13].
Использование метода дискретного вейвлет-преобразования, значительно упрощает процесс решения задачи комплексной прогнозной оценки ТС сетевых элементов, отличающей данный метод от других, включающих задачи объединения методов отбраковки аномальных измерений, фильтрации и сжатия данных, выявления локальных особенностей измерительной информации в интересах прогнозирования аварийных и нештатных ситуаций. Предложенная аппроксимация областей работоспособности эллипсоидами [14] позволяет повысить контрастность классов ТС и получить более гарантированную оценку, рис. 4.
Достаточно активно при исследовании прогнозирования временных рядов на сегодня используется подход кластерного анализа [15, 16], при котором объектом исследования выступают временные ряды, получаемые от различных источников (распределенный мониторинг технологии «Индустрия 4.0», интернет вещей, «умный город», «умный дом»).
Применяя метод кластерного анализа к объекту исследования в виде подсистемы мониторинга ИТКС ОП осуществляется сбор временных рядов подконтрольных метрик наблюдаемого сетевого элемента, получаемых одновременно с нескольких серверов
мониторинга (децентрализованный мониторинг) [17]. При этом за счет использования технологии CRDT (Conflict-Free Replicated Data Type) данные временных рядов с разных серверов мониторинга о наблюдаемом сетевом элементе реплицируются на другие сервера мониторинга подсистемы и обновляются параллельно без координации между узлами. Кластеризационное пространство на каждом сервере мониторинга формируется на основе обобщенных универсальных характеристик временных рядов [18], являющихся координатами этого пространства, в котором значению метрики временного ряда в конкретный момент времени соответствует точка в координатах универсальных характеристик. Фактически объектом анализа является множество временных рядов, порожденных разными серверами мониторинга (источниками) при наблюдении одного сетевого элемента.
Рис. 4. Применение ДВП для разделение классов ТС в виде областей работоспособности [14]: а) неперекрывающихся; d) частично перекрывающихся, c) перекрывающихся; d) объединенных (на рисунке обозначены: А - работоспособное, В1 - неработоспособное, В2 - предотказное ТС)
В ходе последующего кластерного анализа осуществляется выделение кластеров, элементами которых являются временные ряды одной и той же метрики, наблюдаемые разными серверами мониторинга (близкие в смысле выбранной метрики) и входящими в общее облако данных кластерного пространства. Для каждого из полученных кластеров может быть решена задача о назначении методов прогнозирования, что, в целом, будет способствовать повышению точности прогнозов (за счет выбора метода, который учитывал бы специфику временных рядов, принадлежащих данному кластеру).
Системы поведенческой аналитики. В современной отрасли информационных технологий в последние годы проявляется настойчивый интерес к системам поведенческой аналитики UEBA (User and Entity Behavior Analytics), как к новому классу оценки функциональной безопасности корпоративных ИТКС, основанных на интеллектуальной обработке данных, поступающих в реальном масштабе времени от учетных записей пользователей, а также множества сетевых устройств и приложений [19].
В системах поведенческой аналитики [20] предполагается, что сервер мониторинга получает информацию от источников D подсистем встроенного контроля сетевых элементов I) = {dn\n = "1, Ат J. От каждого датчика или сенсора сетевого устройства поступают кортежи
поведенческих характеристик Н (временные ряды) Н = {Ит\т = 1, М}, свойственные каждому сетевому элементу технологии «Индустрия 4.0» или классу объектов мониторинга Оп. #1(00 = ...,к1т,); Н2(02) = {}121,к22, ...,к2т,}; ...; #„(0,0 = (Ьв1Двг,... Д„гаД
и которые определяют реализацию дальнейших действий. В качестве характеристик могут рассматриваться как внешние, так и внутренние признаки (рис. 5), позволяющие проводить анализ текущего состояния объекта мониторинга, и по аномальным отклонениям одной метрики идентифицировать изменения в поведении временного ряда другого параметра. К ним можно отнести численные данные, интервальные данные, ранговые данные, номинальные данные. При этом текущее состояние системы описывают функциональной сетью 2, которая идентифицирует от источников набор кортежей 2 = {/?/|/ = "1, К}, где К - число функциональных состояний сетевого элемента, которые необходимо проанализировать для выявления аномалии.
Рис. 5. График изменения загрузки процессора (а) и его температурного режима (Ь)
Тогда на основе поведенческого подхода [20] задача определения технического состояния (ТС) сетевого элемента ставится следующим образом. Пусть С - множество классов состояний, характеризуемое в соответствие с [2] как «исправное», «работоспособное», «предотказное», «предельное» и т. д., или в соответствии с [21] - как «неопределенное» (Undefined, U), «норма» (Normal, N), «незначительное нарушение» (Minor, I), «значительное нарушение» (Major, J), «критическое» (Critical, C), «авария» (Fault, F). Выбрана функция расстояния между объектами r (z, z"). Имеется конечная обучающая выборка заданных технических состояний Z = {z1, z2, ..., zm} е Z. Необходимо разбить данную выборку на подмножества, которые бы включали технические состояния, близкие по метрике r, т. е. найти функцию а: Z ^ C. В конечном итоге, в ходе анализа на основе функциональной сети Z определяют текущее состояние («нормальное» или «аномальное») исходя из особенностей классических способов анализа - байессовского, наивного байессовского, нейросетевого и др.
При решении подобных задач на распределенных ИТКС у исследователя возникает необходимость анализа состояния не только сетевых устройств, но также сопрягающих их каналов и протекающих процессов. При этом в большинстве случаев внутренние состояния удаленных (автономных) сетевых элементов и процессов, протекающих в них, недоступны для оценки, что требует проведения подобного анализа лишь на основе проявления внешних характеристик сетевого элемента в системе (ее поведения в сети по отношению к другим сетевым элементам). С этой точки зрения поведенческая аналитика сетевого элемента на основе поступающей измерительной информации по внешним побочным каналам от нескольких других устройств (серверов), сопряженных с ним, является актуальным направлением.
Характерная особенность UEBA состоит в построении базового профиля (модели типового поведения) пользователя или иной сущности в виде сетевого устройства. При определенном отклонении пользователя/сущности от базового профиля (установленного шаблона поведения, допусков на эксплуатационные параметры) UEBA регистрирует нарушение (аномалию). Такой подход наиболее применим для систем информационной
безопасности [22]. Однако, учитывая, что в области функциональной безопасности процесс обеспечения надежности технических характеристик сложных ИТКС также зависит от пользователя (эксплуатанта) и технического состояния сетевых элементов, то возможно технологию UEBA перенести на область функциональной безопасности [20].
2. Влияние закона распределения параметров временного ряда на прогнозирование отказа
При анализе методов обработки временных рядов нужно помнить, что основным правилом, определяющим выбор конкретного математического аппарата для их анализа при контроле параметров сетевого оборудования, является степень неоднородности объектов мониторинга [11]. В [23] такая степень неоднородности определяется по шкале (например, от 0 до 1, в сторону увеличения неоднородности). Наиболее подходящий математический аппарат, в зависимости от степени неоднородности, определяется, например, методом экспертных оценок (в частности, метод бинарных сравнений). В целом обоснование степени важности сетевого элемента в распределенной сети определяется на основе положений теории важности критериев: для однотипных сетевых элементов степень неоднородности ограничена значениями от 0 до 0,6. Это объясняется высокой степенью унификации, «схожести» контролируемых сетевых элементов, а также фиксируемым потоком измерительной информации, характеризуемым свойствами однородности. Процесс изменения ТС в однотипных сетевых элементах более плавный, что способствует относительно высокой эффективности процессов обучения и обобщения, например, при использовании ИНС. Здесь процедура оценивания ТС основана на методах экспертных оценок, статистических методах распознавания, метрических методах, методах статистических решений (Неймана-Пирсона, минимакса), а также ИНС [11, 23];
для неоднотипных сетевых элементов (например, периферийного оборудования), отличающихся импульсным, нестационарным характером потока измерительной информации с пуассоновским законом распределения или законом распределения Вейбула («рваный» сигнал, получаемый с большим разбросом), см. табл. 1, поступающего от объекта мониторинга (при степени неоднородности от 0,7 до 1), наиболее применим метод дискретных вейвлет-преобразований (ДВП), а также метод последовательного анализа Вальда [11, 23].
Таким образом, проведенный выше качественный обзор научно-методического аппарата анализа временных рядов показал, что каждый из рассмотренных методов имеет свои достоинства и недостатки. В силу наличия временных рядов с регулярными периодическими компонентами в различных сферах науки, решение задачи их прогнозирования является важной и актуальной научно-технической задачей, что подтверждает необходимость формирования самостоятельной методики прогнозирования (превентивной идентификации) аномальной ситуации во временном ряду метрик сетевых элементов распределенной ИТКС, позволяющей в явном виде учесть эти компоненты и отвечающей следующим свойствам:
инвариантности относительно обрабатываемых метрик разнородных сетевых элементов ИТКС в рамках выбранного класса прогнозируемых процессов;
учета взаимосвязи сечений не только на интервале периодичности случайного процесса, но также для тренда и его случайной компоненты (центрированного случайного процесса); возможности регуляризации временного ряда по небольшому числу параметров. наличия теоретически обоснованного алгоритма оптимизации.
3. Символьное представление временных рядов
Рассматривая поведенческий подход к мониторингу ИТКС, необходимо отметить, что независимо от отечественной или международной классификации состояний технических устройств [2, 21], в итоге, интерпретация таких состояний сводится к двум основным: «норма» -сетевой элемент выполняет свои функции и «авария» - сетевой элемент не может выполнять свои функции. Остальные состояния служат лишь для уведомления оператора о смене состояний и о направлении динамики процесса - от «нормы» к «аварии», от «аварии» к «норме».
Таблица 1 - Примеры законов распределения потока измерительной информации, характеризующих аварийную ситуацию [24]
№ п/п
Законы распределения
Исходный закон распределения fx)
Плотность распределения интервалов времени g т)
Функция распределения G(t)
Экспоненциальный
f x)=1e-1x , 1 = 2,3
g (т) = ^e-^
X l0
G(t)
2.
Вейбулла
1 2 3 4 5 а-1
f (x) = Caxa-1e-cX C=2; a = 1,2,3
La
g (т) = Ca-L-
G(t) = e
CL\
~raa
Исходный
Парето
f (x)=axa-1, a = 1,2,3
„ aba 0 „
g(т)=—-г, a=2,4
G(T) = 1
a = 2, 4
Рэлея
/ /
//
/
/x)=4e-, ст=1,2
g (т)=—e 2т , d=1,2 т
G(t) = e
e
CL0
т
e
т
т
d
d
a
Динамика переходных процессов от «нормы» (N) к «аварии» (F) [21] редко характеризуется явной последовательностью событий N - I - J - C - F. Как правило, в журнале регистрации событий наблюдается переходные процессы с колебаниями, при которых вполне возможен как временный возврат на менее критическое состояние, так и резкие скачки «через» состояние или несколько состояний (например: N - I - J - C - F; N - J - C - F; N - C - F; или даже N - F), которые не были идентифицированы по причине малой скважности опроса сетевого элемента сервером мониторинга.
Решение вопроса периодичности опроса объектов мониторинга подсистемой контроля является самостоятельной оптимизационной задачей, но, в тоже время, полученное ее решение не будет универсальным на множестве контролируемых метрик для разнородных сетевых элементов различных ИТКС. Каждый производитель старается решить данную задачу для своего оборудования самостоятельно. Так, для временных рядов, характеризующихся трендом случайного процесса (рис. 1 а) наиболее используемым в подсистемах мониторинга является триггерный механизм идентификации технического состояния (например, активно используемый в Cisco), позволяющий устранить дублирование событий в журнале в случае
колебаний измеримой характеристики вблизи порога (т. н. эффект «дребезга нуля»), но даже он не приводит к надежной идентификации направления динамики процесса.
Нужен поиск новых подходов к решению такого класса задач.
Рассмотрим временной ряд с использованием символьного представления, описанного в [25] и применяемого в разделе символической динамики из теории динамических систем, когда для описания последовательностей измерений состояния системы пользуются символами некоторого заданного алфавита. Такой подход наиболее эффективен в описании и исследовании детерминированных систем, в которых из-за ограничений возможностей измерения возникает сходство со случайным процессом. При этом описание временного ряда и динамики его изменения возможно в терминах топологических аналогов марковских процессов, т. е. с помощью матриц возможных переходов между классами технического состояния (ТС) системы. Непосредственно для такого описания необходимо задать алфавит, который бы наиболее подходил для представления разбиения пространства ее состояний на области, которые бы соответствовали измеряемым значениям параметров (метрик).
Данная оценка была заимствована теорией символической динамики из биоинформатики, где активно используется для оценки сложности нуклеотидных геномных последовательностей [26], например, очень длинных последовательностей ДНК [27], рис. 6.
Рис. 6. Процесс анализа сложных нуклеотидных геномных последовательностей методом символической динамики
Вполне естественно оценивать сложную бесконечную допустимую последовательность числом различных конечных слов (например, с элементами алфавита С, 7, A}), входящих в нее. Тогда задача определения вторичной структуры временного ряда (структуры локальных конфигураций) формулируется как задача преобразования слов в алфавите метрик в слова над алфавитом локальных конфигураций, используя метод скользящего окна (кодов определенных слогов в кодовых словах). При этом количественная оценка временного ряда может быть оценена с помощью топологической энтропии или метрической энтропии по Колмогорову [28].
Постановка задачи. Рассмотрим временной ряд произвольной природы Т= {(/', /,), г = 1, п },
где / - значение характеристики наблюдаемого процесса в момент времени п - число наблюдений (временных отсчетов).
Необходимо определить обобщенные универсальные характеристики данного временного ряда, по которым возможно оценить разнообразие наблюдаемых значений параметров (метрик), относящихся к определенной области состояния объекта мониторинга (классу его ТС).
Для решения задачи на первом этапе осуществляем символьное кодирование временного ряда по возможным значениям параметров (метрик).
Необходимость универсализации разнородных временных рядов в пространстве их кластеризации налагает требования к их обобщенным универсальным характеристикам, определенные значения которых интерпретируются координатами точки, которая представляет рассматриваемый временной ряд в таком пространстве. В тоже время, сложности универсализации связаны с тем, что различные временные ряды имеют разную точность
измерений, т. е. число значащих цифр в значении характеристики наблюдаемого процесса Л, а также вариацию этих значений на различных интервалах времени ¿¿, что видно из рис. 7.
E D C
Xk
E
D C
B
■а) 1 2 3 4 5 . . . ti-1 ti t b)
Рис. 7. Символьное представление временного ряда наблюдаемого параметра а) с медленным и b) лавинообразным нарастанием аварийной ситуации (отказа элемента)
Для универсализации временных рядов в [25] предлагается масштабирование значений наблюдаемой функции f, а также построение исходя из этого строки символов, которые отражали бы динамику их числовых значений. Для этого определяется размах варьирования значений рассматриваемого временного ряда: V = утях - >'min, где j'min = min fv >'max =raax fv на
i=1ji r = lji
котором вводится разбиение у,, / = 1, ш диапазона [уь >'„,], причем у\ = >'П1ПЬ ут = _утах. Однако, поскольку значения Л временного ряда могут попадать и на границу разбиений, то правильнее рассматривать диапазон [у, уг+1) = {у |уг < у < уг+1, г = т - 1}. В данном случае определение числа разбиений к (к = т - 1) всего диапазона наблюдения значений параметра (метрики) на сегменты, а также определение их внутренних границ является самостоятельной оптимизационной задачей [18] с применением бикритериального метода построения гистограмм [29], которая уже была решена в [29]. Число разбиений к диапазона наблюдения параметра, полученных данным методом и определяет мощность алфавита описания.
Например, на рис. 7 приведено разбиение размаха временного ряда на символы А, В, С, Д Е выбранного алфавита Е (здесь символы алфавита Е соответствуют прописным символам латинского алфавита). При этом последний элемент разбиения (на рис. 7 обозначен как «Е»), очевидно также будет являться сегментом. Данными символами обозначаются разбиения значений наблюдаемой величины в порядке их возрастания. Так символ «А» - имя разбиения наименьших значений (в соответствии с [2] соответствует исправному ТС сетевого элемента, когда все параметры имеют номинальные значения), а «Е» - наибольших значений, соответствующее аварии (отказу). Если измерения параметра (метрики) ведется в дискретное время, то описание значений временного ряда символами разбиений есть слово над алфавитом Е в строке. Прохождением по временному ряду получается кодирование (представление) его строкой символов. Причем числовое значение /г кодируется символом разбиения (сегмента), в котором оно находится: для рис. 7 а) - {ААЛБВБСВ...}; для рис. 7 Ь) - {ЛАБЕ...}. Если наблюдаемый процесс описывается резким увеличением значений параметра (наблюдаемой величины), равно как и резким спадом за один временной интервал относительно нормального тренда его изменения (последовательного перехода из одного разбиения (сегмента) в другой), то получаемые кодовые слова, характеризующие временной ряд не будут содержать некоторых слогов. Так, кодовое слово временного ряда показанного на рис. 7 Ь) не содержит слога «СП». Данная ситуация идентифицируется как лавинообразный процесс развития аварии (отказа).
Такой подход позволяет осуществить интервальный анализ временного ряда, где в качестве интервала может рассматриваться «скользящее окно», последовательно сдвигающееся вдоль временного ряда и отслеживающее появление аномальных предаварийных ситуаций, или отказов, путем сравнения просматриваемых в «скользящем окне» слогов в наблюдаемом кодовом слове-строке временного ряда. При этом временной ряд, имеющий п временных
отсчетов (наблюдений), будет представлен в виде кодового слова-строки из п символов над алфавитом Е, а ширину «скользящего окна» можно подобрать оптимальным образом (для конкретной метрики индивидуально), учитывая физические процессы развития аномальных ситуаций и отказов в различных сетевых элементах, при различных режимах и условиях функционирования. Так, на рис. 7 а) ширина скользящего окна анализа равна т = 3. Поскольку процессу возникновения отказа сетевого элемента, как правило, предшествуют во времени изменения значений параметров (метрик) с трендом выхода их за пределы эксплуатационных и профилактических допусков [30], то в ходе производственных испытаний и опытной эксплуатации технических устройств нарабатывается база «запрещенных» слогов кодовых слов, используемая в пространстве сдвигов «скользящего окна» путем сравнения с наблюдаемым результатом. Таким образом, выявление «запрещенных» слогов в кодовом слове-строке временного ряда может лечь в основу метода прогнозирования наступления аварии или отказа.
Для решения задачи масштабирования в [28] предложен диапазон значений временного ряда, который может быть как с равномерным разбиением, так и с вычислением длины и числа разбиений на основе аппарата математической статистики (при решении задач мониторинга -аппарата теории надежности). Для временных рядов конкретных контролируемых параметров данный вопрос индивидуален и зависит не только от номинальных величин параметра, но также от эксплуатационных и профилактических допусков на них [30]. Число разбиений при оценке функциональной надежности сетевых элементов как правило соответствует видам их ТС [2, 21].
Как отмечалось ранее, в соответствие с [2] различают следующие виды технического состояния: исправное, неисправное, работоспособное, неработоспособное, предельное, опасное и предотказное состояние. В тоже время, с точки зрения функциональной надежности нас в большей степени интересует переход из работоспособного в неработоспособное («Авария» или «Отказ») состояние через промежуточное - предотказное ТС. Учитывая это, разбиение, соответствующее предотказному техническому состоянию может уточняться для каждого сетевого элемента или его измеряемого параметра. Очевидно, что различные временные ряды могут содержать не равные количества наблюдаемых значений. В рассматриваемом подходе символьного кодирования это означает, что описание временного ряда будет представлено словами-строками различной длины в заданном фиксированном алфавите. В связи с чем в [28] осуществлен переход от оценки абсолютной сложности строки по Колмогорову (от длины сжатой строки) к ее относительной оценке через коэффициент сжатия [15, 16].
4. Анализ временного ряда по тенденциям
В ряде случаев для подсистемы мониторинга функциональной безопасности (надежности) интерес представляет не реальное изменение временного ряда в следующий дискрет времени, а изменение его тенденции. Сама по себе задача определения рациональных порогов идентификации в изменении тенденций достаточно сложна, поскольку необходимо определиться с критерием положительной тенденции или ее отсутствием (0,5 %, 1 %, 2 %...?). При этом необходима либо специальная предварительная обработка исходных данных временных рядов, либо применение метода экспертных оценок, что, во втором случае носит субъективный характер и не является математически обоснованным. Само по себе использование метода символьного кодирования значений временного ряда уже можно интерпретировать как предварительную обработку, а поскольку используемый в [28] бикритериальный метод построения разбиений гарантирует, что доверительный интервал для выборочного среднего в каждом разбиении будет не шире самого разбиения, то локализация значений, кодируемых одним символом алфавита Е является статистически достоверной. Из чего можно заключить, что, используя метод символьного кодирования, изменение символа заданного для временного ряда алфавита Е в следующий временной интервал и есть квалификация тенденции в то время, как изменение значения параметра, не выводящее его за полосу ширины разбиения - отсутствие какой-либо тенденции.
Продемонстрируем символьное описание временного ряда изменения значений параметра по тенденциям на примере рис. 8.
Для кодирования по тенденциям представленного на рис. 8 временного ряда используем алфавит ^ = {-, 0, +}, в котором символом «0» обозначено отсутствие тенденции в значении последующего временного интервала. Тогда при кодировании временного ряда в ранее определенном алфавите £знач = {А, В, С, D, Е } (по значениям) кодовое слово будет иметь вид: {CDDDCBAB}, а при кодировании того же временного ряда по тенденциям с использованием
алфавита Етенд кодовое слово будет выглядеть как {0 + 0 0---+}, предполагая, что первый
символ кода тенденции всегда имеет значение «0» (отсутствие тенденции).
С точки зрения теории надежности для подсистемы мониторинга важно, чтобы значения наблюдаемых параметров сетевых элементов находились при определенных режимах функционирования в стабильном состоянии (отсутствие тенденций). Для динамических систем с постоянно изменяющимися режимами работы (недогруженный, перегруженный и пр.) и изменением обрабатываемой нагрузки в символах кодовых слов, описывающие временные ряды наблюдаемых параметров всегда будут присутствовать тенденции. Для выявления разрушительных тенденций, вызывающих переход сетевого элемента из работоспособного состояния в состояние отказа (аварийное состояние) необходимо определить запрещенные полуслова (слоги) в описываемом временной ряд слове-строке. Как правило, аварийному режиму функционирования предшествует некоторый временной интервал, соответствующий предотказному состоянию, характеризуемый повышенным риском возникновения отказа [2].
Предотказное состояние может быть связано с воздействиями на сетевой элемент многих внешних (ошибки персонала, условия эксплуатации, воздействия естественного и искусственного характера и пр.) и внутренних (производственные дефекты, программные сбои, перегруженные режимы работы и пр.) факторов. При этом задачей подсистемы мониторинга является своевременное обнаружение предотказного состояния сетевого устройства с целью оперативного (превентивного) принятия мер для недопущения развития отказа (аварии). С этих позиций применение метода символьного кодирования как по значениям временных рядов, так и по тенденциям, позволяет заблаговременно обнаружить «запрещенную» комбинацию полуслов (слогов) в кодовом слове, описывающем временной ряд значений контролируемых параметров. Тогда обнаружение развития отказа возможно по выявлению в кодовом слове временного ряда слогов, идентифицирующих стремительно развивающуюся тенденцию в сторону разбиения, характеризующего аварийной состояние ОК (для рассматриваемого примера рис. 7 и 8 - разбиение «Е» ). Так, при символьном кодировании значений временного ряда на рис. 7 а) факт перехода из режима нормального функционирования (символ разбиения - «А») к предотказному состоянию (символ разбиения «D») интерпретируется слогом «BCD» в слове-строке {AAABBBCD...}, а на рис. 7 b) переход к отказу - слогом «ABE» в слове {AABE}. При кодировании временного ряда по тенденциям аномальное состояние (поведение) системы (сетевого устройства) может идентифицироваться слогами типа {+ +}, {+ + +}, или {— }, {---}.
Соответственно подсистема мониторинга должна в ходе обработки кодового слова временного ряда выявлять подобные «запрещенные» комбинации слогов, характеризующие наступление предотказного состояния или отказа системы. Факт перехода объекта мониторинга в критическое состояние должен выявляться заранее для принятия превентивного управляющего воздействия. Такой реакцией подсистемы мониторинга на наступление предотказного ТС может быть управляющее воздействие на сеть (сетевой элемент) или перевода системы мониторинга в особый режим мониторинга.
В работе предлагается в качестве особого режима мониторинга использовать увеличение скважности опросов сервером мониторинга сетевого элемента по значениям наблюдаемых метрик, когда при выявлении наступления его предотказного состояния по агрегированной предварительно собранной статистике о сетевом устройстве для недопущения развития аварийной ситуации частота опроса объекта мониторинга увеличивается, например, в 10 раз, т. е. вместо 1 раза в 5 минут, опрос осуществляют каждые 30 секунд или еще чаще.
5. Оценка энтропии кодового слова, описывающего временной ряд наблюдаемой метрики
Для выявления в кодовом слове-строке анализируемого временного ряда «запрещенных» слогов, идентифицирующих развитие аварии воспользуемся оценкой энтропии слов [18].
При этом оценку энтропии кодовых слов описывающего временной ряд наблюдаемого параметра осуществляют в следующем порядке [18]. Сначала фиксируют длину слога т и алфавит Е. Множество различных слогов на выбранном алфавите составит Ет. Соответственно мощность этого множества М =|Ет| составляет общее число слогов. Если обозначить к -мощность алфавита, то М = кт. Для фиксированной длины слогов т вводится произвольная их нумерация / = 1, М, а также счетчики числа слогов сг. В ходе анализа временного ряда Г длиной п, происходит сдвиг временного окна шириной т на один интервал [¿¿, ¿¿+1]. Таким образом имеется п - т + 1 позиций временного окна, для каждой из которых идентифицируется слог, полученный в окне. Если в текущей позиции окна шириной т наблюдается слог, имеющий в принятой нумерации номер / = 1, М, то значение счетчика числа слогов сг возрастает на единицу. Тогда по полученным значениям счетчика сг осуществляется оценка энтропии слов по выражению
Использование в качестве основания алгоритма мощности различных слогов М автоматически нормирует значение энтропии слов Ст. Ситуация, когда С(т) = 0 означает, что все слоги длиной т одинаковы и состоят из одного и того же слога или при длине слога совпадающим с длиной наблюдаемого кодового слова, т. е. т = п, мы имеем только один слог. А случай, когда С(т) = 1, соответствует одинаковой частоте встречаемости всех возможных слогов из Ет в наблюдаемом кодовом слове-строке (частота символов алфавита одинакова в исходном кодовом слове). В результате оценки энтропии слов можно построить функцию С(т) = Ст, с аргументом т (1 < т < п ), которая вычисляется при фиксированном т по анализируемому временному ряду в соответствие в выражением (1) и увеличением на единицу ширины окна на области определения т от 1 до п. В соответствии с терминами символической динамики [31], функцию С(т) называют оценкой энтропии сдвигов.
6. Алгоритм превентивной идентификации аномальной ситуации на временном ряду метрик
Исходя из рассмотренных методов анализа временных рядов предложен алгоритм превентивной идентификации аномальной ситуации на временном ряду метрик. Блок-схема алгоритма состоит из четырех этапов: предварительного этапа, этапа кодирования временных рядов, этапа идентификации состояния сетевого элемента и завершающего этапа, рис. 9.
Предварительный этап
Ввод исходных данных: о составе ИТКС; структуре ее децентрализованной подсистемы мониторинга (матрица тяготений серверов мониторинга к сетевым элементам);
наблюдаемых параметрах сетевых элементов; величинах эксплуатационных допусков на параметры сетевых элементов, а также значениях профилактических допусков на них для различных режимов функционирования и условий эксплуатации сетевых элементов [30]; режимах мониторинга (активный, пассивный) и периодичности опроса сервером мониторинга сетевых элементов; значениях ошибок первого и второго рода (а - «ложной тревоги» и в - «пропуск отказа», соответственно); классах (видах) технического состояния сетевого элемента; используемых протоколах сбора измерительной информации и др.
С
Начало
Ввод
Л
;
Предварительный этап
7
исходн ых данн ых
Первоначальное назначение серверам мониторинга сетевых
элементов в соответствии с матрицей тяготения из расчета охвата каждого из них не менее чем 2 серверами мониторинга
1-3-
Определение мощности алфавита кодирования £ временного ряда с разбиением диапазона размаха варьируемых значения метрик на сегменты,
соответствующие видам ТС сетевых элементов, закрепляемые за символами кода
[Вы
Выбор размера скользящего окна
I—5-1-
Введение зап рещенных слогов на наблюдаемом кодовом слове, приводящих к отказу сетевого элемента
>тап кодирования временных рядов ±
Динамическое взятие/снятие серверами мониторинга сетевых элементов на мониторинг в случае изменения структуры сети, ее деградации и восстановления
1—8-1-
Преобразование потока измерительной информации, поступающей от сетевого элемента на сервер мониторинга во временной ряд
Символьное кодирование по „ значениям наблюдаемых метрик временного ряда по заранее установленному алфавиту £ нач I и получение кодового слова
1-11-
Символьное кодирование по тенденциям изменения значений метрик временного ряда по заранее установленному
алфавиту £тенд и получение кодового слова по тенденциям
1—12-1-
Оценка энтропии кодового слова методом скользящего окна
©
р
Эта" п иден тифика ци и I вида ТС
гт13-1-1
Сравнение текущего слога временного ряда, наблюдаемого в скользяш,ем окне с запрещен* ными слогами кодового слова из распределенной БД
Прогноз наступления предотказного ТС сетевого элемента по тенденциям
рогноз наступления предотказного ТС сетевого элемента по динамике изменения значений метрик
Л7 ~
Отправка значений прогнозов наступления предотказного ТС на взаимодействующие серверы
мониторинга ИТКС, наблюдающие сетевой элемент
— 18-*-
Обработка прогнозной информации полученной от взаимодействующих серверов мониторинга, закрепленных за
наблюдаемым сетевым элементом, методом сравнения
— 19- У—.
Идентификация ТС сет. элемента |
,-20-
Завершающий этап
Формирование сигнала об отказе (предотказном ТС) сетевого элемента, или его
нормальном функционировании после процедуры восстановления
— 21-1-
Выработка решения на подключение резерва или на изменение конфигурации сети
1-22-
Отображение сигнала об отказе
(предотказном ТС) сетевого элемента или его нормальном
функционировании после процедур восстановления на мониторе сервера мониторинга (коллективном табло) подсистемы мониторинга ситуационного центра ведомства
— 23-
Актуализация базы данных (базы знаний) подсистемы мониторинга ИТКС
I__
24
т
Вывод на печать ротокола мониторинга
^ Окончание
Рис. 9. Блок-схема алгоритма превентивной идентификации аномальной ситуации на временном ряду
Первоначальное назначение серверам мониторинга сетевых элементов для наблюдения их ТС (мониторинга) в соответствии с матрицей тяготения серверов к сетевым элементам из расчета охвата каждого сетевого элемента не менее чем двумя серверами мониторинга.
Определение мощности алфавита кодирования временного ряда с разбиением диапазона размаха варьируемых значений метрики на сегменты, соответствующие классам (видам) ТС сетевых элементов, закрепляемые за символами кода. Соотнесение классов (видов) ТС [2] с символами выбранного алфавита Е кодирования временного ряда.
Выбор размера скользящего окна (по методике Сметанина Ю.Г., Ульянова М.В. [29] и др.). Для каждого эксплуатационного параметра отдельного сетевого элемента данный выбор индивидуален. Важно ширину скользящего окна иметь таковой, чтобы не пропустить нарастание аварийной ситуации в различных режимах и условиях эксплуатации сетевого элемента, а также минимизировать ошибки первого рода (а) «ложный отказ» и второго рода (Р) «пропуск отказа». Выбор размера скользящего окна, как правило, осуществляется на этапе испытаний или подконтрольной эксплуатации сетевого элемента. А процедура минимизации ошибок первого и второго рода является самостоятельной оптимизационной задачей.
Введение запрещенных слогов на наблюдаемом кодовом слове-строке, приводящих к отказу. Первоначально состав запрещенных слогов определяется в ходе испытаний и подконтрольной эксплуатации для различных режимов функционирования и условий эксплуатации сетевого оборудования, а в последующем - в соответствии нарабатываемой статистикой на основных этапах жизненного цикла ИТКС. Поэтому этапу испытаний и подконтрольной эксплуатации должно уделяться важное значение.
Запись и хранение запрещенных слогов для каждой контролируемой метрики каждого сетевого элемента в распределенной базе данных (БД) (базе знаний - БЗ) ИТКС, их обновление и репликация в соответствии с надежностью функционирования ИТКС и статистикой эксплуатации сетевых элементов на основных этапах их жизненного цикла.
Этап кодирования временных рядов
Динамическое взятие/снятие серверами мониторинга сетевых элементов на мониторинг в случае изменения структуры сети, ее деградации или восстановления, из расчета охвата каждого сетевого элемента не менее чем двумя серверами мониторинга Такое динамическое распределение одновременно должно модифицироваться любым из участвующих серверов для поддержки выполнения условия обеспечения > 2 минимального
количества серверов мониторинга (не менее двух) на одно сетевое устройство.
Преобразование потока ИИ, поступающей от сетевого элемента в сервер мониторинга во временной ряд, а также выбор вида временного ряда и типа средств его визуализации.
Выбор метода обработки временного ряда - символьное кодирование по значениям или символьное кодирование по тенденциям.
Символьное кодирование значений наблюдаемых метрик временного ряда в соответствие с символами ранее установленного алфавита Езнач и получение кодовых слов-строк по значениям.
Символьное кодирование по тенденциям изменения значений метрик временного ряда символами ранее установленного алфавита Етенд. и получение кодовых слов-строк по тенденциям.
Оценка энтропии кодового слова. Изначально позиционированное в начале наблюдаемого кодового слова-строки длиной п, скользящее окно шириной т сдвигается каждый раз на один символ (временной такт) ¿¿+1. Для каждого его п - т + 1 положения распознается слог кодового слова, полученный в скользящем окне. Если в текущей позиции скользящего окна шириной т наблюдается слог, имеющий номер г в принятой нумерации, то значение счетчика сг увеличивается на единицу. Расчет оценки энтропии слов Ст проводится по выражению (1).
Этап идентификации состояния сетевого элемента
Сравнение текущего слога временного ряда, наблюдаемого в скользящем окне с запрещенными слогами кодового слова, записанными в распределенной БД (БЗ) предполагает поиск (фильтрацию) запрещенных слогов в наблюдаемом кодовом слове-строке временного ряда.
Выбор метода прогноза наступления предотказного ТС сетевого элемента.
Прогноз наступления предотказного состояния сетевого элемента по тенденциям их изменения (выявление опасных тенденций). В случае идентификации опасных трендов развития аварии необходимо увеличить частоту опроса сетевого элемента с целью не допустить пропуска отказа и минимизировать ошибку второго рода р. В данном алгоритме процедура увеличения скважности опроса сетевого элемента серверов мониторинга при выявлении предотказного технического состояния не представлена, решается программно отдельным блоком алгоритма.
Прогноз наступления предотказного состояния сетевого элемента по динамике изменения значений метрик в наблюдаемых слогах ключевых слов анализируемого ряда временного ряда. В случае идентификации предотказного состояния сетевого элемента доступная измерительная информация (величины значений наблюдаемой метрики) сверяется не только с эксплуатационным допуском на параметр, но и с профилактическим допуском, зависящим от конкретного режима функционирования и условий эксплуатации сетевого элемента.
Отправка значений прогнозов наступления предотказного состояния на серверы мониторинга, взаимодействующие в ИТКС и наблюдающие сетевой элемент. При этом если на сервере мониторинга, спрогнозировавшим предотказное состояние доступна измерительная информация инструментального контроля, то на взаимодействующие серверы мониторинга передается только прогнозное значение в виде символьной записи (типа {+ + +}, или {АВЕ}).
Обработка прогнозной информации, полученной на шагах прогноза и поступающей от взаимодействующих серверов мониторинга ИТКС, закрепленных за наблюдаемым сетевым элементом, методом сравнения (с использованием мажоритарного принципа и пр.), а также сопоставления действующих режимов его функционирования и условий эксплуатации (выявление причин наступления предотказного состояния).
Идентификация технического состояния сетевого элемента по конечному символу текущего слога наблюдаемого кодового слова временного ряда.
Завершающий этап
Формирование сигнала об отказе, предотказном ТС или иной аномалии сетевого элемента, или его нормальном функционировании после процедур восстановления (устранения отказа).
Выработка решения на подключение резерва или на изменение конфигурации сети в связи с отказом/восстановлением сетевого элемента. Для повышения оперативности данный шаг выполняется параллельно с предыдущим.
Отображение сигнала об отказе (предотказном техническом состоянии) сетевого элемента или его нормальном функционировании после процедур восстановления (устранения отказа) на мониторе сервера мониторинга (коллективном табло) подсистемы мониторинга .
Актуализация базы данных (базы знаний) о техническом состоянии сетевых элементов ИТКС, обновление структуры сети в связи с последними изменениями (отказом, резервированием, восстановлением), динамическое перезакрепление серверов мониторинга за сетевыми элементами в связи с динамикой изменения состояния ИТКС (изменение матрицы тяготения серверов мониторинга и сетевых элементов), уточнение исходных данных алгоритма, обновление и репликация распределенной базы данных ИТКС.
Вывод на печать протоколов мониторинга.
Заключение
Таким образом, на основе проведенного анализа научно-методического аппарата оценки временных рядов наблюдаемых метрик предложен подход к формированию методики прогнозирования аномальных ситуаций по результатам мониторинга функционального состояния сетевых элементов ИТКС ОП. При этом превентивная идентификация аномального состояния сетевого элемента осуществляется путем выявления «запрещенных» кодовых комбинаций при наблюдении временных рядов, обработанных заимствованными из биоинформатики методами символической динамики, используемыми ранее в процессе анализа сложных нуклеотидных геномных последовательностей, а также введение особого режима
мониторинга, когда при идентификации предотказного технического состояния скважность опроса сервером мониторинга сетевого элемента значительно увеличивается с целью своевременного принятия превентивных управляющих воздействий на сетевую инфраструктуру для недопущения пропуска отказа сетевого элемента или наступления аварии.
В основу предложенного алгоритма заложен метод символического представления временных рядов, на базе которого дана оценка энтропии кодовых слов, описывающих временной ряд наблюдаемой метрики функционирующего сетевого элемента и разработан алгоритм методики идентификации аномальной ситуации на временном ряду его параметров, состоящий из четырех этапов: предварительного этапа, этапа кодирования временных рядов, этапа идентификации вида технического состояния сетевого элемента и завершающего этапа. Данный алгоритм позволит в последующем сформировать порядок функционирования сервера мониторинга для идентификации аномалий в работе ИТКС ОП.
Литература
1. Игнатов H.A. Прогнозирование временных рядов с регулярными циклическими компонентами с помощью модели периодически коррелированных случайных процессов // Научные труды: Институт народнохозяйственного прогнозирования РАН, 2011.
2. ГОСТ 27.002-2015 Надежность в технике. Термины и определения. Москва: Стандартинформ. 2016. 23 с.
3. Батурин А. Прогноз по методу экспоненциального сглаживания с трендом и сезонностью Хольта-Винтерса [электронный ресурс] URL:https://4analytics.ru/prognozirovanie (Дата обращения 03.03.2021).
4. Яковлева А.В. Эконометрика. Конспект лекций. М.: ЭКСМО, 2008. - 244 с.
5. Кашкин В.Б., Рублева Т.В. Применение сингулярного спектрального анализа для выделения слабо выраженных трендов // Известия Томского политехнического университета. 2007. Т. 311. № 5. С.116-119.
6. Нашивочников Н.В., Пустарнаков В.Ф. Топологические методы анализа в системах поведенческой аналитики // Вопросы кибербезопасности. 2021. № 2 (42). С. 26-36.
7. Макаренко Н.Г. Эмбедология и нейропрогноз. Часть 1. - М. МИФИ. 2003. 188 с.
8. Krakovska A., Mezeiova K., Budacova N. Use of False Nearest Neighbours for Selecting Variables and Embedding Parameters for State Spase Reconstruction. Journal of Complex Systems, 2015. Pp. 1-12. https//doi:org/10.1155/2015/932750.
9. Пичкалев А.В. Применение кривой желательности Харрингтона для сравнительного анализа автоматизированных систем контроля // Вестник НГТУ. - Красноярск: КГТУ. 1997. № 1. С. 128-132.
10. Arjovsky M., Chintala S., Bottou L. Wasserstein Generative Adversarial Networks // Proceedings of the 34th International Conference on Machine Learning, PMLR. 2017. Pp. 214-223.
11. Винограденко А.М. Методология интеллектуального контроля технического состояния автоматизированной системы связи специального назначения. Монография. - СПб.: Наукоемкие технологии, 2020. - 180 с.
12. Kotenko I., Saenko I., Ageev S. Applying Fuzzy Computing Methods for On-line Monitoring of New Generation Network Elements // In: Advances in Intelligent Systems and Computing. 2018. Vol. 874. Springer, Cham. Pp. 331-340.
13. Kotenko I., Saenko I., Ageev S. Monitoring the State of Elements of Multi-service Communication Networks on the Basis of Fuzzy Logical Inference // In: Proceedings of the Sixth International Conference on Communications. Computation, Networks and Technologies (INN0V-2017). 2017. Pp. 26-32.
14. Kotenko I.V., Budko P.A., Vinogradenko A.M., Saenko I.B. An Approach for Intelligent Evaluation of the State of Complex Autonomous Objects Based on the Wavelet Analysis // The 18th International conference on intelligent software methodologies, tools and techniques (S0MET'2019) -Kuching, Sarawak, Malaysia, 23-25 September 2019. Pp. 25-38.
15. Грабуст П. Способы оценок сходства временных рядов // Научные труды Международной НТК «Теория вероятностей, случайные процессы, математическая статистика и приложения», Минск, БГУ, 15-19 сентября 2008 г. Минск: Белорусский государственный университет, 2008. С. 23-24.
16. Ульянов М.В., Сметанин Ю.Г. Об одном подходе к построению кластерного пространства временных рядов: колмогоровская и гармоническая сложность // Proceedings of the International scientific-practical conference «Information Control Systems and Technologies» (ICST 2013). Odessa, 2013. С. 30-36.
17. Tangari G., Tuncer D., Charalambides M., Pavlou G. Decentralized Monitoring for Large-Scale Software-Defined Networks. IFIP/IEEE Symposium on Integrated Network and Service Management (IM). Department of Electronic and Electrical Engineering, University College London, UK. 2017 (Дата обращения 30.04.2021).
18. Сметанин Ю.Г., Ульянов М.В. Мера символьного разнообразия: подход комбинаторики слов к определению обобщенных характеристик временных рядов // Бизнес-информатика. 2014. N° 3 (29). С. 40-48.
19. Обзор рынка систем поведенческого анализа - User and Entity Behavioral Analytics (UBA/UEBA) 23 ноября 2017. URL: https://www.anti-malware.ru/analytics/Market_Analysis/user-and-entity-behavioral-analytics-ubaueba (Дата обращения 04.07.2021).
20. Сухопаров М.Е., Лебедев И.С. Модели анализа функционального состояния элементов устройств сетей и телекоммуникаций «Индустрии 4.0»: монография. СПб.: Политех-Пресс, 2020. - 121 с.
21. Рекомендация [Рек. М.3703] - М.3703: Common management services - Alarm management -Protocol neutral requirements and analysis [Электронный ресурс]. URL: https://www.itu.int/rec/T-REC -M.3703 - 201006-I. (Дата обращения 14.05.2021).
22. Нашивочников Н.В., Большков А.А., Николашин Ю.А., Лукашин А.А. Проблемные вопросы применения аналитических средств безопасности киберфизических систем предприятий ТЭК // Вопросы кибербезопасности. 2019. № 5 (33). С. 26-33.
23. Подиновский В. В. Идеи и методы теории важности критериев в многокритериальных задачах принятия решений. - М.: Наука, 2019. - 103 с.
24. Будко П.А. Управление ресурсами информационно-телекоммуникационных систем. Методы оптимизации: Монография. - СПб.: ВАС, 2012. - 512 с.
25. Сметанин Ю.Г., Ульянов М.В. Энтропийные характеристики разнообразия в символьном представлении временных рядов // Современные информационные технологии и ИТ-образование. 2014. № 10. С. 426-436.
26. Орлов Ю.Л. Компьютерная реализация оценок сложности текстов // Материалы Российской НТК «Дискретный анализ и исследование операций» (ДАОР), Новосибирск, Институт математики СО РАН, 28 июня - 2 июля 2004. Новосибирск: Издательствово Институтата математики СО РАН, 2004. С. 225.
27. Математические методы для анализа последовательностей ДНК. М.: Мир, 1999. 349 с.
28. Ульянов М.В., Сметанин Ю.Г. Подход к определению характеристик колмогоровской сложности временных рядов на основе символьных описаний // Бизнес-информатика. 2013. №2. С. 49-54.
29. Петрушин В.Н., Ульянов М.В. Бикритериальный метод построения гистограмм // Информационные технологии и вычислительные системы. 2012. № 4. С. 22-31.
30. Абрамов О.В., Розенбаум А.Н. Управление эксплуатацией систем ответственного назначения. Владивосток: Дальнаука, 2000. 200 c
31. Lind D., Marcus B. An introduction to symbolic dynamics and coding. Cambridge, UK: Cambridge University Press, 1995. 495 pp.
References
1. Ignatov H. A. Forecasting of time series with regular cyclic components using a model of periodically correlated random processes. Scientific works: Institute of National Economic Forecasting of the Russian Academy of Sciences, 2011 (in Russian).
2. GOST 27.002-2015 Reliability in technology. Terms and definitions. Moscow: Standartinform. 2016. 23 p. (in Russian).
3. Baturin A. Forecast by the exponential smoothing method with the Holt-Winters trend and seasonality [electronic resource] URL: https: / / 4analytics. ru / forecasting (Accessed 03.03.2021) (in Russian).
4. Yakovleva A.V. Econometrics. Abstract of lectures. Moscow: EKSMO, 2008. - 244 p. (in Russian).
5. Kashkin V. B., Rubleva T. V. Application of singular spectral analysis for the identification of weakly expressed trends. Izvestiya Tomsk Polytechnic University. 2007. Vol. 311. No. 5. Pp. 116-119 (in Russian).
6. Nashivochnikov N. V., Pustarnakov V. F. Topological methods of analysis in behavioral analytics systems. Cybersecurity issues. 2021. No. 2 (42). Pp. 26-36 (in Russian).
7. Makarenko N. G. Embedology and neuroprognosis. Part 1. M. MEPhI. 2003. 188 p. (in Russian).
8. Krakovskaya A., Mezeeva K., Budakova N. Using False nearest neighbors to select variables and embed parameters to restore the state. Journal of Complex Systems, 2015. pp. 1-12. https// doi: org/10.1155/2015/932750.
9. Pichkalev A.V. Application of the Harrington desirability curve for comparative analysis of automated control systems. Bulletin of the NSTU. Krasnoyarsk: KSTU. 1997. No. 1. Pp. 128-132 (in Russian).
10. Arzhovsky M., Chintala S., Bottu L. Wasserstein Generative adversarial networks // Proceedings of the 34th International Conference on Machine Learning, PMLR. 2017. Pp. 214-223.
11. Vinogradenko A.M. Methodology of intellectual control of the technical condition of the automated communication system for special purposes. Monograph. - St. Petersburg: High-tech technologies, 2020. - 180 p. (in Russian).
12. Kotenko I., Saenko I., Ageev S. Application of fuzzy computing methods for operational monitoring of network elements of a new generation. In: Achievements in the field of intelligent systems and computer technology. 2018. Volume 874. Springer, Cham. Pp. 331-340.
13. Kotenko I., Saenko I., Ageev S. Monitoring of the state of elements of multiservice communication networks based on fuzzy logical inference. In the book: Materials of the Sixth International Conference on Communications. Computing, Networks and Technologies (INN0V-2017). 2017. Pp. 26-32.
14. Kotenko I. V., Budko P. A., Vinogradenko A.M., Saenko I. B. An approach to the intellectual assessment of the state of complex autonomous objects based on wavelet analysis / / 18th International Conference on Methodologies, Tools and Methods of Intelligent Software (SOMET ' 2019) - Kuching, Sarawak, Malaysia, September 23-25, 2019, pp. 25-38.
15. Grabust P. Methods of estimating the similarity of time series. Scientific works Interd. Conf. "The theory of probability, stochastic processes, mathematical statistics and applications", Minsk, BSU, 15-19 September 2008, Minsk: Belarusian state University, 2008. Pp. 23-24 (in Russian).
16. Ulyanov, V., Smets, Y. G. On one approach to the construction of a clustered space time series: Kolmogorov and harmonic complexity. Materials of the International scientific-practical conference "Information control systems and technologies" (ICST 2013). Odessa, 2013. Pp. 30-36 (in Russian).
17. Tangari G., Tuncer D., Charalambides M., Pavlou G. Decentralized monitoring for large-scale Software-defined networks. IFIP/IEEE Symposium on Integrated Network and Service Management (IM). Department of Electronics and Electrical Engineering, University College London, UK. 2017 (Accessed 30.04.2021) (in Russian).
18. Smetanin Yu. G., Ulyanov M. V. The measure of symbolic diversity: an approach of combinatorics of words to the definition of generalized characteristics of time series. Business Informatics. 2014. No. 3 (29). Pp. 40-48 (in Russian).
19. Behavioral Analysis Systems Market Overview-Behavioral Analytics of Users and Organizations (UBA / UEBA) November 23, 2017. URL: https://www.anti-malware.ru/analytics/Market_Analysis/user-and-entity-behavioral-analytics-ubaueba (Accessed 04.07.2021) (in Russian).
20. Sukhoparov M.E., Lebedev I. S. Models of analysis of the functional state of elements of devices of networks and telecommunications "Industry 4.0": monograph. St. Petersburg: Polytech-Press, 2020. - 121 p. (in Russian).
21. Recommendation [Rec. M. 3703] - M. 3703: General management services-Alarm management -Requirements and analysis of protocol neutrality [Electronic resource]. URL: https://www.itu.int/rec/T-REC -M. 3703-201006-I. (Accessed 14.05.2021) (in Russian).
22. Nashivochnikov N.V., Bolshkov A. A., Nikolashin Yu. A., Lukashin A. A. Problematic issues of the use of analytical security tools for cyber-physical systems of fuel and energy complex enterprises. Issues of cybersecurity. 2019. No. 5 (33). Pp. 26-33 (in Russian).
23. Podinovsky V.V. Ideas and methods of the theory of the importance of criteria in multi-criteria decision-making problems. Moscow: Nauka, 2019. 103 p. (in Russian).
24. Budko P.A. Resource management of information and telecommunications systems. Optimization methods: Monograph. - St. Petersburg: VAS, 2012 - 512 p. (in Russian).
25. Smetanin Yu. G., Ulyanov M. V. Entropic characteristics of diversity in the symbolic representation of time series. Modern information technologies and IT education. 2014. No. 10. pp. 426-436 (in Russian).
26. Orlov Yu. l. Computer implementation estimates the complexity of the texts. Proceedings of the Russian NTK "Discrete analysis and operations research" (DAOR), Novosibirsk, Institute of mathematics, 28 June - 2 July, 2004 Novosibirsk: Izd-vo Inst mathematics SB RAS, 2004. P. 225 (in Russian).
27. Mathematical methods for the analysis of DNA sequences. M.: Mir, 1999. 349 p. (in Russian).
28. Ulyanov M.V., Smetanin Yu.G. An approach to determining the characteristics of the Kolmogorov complexity of time series based on symbolic descriptions. Business Informatics. 2013. No. 2. Pp. 49-54 (in Russian).
29. Petrushin V.N., Ulyanov M.V. Bicriteria method of constructing histograms. Information technologies and computing systems. 2012. No. 4. Pp. 22-31 (in Russian).
30. Abramov O.V., Rosenbaum A.N. Management of the operation of responsible purpose systems. Vladivostok: Dalnauka, 2000 (in Russian).
31. Lind D., Markus B. Introduction to symbolic dynamics and coding. Cambridge, UK: Cambridge University Press, 1995. 495 p.
Статья поступила 24 апреля 2021 г.
Информация об авторе
Аллакин Владимир Васильевич - Соискатель ученой степени кандидата технических наук. Независимый специалист. E-mail: [email protected]. Адрес: 188660, Ленинградская обл., Всеволожский район, пос. Бугры, ул. Школьная, дом 11, корп. 1, кв. 510.
Analysis of methods for estimating time series by the monitoring server of a public information and telecommunications network
V.V. Allakin
Annotation. Task statement: based on the analysis of the scientific and methodological apparatus for evaluating the time series of the observed metrics, to develop an approach to the formation of a methodology for predicting (preventive identification) of abnormal situations based on the results of monitoring the functional state of network elements ofpublic information and telecommunications networks. The purpose of the work: to develop an algorithm for identifying an abnormal situation by the monitoring server based on the observed time series of metrics of network elements. Methods used: methods of analysis theory, forecast theory, reliability theory, diagnostic theory, classification theory, cluster analysis methods, topological methods of time series analysis, behavioral analytics methods, symbolic representation of time series. Novelty: preventive identification of the abnormal state of a network element by identifying "forbidden" code combinations during the observation of time series processed by symbolic dynamics methods borrowed from bioinformatics, previously used in the analysis of complex nucleotide genomic sequences, as well as the introduction of a special monitoring mode, when, when identifying a pre-failure technical condition, the accuracy of the survey by the monitoring server of the network element is significantly increased in order to timely take preventive control actions on the network infrastructure to prevent the failure of the network element from being missed or the occurrence of a network accident on the network. Results: the analysis of the scientific and methodological apparatus for solving time series forecasting problems was carried out, as a result, in order to achieve the set research goal, a method of symbolic representation of time series was chosen, on the basis of which the entropy of code words describing the time series of the observed parameter of a functioning network element was estimated, and an algorithm for identifying an anomalous situation on a time series of metrics was developed, consisting of four stages: the preliminary stage, the stage of encoding time series, the stage of identification of the type of technical condition of the network element and the final stage. Practical significance: the analysis of time series estimation methods presented in the paper allowed us to develop an approach to constructing an algorithm for the functioning of a monitoring server to identify anomalies in the operation of the observed peripheral equipment of a public information and telecommunications network.
Keywords: monitoring server, time series, prediction of an abnormal situation, preventive identification of the type of technical condition, special monitoring mode.
Information about Authors
Vladimir Vasilyevich Allakin - Doctoral Student. Independent Expert. E-mail: [email protected]. Address: 188660, Russia, Leningrad region, Vsevolozhsky district, vil. Buhry, Shkolnaya str., 11, build. 1, sq. 510.
Для цитирования: Аллакин В.В. Анализ методов оценки временных рядов сервером мониторинга информационно-телекоммуникационной сети общего пользования // Техника средств связи. 2021. № 2 (154). С. 60-80.
For citation: Allakin V.V. Analysis of methods for estimating time series by the monitoring server of a public information and telecommunications network. Means of Communication Equipment. 2021. No. 2 (154). Pp. 60-80 (in Russian).