Научная статья на тему 'ПОСЛЕДОВАТЕЛЬНЫЙ АЛГОРИТМ ОБНАРУЖЕНИЯ РАЗЛАДКИ МНОГОМЕРНЫХ ВРЕМЕННЫХ РЯДОВ С ВЫСОКОЙ ДИНАМИКОЙ'

ПОСЛЕДОВАТЕЛЬНЫЙ АЛГОРИТМ ОБНАРУЖЕНИЯ РАЗЛАДКИ МНОГОМЕРНЫХ ВРЕМЕННЫХ РЯДОВ С ВЫСОКОЙ ДИНАМИКОЙ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
73
20
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МОНИТОРИНГ / СЛИЯНИЕ ДАННЫХ / КОРРЕЛЯЦИОННЫЙ АНАЛИЗ / РЕДУКЦИЯ РАЗМЕРНОСТИ / СИНГУЛЯРНОЕ РАЗЛОЖЕНИЕ / ОБНАРУЖЕНИЕ РАЗЛАДКИ / АЛГОРИТМЫ ОБНАРУЖЕНИЯ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Антонова Екатерина Николаевна

В работе рассмотрен комплекс вопросов, связанных с построением и использованием последовательных алгоритмов обнаружения спонтанного изменения вероятностных характеристик (разладки) многомерных временных рядов с высокой динамикой. Исследование мотивировано проблемами математического обеспечения процессов принятия решений по данным многоканального мониторинга больших систем и посвящено анализу пространственно-временной динамики многомерных временных рядов измерений. В качестве альтернативы традиционным подходам предложены новые технологии анализа межканальных связей. Используются технологии снижения размерности на основе представления матриц данных в первом сингулярном базисе и множественной регрессии в пространстве проекций. Рассмотренный подход может быть применен для раннего обнаружения интервенций в компьютерных сетях. Продемонстрировано применение разработанного подхода в задаче анализа характеристик турбулентного потока по данным измерений отклонений давления в различных точках объема.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Антонова Екатерина Николаевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SEQUENTIAL ALGORITHM FOR DISORDER DETECTION IN MULTIVARIATE TIME SERIES

The paper considers a set of issues related to the construction and sequential algorithms use for detecting spontaneous changes in multidimensional time series probabilistic characteristics (disorder). The study is motivated by the mathematical support problems for decision-making processes based on data from large systems multi-channel monitoring and is devoted to the analysis of the measurements multidimensional time series spatio-temporal dynamics. As an alternative to traditional approaches, new technologies for analyzing inter-channel communications are proposed. Dimension reduction technologies are used based on the data matrices presentation in the first singular basis and multiple regression in the projection space. The considered approach can be applied for interventions early detection in computer networks. The developed approach application in the analyzing the characteristics problem of a turbulent flow based on the pressure deviations measurement data at various points in the volume is demonstrated .

Текст научной работы на тему «ПОСЛЕДОВАТЕЛЬНЫЙ АЛГОРИТМ ОБНАРУЖЕНИЯ РАЗЛАДКИ МНОГОМЕРНЫХ ВРЕМЕННЫХ РЯДОВ С ВЫСОКОЙ ДИНАМИКОЙ»

УДК 519.2

Ekaterina N. Antonova

SEQUENTIAL ALGORITHM FOR DISORDER DETECTION IN MULTIVARIATE TIME SERIES

Admiral Makarov State University of Maritime and Inland Shipping, , Saint-Petersburg, Russia antonovaen@gumrf.ru

The paper considers a set of issues related to the construction and sequential algorithms use for detecting spontaneous changes in multidimensional time series probabilistic characteristics (disorder). The study is motivated by the mathematical support problems for decision-making processes based on data from large systems multi-channel monitoring and is devoted to the analysis of the measurements multidimensional time series spatio-temporal dynamics. As an alternative to traditional approaches, new technologies for analyzing inter-channel communications are proposed. Dimension reduction technologies are used based on the data matrices presentation in the first singular basis and multiple regression in the projection space. The considered approach can be applied for interventions early detection in computer networks. The developed approach application in the analyzing the characteristics problem of a turbulent flow based on the pressure deviations measurement data at various points in the volume is demonstrated.

Key words: monitoring, data fusion, correlation analysis, dimensionality reduction, singular value decomposition, discord detection; detection algorithms

DOI 10.36807/1998-9849-2022-63-89-93-99

Введение

Задачи об обнаружении разладки сводятся к выявлению момента резкого изменения некоторых характеристик рассматриваемой системы на основе наблюдаемых данных о других её характеристиках [1]. Обнаружение изменения свойств является составной частью анализа сигналов и динамических систем, составляет основу алгоритмов распознавания образов, контроля и технической диагностики. Такие задачи актуальны, например, при построении автоматизированных систем мониторинга в промышленности, экологии, геофизике, медицине и др.

Обнаружение неконтролируемых изменений в одномерном случае широко изучалось в течение более чем полувека, благодаря чему удалось прийти к широко используемым подходам, таким как контрольные диаграммы и, в частности, диаграммам кумулятивных сумм (CUSUM). Имеются подробные обзоры и библиографии, демонстрирующие, в частности, экспоненциальный рост числа публикаций по данной тематике [1-5].

По способу получения информации об объекте наблюдения различают апостериорный и последовательный анализ. Последовательные алгоритмы на каждом шаге используют для определения факта разладки информацию, полученную на предыдущих шагах. Апостериорные алгоритмы используют всю информацию для определения момента разладки. Те и другие могут использовать для построения детектора разладки информацию в па-

Антонова Е.Н.

ПОСЛЕДОВАТЕЛЬНЫЙ АЛГОРИТМ ОБНАРУЖЕНИЯ РАЗЛАДКИ МНОГОМЕРНЫХ ВРЕМЕННЫХ РЯДОВ С ВЫСОКОЙ ДИНАМИКОЙ

Государственный университет морского и речного флота имени адмирала С.О. Макарова, Санкт-Петербург, Россия antonovaen@gumrf.ru

В работе рассмотрен комплекс вопросов, связанных с построением и использованием последовательных алгоритмов обнаружения спонтанного изменения вероятностных характеристик (разладки) многомерных временных рядов с высокой динамикой. Исследование мотивировано проблемами математического обеспечения процессов принятия решений по данным многоканального мониторинга больших систем и посвящено анализу пространственно-временной динамики многомерных временных рядов измерений. В качестве альтернативы традиционным подходам предложены новые технологии анализа межканальных связей. Используются технологии снижения размерности на основе представления матриц данных в первом сингулярном базисе и множественной регрессии в пространстве проекций. Рассмотренный подход может быть применен для раннего обнаружения интервенций в компьютерных сетях. Продемонстрировано применение разработанного подхода в задаче анализа характеристик турбулентного потока по данным измерений отклонений давления в различных точках объема.

Ключевые слова: мониторинг, слияние данных, корреляционный анализ, редукция размерности, сингулярное разложение, обнаружение разладки; алгоритмы обнаружения

Дата поступления - 26 сентября 2022 года Дата принятия - 20 октября 2022 года

раметрической или непараметрической форме [1, 4, 6].

Обычно данная задача трактуется как задача обнаружения спонтанного изменения вероятностных характеристик в потоках данных, которые моделируются в виде стохастических временных рядов. В такой постановке проблема состоит в скорейшем обнаружении момента 0 резкого изменения характеристик наблюдаемого случайного процесса X(t). Процедура обнаружения разладки процесса X в реальном времени определяет момент т подачи сигнала тревоги, минимизирущий в заранее оговоренном усредненном смысле время запаздывания т - 0.

Результатом работы алгоритма является решение о наличии или отсутствии разладки в каждый момент времени. Методы в этой категории сравнивают вероятностные распределения в двух окнах данных. Базовая конструкция включает в себя окно ссылки, состоящее из старых данных, и окно обнаружения, состоящее из новых данных. Это может быть достигнуто с помощью статического опорного окна и скользящего окна обнаружения или скользящей пары окон по последовательным наблюдениям. Данные в старых и новых окнах можно сравнивать на основе обычных статистических тестов, причем нулевая гипотеза заключается в том, что оба окна взяты из одного и того же распределения.

Для окон фиксированного размера их размеры должны быть каким-то образом определены априори. Небольшое окно быстро отбрасывает старые примеры, луч-

ше всего представляя текущее состояние, но это также делает метод уязвимым для выбросов. И наоборот, окно большого размера обеспечивает более стабильные оценки вероятностей и других переменных, представляющих интерес, но занимает больше времени, чтобы уловить изменение и проигрывает по критерию времени запаздывания. Для решения этой проблемы выбора существует ряд подходов к адаптивной настройке размеров окон [2, 7-9].

В классической постановке [3, 10] большинство одномерных алгоритмов ориентировано на обнаружение таких типовых разладок, как:

— однократное скачкообразное изменение математического ожидания;

— однократное скачкообразное изменение дисперсии;

— восстанавливаемое скачкообразное изменение математического ожидания.

— восстанавливаемое скачкообразное изменение дисперсии.

Сравнение различных алгоритмов обнаружения разладки по эффективности основано на оценивании для них времени запаздывания, средней доли ложных тревог и некоторых других, менее важных характеристик. Для одномерного случая разработан специальный массив данных мониторинга из различных областей MOA (massive online analysis) [11-12], на котором предлагается оценивать свойства различных предлагаемых алгоритмов. MOA является популярным инструментом с открытым исходным кодом для анализа потоков данных. Эта система задаёт единообразную методику сравнения свойств различных алгоритмов обнаружения. В работе [3] также предложена унифицированная методика, упрощающая сопоставление различных алгоритмов по набору критериев эффективности и их синтез для решения конкретных задач.

Обнаружение изменений в многомерных (многоканальных) данных является сложной проблемой, особенно когда отсутствует модель разладки или хотя бы понимание, что именно считать разладкой. Некоторые работы контролируют компоненты самостоятельно [12], в других акцент делается на изменение характеристик связей между каналами. Эти проблемы широко обсуждаются, например, в [10, 12-18].

В многомерном случае наряду с динамикой средних естественно рассматривать скачкообразные или постепенные изменения системы зависимостей между каналами. Прежде всего это относится к ковариационным матрицам. При этом многомерные статистические тесты для сравнения распределений, такие, как Г-квадрат Хо-теллинга, необходимо адаптировать в последовательную форму по временным окнам данных [9]. Для этой цели продолжают разрабатываться специальные статистические технологии [19-22]. Однако детекторы, требующие оценивания ковариационных матриц, отличаются большим временем запаздывания, так как текущее оценивание ковариационных матриц требует скользящих окон достаточно больших размеров. Согласно [13-14], эффективность обнаружения разладки снижается при этом линейно с ростом размерности потока данных.

Один из важных аспектов проблемы состоит в том, что в данных реальных технических измерений разладка системы корреляционных связей зачастую предшествует разладке по уровню сигнала и, таким образом, может выступать индикатором зарождения дефекта. Например, в задачах виброакустической диагностики [8] ранние стадии развития дефектов в одном из узлов проявляются в искажении функции когерентности между соседними узлами. Аналогичные эффекты зачастую имеют место при распознавании предаварийных ситуаций [8, 24-25].

В работах [26-27] исследуется подход, основанный на агрегации ансамбля слабых процедур обнаружения разладки методом адаптивного подбора весов ? взвешенного голосования. Этот подход является затратным

с точки зрения вычислительных ресурсов, требует специальных процедур машинного обучения и не допускает теоретической оценки эффективности. Впрочем, следует отметить, что имеются аргументы против такого подхода, представленные, например, в [28]. Тем не менее, согласно [26], в ходе вычислительных экспериментов он неизменно даёт по всем критериям лучшие результаты по сравнению с классическими методами. Такие подходы в настоящее время являются основой для комплексов обнаружения отказов больших систем с интенсивным программным обеспечением, в том числе в области обнаружения интервенций в компьютерных сетях.

Постановка задачи

Целью настоящего исследования является разработка и исследование алгоритмов обнаружения разладки многомерного временного ряда. Акцент делается на обнаружение изменений в системе корреляционных связей между компонентами (измерительными каналами). Предполагается, что такие алгоритмы можно использовать как изолированно, так и в составе ансамбля слабых детекторов [26].

Пусть имеется т-мерный хаотический [29-30] временной ряд, представленный в виде матрицы X = [х.], I = 1, ..., N,. = 1, ..., т измерений в относительной шкале, так что х.. - безразмерные случайные величины. Хаотичность в данном случае означает, что наблюдается выходной сигнал нелинейной системы на фоне аддитивного шума [29, 31-32]. Такая структура предполагает возможные быстрые перестройки локальной структуры ряда. Это делает проблематичным использование методов, требующих усреднения по достаточно длинным окнам, в том числе методов спектрального анализа в параметрической и непараметрической форме. Этот ряд заведомо будет содержать локальные тренды и значительные колебания в корреляционной структуре, в частности, участки турбулентности и участки, включающие периодические составляющие [26, 29-30, 33]. Ставятся следующие задачи:

— разработка статистик - индикаторов для быстрого комплексного обнаружения разладок различных типов;

— выявление участков аномальной структуры;

— выработка подхода к раннему обнаружение аномалий на начальной стадии их развития.

Классический подход к анализу многомерных рядов основан на предположении стационарной связанности компонент либо самого ряда X, либо рядов его конечных разностей [1, 4, 19, 34], что позволяет получить корректную оценку средних по компонентам и взаимной ковариационной матрицы X (тхт).

Проектируя столбцы полученной матрицы на собственные векторы матрицы X , получаем т некоррелированных временных рядов, вклад каждого из которых в исходный многомерный ряд оценивается его дисперсией. Эти ряды изучаются по-отдельности стандартными методами анализа одномерных рядов [1, 3, 7, 11, 35-38]. В случае неправомочности таких предположений анализ проводится на скользящем окне шириной L, что предполагает, в частности, оптимизацию по ширине окна и величине перекрытия соседних окон [7, 9, 39].

Описание методов исследования.

Пример

На рис. 1 приведены данные по динамике отклонений давления в 5 точках турбулентного газового потока. Результаты измерений представлены в виде матрицы X размерности ^ х т >, т = 5, N = 144000.

Будем основывать выявление возможных аномалий на сравнении среднее х и ковариационную матрицу X , оцененных для ряда первых конечных разностей по всему массиву данных (статическое опорное окно) и таких же характеристик у(к), $(к), вычисленных на скользящем шириной п с последовательным сдвигом окна на d шагов (к - номер скользящего окна). Для этого

Рис. 1. Динамика компонент временного ряда X

сравнения используем две стандартные статистики многомерного дисперсионного анализа (MANOVA) [2, 10, 20, 33-34]:

статистику Хотеллинга н (к)=л-аы^ (к) ■ £ -) ;

расстояние Махаланобиса моо=мсе®-1.(х-"уоо)т-(х-ум) ;

Евклидово расстояние е®=^х-Усф(X-у«1) .

Статистики М(к) и Е(к) наиболее чувствительны к разладке по среднему, Н(к) - к разладке по ковариационной матрице, Е(к) используется, когда нужно выделить различные типы разладок.

Динамика этих статистик на скользящем окне шириной п = 200 отсчетов с последовательным сдвигом на С = 10 отсчетов приведена на рис. 3 (2000 окон со сдвигом С из 14400). На рис. 3 приведены те же результаты, но использованы оценки среднего и ковариационной матрицы на скользящей паре окон.

тистика М(к)), и по ковариационной матрице (статистика Н(к)). В то же время на рис. 3 резкие скачки статистики Н(к) в 70% случаев не сопровождаются ярко выраженными скачками среднего. Это означает, что здесь разладка связана в первую очередь со спонтанным нарушением корреляций между измерительными каналами.

Анализ в более крупном масштабе показывает, что разладка по Н(к) диагностируется на 20-40 шагов раньше, чем разладка по среднему М(к). При этом разладка по Н(к)) может диагностироваться в отсутствие таковой по М(к) и наоборот.

Обсуждение. Новые математические

технологии

В конце ХХ века независимо в США, Великобритании и СССР получили распространение идеи анализа, основанные на сингулярных разложениях матрицы данных, восходящие к работе [40]. Произвольную вещественную матрицу X размерности <п х т>, п > т ранга т можно представить в виде сингулярного разложения (¿^-разложения, SVD) [3, 26, 34, 40] (1):

X = L * S * RT,

(1)

где S = diag(s1, ..., sn) менты s1 > s2 > ... > s: числами матрицы X; L -'

ее столбцы L.

L

диагональная матрица, ее эле> 0 называются сингулярными матрица размерности <п х т>; ортогональные векторы единичной

длины, их называют левыми сингулярными векторами X; R - матрица размерности <т х т>; ее столбцы R1, ..., Rm -ортогональные векторы единичной длины, их называют правыми сингулярными векторами X.

Если ранг матрицы X гапк(К) = р < т, то среди сингулярных чисел толькор будут отличными от нуля.

Разложение (1) можно переписать в виде суммы элементарных матриц единичного ранга (2):

X = £ ¡¡ЬДТ ^¿Д +... + ¡рЬрДТр

(2)

Здесь s. - сингулярные числа матрицыX- элементы диагональной матрицы S в порядке убывания. Слагаемые в разложении (2) получаются из (1) при последовательном обнулении всех элементов на диагонали S, кроме si.

Если X - матрица данных, то она здесь превращается в сумму р «полотнищ» той же размерности, но очень простой структуры: каждое из «полотнищ» представляет собой матрицу единичного ранга. Частичные суммы (3)

Рис. 2. Динамика статистик MANOVA для ряда первых конечных разностей; база - вся выборка; ширина окна 1 = 200, сдвиг окна С = 10

Динамика статистик МАЫО\/А

" ™ ™ ™

«10'®

......... ii.ll „Л,

дни

о.,, шиЛи

Номер измерения

1800 20Ю

Рис. 3. Динамика статистик MANOVA для ряда первых конечных разностей: скользящая пара окон; ширина окна 1 = 200, сдвиг окна С = 10

Интересно отметить, что на рис. 2 аномальные выбросы проявляются одновременно и по среднему (ста-

X ^ Y = ^ SiLiRTi

- ^^Д к

(3)

дают при этом решение задачи экстремальной задачи аппроксимации матрицы X матрицей Y пониженного ранга

Y, гапк(У) = к < т [10, 21, 41] по критерию Е(*«-у)2^ш!п.

В частности, при выборе к = 1 наилучшее приближение дают первое (максимальное) сингулярное число и соответствующие ему сингулярные векторы А @ .

Сингулярное разложение устойчиво к малым возмущениям матриц, т.е. является хорошо обусловленной процедурой. При этом аппроксимации (2) обладают серьёзными сглаживающими свойствами, что позволяет их использовать, например, при краткосрочном прогнозировании хаотических процессов [21, 29, 31]. На основе этих подходов можно строить новые алгоритмы идентификации локальной структуры многомерных хаотических временных рядов, в т.ч. - алгоритмы обнаружения разладки.

Пусть матрица X <п х т> - представляет собой отрезок т-мерного временного ряда, выделенный скользящим окном шириной п. Построим для матрицы X сингулярное разложение (2) и выделим к компонент, отвечаю-

=1

i=1

щих максимальным сингулярным числам s. (4): Х(1) =L 5ЯТ, I = 1, ..., к.

(4)

Будем использовать эти компоненты для решения задачи возможно раннего обнаружения разладки. Специфика данного подхода состоит в том, что он не использует оценки ковариационной матрицы, но сохраняет информацию о структуре межканальных связей. При этом он обладает сглаживающими свойствами, что предъявляет значительно сниженные требования к ширине скользящего окна п. Это особенно важно для данных большой размерности т.

Рис. 4. Динамика параметров первой сингулярной компоненты для ряда первых конечных разностей: скользящая пара окон; ширина окна 1 = 80, сдвиг окна d = 10, представлено 20000 измерений

Рис. 5. Обнаружение многомерной разладки по 4 основным индикаторам: 1 = 100, d = 10 на основе алгоритма накопленных сумм Пейджа [1, 4, 26]

Снизу вверх:

— статистика Хотеллинга;

— расстояние Махаланобиса;

— среднее первой сингулярной компоненты;

— СКО первой сингулярной компоненты.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

На рис. 5 представлены для наглядности первые 900 измерений. Аналогичные рассмотрения по всей длине ряда позволяют сделать следующие выводы:

— статистика Махаланобиса обладает высокой инерционностью, что соответствует большому времени релаксации после обнаружения очередной разладки;

— статистика Хотеллинга обнаруживает основные аномальные участки, но демонстрирует значительное запаздывание;

Наилучшие свойства проявляет статистика на основе СКО первой сингулярной компоненты. В частности, примерно в 40% случаев критерий на её основе предупреждает о назревающей разладке на 20-40 тактов измерений раньше, чем, например, критерий Хотеллинга.

Анализ рис. 4, 5 в сравнении с рис. 2, 3 и 5 показывает, что:

— сингулярные компоненты уверенно выступают в качестве индикатора разладки наряду со стандартными статистиками MANOVA;

— они обладают кратно меньшей инерционностью, что позволяет их использовать на скользящем окне в 2.53 раза более узком;

— в качестве основного индикатора поведения многомерного ряда целесообразно использовать СКО первой сингулярной компоненты.

— Это позволяет:

— уменьшить ширину скользящего окна, т.е. снизить запаздывание в 2.5-3 раза;

— единообразным образом обнаруживать все основные типы разладок, в том числе разладку системы межканальных связей.

— Использованный вариант алгоритма Пейджа для обнаружения одномерной разладки выделен в обзорах [1, 4, 26] по критериям

— минимума времени запаздывания;

— быстродействия и невысокой ресурсоёмкости;

— способности обнаруживать комбинированные разладки по среднему и дисперсии.

Имеется большой выбор таких одномерных алгоритмов, направленных на возможно раннее обнаружение аномалий [1, 4, 26]. В частности, в работах [24, 25, 36] для раннего обнаружения пожароопасных ситуаций по показаниям системы датчиков различной физической природы в аналогичной постановке использован классический алгоритм Пейджа на скользящем окне.

В работах [24, 25] приведены данные полигонных испытаний датчиков пожарной сигнализации и их обработка упрощённой версией предлагаемых алгоритмов с целью раннего обнаружения предаварийных ситуаций.

Особенность предлагаемого подхода состоит в том, что он, действуя аналогично линейному анализу Фишера, широко используемому при классификации объектов в традиционных гауссовых постановках [10, 19-20, 34], обеспечивает наличие р компонент, что позволяет говорить о различных особенностях многомерного процесса. Как правило, максимальные сингулярные числа соответствуют значениям компонент, которые лучше всего контрастируются в виде трендов.

Алгоритмы обнаружения многомерной

разладки

Алгоритм 1. Используем СКО первой (старшей) сингулярной компоненты (4), вычисляемой на последовательности скользящих окон, в качестве индикатора х(к) поведения многомерного ряда. Для обнаружения разладки используем, например, такую стандартную процедуру для одномерных рядов, как алгоритм Гиршика-Руби-на-Ширяева (ГРШ) [1, 3-4, 11, 26]. Решающая функция здесь рассчитывается по формуле (5):

G(k) = ех(п)(1+ G(k-1)), G(0)=0.

(5)

Для получения возможности настройки алгоритма вводится модификация (6):

G(k) = ехИ-"(1+ G(k-1)),

(6)

где к>0 - порог чувствительности. При наличии разладки по среднему запаздывание по времени обнаружения оценивается по формуле (7):

1п к

V - V -

(7)

где ц - математическое ожидание процесса до разладки, ц - математическое ожидание процесса после разладки, h - порог срабатывания алгоритма.

Данный алгоритм выделен в обзорах [1, 4, 26] по

т

критериям:

— минимума времени запаздывания;

— быстродействия и невысокой ресурсоёмкости;

— способности обнаруживать комбинированные разладки по среднему и дисперсии.

Имеется большой выбор таких одномерных алгоритмов [1, 4, 26]. В частности, в работах [24-25, 35] для раннего обнаружения пожароопасных ситуаций по показаниям системы датчиков различной физической природы в аналогичной постановке использован классическй алгоритм Пейджа на скользящем окне.

Алгоритм 2. Для произвольного /»-мерного вектора z, подлежащего распознаванию, вычисляется его энергия связи с j-м столбцом R. матрицы R (проекция z на j-ю базисную ось) (8):

Wj( Z) =1 z Rj (8)

sj

В j-ом столбце L. матрицы L выбирается элемент l(j), который имеет минимальное расстояние d. до проекции (8) - соответственно, максимальное сродство с (8) - (9):

dj = min \wj-l,.| , i = 1,...,n. (9)

Так перебираются первые k сингулярных чисел. Обычно k = 2 или 3, но можно ограничиться и меньшим

их набором. Величину d = min w -l^f +...+(wk-l/k))2

будем называть LR-расстоянием между вектором z и окном X. Если имеется несколько классов объектов, заданных своими обучающими выборками, то z относится к тому классу, для которого LR-расстояние минимально.

Пусть матрица X <n х m> используется в качестве опорного окна, для неё построено сингулярное разложение (2). Для векторов скользящего окна z вычисляются их LR-расстояния до X. Получившийся набор «расстояний» анализируется по среднему и СКО. В наиболее сложных случаях используются статистики робастного анализа: медиана, медианное отклонение и т.п. [3, 12-14].

В работах [10, 11] приведены данные полигонных испытаний датчиков пожарной сигнализации и их обработка упрощённой версией предлагаемых алгоритмов с целью раннего обнаружения предаварийных ситуаций.

Особенность данного метода в том, что он, действуя аналогично линейному анализу Фишера, широко используемому в задачах распознавания образов [10, 19-20, 34], при классификации объектов в традиционных гауссовых постановках, обеспечивает наличие p компонент, что позволяет говорить о различных особенностях многомерного процесса. Как правило, максимальные сингулярные числа соответствуют значениям компонент, которые лучше всего контрастируются в виде трендов.

Заключение

Алгоритмы обнаружения разладки многомерных временных рядов, использующие технику сингулярных разложений, обнаруживают стандартные аномалии по среднему, дисперсии и системе корреляций между каналами с примерно тем же процентом ложных тревог, что и алгоритмы на основе стандартных алгоритмов многомерного статистического анализа (MANOVA). При этом они в общем случае, в 2-2.5 раза превосходят по времени запаздывания алгоритмы, требующие оценивания ковариационных матриц.

Важное свойство таких алгоритмов - возможность раннего обнаружения разладки по параметрам сдвига и масштаба за счёт улавливания предшествующих искажений системы межканальных связей.

Класс хаотических многомерных временных рядов чрезвычайно разнообразен, поэтому предложенные

в данной работе алгоритмы нужно рассматривать только как возможный полезный инструмент. Во многих случаях они дают возможность значительно снизить размерность ряда и, благодаря этому, либо увеличить горизонт прогноза, либо иметь возможность анализировать более мелкие детали данных. Перспектива видится в разнообразных вариантах комбинирования сингулярного анализа для снижения размерности и классических методов многомерного анализа для лучшего понимания особенностей данных.

Литература

1. Chandola V., Banerjee A., Kumar V. Anomaly detection: A survey // ACM computing surveys (CSUR). 2009. V. 41. №. 3. P. 1-58.

2. Розов А.К. Избранные задачи статистического последовательного анализа. СПб.: Политехника, 2018. 224с.

3. Филаретов Г.Ф., Репин Д.С. Методические аспекты исследования алгоритмов обнаружения разладки временных рядов // иТнОУ: информационные технологии в науке, образовании и управлении. 2020. №. 1(15). С. 27-32.

4. Pimentel M.A.F. et al. A review of novelty detection // Signal processing. 2014. V. 99. Р. 215-249. DOI: 10.1016/j.sigpro.2013.12.026.

5. Segen J., Sanderson A. Detecting change in a time-series (corresp.) // IEEE Transactions on Information Theory. 1980. V. 26. №. 2. Р. 249-254.

6. Ahmad S. Bibliometric analysis of EWMA and CUSUM control chart schemes // ITEE Journal. 2018. V. 7. №. 2. Р. 1-11.

7. Козинов И.А., Мальцев Г.Н. Модифицированный алгоритм обнаружения разладки случайного процесса и его применение при обработке многоспектральных данных // Информационно-управляющие системы. 2012. №. 3 (58). С. 9-17.

8. Макшанов А.В., Розов А.К., Чередеев К.Ю. Оптимальная остановка немарковских случайных последовательностей // Междунар. конф. по мягким вычислениям и измерениям. Санкт-Петербургский государственный электротехнический университет ЛЭТИ им. ВИ Ульянова (Ленина), 2012. Т. 1. С. 225-227.

9. Bifet A., Gavalda R. Learning from time-changing data with adaptive windowing // Proceedings of the 2007 SIAM international conference on data mining. Society for Industrial and Applied Mathematics, 2007. С. 443-448. DOI: 10.1137/1.9781611972771.42.

10. Макшанов А.В., Журавлев А.Е., Тындыкарь Л.Н. Большие данные. Big Data. M: Лань, 2021..

11. Baena-Garcia M. et al. Early drift detection method // Fourth international workshop on knowledge discovery from data streams. 2006. Т. 6. С. 77-86.

12. Evangelista P.F., Embrechts M.J., Szymanski B.K. Taming the curse of dimensionality in kernels and novelty detection. Applied soft computing technologies: The challenge of complexity. Springer, Berlin, Heidelberg, 2006. Р. 425-438.

13. Alippi C. et al. Change detection in multivariate datastreams: Likelihood and detectability loss. arXiv preprint arXiv:1510.04850. 2015.

14. Alippi C., Boracchi G., Roveri M. Hierarchical change-detection tests // IEEE transactions on neural networks and learning systems. 2016. Т. 28. №. 2. С. 246-258.

15. Faithfull W.J., Kuncheva L.I. On optimum thresholding of multivariate change detectors. Joint IAPR International Workshops on Statistical Techniques in Pattern Recognition (SPR) and Structural and Syntactic Pattern Recognition (SSPR). Springer, Berlin, Heidelberg, 2014. Р. 364-373.

16. Kuncheva L.I. Change detection in streaming multivariate data using likelihood detectors // IEEE

transactions on knowledge and data engineering. 2011. Т. 25. №. 5. Р. 1175-1180.

17. Faithfull W.J., Rodríguez J.J., Kuncheva L.I. Combining univariate approaches for ensemble change detection in multivariate data // Information Fusion. 2019. V. 45. P. 202-214.

18. Zorriassatine F. et al. Novelty detection for practical pattern recognition in condition monitoring of multivariate processes: a case study // The International Journal of Advanced Manufacturing Technology. 2005. V. 25. №. 9. P. 954-963.

19. Большаков А.А., Каримов Р.Н. Методы обработки многомерных данных и временных рядов: учебное пособие для вузов. М.: Горячая линия-Телеком. 2007.

20. Макшанов А.В., Журавлев А.Е. Технологии интеллектуального анализа данных // М.: Лань. 2019.

21. Makshanov A.V., Zhuravlev A.E., Tyndykar L.N. A new approach to identifying the local structure of multidimensional chaotic time series // Journal of Physics: Conference Series. IOP Publishing, 2021. V. 2142. №. 1. P. 012011. DOI: 10.1088/1742-6596/2142/1/012011.

22. Zhu Y. et al. Optimal dimensionality reduction of sensor data in multisensor estimation fusion // IEEE Transactions on Signal Processing. 2005. V. 53. №. 5. P. 1631-1639.

23. Костюков В.Н., Науменко А.П. Основы виброакустической диагностики и мониторинга машин: учеб. пособие Омск: ОмГТУ, 2011. 360 с.

24. Макшанов А.В., Попович Т.В. Разработка алгоритмов слияния многоканальных данных в системах мониторинга судовых объектов // Морской вестник. 2016. №. 1. С. 91-94.

25. Макшанов А.В., Колесник В.А., Быков Д.В., Антонова Е.Н. Применение алгоритмов идентификации многомерных хаотических временных рядов при оценке пожароопасной ситуации в корабельных помещениях // Морской вестник. 2021. №. 3. С. 71-79.

26. Артёмов А.В. Математические модели временных рядов с трендом в задачах обнаружения разладки: дис. ...канд.физ.-мат. Наук. М., 2016.

27. Kuncheva L.I. Combining pattern classifiers: methods and algorithms. John Wiley & Sons, 2014.

28. Fernández-Delgado M. et al. Do we need hundreds of classifiers to solve real world classification problems? // The journal of machine learning research. 2014. V. 15. №. 1. P. 3133-3181.

29. Безручко Б.П., Смирнов Д.А. Математическое моделирование и хаотические временные ряды // Известия вузов. Прикладная нелинейная динамика. 2006. Т. 14. №. 1. С. 153-157.

30. Макшанов А.В., Мусаев А.А. Стохастическое моделирование. М.: Лань. 2022.

31. Musaev A., Makshanov A., Grigoriev D. Forecasting multivariate chaotic processes with precedent analysis // Computation. 2021. V. 9. №. 10. P. 110. DOI: 10.3390/math10040587.

32. Musaev A., Makshanov A., Grigoriev D. Statistical Analysis of Current Financial Instrument Quotes in the Conditions of Market Chaos // Mathematics. 2022. V. 10. №. 4. P. 587. DOI: 10.3390/computation9100110.

33. Попов Н.Н. Теория и методы диагностирования газотурбинных двигателей на ресурсосберегающих режимах функционирования. СПб: Машиностроение, 2001.

34. Бриллинджер Д. Временные ряды. Обработка данных и теория. M. Мир, 1980. 536 с.

35. Бродский Б.Е., Дарховский Б.С. Сравнительный анализ некоторых непараметрических методов скорейшего обнаружения момента «разладки» случайной последовательности // Теория вероятностей и ее применения. 1990. Т. 35. №. 4. С. 655-668.

36. Колесник В.А., Солонько В.А., Макшанов А.В. Оценка состояния технической системы и прогно-

зирование его изменения // Морской вестник. 2012. №.

4. С. 105-110.

37. Спивак В.С. Численное сравнение наиболее популярных быстрых процедур обнаружения разладки // Труды Московского физико-технического института. 2020. Т. 12. №. 2 (46). С. 88-98.

38. Kuncheva L.I. Classifier ensembles for detecting concept change in streaming data: Overview and perspectives // 2nd Workshop SUEMA. 2008. V. 2008. P. 5-10.

39. Сивова Д.Г., Филаретов Г.Ф. Последовательный алгоритм обнаружения момента изменения характеристик векторных временных рядов // Вестник МЭИ. 2014. №. 2. С. 63-69.

40. Eckart C., Young G. The approximation of one matrix by another of lower rank // Psychometrika. 1936. V. 1. №. 3. P. 211-218.

41. Tarakanov A.O. et al. Immunocomputing: principles and applications. Springer Science & Business Media, 2003.

References

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1. Chandola V., Banerjee A., Kumar V. Anomaly detection: A survey // ACM computing surveys (CSUR). 2009. V. 41. №. 3. P. 1-58.

2. Rozov A.K. Izbrannye zadachi statisticheskogo posledovatel'nogo analiza. SPb.: Politekhnika, 2018. 224 s.

3. Filaretov G.F., Repin D.S. Metodicheskie aspekty issledovaniya algoritmov obnaruzheniya razladki vremennykh ryadov // ITNOU: informatsionnye tekhnologii v nauke, obrazovanii i upravlenii. 2020. №. 1 (15). S. 27-32.4.

4. Pimentel M.A.F. et al. A review of novelty detection // Signal processing. 2014. V. 99. Р. 215-249. DOI: 10.1016/j.sigpro.2013.12.026.

5. Segen J., Sanderson A. Detecting change in a time-series (corresp.) // IEEE Transactions on Information Theory. 1980. V. 26. №. 2. Р. 249-254.

6. Ahmad S. Bibliometric analysis of EWMA and CUSUM control chart schemes // ITEE Journal. 2018. V. 7. №. 2. Р. 1-11.

7.Kozinov I.A., Mal'tsev G.N. Modifitsirovannyi algoritm obnaruzheniya razladki sluchainogo protsessa i ego primenenie pri obrabotke mnogospektral'nykh dannykh // Informatsionno-upravlyayushchie sistemy. 2012. №. 3 (58).

5. 9-17.

8. Makshanov A.V., Rozov A.K., Cheredeev K.Yu. Optimal'naya ostanovka nemarkovskikh sluchainykh posledovatel'nostei // Mezhdunar.konf. po myagkim vychisleniyam i izmereniyam. Sankt-Peterburgskii gosudarstvennyi ehlektrotekhnicheskii universitet LEHTI im. VI Ul'yanova (Lenina), 2012. T. 1. S. 225-227

9. Bifet A., Gavalda R. Learning from time-changing data with adaptive windowing // Proceedings of the 2007 SIAM international conference on data mining. Society for Industrial and Applied Mathematics, 2007. С. 443-448. DOI: 10.1137/1.9781611972771.42.

10. MakshanovA.V., ZhuravlevA.E., Tyndykar' L.N. Bol'shie dannye. Big Data. M.: Lan, 2021.

11. Baena-Garcia M. et al. Early drift detection method // Fourth international workshop on knowledge discovery from data streams. 2006. Т. 6. С. 77-86.

12. Evangelista P.F., Embrechts M.J., Szymanski B.K. Taming the curse of dimensionality in kernels and novelty detection. Applied soft computing technologies: The challenge of complexity. Springer, Berlin, Heidelberg, 2006. Р. 425-438.

13. Alippi C. et al. Change detection in multivariate datastreams: Likelihood and detectability loss. arXiv preprint arXiv:1510.04850. 2015.

14. Alippi C., Boracchi G., Roveri M. Hierarchical change-detection tests // IEEE transactions on neural networks and learning systems. 2016. Т. 28. №. 2. С. 246-258.

15. Faithfull W.J., Kuncheva L.I. On optimum

thresholding of multivariate change detectors. Joint IAPR International Workshops on Statistical Techniques in Pattern Recognition (SPR) and Structural and Syntactic Pattern Recognition (SSPR). Springer, Berlin, Heidelberg, 2014. P. 364-373.

16. Kuncheva L.I. Change detection in streaming multivariate data using likelihood detectors // IEEE transactions on knowledge and data engineering. 2011. T. 25. №. 5. P. 1175-1180.

17. Faithfull W.J., Rodriguez J.J., Kuncheva L.I. Combining univariate approaches for ensemble change detection in multivariate data // Information Fusion. 2019. V. 45. P. 202-214.

18. Zorriassatine F. et al. Novelty detection for practical pattern recognition in condition monitoring of multivariate processes: a case study // The International Journal of Advanced Manufacturing Technology. 2005. V. 25. №. 9. P. 954-963.

19. Bol'shakov A.A., Karimov R.N. Metody obrabotki mnogomernykh dannykh i vremennykh ryadov: uchebnoe posobie dlya vuzov M.: Goryachaya liniYA-Telekom. 2007.

20. Makshanov A.V., Zhuravlev A.E. Tekhnologii intellektual'nogo analiza dannykh M.: Lan'. 2019.

21. Makshanov A.V., Zhuravlev A.E., Tyndykar L.N. A new approach to identifying the local structure of multidimensional chaotic time series // Journal of Physics: Conference Series. IOP Publishing, 2021. V. 2142. №. 1. P. 012011. DOI: 10.1088/1742-6596/2142/1/012011.

22. Zhu Y. et al. Optimal dimensionality reduction of sensor data in multisensor estimation fusion // IEEE Transactions on Signal Processing. 2005. V. 53. №. 5. P. 1631-1639.

23. Kostyukov V.N., Naumenko A.P. Osnovy vibroakusticheskoi diagnostikii monitoringa mashin: ucheb. posobie. . Omsk: OmGTU, 2011. 360 s.

24. Makshanov A.V., Popovich T.V. Razrabotka algoritmov sliyaniya mnogokanal'nykh dannykh v sistemakh monitoringa sudovykh ob"ektov // Morskoi vestnik. 2016. №. 1. S. 91-94.

25. Makshanov A.V., Kolesnik V.A., Bykov D.V.j Antonova E.N. Primenenie algoritmov identifikatsii mnogomernykh khaoticheskikh vremennykh ryadov pri otsenke pozharoopasnoi situatsii v korabel'nykh pomeshcheniyakh // Morskoi vestnik. 2021. №. 3. S. 71-79.

26. Artemov A.V. Matematicheskie modeli vremennykh ryadov s trendom v zadachakh obnaruzheniya razladki : dis. ... kand. phys.-math. nauk M., 2016.

27. Kuncheva L.I. Combining pattern classifiers: methods and algorithms. John Wiley & Sons, 2014.

28. Fernández-Delgado M. et al. Do we need hundreds of classifiers to solve real world classification problems? // The journal of machine learning research. 2014. V. 15. №. 1. P. 3133-3181.

29. Bezruchko B.P., Smirnov D.A. Matematicheskoe modelirovanie i khaoticheskie vremennye ryady // Izvestiya vuzov. Prikladnaya nelineinaya dinamika. 2006. T. 14. №. 1. S. 153-157.

30. Makshanov A.V., Musaev A.A. Stokhasticheskoe modelirovanie. M.: Lan'. 2022.

31. Musaev A., Makshanov A., Grigoriev D. Forecasting multivariate chaotic processes with precedent analysis // Computation. 2021. V. 9. №. 10. P. 110. DOI: 10.3390/math10040587.

32. Musaev A., Makshanov A., Grigoriev D. Statistical Analysis of Current Financial Instrument Quotes in the Conditions of Market Chaos // Mathematics. 2022. V. 10. №. 4. P. 587. DOI: 10.3390/computation9100110.

33. Popov N.N. Teoriya i metody diagnostirovaniya gazoturbinnykh dvigatelei na resursosberegayushchikh rezhimakh funktsionirovaniya. SPb: Mashinostroenie. 2001.

34. Brillindzher D. Vremennye ryady. Obrabotka dannykh i teoriya. M.:Mir, 1980. 536 s.

35. Brodskii B.E., Darkhovskii B.S. Sravnitel'nyi analiz nekotorykh neparametricheskikh metodov skoreishego obnaruzheniya momenta «razladkl» sluchainoi posledovatel'nosti // Teoriya veroyatnostei i ee primeneniya. 1990. T. 35. №. 4. S. 655-668.

36. Kolesnik V.A., Solon'ko V.A., Makshanov A.V. Otsenka sostoyaniya tekhnicheskoi sistemy i prognozirovanie ego izmeneniya // Morskoi vestnik. 2012. №. 4. S. 105-110.

37. Spivak V.S. Chislennoe sravnenie naibolee populyarnykh bystrykh protsedur obnaruzheniya razladki // Trudy Moskovskogo fiziko-tekhnicheskogo instituta. 2020. T. 12. №. 2 (46). S. 88-98.

38. Kuncheva L.I. Classifier ensembles for detecting concept change in streaming data: Overview and perspectives // 2nd Workshop SUEMA. 2008. V. 2008. P. 5-10.

39. Sivova D.G., Filaretov G.F. Posledovatel'nyi algoritm obnaruzheniya momenta izmeneniya kharakteristik vektornykh vremennykh ryadov // Vestnik MEHI. 2014. №. 2. S. 63-69.

40. Eckart C., Young G. The approximation of one matrix by another of lower rank // Psychometrika. 1936. V. 1. №. 3. P. 211-218.

41. Tarakanov A.O. et al. Immunocomputing: principles and applications. Springer Science & Business Media, 2003.

Сведения об авторе

Антонова Екатерина Николаевна, ассистент кафедры вычислительных систем и информатики; Ekaterina N. Antonova, assistant, Department of the Computing Systems and Informatics, antonovaen@gumrf.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.