Научная статья на тему 'Методические аспекты исследования алгоритмов обнаружения разладки временных рядов'

Методические аспекты исследования алгоритмов обнаружения разладки временных рядов Текст научной статьи по специальности «Математика»

CC BY
279
65
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАЗЛАДКА ВРЕМЕННóГО РЯДА / ОБНАРУЖЕНИЕ РАЗЛАДКИ / АЛГОРИТМЫ ОБНАРУЖЕНИЯ / ВЕРОЯТНОСТНЫЕ ХАРАКТЕРИСТИКИ АЛГОРИТМОВ / УНИФИКАЦИЯ ОПИСАНИЯ АЛГОРИТМОВ / TIME SERIES BREAKDOWN / DETECTION ALGORITHMS OF BREAKDOWN / PROBABILISTIC CHARACTERISTICS OF ALGORITHMS / UNIFICATION OF THE ALGORITHMS DESCRIPTION

Аннотация научной статьи по математике, автор научной работы — Геннадий Фёдорович Филаретов, Дмитрий Сергеевич Репин

Рассмотрен комплекс вопросов, связанных с построением и практическим использованием последовательных алгоритмов обнаружения спонтанного изменения вероятностных характеристик (разладки) временных рядов. Отмечено наличие существенных трудностей по оптимальному выбору и настройке подходящего алгоритма обнаружения из большого числа существующих, что связано с отсутствием единого унифицированного подхода к описанию статистических свойств алгоритмов, полученных разными исследователями. Предлагается методика такой унификации, упрощающая сопоставление различных алгоритмов по критерию эффективности и их синтез для решения конкретной прикладной задачи.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Геннадий Фёдорович Филаретов, Дмитрий Сергеевич Репин

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

METHODOLOGICAL ASPECTS OF RESEARCH OF ALGORITHMS FOR DETECTING TIME SERIES BREAKDOWN

A set of questions is considered related to the construction and practical use of sequential algorithms for detecting spontaneous changes in the probability characteristics (breakdown) of time series. Significant difficulties were noted in the optimal selection and tuning of a suitable detection algorithm from a large number of existing ones, due to the lack of a unified approach to the description of the statistical properties of algorithms obtained by different researchers. A methodology for such unification is proposed, which simplifies comparisons of various algorithms by the efficiency criterion and their synthesis for solving a specific applied problem.

Текст научной работы на тему «Методические аспекты исследования алгоритмов обнаружения разладки временных рядов»

Сведения об авторах

Еналеев Анвер Касимович

канд. тех. наук вед. науч. сотр.

ФГБУН Институт проблем транспорта имени Н. С. Соломенко РАН Санкт-Петербург, Россия ст. науч. сотр.

Институт проблем управления им. В.А. Трапезникова РАН Москва, Россия Эл. почта: [email protected]

Владимир Викторович Цыганов

д-р техн. наук, проф. зав. отд.

ФГБУН Институт проблем транспорта им. Н.С. Соломенко РАН Санкт-Петербург, Россия гл. науч. сотр.

Институт проблем управления им. В.А. Трапезникова РАН Москва, Россия Эл. почта: [email protected]

Information about authors

Enaleev Anver Kasimovich

Phd

Lead researcher

N.S. Solomenko Institute of Transport Problems of RAS

St. Petersburg, Russian Federation Senior researcher

V. A. Trapeznikov Institute of management problems of the Russian Academy of Sciences Moscow, Russia E-mail: [email protected]

Vladimir Victorovich Tsyganov

Doctor of Science (Tech.), Prof. head of division

Solomenko Institute of Transport Problems of the RAS

St. Petersburg, Russian Federation chief researcher

V. A. Trapeznikov Institute of management problems of the Russian Academy of Sciences Moscow, Russia E-mail: [email protected]

УДК 519.27 Г.Ф. Филаретов1, Д.С. Репин2

1 Национальный исследовательский университет «МЭИ»

2 ФГАОУ ДПО ЦРГОП и ИТ

МЕТОДИЧЕСКИЕ АСПЕКТЫ ИССЛЕДОВАНИЯ АЛГОРИТМОВ ОБНАРУЖЕНИЯ РАЗЛАДКИ ВРЕМЕННЫХ РЯДОВ

Рассмотрен комплекс вопросов, связанных с построением и практическим использованием последовательных алгоритмов обнаружения спонтанного изменения вероятностных характеристик (разладки) временных рядов. Отмечено наличие существенных трудностей по оптимальному выбору и настройке подходящего алгоритма обнаружения из большого числа существующих, что связано с отсутствием единого унифицированного подхода к описанию статистических свойств алгоритмов, полученных разными исследователями. Предлагается методика такой унификации, упрощающая сопоставление различных алгоритмов по критерию эффективности и их синтез для решения конкретной прикладной задачи.

Ключевые слова: разладка временного ряда; обнаружение разладки; алгоритмы обнаружения; вероятностные характеристики алгоритмов; унификация описания алгоритмов.

G.F. Filaretov1, D.S. Repin2

1 «National Research University «Moscow Power Engineering Institute» 2 Center for the implementation of state educational policy and information technology

METHODOLOGICAL ASPECTS OF RESEARCH OF ALGORITHMS FOR DETECTING TIME SERIES BREAKDOWN

A set of questions is considered related to the construction and practical use of sequential algorithms for detecting spontaneous changes in the probability characteristics (breakdown) of time series. Significant difficulties were noted in the optimal selection and tuning of a suitable detection algorithm from a large number of existing ones, due to the lack of a unified approach to the description of the statistical properties of algorithms obtained by different researchers. A methodology for such unifi-

cation is proposed, which simplifies comparisons of various algorithms by the efficiency criterion and their synthesis for solving a specific applied problem.

Keywords: time series breakdown;; detection algorithms of breakdown; probabilistic characteristics of algorithms; unification of the algorithms description.

Введение

Задача обнаружения внезапного изменения функционального состояния того или иного объекта, явления или процесса с целью оперативного выявления отклонений от заданных значений контролируемых показателей в настоящее время является одной из наиболее актуальных, когда речь идет о построении различного рода автоматизированных систем мониторинга в промышленности, экологии, геофизике, медицине и др. Обычно данная задача трактуется как задача обнаружения спонтанного изменения вероятностных характеристик (разладки) стохастических сигналов (временных рядов).

Хотя первые работы по данной тематике появились достаточно давно [1,2], интерес к ней не только не падает, а скорее даже увеличивается. Об этом говорят результаты библиометрического анализа [3], зафиксировавшего в последние годы экспоненциальный рост числа соответствующих публикаций.

К настоящему времени разработано весьма большое число различных подходов и методов обнаружения разладки, предназначенных для обработки данных в реальном времени или, как их часто именуют - последовательных методов обнаружения [4]. Их обычно подразделяют на две большие группы: на параметрические и непараметрические.

Параметрические методы основаны на предположении, что наблюдаемый (контролируемый) процесс имеет функцию распределения вероятностей, входящую в некоторое априори известное параметрическое семейство распределений, а разладка связана с изменением одного или нескольких параметров этого распределения. Чаще всего предполагается, что процесс гауссовский с некоррелированными отсчетами, а разладка вызвана скачкообразным изменением математического ожидания или дисперсии в одномерном варианте или вектора математических ожиданий или ковариационной матрицы в многомерном [5,6].

Непараметрические методы не требуют какой-либо информации о виде функций распределения контролируемого процесса, поскольку оперируют не с самими измеренными значениями, а с их ранговыми или порядковыми представлениями. В этом состоит главное преимущество непараметрического подхода по сравнению с параметрическим в ситуации, когда такая информация априори отсутствует, хотя по своим потребительским свойствам он, конечно, будет уступать параметрическому подходу.

Для обоих вариантов в качестве основных характеристик, описывающих их потребительские свойства, чаще всего используются такие показатели как:

- среднее время между ложными тревогами Тлт, где под ложной тревогой подразумевается появление сигнала о наличии разладки, когда в действительности ее нет;

- среднее время запаздывания гзап в обнаружении некоторой фиксированной разладки d, т.е. той разладки, для наискорейшего обнаружения которой настраивается алгоритм.

Сама процедура реализации контролирующего алгоритма для всех разновидностей методов обнаружения разладки одна и та же: на каждом i-ом такте (i = 1, 2,...) при поступлении очередного значения контролируемого временного ряда xi вычисляется текущее значение решающей функции gi (i = 0, 1, 2,.; g0 = 0) с помощью соотношения, являющегося составной частью данного конкретного алгоритма. Такие вычисления продолжаются до тех пор, пока на некотором и*-ом такте будет иметь место соотношение gn* >H , где H - заданный решающий порог. Именно в этот момент подается сигнал тревоги. Когда объективно разладка отсутствует, значение n* соответствует ситуации

ложной тревоги, т.е. в этом случае п*= Тлт. При наличии разладки значение п* характеризует запаздывание в обнаружении разладки: п*=тзап.

На практике при создании мониторинговой системы определенного назначения, когда появляется необходимость в использовании одного из методов обнаружения разладки, разработчик системы может столкнуться с существенными трудностями по выбору и настройке подходящего метода из большого числа существующих. Это связано с тем, что авторы, как правило, каждый по своему описывают свойства разработанного ими алгоритма, что усложняет сопоставление их свойств. Кроме того, справочные данные о свойствах алгоритма зачастую представлены в форме, затрудняющей построение контролирующего алгоритма с заданными характеристиками. И, наконец, следует иметь ввиду, что фактически всегда получить характеристики контролирующих алгоритмов аналитическим путем не удается; реально они определятся с помощью имитационного эксперимента, причем детали организации такого эксперимента обычно не раскрываются.

В этой связи можно говорить об отсутствии какой-либо унификации формы представления информации о свойствах и возможностях того или иного алгоритма обнаружения разладки, а также о том, насколько корректно получена эта информации, когда речь идет об использовании имитационного эксперимента. Целью данной работы является разработка одного из вариантов такой унификации как предмета возможных последующих обсуждений.

Анализ эффективности контролирующих алгоритмов

Если говорить об эффективности контролирующего алгоритм, то очевидно, что любой показатель, количественно характеризующий это свойство, должен отвечать, по крайней мере, следующим двум показателям качества его функционирования [7]:

а) Малое число ложных тревог или, иными словами, большое среднее время между ложными тревогами Тлт.

б) Малое среднее время запаздывания Тзап в обнаружении разладки определенной величины d, характеризующей степень отличия некоторых параметров в0 и в1 до и после разладки в выбранной подходящей метрике: d = - #0||.

Среди параметрических методов обнаружения разладки наиболее распространенными являются различные алгоритмы выявления скачкообразного изменения значений математического ожидания тх или дисперсии а2х гауссовских временных рядов. Тогда для этих вариантов в качестве показателя d традиционно используются отношения

112 2

/+ 0*1 2 2 т- 0*1 2 2

^ =J-1, dа = —2, если а1> а2 и dа=-2, если а1< а0.

Для непараметрических методов обнаружения разладки ключевым показателем, используемым в разных алгоритмах такого типа, является медиана Ме. При отсутствии разладки вероятность пребывания значений процесса ниже и выше Ме0, очевидно равны При наличии разладки значения этих вероятностей изменяются. Так, в частности, при увеличении показателя d будем иметь Р{Х >Ме0}= р1+ > 1 /2, а при его

уменьшении, соответственно - Р{Х <Ме0}= р- < 1/2 .

Показатель эффективности вводится с помощью достаточно очевидного соотношения Е = Тлт / Тзап для фиксированного значения d. При этом существенный интерес для

пользователя могут иметь зависимости показателя Е от Тлт и d . Показатель Е может быть использован и для сопоставления свойств различных алгоритмов обнаружения. Ясно, что при фиксированных значениях Тлт и d , предпочтительным оказывается ал-

горитм, обладающий меньшим средним запаздыванием тзап , т.е. большим показателем эффективности Е.

Для целей сопоставления более удобным представляется использование показателя относительной эффективности €. Пусть, например, сопоставляются свойства двух алгоритмов, условно обозначенных как А и В. Тогда

€ = Е(А)/Е(В) (1)

Соотношение (1) может быть записано и иначе:

€ = гзап(В)/гзап(Л) (2)

В любом случае для корректного и полноценного сопоставления эффективности алгоритмов необходимо, чтобы значения Тлт и Й в описаниях этих алгоритмов варьировались некоторым идентичным образом. В табл.1 для упомянутых ранее параметрических методов обнаружения разладки приведены предлагаемые унифицированные градации значений Тлт и Й .

Таблица 1

Унифицированные градации значений Тлт и Й

Т лт (дискретных отсчетов) 250 500 1000 1500 2000 3000 4000 5000

Й т 0,25 0,5 1,0 1,5 2,0 2,5 3,0 -

1,25 1,5 2,0 2,5 3,0

Й- 1/1,25 1/1,5 1/2,0 1/2,5 1/3,0

Что касается непараметрических методов, то для них необходимо унифицировать шкалу значений р+ и р-. Для получения общего представления о быстродействии алгоритма обнаружения выбор конкретных значений р1 может быть осуществлен пользователем достаточно произвольно, исходя из его собственных представлений о величине разладки, подлежащей обнаружению. Далее предлагается иной принцип выбора значений р\, которые позволяет сопоставлять эффективность аналогичных по назначению параметрических и непараметрических процедур, что очень важно с практической точки зрения.

В качестве образца для сравнения со стороны параметрических методов целесообразно использовать алгоритмы кумулятивных сумм (АКС) или С^ЦМ-алгоритмы [2], относительно которых доказано, что эти алгоритмы обладают определенными оптимальными свойствами в смысле максимизации показателя эффективности Е [8].

С^ЦМ-алгоритмы, предназначенные для обнаружения разладки гауссовского временного ряда по математическому ожиданию и дисперсии хорошо изучены; величины Тлт и Тзап для различных значений Й, в том числе и для указанных унифицированных значений, имеются в ряде публикаций (см., например, [5,6]). Соответствующие им значения вероятностейр1 приведены в табл. 2 и табл.3.

Таблица 2

Значения показателя Йт и соответствующие им вероятности р1

Йт 0,25 0,5 1,0 1,5 2,0 2,5 3,0

р1 0,599 0,692 0,841 0,933 0,977 0,994 0,9986

Таблица 3

Значения показателей , й- и соответствующие им вероятности р+, р1-

< 1,25 1,5 2,0 2,5 3,0 Й- 1/1,25 1/1,5 1/2,0 1/2,5 1/3,0

р+ 0,546 0,582 0,634 0,669 0,697 р1 0,550 0,592 0,659 0,718 0,758

Именно значения рУ , из числа приведенных в табл. 2 и табл.3, должны быть использованы при исследовании непараметрических алгоритмов с тем, чтобы была возможность оценить их относительную эффективность € по сравнению с соответствующим С^ЦМ-алгоритмом.

Синтез контролирующего алгоритма

С точки зрения пользователя результаты исследования любого контролирующего алгоритм должны быть представлены в форме, удобной для практического использования, и, прежде всего, для его синтеза. Под синтезом здесь понимается построение контролирующего алгоритма с заданными свойствами. Такой синтез стандартно производится в несколько этапов:

- получение исходной информации о вероятностных характеристиках контролируемого процесса в состоянии «норма», т.е. о значении в0 и других сопутствующих параметрах, необходимых для расчета величины d;

- задание значения контролируемой характеристики при появлении разладки в1 и расчет величины d в зависимости от вида контролируемой характеристики и конкретных особенностей решаемой задачи;

- выбор необходимого значения интервала между ложными тревогами ТЛТ, принимая во внимание возможных потери, связанные с появлением ложного сигнала о наличии разладки, степени опасности длительной задержки в ее выявлении, сведения об эффективности контролирующей процедуры;

- определение решающего порога Н, обеспечивающего заданное значение среднего интервала между ложными тревогами ТЛТ;

- оценка быстродействия контролирующего алгоритма путем определения Тзап для выбранного значения тЛТ .

Последние два этапа являются ключевыми. Однако их можно реализовать на практике только в том случае, если на этапе исследования данного контролирующего алгоритма были получены зависимости порога Н и запаздывания Тзап от тлт для различных значений d. Конечно, при проведении такого исследования целесообразно использовать унифицированные значения Тлт и d.

Требования к имитационному эксперименту

Поскольку, как отмечалось, исследование различных алгоритмов обнаружения разладки почти всегда полностью основывается на результатах, полученных с помощью имитационного эксперимента, то к самим этим результатам должны предъявляться жесткие требования с точки зрения их точности и надежности.

Сам процесс имитационного экспериментирования включает в себя имитацию работы контролирующего алгоритма с последующей фиксацией дискретного момента п* , когда решающая функция достигнет решающей границы Н или превысит ее. Такая процедура повторяется многократно (Ы раз), в результате чего образуется массив случайных чисел п* ^ =1,2,...,Ж). Далее собранный массив подвергается статистической обработке, в ходе которой определяются среднее значение и дисперсия интервалов п*, а также дисперсия и среднеквадратическое отклонение (СКО) их среднего значения п *:

N . N _* 1 /

п = УЫ I К , = \/ы £ (п - п )2, } = , СКО=о-(п*} .

8=\ 8=1

В качестве основной точностной характеристики результатов моделирования лучше использовать именно СКО, позволяющее наглядно оценить степень возможного отклонения экспериментальных точек от их гипотетических значений. В тех редких случаях, когда известны теоретические значения каких-либо параметров, точность по-

лучаемых экспериментальных значений можно определить путем вычисления соответствующих абсолютных и относительных погрешностей.

Многократные эксперименты при исследовании различных алгоритмов разладки показали, что для получения приемлемой точности результатов моделирования значение N должно быть весьма велико - не менее, чем 10000 дискретных отсчетов.

Заключение

Рассмотрены методические аспекты построения и практического использования последовательных алгоритмов обнаружения спонтанного изменения вероятностных характеристик (разладки) временных рядов.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Отмечено наличие существенных трудностей по оптимальному выбору и настройке подходящего алгоритма обнаружения из большого числа существующих, что связано с отсутствием единого унифицированного подхода к описанию статистических свойств алгоритмов, полученных разными исследователями.

Предложена методика унификации описаний статистических свойств алгоритмов, упрощающая сопоставления различных алгоритмов по критерию их эффективности, а также синтез контролирующего алгоритма для решения конкретной прикладной задачи.

Литература

1. Shewhart W.A. Economic Control of Manufactured Product. D. Van Norstrand, Co, New York, 1931. Р. 501.

2. Page E. S. Continuous inspection schemes. // Biometrika, 1954, v. 41, №1, p. 100 - 115.

3. Shafid Ahmad. Bibliometric Analysis of EWMA and CUSUM Control Chart Schemes. ITEE Journal. V. 7. Issue 2. April. 2018. Р. 1-11.

4. Никифоров И.В. Последовательное обнаружения изменения свойств временных рядов. - М.: Наука, 1983.

5. Сивова Д.Г., Филаретов Г.Ф. Последовательный алгоритм обнаружения момента изменения характеристик векторных временных рядов // Вестник МЭИ. 2014. № 2. С. 63-69.

6. Филаретов Г.Ф., Червова А.А. Последовательный алгоритм обнаружения момента изменения дисперсии временного ряда // Заводская лаборатория. Диагностика материалов. Т. 85. № 3. 2019. С. 75-82.

7. Обнаружение изменения свойств сигналов и динамических систем / Пер. с англ./М. Бассвиль, А. Вилски и др. - М.: Мир, 1989. 278 с.

8. Ширяев А.Н. Задача скорейшего обнаружения нарушения стационарного режима // Доклады АН CCCP. Т. 138. № 5. 1961. С. 1039-1042.

Сведения об авторах

Геннадий Фёдорович Филаретов

д-р техн. наук, проф.

Национальный исследовательский университет

«МЭИ»

Москва, Россия

Эл. почта: [email protected]

Дмитрий Сергеевич Репин

канд. техн. наук, зам. дир. Института информационных технологий

ФГАОУ ДПО «Центр реализации государственной

образовательной политики и информационных

технологий»

Москва, Россия

Эл. почта: [email protected]

Information about authors

Gennady F. Filaretov

Doctor of engineering sciences, professor «National Research University «Moscow Power Engineering Institute» Moscow, Russia E-mail: [email protected]

Dmitry S. Repin

Ph. D of engineering sciences Deputy director, Institute of information Technology.

Center for the implementation of state educational policy and information technology". Moscow, Russia E-mail: r [email protected]

i Надоели баннеры? Вы всегда можете отключить рекламу.