Научная статья на тему 'Эффективность линеаризации при оптимальном прогнозировании выбросов динамических рядов с долговременной зависимостью'

Эффективность линеаризации при оптимальном прогнозировании выбросов динамических рядов с долговременной зависимостью Текст научной статьи по специальности «Математика»

CC BY
39
13
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДОЛГОВРЕМЕННАЯ ЗАВИСИМОСТЬ / ОПТИМАЛЬНОЕ ЛИНЕЙНОЕ ПРОГНОЗИРОВАНИЕ / ВЫБРОСЫ ДИНАМИЧЕСКИХ РЯДОВ / МОНОФРАКТАЛЬНЫЕ МОДЕЛИ / МУЛЬТИФРАКТАЛЬНЫЕ МОДЕЛИ / LONG-RANGE DEPENDENCE / OPTIMAL LINEAR PREDICTOR / EXTREME EVENTS / MONOFRACTAL MODELS / MULTIFRACTAL MODELS

Аннотация научной статьи по математике, автор научной работы — Богачев Михаил Игоревич, Маркелов Олег Александрович

Оценена эффективность оптимального линейного и квазиоптимального нелинейного прогнозирования выбросов в динамических рядах с линейной и с нелинейной долговременными зависимостями. Статистическим моделированием определены границы эффективности линеаризации при использовании оптимальных линейных методов в присутствии нелинейной долговременной зависимости. Приведены рекомендации по применению различных методов прогнозирования в зависимости от характера долговременной зависимости.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Богачев Михаил Игоревич, Маркелов Олег Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

On the linearization efficiency in optimal prediction of extreme events in dynamical series with long-range dependence

The efficiency of optimal linear and quasi-optimal nonlinear extreme event predictors in the dynamical series with long-range dependence is estimated. The limits of the linearization efficiency and thus of the optimal linear predictor performance in the presence of nonlinear long-range dependencies are shown by statistical simulations. Suggestions on the predictor choice in the presence various kinds of long-range dependence are given.

Текст научной работы на тему «Эффективность линеаризации при оптимальном прогнозировании выбросов динамических рядов с долговременной зависимостью»

Известия вузов России. Радиоэлектроника. 2012. Вып. 3======================================

УДК 681.518.25, 519.21

М. И. Богачёв, О. А. Маркелов

Санкт-Петербургский государственный электротехнический

университет "ЛЭТИ"

Эффективность линеаризации при оптимальном прогнозировании выбросов динамических рядов с долговременной зависимостью

Оценена эффективность оптимального линейного и квазиоптимального нелинейного прогнозирования выбросов в динамических рядах с линейной и с нелинейной долговременными зависимостями. Статистическим моделированием определены границы эффективности линеаризации при использовании оптимальных линейных методов в присутствии нелинейной долговременной зависимости. Приведены рекомендации по применению различных методов прогнозирования в зависимости от характера долговременной зависимости.

Долговременная зависимость, оптимальное линейное прогнозирование, выбросы динамических рядов, монофрактальные модели, мультифрактальные модели

Динамические ряды с долговременной зависимостью (ДВЗ) часто применяются при статистическом моделировании различных процессов естественного происхождения. В качестве примеров таких процессов можно привести последовательные значения среднесуточной температуры, количества осадков и потока воды в реках [1], последовательные значения интервалов между сердечными сокращениями [2], значения трафика в узлах и каналах многопользовательских информационных систем в единицу времени [3], значения последовательных элементов генетического кода [4] и некоторые другие. Актуальной задачей во многих прикладных областях является прогнозирование аномальных значений (выбросов) динамических рядов. Выбор наилучшего метода прогнозирования затрудняется тем, что помимо линейной ДВЗ в наблюдаемых процессах часто присутствуют различного рода нелинейности, кратковременные зависимости, а также аддитивные случайные компоненты [5].

В настоящей статье рассмотрена задача прогнозирования выбросов динамических рядов, в которых в различной степени выражены линейная и нелинейная составляющие ДВЗ. Аналогичная задача рассмотрена в работе [6], при этом использованы два нелинейных метода прогнозирования выбросов, ни один из которых не является оптимальным по отношению к модели анализируемых данных. Несмотря на то, что аналитически задача оптимального нелинейного прогнозирования была успешно решена еще в конце 50-х гг. прошлого столетия [7], ее практическая реализация во многих случаях вызывает затруднения, обусловленные в общем случае бесконечным порядком динамической модели [8]. Не являются исключением из этого случая и распространенные модели нелинейной ДВЗ [9]. Типичным практическим решением в такой ситуации является использование квазиоптимальных решений, основанных на аппроксимации полной динамической модели упрощенной линейной моделью или ее линеаризации [10]. Весомым аргументом за использование подобного подхода является то обстоятельство, что в подавляющем большинстве процессов естественного происхождения несмотря на присутствие нелинейных состав-

* Работа выполнена при поддержке Совета по грантам Президента РФ (грант МК-556.2011.8). 46 © Богачёв М. И., Маркелов О. А., 2012

ляющих, линейная зависимость тем не менее является доминирующей. В настоящей статье также приведены результаты количественной оценки эффективности линеаризации при прогнозировании выбросов динамических рядов с нелинейной ДВЗ.

В качестве модели данных с исключительно линейной ДВЗ использована монофрактальная модель данных, характеризующаяся автокорреляционной функцией, убывающей

по степенному закону K (т) ~ t-y, 0 < у < 1. Для синтеза динамических рядов использован спектральный метод [11], заключающийся в вычислении преобразования Фурье последовательности независимых отсчетов, домножении полученного ряда на fH(H = 1 -у/ 2 - показатель Хёрста) и в последующем обратном преобразовании Фурье.

В качестве модели данных с включенной нелинейной составляющей ДВЗ использован модифицированный алгоритм биномиального мультипликативного каскада [12]. За-

(0) ,

данное начальное значение х^ = 1 умножалось на два независимых множителя ту и т2.

В дальнейшем, каждое из значений реализации на предыдущей итерации х(пдомножа-лось на два множителя mi. Изменением параметров распределения множителей mi осуществлялось управление линейной и нелинейной ДВЗ от чисто нелинейной зависимости (при полном отсутствии линейной составляющей) до доминирующей линейной зависимости (при пренебрежимо слабой нелинейной составляющей). Более подробно вопросы управления параметрами мультипликативного каскада рассмотрены, например в [13].

Для стационарных ДВЗ-процессов с неотрицательной АКФ показатели Хёрста 0.5 < H < 1, при этом H = 0.5 соответствует "белому" шуму, а H ^ 1 - очень медленно меняющемуся процессу, напоминающему тренд (H = 1 является границей стационарности процесса). В моделировании использовались значения H = 0.5, 0.8 и 0.98. Модель мультипликативного каскада устроена таким образом, что при H = 0.5 в ней наблюдается исключительно нелинейная зависимость, а с ростом H происходит постепенная замена нелинейной зависимости линейной (см., например, [14]).

В моделировании использовались четыре метода прогнозирования выбросов динамических рядов: метод полиномиальной экстраполяции [15], метод оптимального линейного прогнозирования [16], метод интервальных статистик [17] и метод распознавания характерного предиктора [18].

Метод полиномиальной экстраполяции (ПЭ) [15] основан на аппроксимации отсчетов

динамического ряда хп-k, ..., хп-1 в скользящем окне длиной k полиномом arzr + r-1

+ar-1z +... + ajz + a0 порядка r с помощью метода наименьших квадратов и вычисления прогноза хп как значения полинома в точке п.

Метод оптимального линейного прогнозирования (ОЛП) [16] предусматривает вычис-

k

ление прогноза хп = ^ axn-i в точке п, где уравнение прогнозирующего фильтра совпада-

i=1

ет с уравнением формирующего фильтра для модели прогнозируемого процесса. Уравнение

формирующего фильтра для линейного ДВЗ-процесса имеет вид а = (Н - 0.5)0 + 1)Н 15 [19]. Теоретически ДВЗ наблюдается при к ^<х>, на практике используются конечные значения к. Для монофрактального процесса данное решение при больших к приближается к оптимальному, а в рамках мультифрактальной модели оптимальным образом отражает только линейную составляющую ДВЗ. В данном случае вопрос об учете нелинейной составляющей за счет линеаризации остается открытым и является предметом исследования. Из приведенной формулы очевиден недостаток данного метода: невозможность применения метода для прогнозирования процессов с Н = 0.5 (вопрос же эффективности вблизи этого значения также остается открытым).

Метод интервальных статистик (ИС) [17] основан на вычислении вероятности возникновения хотя бы одного выброса динамического ряда

/да

Ж (¿, А) = | Рд (Т ) ф р (Т ) ёт = [Сд 0 + &) - Сд «]/[1 - Сд (г)]« Рд « А/[1-Сд «] / / /

в интервале времени А при условии, что с момента последнего выброса прошло время I,

да

где Сд 0) = |Рд (т)ёт - функция распределения; Рд (т) - плотность распределения интервалов между выбросами свыше заданного порога О*.

Метод распознавания характерного предиктора (РХП) [18] основан на поиске кратковременного предиктора хп : хп-к, хп-к+1, ..., хп-1, составляющего к отсчетов, обычно

предшествующего выбросу относительно фиксированного порога О: хп > О. В общем случае рассматриваются все возможные комбинации из к отсчетов х^ : хп-к, хп-к+1, ..., хп-1, предшествующие любому событию в реализации и определяются условные вероятности Р(хп > О|хп^ ) того, что данное сочетание является предиктором выброса хп > О. При создании массива всех возможных предикторов хп для к предшествующих событий можно разделить в скользящем окне общий диапазон возможных значений х^ на I квантилей,

что приводит к общему числу комбинаций 1к. Для каждого потенциального предиктора хпк оценивается вероятность того, что следующее событие превысит порог О: хп > Охп **.

Для сравнительного анализа эффективности прогнозирования построены рабочие характеристики. В качестве решающих статистик для сравнения с переменным порогом в первых двух методах использовались сами значения спрогнозированного процесса, а в последних двух методах - значения вероятностей возникновения выбросов. Во всех методах, кроме последнего, выбиралась длина скользящего окна: к = 10 отсчетов. Для метода распознавания

* Поскольку достаточно подробное описание данного метода приведено в работах [6], [9], [13], здесь приведены лишь основные положения.

** Более подробное описание и исследование работы данного метода можно найти в работах [6], [9]. 48

предиктора ввиду статистических ограничений выбиралась к = 2. В методе полиномиальной экстраполяции использовались линейные аппроксимации (г = 1). Во всех случаях рабочие

20

характеристики усреднялись для 10 реализаций динамических рядов длиной 2 отсчетов.

На рис. 1 представлены рабочие характеристики прогнозирования выбросов, превышающих порог, со средним интервалом между превышениями Яд = 10 (зависимости вероятности правильного прогнозирования выброса В от вероятности ложного прогноза а), полученные с помощью четырех методов на примере монофрактальных данных при наличии только линейной ДВЗ (рис. 1, а-в) и мультифрактальных данных при наличии как линейной, так и нелинейной ДВЗ (рис. 1, г-е). Для рис. 1, а, г Н = 0.5; для рис. 1, б, д Н = 0.8; для рис. 1, в, е Н = 0.98. Сравнение качества прогнозирования с помощью различных методов целесообразно проводить при значениях вероятности а < 0.4.

Анализ рис. 1, а-в показывает, что наилучшее прогнозирование в присутствии только линейной ДВЗ обеспечивают методы оптимального линейного прогнозирования и распоза-вания характерного предиктора, что согласуется с известными теоретическими положениями [10], [16]. Незначительное завышение рабочей характеристики для метода распозавания характерного предиктора при Н = 0.98 (см. рис. 1, в) можно пояснить погрешностью метода формирования реализаций в условиях конечной выборки из-за циклического характера преобразования Фурье. Однако существенными недостатками данного метода являются необходимость проведения процедуры обучения и высокая вычислительная сложность. Несколько худшие результаты дает прогнозирование при помощи метода интервальных статистик. Наихудшие результаты показывает метод полиномиальной экстраполяции.

В присутствии исключительно нелинейной зависимости (см. рис. 1, г) эффективными являются только нелинейные методы, при этом небольшой выигрыш достигается при использовании метода распознавания характерного предиктора. Возможно, это связано с тем, что для метода интервальных статистик характерной ошибкой является пропуск первого выброса в кластере последовательных выбросов, а с учетом выраженной кластериза-

где

Рис. 1

а б в

г д е

Рис. 2

ции мультифрактального процесса данный эффект может быть достаточно значимым. При больших значениях Н = 0.8 и 0.98 (см. рис. 1, д, е) все методы, за исключением метода полиномиальной экстраполяции, показывают сопоставимые и достаточно хорошие результаты. Высокую эффективность метода оптимальной линейной фильтрации можно объяснить не только оптимальным учетом информации о нелинейной зависимости, но и эффектом линеаризации, за счет чего данный метод имеет два источника информации -линейную зависимость и линеаризованную нелинейную составляющую.

На рис. 2 представлены аналогичные рабочие характеристики для тех же методов прогнозирования и тех же динамических рядов, но при более высоком пороге выброса = 500). Из рисунка видно, что для всех без исключения методов вероятности правильного прогнозирования выброса выше при тех же значениях а, чем при более низком пороге (Яд = 10, см. рис. 1). Таким образом, подтверждается тот факт, что при увеличении значения

порога качество прогнозирования улучшается. При этом увеличивается и разрыв между более эффективными и менее эффективными методами прогнозирования, что свидетельствует о большей актуальности выбора наиболее эффективного из них при рассмотрении более выраженных выбросов. В частности для мультифрактальных данных, увеличивается проигрыш метода интервальных статистик по сравнению с наилучшими методами (см. рис. 1 и 2, г-е).

Поскольку в мультифрактальных данных при Н «1 линеаризация обеспечивает хорошее качество прогнозирования с использованием более простого в вычислительном плане оптимального линейного прогнозирования, но оказывается неэффективной при Н = 0.5, возникает вопрос о границах применимости линеаризации. Для более наглядного сравнения целесообразно построить зависимость вероятности правильного обнаружения от значения показателя Хёрста Н при фиксированной вероятности ложной тревоги а для тех же уровней порогов, для которых построены кривые на рис. 1 и 2.

На рис. 3 представлена зависимость В (Н) при а = 0.1: а, в - на примере монофрактальных данных; в, г - на примере мультифрактальных данных. На рис. 3, а, в результаты

прогнозирования представлены для RQ = 10; на рис. 3, б, г - для RQ = 500. Аналогичные

результаты для а = 0.3 представлены на рис. 4.

Из анализа рис. 3 и 4 следует, что при прогнозировании выбросов монофрактальных данных метод оптимального линейного прогнозирования показывает наилучшие результаты в сравнении с остальными методами для всех значений Н, что согласуется с теорети-

D

0.75

0.5

0.25 0

I

D 0.75 0.5

0.25

0

0.5 0.6

0.7 0.8 0.9 а

D 0.750.50.25

0

H 0.5 D 0.75 0.5 0.25

0.6 0.7 0.8 0.9

б

0.5 0.6 0.7 0.8 0.9 H 0.5 0.6 0.7 0.8 0.9 H

Рис. 3

D

0.75-

0.5-

D

0.75

0.5

0.250_I_I_I_I_ 0.25

0.5 0.6 0.7 0.8 0.9 H 0.5 0.6 0.7 0.8 0.9 H

D

0.75

0.5

0.25

D

0.75-

0.5

0.25

0.5 0.6 0.7 0.8 0.9 H 0.5 0.6 0.7 0.8 0.9 в г

Рис. 4

0

в

г

б

а

ческими положениями. В случае с мультифрактальными данными нелинейные методы значительно выигрывают при значениях H < 0.7...0.8, однако при H > 0.7...0.8 метод оптимального линейного прогнозирования дает сопоставимые результаты. Таким образом, для прогнозирования мультифрактальных процессов с H < 0.7...0.8 следует выбирать нелинейные методы, а при более высоких значениях H из соображений минимизации вычислительной сложности можно воспользоваться линейными методами.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В проведенном анализе рассмотрены теоретические возможности всех методов прогнозирования в отсутствие шумов. Однако в динамических рядах, представляющих собой регистрируемые метеорологические, гидрологические, биотехнические и иные данные естественного происхождения, отмечается присутствие случайных составляющих (шумов), а также дополнительных кратковременных зависимостей (КВЗ), которые могут существенно влиять на характеристики прогнозирования. Устойчивость двух из рассмотренных нелинейных методов к аддитивным шумам исследовалась в работе [20]. Вопрос об эффективности процедуры линеаризации в условиях аддитивных помех будет рассмотрен в дальнейших публикациях.

Список литературы

1. Hurst H. E. Long-term storage: an experimental study. London: Constable & Co. Ltd, 1965. 145 p.

2. Multifractality in human heartbeat dynamics / P. Ch. Ivanov, M. G. Rosenblum, L. A. Amaral et al. // Nature. 1999. Vol. 399. P. 461-465.

3. On the self-similar nature of Ethernet traffic / W. E. Leland, M. S. Taqqu, W. Willinger, D. V. Wilson // IEEE/ACM trans. on networking. 1994. Vol. 2. P. 1-15.

4. Long-range correlations in nucleotide sequences / C.-K. Peng, S. V. Buldyrev, A. L. Goldberger et al. // Nature. 1992. Vol. 356. P. 168-170.

5. On spurious and corrupted multifractality: The effects of additive noise, short-term memory and periodic trends / J. Ludescher, M. I. Bogachev, J. W. Kantelhardt et al. // Physica A. 2011. Vol. 390. P. 2480-2490.

6. Богачев М. И. К вопросу о прогнозируемости выбросов динамических рядов с фрактальными свойствами при использовании информации о линейной и нелинейной составляющих долговременной зависимости // Изв. вузов России. Радиоэлектроника. 2009. Вып. 5. С. 31-40.

7. Стратонович Р. Л. К теории оптимальной нелинейной фильтрации случайных функций // Теория вероятностей и ее применение. 1959. Т. 4. Вып. 2. С. 239-242.

8. Chaleyat-Maurel M., Michel D. Des resultats de non existence de filtre de dimension finie. Stochastics. 1984. Vol. 13. P. 83-102.

9. Bogachev M. I., Bunde A. On the predictability of extreme events in records with linear and nonlinear longrange memory: Efficiency and noise robustness // Physica A. 2011. Vol. 390. P. 2240-2250.

10. Kushner H. J. Stochastic stability and control. New York: Acad. Press, 1967. 161 p.

11. Schreiber T., Schmitz A. Improved surrogate data for nonlinearity tests // Phys. Rev. Let. 1996. Vol. 77. P. 635-638.

12. Bogachev M. I., Eichner J. F., Bunde A. The effect of multifractality on the statistics of return intervals // Eur. phys. J. spec. topics. Vol. 181. P. 181-193.

13. Богачёв М. И. Статистический анализ и прогнозирование динамики случайных процессов в телекоммуникационных сетях с использованием мультифрактальных моделей трафика // Изв. вузов России. Радиоэлектроника. 2008. Вып. 2. С. 34-45.

14. Bogachev M. I., Eichner J. F., Bunde A. On the occurence of extreme events in long-term correlated and multifractal data sets // Pure appl. geophys. Vol. 165. P. 1195-1207.

15. Колмогоров А. Н. Интерполяция и экстраполяция стационарных случайных последовательностей // Изв. АН СССР. Cер. математич. 1941. T. 5, № 3. C. 18-24.

16. Wiener N. Extrapolation, interpolation and smoothing of time series. New York: Wiley, 1949. 166 p.

17. Statistics of return intervals between long heartbeat intervals and their usability for online prediction of disorders / M. I. Bogachev, I. S. Kireenkov, E. M. Nifontov, A. Bunde // New J. phys. 2009. Vol. 11. P. 063036 (1-18).

18. Богачёв М. И. Сравнительная оценка информативности кратковременной и долговременной зависимостей трафика при прогнозировании его динамики в телекоммуникационных системах // Изв. вузов России. Радиоэлектроника. 2009. Вып. 2. С. 52-59.

19. Mandelbrot B. B. Gaussian self-affinity and fractals. New York: Springer, 2002. 283 p.

20. Богачёв М. И. Сравнительный анализ помехоустойчивости методов прогнозирования выбросов случайных сигналов с фрактальными свойствами при использовании информации о кратковременной и долговременной зависимостях // Изв. вузов России. Радиоэлектроника. 2010. Вып. 1. С. 11-21.

M. I. Bogachev, O. A. Markelov

Saint-Petersburg state electrotechnical university "LETI"

On the linearization efficiency in optimal prediction of extreme events in dynamical series with long-range dependence

The efficiency of optimal linear and quasi-optimal nonlinear extreme event predictors in the dynamical series with long-range dependence is estimated. The limits of the linearization efficiency and thus of the optimal linear predictor performance in the presence of nonlinear long-range dependencies are shown by statistical simulations. Suggestions on the predictor choice in the presence various kinds of long-range dependence are given.

Long-range dependence, optimal linear predictor, extreme events, monofractal models, multifractal models

Статья поступила в редакцию 20 января 2012 г.

УДК 621.396.62

В. М. Кутузов, К. А. Мазуров

I Многосегментный авторегрессионный алгоритм обработки сложномодулированных сигналов. Характеристики точности

Рассмотрены характеристики точности и характеристики разрешения-измерения многосегментного авторегрессионного алгоритма спектральной обработки сложномодулированных сигналов, обеспечивающих квазинепрерывный режим работы радиолокационной станции. Получены зависимости дисперсии ошибки измерения, а также смещения частоты, от разности частот разрешаемых гармонических сигналов.

Характеристики точности, дисперсия ошибки измерения, предел Крамера-Рао, асимптотически оптимальная оценка, характеристики разрешения-измерения, смещение оценки

Настоящая статья является продолжением публикаций, посвященных исследованию многосегментного авторегрессионного (АР) алгоритма обработки сложномодулированных сигналов [1], [2]. В предыдущих работах исследованы характеристики обнаружения (ХО) и характеристики помехоустойчивости (ХП) этого алгоритма обработки с акцентом на применение его в радиолокации. Особое внимание уделено характеристикам разрешения-обнаружения (ХРО), получены количественные соотношения для энергетических затрат, необходимых для обеспечения высокой разрешающей способности.

Наряду с этими характеристиками в радиолокации важную роль играет точность измерения параметров цели, таких, как скорость, координаты и т. д. В общем случае она зависит и от параметров радиолокационной станции (РЛС), и от используемого алгоритма обработки сигналов.

Рассмотрим в качестве информационного параметра, подлежащего оценке, допле-ровский сдвиг частоты сигнала, отраженного от цели. Количественной мерой точности измерений частотных параметров служат дисперсия ошибки измерения частоты гармони-2

ческого сигнала а у и частотное смещение ту [3]. Зависимости этих величин от входного

отношения "сигнал/шум" (ОСШ) q будем считать характеристиками точности (ХТ). При построении ХТ предполагается присутствие одного полезного сигнала. АР-Оценка спек-

© Кутузов В. М., Мазуров К. А., 2012

i Надоели баннеры? Вы всегда можете отключить рекламу.