Известия вузов России. Радиоэлектроника. 2012. Вып. 3======================================
УДК 681.518.25, 519.21
М. И. Богачёв, О. А. Маркелов
Санкт-Петербургский государственный электротехнический
университет "ЛЭТИ"
Эффективность линеаризации при оптимальном прогнозировании выбросов динамических рядов с долговременной зависимостью
Оценена эффективность оптимального линейного и квазиоптимального нелинейного прогнозирования выбросов в динамических рядах с линейной и с нелинейной долговременными зависимостями. Статистическим моделированием определены границы эффективности линеаризации при использовании оптимальных линейных методов в присутствии нелинейной долговременной зависимости. Приведены рекомендации по применению различных методов прогнозирования в зависимости от характера долговременной зависимости.
Долговременная зависимость, оптимальное линейное прогнозирование, выбросы динамических рядов, монофрактальные модели, мультифрактальные модели
Динамические ряды с долговременной зависимостью (ДВЗ) часто применяются при статистическом моделировании различных процессов естественного происхождения. В качестве примеров таких процессов можно привести последовательные значения среднесуточной температуры, количества осадков и потока воды в реках [1], последовательные значения интервалов между сердечными сокращениями [2], значения трафика в узлах и каналах многопользовательских информационных систем в единицу времени [3], значения последовательных элементов генетического кода [4] и некоторые другие. Актуальной задачей во многих прикладных областях является прогнозирование аномальных значений (выбросов) динамических рядов. Выбор наилучшего метода прогнозирования затрудняется тем, что помимо линейной ДВЗ в наблюдаемых процессах часто присутствуют различного рода нелинейности, кратковременные зависимости, а также аддитивные случайные компоненты [5].
В настоящей статье рассмотрена задача прогнозирования выбросов динамических рядов, в которых в различной степени выражены линейная и нелинейная составляющие ДВЗ. Аналогичная задача рассмотрена в работе [6], при этом использованы два нелинейных метода прогнозирования выбросов, ни один из которых не является оптимальным по отношению к модели анализируемых данных. Несмотря на то, что аналитически задача оптимального нелинейного прогнозирования была успешно решена еще в конце 50-х гг. прошлого столетия [7], ее практическая реализация во многих случаях вызывает затруднения, обусловленные в общем случае бесконечным порядком динамической модели [8]. Не являются исключением из этого случая и распространенные модели нелинейной ДВЗ [9]. Типичным практическим решением в такой ситуации является использование квазиоптимальных решений, основанных на аппроксимации полной динамической модели упрощенной линейной моделью или ее линеаризации [10]. Весомым аргументом за использование подобного подхода является то обстоятельство, что в подавляющем большинстве процессов естественного происхождения несмотря на присутствие нелинейных состав-
* Работа выполнена при поддержке Совета по грантам Президента РФ (грант МК-556.2011.8). 46 © Богачёв М. И., Маркелов О. А., 2012
ляющих, линейная зависимость тем не менее является доминирующей. В настоящей статье также приведены результаты количественной оценки эффективности линеаризации при прогнозировании выбросов динамических рядов с нелинейной ДВЗ.
В качестве модели данных с исключительно линейной ДВЗ использована монофрактальная модель данных, характеризующаяся автокорреляционной функцией, убывающей
по степенному закону K (т) ~ t-y, 0 < у < 1. Для синтеза динамических рядов использован спектральный метод [11], заключающийся в вычислении преобразования Фурье последовательности независимых отсчетов, домножении полученного ряда на fH(H = 1 -у/ 2 - показатель Хёрста) и в последующем обратном преобразовании Фурье.
В качестве модели данных с включенной нелинейной составляющей ДВЗ использован модифицированный алгоритм биномиального мультипликативного каскада [12]. За-
(0) ,
данное начальное значение х^ = 1 умножалось на два независимых множителя ту и т2.
В дальнейшем, каждое из значений реализации на предыдущей итерации х(пдомножа-лось на два множителя mi. Изменением параметров распределения множителей mi осуществлялось управление линейной и нелинейной ДВЗ от чисто нелинейной зависимости (при полном отсутствии линейной составляющей) до доминирующей линейной зависимости (при пренебрежимо слабой нелинейной составляющей). Более подробно вопросы управления параметрами мультипликативного каскада рассмотрены, например в [13].
Для стационарных ДВЗ-процессов с неотрицательной АКФ показатели Хёрста 0.5 < H < 1, при этом H = 0.5 соответствует "белому" шуму, а H ^ 1 - очень медленно меняющемуся процессу, напоминающему тренд (H = 1 является границей стационарности процесса). В моделировании использовались значения H = 0.5, 0.8 и 0.98. Модель мультипликативного каскада устроена таким образом, что при H = 0.5 в ней наблюдается исключительно нелинейная зависимость, а с ростом H происходит постепенная замена нелинейной зависимости линейной (см., например, [14]).
В моделировании использовались четыре метода прогнозирования выбросов динамических рядов: метод полиномиальной экстраполяции [15], метод оптимального линейного прогнозирования [16], метод интервальных статистик [17] и метод распознавания характерного предиктора [18].
Метод полиномиальной экстраполяции (ПЭ) [15] основан на аппроксимации отсчетов
динамического ряда хп-k, ..., хп-1 в скользящем окне длиной k полиномом arzr + r-1
+ar-1z +... + ajz + a0 порядка r с помощью метода наименьших квадратов и вычисления прогноза хп как значения полинома в точке п.
Метод оптимального линейного прогнозирования (ОЛП) [16] предусматривает вычис-
k
ление прогноза хп = ^ axn-i в точке п, где уравнение прогнозирующего фильтра совпада-
i=1
ет с уравнением формирующего фильтра для модели прогнозируемого процесса. Уравнение
формирующего фильтра для линейного ДВЗ-процесса имеет вид а = (Н - 0.5)0 + 1)Н 15 [19]. Теоретически ДВЗ наблюдается при к ^<х>, на практике используются конечные значения к. Для монофрактального процесса данное решение при больших к приближается к оптимальному, а в рамках мультифрактальной модели оптимальным образом отражает только линейную составляющую ДВЗ. В данном случае вопрос об учете нелинейной составляющей за счет линеаризации остается открытым и является предметом исследования. Из приведенной формулы очевиден недостаток данного метода: невозможность применения метода для прогнозирования процессов с Н = 0.5 (вопрос же эффективности вблизи этого значения также остается открытым).
Метод интервальных статистик (ИС) [17] основан на вычислении вероятности возникновения хотя бы одного выброса динамического ряда
/да
Ж (¿, А) = | Рд (Т ) ф р (Т ) ёт = [Сд 0 + &) - Сд «]/[1 - Сд (г)]« Рд « А/[1-Сд «] / / /
в интервале времени А при условии, что с момента последнего выброса прошло время I,
да
где Сд 0) = |Рд (т)ёт - функция распределения; Рд (т) - плотность распределения интервалов между выбросами свыше заданного порога О*.
Метод распознавания характерного предиктора (РХП) [18] основан на поиске кратковременного предиктора хп : хп-к, хп-к+1, ..., хп-1, составляющего к отсчетов, обычно
предшествующего выбросу относительно фиксированного порога О: хп > О. В общем случае рассматриваются все возможные комбинации из к отсчетов х^ : хп-к, хп-к+1, ..., хп-1, предшествующие любому событию в реализации и определяются условные вероятности Р(хп > О|хп^ ) того, что данное сочетание является предиктором выброса хп > О. При создании массива всех возможных предикторов хп для к предшествующих событий можно разделить в скользящем окне общий диапазон возможных значений х^ на I квантилей,
что приводит к общему числу комбинаций 1к. Для каждого потенциального предиктора хпк оценивается вероятность того, что следующее событие превысит порог О: хп > Охп **.
Для сравнительного анализа эффективности прогнозирования построены рабочие характеристики. В качестве решающих статистик для сравнения с переменным порогом в первых двух методах использовались сами значения спрогнозированного процесса, а в последних двух методах - значения вероятностей возникновения выбросов. Во всех методах, кроме последнего, выбиралась длина скользящего окна: к = 10 отсчетов. Для метода распознавания
* Поскольку достаточно подробное описание данного метода приведено в работах [6], [9], [13], здесь приведены лишь основные положения.
** Более подробное описание и исследование работы данного метода можно найти в работах [6], [9]. 48
предиктора ввиду статистических ограничений выбиралась к = 2. В методе полиномиальной экстраполяции использовались линейные аппроксимации (г = 1). Во всех случаях рабочие
20
характеристики усреднялись для 10 реализаций динамических рядов длиной 2 отсчетов.
На рис. 1 представлены рабочие характеристики прогнозирования выбросов, превышающих порог, со средним интервалом между превышениями Яд = 10 (зависимости вероятности правильного прогнозирования выброса В от вероятности ложного прогноза а), полученные с помощью четырех методов на примере монофрактальных данных при наличии только линейной ДВЗ (рис. 1, а-в) и мультифрактальных данных при наличии как линейной, так и нелинейной ДВЗ (рис. 1, г-е). Для рис. 1, а, г Н = 0.5; для рис. 1, б, д Н = 0.8; для рис. 1, в, е Н = 0.98. Сравнение качества прогнозирования с помощью различных методов целесообразно проводить при значениях вероятности а < 0.4.
Анализ рис. 1, а-в показывает, что наилучшее прогнозирование в присутствии только линейной ДВЗ обеспечивают методы оптимального линейного прогнозирования и распоза-вания характерного предиктора, что согласуется с известными теоретическими положениями [10], [16]. Незначительное завышение рабочей характеристики для метода распозавания характерного предиктора при Н = 0.98 (см. рис. 1, в) можно пояснить погрешностью метода формирования реализаций в условиях конечной выборки из-за циклического характера преобразования Фурье. Однако существенными недостатками данного метода являются необходимость проведения процедуры обучения и высокая вычислительная сложность. Несколько худшие результаты дает прогнозирование при помощи метода интервальных статистик. Наихудшие результаты показывает метод полиномиальной экстраполяции.
В присутствии исключительно нелинейной зависимости (см. рис. 1, г) эффективными являются только нелинейные методы, при этом небольшой выигрыш достигается при использовании метода распознавания характерного предиктора. Возможно, это связано с тем, что для метода интервальных статистик характерной ошибкой является пропуск первого выброса в кластере последовательных выбросов, а с учетом выраженной кластериза-
где
Рис. 1
а б в
г д е
Рис. 2
ции мультифрактального процесса данный эффект может быть достаточно значимым. При больших значениях Н = 0.8 и 0.98 (см. рис. 1, д, е) все методы, за исключением метода полиномиальной экстраполяции, показывают сопоставимые и достаточно хорошие результаты. Высокую эффективность метода оптимальной линейной фильтрации можно объяснить не только оптимальным учетом информации о нелинейной зависимости, но и эффектом линеаризации, за счет чего данный метод имеет два источника информации -линейную зависимость и линеаризованную нелинейную составляющую.
На рис. 2 представлены аналогичные рабочие характеристики для тех же методов прогнозирования и тех же динамических рядов, но при более высоком пороге выброса = 500). Из рисунка видно, что для всех без исключения методов вероятности правильного прогнозирования выброса выше при тех же значениях а, чем при более низком пороге (Яд = 10, см. рис. 1). Таким образом, подтверждается тот факт, что при увеличении значения
порога качество прогнозирования улучшается. При этом увеличивается и разрыв между более эффективными и менее эффективными методами прогнозирования, что свидетельствует о большей актуальности выбора наиболее эффективного из них при рассмотрении более выраженных выбросов. В частности для мультифрактальных данных, увеличивается проигрыш метода интервальных статистик по сравнению с наилучшими методами (см. рис. 1 и 2, г-е).
Поскольку в мультифрактальных данных при Н «1 линеаризация обеспечивает хорошее качество прогнозирования с использованием более простого в вычислительном плане оптимального линейного прогнозирования, но оказывается неэффективной при Н = 0.5, возникает вопрос о границах применимости линеаризации. Для более наглядного сравнения целесообразно построить зависимость вероятности правильного обнаружения от значения показателя Хёрста Н при фиксированной вероятности ложной тревоги а для тех же уровней порогов, для которых построены кривые на рис. 1 и 2.
На рис. 3 представлена зависимость В (Н) при а = 0.1: а, в - на примере монофрактальных данных; в, г - на примере мультифрактальных данных. На рис. 3, а, в результаты
прогнозирования представлены для RQ = 10; на рис. 3, б, г - для RQ = 500. Аналогичные
результаты для а = 0.3 представлены на рис. 4.
Из анализа рис. 3 и 4 следует, что при прогнозировании выбросов монофрактальных данных метод оптимального линейного прогнозирования показывает наилучшие результаты в сравнении с остальными методами для всех значений Н, что согласуется с теорети-
D
0.75
0.5
0.25 0
I
D 0.75 0.5
0.25
0
0.5 0.6
0.7 0.8 0.9 а
D 0.750.50.25
0
H 0.5 D 0.75 0.5 0.25
0.6 0.7 0.8 0.9
б
0.5 0.6 0.7 0.8 0.9 H 0.5 0.6 0.7 0.8 0.9 H
Рис. 3
D
0.75-
0.5-
D
0.75
0.5
0.250_I_I_I_I_ 0.25
0.5 0.6 0.7 0.8 0.9 H 0.5 0.6 0.7 0.8 0.9 H
D
0.75
0.5
0.25
D
0.75-
0.5
0.25
0.5 0.6 0.7 0.8 0.9 H 0.5 0.6 0.7 0.8 0.9 в г
Рис. 4
0
в
г
б
а
ческими положениями. В случае с мультифрактальными данными нелинейные методы значительно выигрывают при значениях H < 0.7...0.8, однако при H > 0.7...0.8 метод оптимального линейного прогнозирования дает сопоставимые результаты. Таким образом, для прогнозирования мультифрактальных процессов с H < 0.7...0.8 следует выбирать нелинейные методы, а при более высоких значениях H из соображений минимизации вычислительной сложности можно воспользоваться линейными методами.
В проведенном анализе рассмотрены теоретические возможности всех методов прогнозирования в отсутствие шумов. Однако в динамических рядах, представляющих собой регистрируемые метеорологические, гидрологические, биотехнические и иные данные естественного происхождения, отмечается присутствие случайных составляющих (шумов), а также дополнительных кратковременных зависимостей (КВЗ), которые могут существенно влиять на характеристики прогнозирования. Устойчивость двух из рассмотренных нелинейных методов к аддитивным шумам исследовалась в работе [20]. Вопрос об эффективности процедуры линеаризации в условиях аддитивных помех будет рассмотрен в дальнейших публикациях.
Список литературы
1. Hurst H. E. Long-term storage: an experimental study. London: Constable & Co. Ltd, 1965. 145 p.
2. Multifractality in human heartbeat dynamics / P. Ch. Ivanov, M. G. Rosenblum, L. A. Amaral et al. // Nature. 1999. Vol. 399. P. 461-465.
3. On the self-similar nature of Ethernet traffic / W. E. Leland, M. S. Taqqu, W. Willinger, D. V. Wilson // IEEE/ACM trans. on networking. 1994. Vol. 2. P. 1-15.
4. Long-range correlations in nucleotide sequences / C.-K. Peng, S. V. Buldyrev, A. L. Goldberger et al. // Nature. 1992. Vol. 356. P. 168-170.
5. On spurious and corrupted multifractality: The effects of additive noise, short-term memory and periodic trends / J. Ludescher, M. I. Bogachev, J. W. Kantelhardt et al. // Physica A. 2011. Vol. 390. P. 2480-2490.
6. Богачев М. И. К вопросу о прогнозируемости выбросов динамических рядов с фрактальными свойствами при использовании информации о линейной и нелинейной составляющих долговременной зависимости // Изв. вузов России. Радиоэлектроника. 2009. Вып. 5. С. 31-40.
7. Стратонович Р. Л. К теории оптимальной нелинейной фильтрации случайных функций // Теория вероятностей и ее применение. 1959. Т. 4. Вып. 2. С. 239-242.
8. Chaleyat-Maurel M., Michel D. Des resultats de non existence de filtre de dimension finie. Stochastics. 1984. Vol. 13. P. 83-102.
9. Bogachev M. I., Bunde A. On the predictability of extreme events in records with linear and nonlinear longrange memory: Efficiency and noise robustness // Physica A. 2011. Vol. 390. P. 2240-2250.
10. Kushner H. J. Stochastic stability and control. New York: Acad. Press, 1967. 161 p.
11. Schreiber T., Schmitz A. Improved surrogate data for nonlinearity tests // Phys. Rev. Let. 1996. Vol. 77. P. 635-638.
12. Bogachev M. I., Eichner J. F., Bunde A. The effect of multifractality on the statistics of return intervals // Eur. phys. J. spec. topics. Vol. 181. P. 181-193.
13. Богачёв М. И. Статистический анализ и прогнозирование динамики случайных процессов в телекоммуникационных сетях с использованием мультифрактальных моделей трафика // Изв. вузов России. Радиоэлектроника. 2008. Вып. 2. С. 34-45.
14. Bogachev M. I., Eichner J. F., Bunde A. On the occurence of extreme events in long-term correlated and multifractal data sets // Pure appl. geophys. Vol. 165. P. 1195-1207.
15. Колмогоров А. Н. Интерполяция и экстраполяция стационарных случайных последовательностей // Изв. АН СССР. Cер. математич. 1941. T. 5, № 3. C. 18-24.
16. Wiener N. Extrapolation, interpolation and smoothing of time series. New York: Wiley, 1949. 166 p.
17. Statistics of return intervals between long heartbeat intervals and their usability for online prediction of disorders / M. I. Bogachev, I. S. Kireenkov, E. M. Nifontov, A. Bunde // New J. phys. 2009. Vol. 11. P. 063036 (1-18).
18. Богачёв М. И. Сравнительная оценка информативности кратковременной и долговременной зависимостей трафика при прогнозировании его динамики в телекоммуникационных системах // Изв. вузов России. Радиоэлектроника. 2009. Вып. 2. С. 52-59.
19. Mandelbrot B. B. Gaussian self-affinity and fractals. New York: Springer, 2002. 283 p.
20. Богачёв М. И. Сравнительный анализ помехоустойчивости методов прогнозирования выбросов случайных сигналов с фрактальными свойствами при использовании информации о кратковременной и долговременной зависимостях // Изв. вузов России. Радиоэлектроника. 2010. Вып. 1. С. 11-21.
M. I. Bogachev, O. A. Markelov
Saint-Petersburg state electrotechnical university "LETI"
On the linearization efficiency in optimal prediction of extreme events in dynamical series with long-range dependence
The efficiency of optimal linear and quasi-optimal nonlinear extreme event predictors in the dynamical series with long-range dependence is estimated. The limits of the linearization efficiency and thus of the optimal linear predictor performance in the presence of nonlinear long-range dependencies are shown by statistical simulations. Suggestions on the predictor choice in the presence various kinds of long-range dependence are given.
Long-range dependence, optimal linear predictor, extreme events, monofractal models, multifractal models
Статья поступила в редакцию 20 января 2012 г.
УДК 621.396.62
В. М. Кутузов, К. А. Мазуров
I Многосегментный авторегрессионный алгоритм обработки сложномодулированных сигналов. Характеристики точности
Рассмотрены характеристики точности и характеристики разрешения-измерения многосегментного авторегрессионного алгоритма спектральной обработки сложномодулированных сигналов, обеспечивающих квазинепрерывный режим работы радиолокационной станции. Получены зависимости дисперсии ошибки измерения, а также смещения частоты, от разности частот разрешаемых гармонических сигналов.
Характеристики точности, дисперсия ошибки измерения, предел Крамера-Рао, асимптотически оптимальная оценка, характеристики разрешения-измерения, смещение оценки
Настоящая статья является продолжением публикаций, посвященных исследованию многосегментного авторегрессионного (АР) алгоритма обработки сложномодулированных сигналов [1], [2]. В предыдущих работах исследованы характеристики обнаружения (ХО) и характеристики помехоустойчивости (ХП) этого алгоритма обработки с акцентом на применение его в радиолокации. Особое внимание уделено характеристикам разрешения-обнаружения (ХРО), получены количественные соотношения для энергетических затрат, необходимых для обеспечения высокой разрешающей способности.
Наряду с этими характеристиками в радиолокации важную роль играет точность измерения параметров цели, таких, как скорость, координаты и т. д. В общем случае она зависит и от параметров радиолокационной станции (РЛС), и от используемого алгоритма обработки сигналов.
Рассмотрим в качестве информационного параметра, подлежащего оценке, допле-ровский сдвиг частоты сигнала, отраженного от цели. Количественной мерой точности измерений частотных параметров служат дисперсия ошибки измерения частоты гармони-2
ческого сигнала а у и частотное смещение ту [3]. Зависимости этих величин от входного
отношения "сигнал/шум" (ОСШ) q будем считать характеристиками точности (ХТ). При построении ХТ предполагается присутствие одного полезного сигнала. АР-Оценка спек-
© Кутузов В. М., Мазуров К. А., 2012