УДК 504.75, 311.2
М. И. Богачёв, О. А. Маркелов, В. Н. Михайлов
Санкт-Петербургский государственный электротехнический университет "ЛЭТИ" им. В. И. Ульянова (Ленина)
А. Р. Каюмов
Казанский (Приволжский) федеральный университет
П. В. Прудников
Омский государственный университет им. Ф. М. Достоевского
Д. В. Тишин
Институт прикладной экологии и недропользования Академии наук Республики Татарстан
Оценка эффективности линейных и нелинейных методов прогнозирования выбросов данных
л
физиологического и экологического мониторингов1
Проведена оценка эффективности линейного и нелинейного прогнозирования выбросов в динамических рядах, представленных данными физиологического и экологического мониторингов. С помощью статистического моделирования показаны границы эффективности линеаризации при использовании оптимальных линейных методов в присутствии нелинейной долговременной зависимости. Выработаны рекомендации по применению различных методов прогнозирования с учетом характера долговременной зависимости в данных мониторингов.
Долговременная зависимость, оптимальное линейное прогнозирование, выбросы динамических рядов, метеорологическое прогнозирование, гидрологическое прогнозирование, физиологические ритмы
Известно [1], что колебания таких метеорологических и гидрологических показателей, как температура окружающей среды, количество осадков, уровень воды в реках, характеризуются долговременной зависимостью (ДВЗ) и могут быть удовлетворительно аппроксимированы фрактальными моделями динамических рядов. Аналогичные статистические свойства показаны в отношении ряда биологических и физиологических данных: от генетического кода, формируемого в результате эволюционных преобразований, до различных физиологических ритмов, характеризующих регуляторные процессы в живом организме [2].
Несмотря на то, что указанные статистические свойства подтверждены достаточно давно, их прикладное использование в значительной мере ограничено. В частности при решении задач прогнозирования выбросов, обычно ограничиваются анализом кратковременной предыстории динамических рядов, в значительной мере опираясь на математические модели, отражающие только их кратковременную динамику. Подобный подход потенциально приводит к потере информации, заключенной в динамике медленных колебаний динамического ряда [3]. Так же для оптимизации вычислительных затрат часто пре-
1 Работа выполнена при поддержке Министерства образования и науки РФ в рамках ФЦП "Научные и научно-педагогические кадры инновационной России на 2009-2013 годы" (Соглашение о предоставлении гранта № 14.В37.21.2080 от 14.11.2012). 54 © Богачёв М. И., Маркелов О. А., Михайлов В. Н., Каюмов А. Р., Прудников П. В., Тишин Д. В., 2013
небрегают нелинейными зависимостями между отсчетами ряда и ограничиваются применением методов линейного прогнозирования [4]. Как показано в работах [4], [5] с использованием математических моделей и синтезированных данных с линейной и с нелинейной ДВЗ, в ряде случаев за счет эффекта линеаризации данное упрощение практически не снижает качество прогнозирования.
В настоящей статье рассмотрено прогнозирование выбросов реальных динамических рядов, зарегистрированных при мониторинге метеорологических, гидрологических и физиологических показателей с использованием группы методов, ранее применявшихся в работах [4], [5], и проведена сравнительная оценка эффективности линейного и нелинейного прогнозирования.
Основной характеристикой линейной ДВЗ динамического ряда является показатель Хёрста Н, причем для стационарного ряда с положительной корреляцией между отсчетами 0.5 <Н <\. Значение Н — 0.5 соответствует "белому" шуму, значение // > 1 — очень медленно меняющемуся процессу, напоминающему тренд; значение Н — 1 является границей стационарности процесса. Показатель Хёрста Н взаимно однозначно связан с автокорреляционной функцией случайного процесса К т ~ т-^ соотношением Н = 1- у/2. Для описания нелинейной ДВЗ дополнительно введен обобщенный показатель Хёрста Н ц , где q -значение соответствующего момента (в частности, д = 2 соответствует линейной зависимости и Н = Н 2 (см., например, [6]).
На рис. 1 представлены типичные примеры результатов анализа реальных данных, соответствующих рассмотренным выше модельным параметрам, с помощью метода флук-туационного анализа с исключением тренда второго порядка [7], вычисленные для значе-
р/л
10° 0° о о
10"1 сз-о о о
10"2 Э-О о О
10"3
о о о
о о о'
-ооииии^ппппоп.
5
■о ц и и О о О^и П о п п о-
2
иииифпоиоопоп-
9 = 1
101
102
100
10"
10"
10"
О о °
ООО
О О
103
<7 = 1
р/^
( > о
100 —
< > О
10"1 —
< > О
10"2 —
10"3
101
р/Л
100
10
10"
10"
-1<1_
102
О О О
о о
2>_ о о о о о о
И-сг
ч = 1
10
3
<7 = 1
101
102
103
101
102
103
Рис. 1
я
5
б
а
2
3
3
5
Я
в
г
Известия вузов России. Радиоэлектроника. 2013. Вып. 1======================================
ний момента q = 1, 2 и 5. На рис. 1, а, б приведены флуктуационные функции долговременных посуточных колебаний температуры и осадков соответственно (Казань, Россия); прямыми линиями даны аппроксимации асимптотического поведения кривых, соответствующие H « 0.6.. .0.65 соответственно. На рис. 1, в представлены флуктуационные функции для последовательности посуточных значений потока воды в р. Дунай с приближенным значением характеризующего линейную зависимость показателя H ~ 0.8 . На рис. 1, г приведены результаты анализа суточной вариабельности сердечного ритма, полученные в ходе мониторинга H « 0.98 .
Температурные колебания характеризуются выраженной кратковременной зависимостью (КВЗ) (до нескольких суток) и зачастую классифицируются наблюдателем как краткосрочный тренд со значениями H «1.0... 1.3, лежащими за порогом стационарности H = 1.0, в то время как для средне- и долгосрочных врем х масштабов типичны значения H « 0.6...0.7. Из литературы известно, что температурные флуктуации достаточно точно описываются линейными моделями с единственным показателем Хёрста [8], в то время как для описания колебания уровня осадков и потока воды в реках относительно соответствующих сезонных периодичностей рекомендуется применение нелинейных мультифрактальных моделей, в которых вместо единственного показателя Хёрста H используется обобщенный показатель Хёрста H q . При этом линейная зависимость типично характеризуется 0.5...0.6 для колебаний уровня осадков и H « 0.8.. .0.9 для колебаний потоков воды в реках [8].
При оценке прогнозируемости выбросов динамических рядов рассматривались в качестве примера метеорологических данных суммарные суточные осадки и максимальные значения суточных температур, гидрологических данных - потоки воды в реках, физиологических данных - суточные записи сердечного ритма. Использованы три различных метода прогнозирования выбросов динамических рядов: метод оптимального линейного прогнозирования, метод интервальных статистик и метод распознавания предиктора. Поскольку выбор методов прогнозирования и их параметров идентичен рассмотренному в работе [4], подробное описание указанных вопросов в настоящей статье опущено. Оценка эффективности прогнозирования для всех типов данных выполнена на основе рабочих характеристик прогнозирования для выбросов свыше двух значений порога, соответствующих средним интервалам повторения выбросов Rq =10 и 500.
В метеорологических и в гидрологических данных присутствуют различные тренды, наиболее выраженный из которых - сезонный. Этот цикл с достаточной точностью может быть описан при помощи простой детерминированной модели. Таким образом, стохастический анализ может сосредоточиться исключительно на флуктуациях относительно сезонного квазидетерменированного тренда [9].
Обозначим сезонный тренд как d^ ( dk - среднее значение температуры или осадков для к-то дня; 1 < к < 365 - позиция суток в течение каждого года) для начальных (квазистационарных) данных Xj (i - номер суток) и далее сконцентрируемся только на запи-
сях данных без учета тренда, т. е. у, = х, —с!), /о с!). , где а ¿1/- - стандартное отклонение для величины . Метеорологические и гидрологические данные после исключения
из них сезонного тренда обладают квазистационарным поведением. Наоборот, при анализе физиологических данных выраженных трендов не отмечается. Таким образом, в дальнейшем анализе будем рассматривать флуктуационную составляющую метеорологических и гидрологических данных относительно сезонного тренда и физиологические данные без исключения каких-либо трендов.
На рис. 2-5 представлены рабочие характеристики прогнозирования рассматриваемых данных следующими методами: штриховая линия - метод линейной экстраполяции; пунктирная линия - метод распознавания предиктора; штрихпунктирная линия - метод интервальных статистик; сплошная линия - метод оптимального линейного прогнозирования. Последний метод является оптимальным по отношению к теоретической модели данных с линейной ДВЗ (отраженной в показателе Хёрста Н) что, однако, не служит гарантией его оптимальности с точки зрения учета возможных нелинейных составляющих (отраженных обобщенным показателям Хёрста Н ц ), а также КВЗ, трендов и др. Однако, как было показано в работах [4], [5], в ряде случаев частичное использование нелинейных связей между отсчетами динамического ряда за счет эффекта линеаризации практически не уступает нелинейным методам. Поэтому дополнительное сравнение данных методов в применении к реальным данным остается открытым и является предметом исследования авторов настоящей статьи.
На фрагментах а каждого из рис. 2-5 представлены характеристики при значении порога Яд = 10, а на фрагментах б - при Яд = 500. Рис. 2 показывает эффективность прогнозирования флуктуаций температуры, рис. 3 - осадков, рис. 4 - потоков воды в реках, рис. 5 - сердечного ритма.
При сопоставлении результатов оценки прогнозируемости выбросов значений сердечного ритма различными методами (рис. 5) с результатами, полученными с использованием синтезированных данных, сформированных с помощью моно- и мультифрактальных моде-
В
0 0.6 0.4 0.2
В 0. 0.6 0.4 0.2
0.2 0
а
0.1 0.2 0.3 0.4
б
В 0.6 0.4 0.2
0
0.1 0.2 0.3 0.4 а
а
В 0.6 0.4 0.2
0
0.2 0.3
б
Рис. 2 В
0 0.6 0.4 0.2
0 0.1
0.2 0.3 0.4
а
0.1 0.2 0.3 0.4
б
Рис. 4
Рис. 3 В
0 0.6 0.4 0.2
0.1 0.2 0.3 0.4 а
а
Рис. 5
0.2 0.3
б
лей в работе [5], следует отметить качественно аналогичные результаты при 11д =10. Как и
в случае синтезированных данных, которые по форме флуктуационных функций и по значениям обобщенного показателя Хёрста для различных значений q близки к исследуемым классам реальных данных, метод линейной экстраполяции несколько уступает остальным методам. Напротив, при Ид = 500 по сравнению с синтезированными данными существенно худшие результаты отмечаются для всех трех методов, использующих только данные о КВЗ, за исключением метода интервальных статистик. Предположительно, данный факт объясняется влиянием суточного тренда, связанного с особенностями регуляции сердечного ритма в дневное и в ночное время.
Для посуточных значений осадков (см. рис. 3) характерна согласованность прогно-зируемости с результатами, полученными на монофрактальных моделях в работе [5] для обоих рассмотренных значений порогов. В отличие от мультифрактальных данных отмечается низкая эффективность метода распознавания предиктора несмотря на его способность учитывать нелинейные зависимости. Следует отметить схожий тип группировки рабочих характеристик, соответствующих различным методам прогнозирования, на рис. 3 с результатами, полученными на синтезированных реализациях с близким значением Н [5], что также является косвенным признаком доминирования линейной составляющей ДВЗ и практического отсутствия влияния КВЗ, затрудняющего прогнозирование.
При сопоставлении рис. 4 в сравнении с результатами анализа мультифрактальной модели с аналогичным значением Н [5] можно сделать вывод о присутствии ярко выраженной КВЗ в данных о потоках воды в реках. Это особенно проявляется при прогнозировании больших выбросов Яд =500 , где наблюдается существенный выигрыш всех трех
методов, использующих КВЗ, что нехарактерно для синтезированных данных. Следует также отметить, что среди этих трех методов наибольшей эффективностью обладает метод распознавания предиктора, что предположительно связано со значимым вкладом нелинейной составляющей как ДВЗ, так и КВЗ.
Аналогичные выводы о присутствии и линейной, и нелинейной КВЗ можно сделать при анализе прогнозируемости выбросов значений максимальной суточной температуры воздуха (см. рис. 2), где в сравнении с модельными данными [5] наблюдается некоторый выигрыш метода распознавания предиктора, в особенности при Ид = 500.
В заключение отметим, что результаты оценки прогнозируемости на реальных данных согласуются в целом с результатами, полученными с использованием математических моделей, что свидетельствует о корректном представлении ДВЗ свойств реальных процессов. Напротив, расхождения наблюдаются при проявлении выраженной КВЗ, которая в некоторых случаях может быть смоделирована с использованием авторегрессионных фильтров, на вход которых в рассматриваемом случае должны быть поданы синтезированные ДВЗ-процессы (см., например, [6]). Метод прогнозирования может быть выбран, исходя из критериев доступности реализаций для оценки параметра Н, либо из известной предыстории выбросов для использования метода на основе интервальных статистик. 58
В тех случаях, когда расхождение качества прогнозирования при использовании линейных и нелинейных методов мало, например когда линейная зависимость процесса является доминирующей, а вклад нелинейной зависимости ограничен, метод может быть выбран, исходя из его вычислительной сложности. В указанном контексте часто оказываются в выигрыше линейные методы как более просто реализуемые, а также позволяющие за счет эффекта линеаризации во многих случаях осуществлять линейное прогнозирование практически с тем же качеством, что и нелинейное. Следует отметить, что данный эффект примерно в одинаковой мере проявляется как для ДВЗ, так и для КВЗ.
Список литературы
1. Hurst H. E. Long-term storage: an experimental study. London: Constable & Co. Ltd, 1965. 145 p.
2. Multifractality in human heartbeat dynamics / P. Ch. Ivanov, M. G. Rosenblum, L. A. Amaral et al. // Nature. 1999. Vol. 399. P. 461-465.
3. Богачёв М. И. К вопросу об использовании долговременной зависимости при прогнозировании выбросов в системах метеорологического и гидрологического мониторинга // Изв. вузов России. Радиоэлектроника. 2010. Вып. 4. С. 45-53.
4. Богачёв М. И., Маркелов О. А. Эффективность линеаризации при оптимальном прогнозировании выбросов динамических рядов с долговременной зависимостью // Изв. вузов России. Радиоэлектроника. 2012. Вып. 3. С. 46-53.
5. Богачёв М. И., Маркелов О. А. Помехоустойчивость методов прогнозирования выбросов динамических рядов с долговременной зависимостью // Изв. вузов России. Радиоэлектроника. 2012. Вып. 5. С. 15-19.
6. Математические методы выявления регулярных и статистических закономерностей в биомедицинских и экологических данных большого объема / М. И. Богачёв, А. Р. Каюмов, А. С. Красичков, О. А. Маркелов. СПб: Изд-во СПбГЭТУ "ЛЭТИ", 2012. 176 с.
7. Multifractal detrended fluctuation analysis of nonstationary time series / J. W. Kantelhardt, S. A. Zschiegner, E. Koscielny-Bunde et al. // Physica A. 2002.Vol. 316. P. 87-114.
8. Long-term persistence and multifractality of river runoff records: Detrended fluctuation studies / E. Koscielny-Bunde, J. W. Kantelhardt, P. Braun et al.// J. hydrol. 2006. Vol. 322. P. 120-137.
9. - го представления данных в геоинформационных системах экологического мониторинга // М. И. Богачёв, А. Р. Каюмов, О. А. Маркелов, С. Ю. Шевченко // Изв. СПбГЭТУ "ЛЭТИ". 2013. Вып. 2. С. 101-105.
M. I. Bogachev, O. A. Markelov, V. N. Mihaylov Saint-Petersburg state electrotechnical university "LETI" A. R. Kaymov
Kazan (Volga region) federal university P. V. Prudnikov Omsk state university D. V. Tishin
Institute of problems in ecology and mineral wealth, Tatarstan academy of sciences (Kazan)
Linear and nonlinear methods efficiency estimation for predicting extreme values in physiological and ecological monitoring data
The efficiency of linear and nonlinear extreme event predictors in the dynamical series (ecological and physiological monitoring data) is estimated. The limits of the linearization efficiency and thus of the optimal linear predictor performance in the presence of nonlinear long-range dependencies are shown by statistical simulations. Recommendations on application of different methods depending on long-term memory behavior in monitoring data are provided.
Long-range dependence, optimal linear prediction, extreme events, meteorological forecasting, hydrological forecasting, physiological rhythms
Статья поступила в редакцию 21 января 2013 г.