Доклады БГУИР
2011 № 8 (62) УДК 551.509
ЧИСЛЕННЫЙ ЭМПИРИЧЕСКИЙ АНАЛИЗ ТОЧНОСТИ ЛИНЕЙНОГО СТАТИСТИЧЕСКОГО ПРОГНОЗИРОВАНИЯ ТЕМПЕРАТУРЫ АТМОСФЕРНОГО ВОЗДУХА
ВС. МУХА, А.Ф. ТРОФИМОВИЧ
Белорусский государственный университет информатики и радиоэлектроники П. Бровки, 6, Минск, 220013, Беларусь
Поступила в редакцию 4 августа 2011
Приводятся и анализируются эмпирические данные о точности линейного статистического прогнозирования температуры атмосферного воздуха в сравнении с точностью официального прогноза.
Ключевые слова: прогнозирование случайных процессов, алгоритмы прогнозирования, точность прогнозирования, температура атмосферного воздуха.
Введение
В настоящее время выполнен ряд работ в направлении статистического прогнозирования количественных характеристик погоды [1-8]. В частности, в работах [3, 4] получены некоторые теоретические и численные результаты, позволяющие оценить точность алгоритма линейного статистического прогнозирования стационарной случайной последовательности на основе ее математической модели. В работах [5, 6] подобные оценки получены для метеорологических процессов (температуры атмосферного воздуха и атмосферного давления) на метеостанции 26850 (г. Минск). Интерес представляют также оценки точности линейного статистического прогнозирования метеорологических процессов на основе результатов их реального прогнозирования и их сравнение с оценками точности других доступных для этого прогнозов. В данной статье приводятся и анализируются результаты такого сравнения для температуры атмосферного воздуха на метеостанции 26850 (г. Минск).
Алгоритм линейного статистического прогнозирования случайной последовательности
Задача линейного экстраполирования (прогнозирования) скалярной стационарной случайной последовательности у^), согласно А.Н. Колмогорову [9], состоит в подборе при заданных 5 > 0 и т > 0 таких действительных коэффициентов а1, при которых линейная комбинация
Ь = а1у(/ -1) + а2 у(/ - 2) +... + а5 у(/ - 5) (1)
доставляет наиболее точное приближение к случайной величине у^ + т). За меру точности приближения принимается величина ст2 = Е(у(/ + т) - Ь)2. Данная задача имеет следующие особенности: 1) при постановке задачи фиксируется алгоритм линейного прогнозирования (1); задача формулируется для скалярной случайной последовательности; 3) рассматривается стационарная случайная последовательность; 4) предполагается прогнозирование на один фиксированный момент времени t + т ; 5) рассматривается последовательность достаточно общего типа, т.е. на последовательность не накладываются дополнительные условия, такие как условия авторегрессии, авторегрессии-скользящего среднего и др. Первые четыре особенности позво-
ляют выполнять обобщения задачи в различных направлениях, а пятое делает постановку задачи привлекательной с точки зрения рассмотрения адекватной для практических приложений математической модели случайной последовательности.
В работе [1] выполнено обобщение этой задачи и получен многомерно-матричный алгоритм прогнозирования для случая векторной (п -мерной) случайной последовательности, которая может быть как стационарной, так и нестационарной, и прогнозирования на набор фиксированных моментов времени. Этот алгоритм представлен также в работе [3]. Поскольку мы будем выполнять анализ результатов прогнозирования, выполненных с помощью этого алгоритма, то приведем его описание.
Рассматривается векторная (п -мерная) случайная последовательность У(ti) = (Уl(ti),...,Уп(t¡), i = 1,2,.... «Наблюдаемая» часть последовательности представляется как двухмерная (п х 5) -матрица
5 = ^¡.л) = (у¡А» ¡1 = 1П, ¡2 = 15
а «прогнозируемая» часть - как двухмерная (п х (^ - ^ +1)) - матрица
Л = Сл^ = (У,Д+,+К -¡1 = 1 п , ¡2 = 1 k2 - k1 + 1 ^ k1 ^ k2
где 5 - число отсчетов наблюдаемой части реализации, k2 - минимальное и максимальное число тактов прогноза соответственно (минимальная и максимальная заблаговременность прогноза). Задача прогнозирования в этом случае состоит в том, чтобы по наблюдению реализации х = (х 1 ) матрицы 5 найти оценку у = (yj j ) реализации у = (yj j ) матрицы л, минимизирующую средний риск при квадратичной функции потерь
г = Е(0,2(у - у)2).
Здесь Е - символ математического ожидания, 0,2 (у - у)2 - (0,2)-свернутый квадрат матрицы (у - у) [10].
Оптимальным решением данной задачи является оценка в виде апостериорного среднего
у = Е (л / х). (2)
Апостериорная дисперсионная матрица Dлl5 = Е (0,0 (л - у)2/ х), где 0,0(л- у)2 - (0,0) -свернутый квадрат матрицы (л - у), характеризует точность оценки (2).
Для гауссовских случайных матриц 5 и л, т.е. для гауссовской случайной последовательности у ), эта оценка является линейной по наблюдению х,
у = ^ + 0,2(0,2(^л,5 0,2D¡1)(х - А5 )), (3) а дисперсионная матрица оценки определяется выражением
^/5= Dл- °'2D—^ ) (4)
Здесь А5 = Е (5), Ал = Е (л) - математические ожидания, D% = Е (0,0 (5 — А5 )2), Dл = Е (0,0 (л - Ал )2) - дисперсионные матрицы, R5 л = Е(0 0 ((5 - А5 )(л - Ал))) - взаимная ковариационная матрица матриц 5 и л соответственно, 0,2D—1 - матрица, (0,2)-обратная к D5 [10], Rл5 = Rт^л, Т - символ транспонирования матрицы R%л в соответствии с подстановкой [10]:
Т =
fi i i i ^
= В4,2 .
V ¡з , ¡4, ¡1, 2 )
Выражение (3) представляет алгоритм линейного статистического прогнозирования, результаты работы которого исследуются в данной статье на примере прогнозирования температуры атмосферного воздуха.
Для практического применения полезно привести определения входящих в выражения (3), (4) матриц в элементной форме:
А = (аи,-2 ) = (Е)) , '1 = 1 П% , '2 = 1, 55 , А = (а . . ) = (Е(л. . )), /, = 1, п , j, = 1,5 ,
Л у Л ,4 4 'ЛЛ"' •'1 ' Л ' ->2 ' л '
= Щм-Н-О = (Е(Е^Л ^А^ '1 = 1, ^ , '2 = 1, , 'з = 1, п? , '4 = 1, 55 , Ал = К,.1,Л,.3,.4 ) = (Е(Л.1,Л Л.3,л )) , .1 = 1, пл , .2 = 1, 5л , .3 = 1, пл , .4 = 1, 5Л ,
ЯЕ,Л = (ГЕ,Л = л¡3,¡4)), = 1, п1, '2 = 1 5Е , '3 = 1, ПЛ, '4 = 1 5Л .
Кружок сверху символа обозначает центрированную случайную величину, например,
Е ■ . = Е ■ . - а. . .
Пусть известны математическое ожидание Ау (/) = (ау. (/)) = (Е(у. (/))) и ковариационная
функция Яу (/, и) = (г . (/,и)) = (Е(у' (/) у. (и))) векторного случайного процесса у(/). Тогда матрицы в выражениях (3), (4) могут быть получены по следующим формулам:
А. = (а. . . ) = (а . (¿. )), I = 1, п, и = 1,5,
5 V е,^/ V у,,1 V ¡2"' 1 ' ' 2 ' '
А = (а . . ) = (а . ,)), /, = 1, п , /' = 1, к. - к +1,
Л 4 Л ,'1,'2 ' у^ 4 '2+5+к1 -1 ' 1 ' ' 2 '2 1 '
Д = . . . . ) = (Е(Е- , Е- , )) = (Е(у. (Г. )у■ (и, )) = (г . . (Г. ,и. ))
, ¿3 = 1, п , / 2 , '4 = 1, 5 ,
1' 2 3 ' 4 1 2 3 4 У > 1 > 3 2 4
ИЛ = (^Л,'1 ,'2,'3,'4 ) = (Е(Л'1 ,'2+5+к1 -1 Л'3,'4 +5+к1 -1)) =
= (е(у ' +5+к1 -1) у '3 (и'4+5+к1 -1))) = (гу ^+5+к1 -l, \+5+к1 -1)):
'1, '3 = 1, п , /2, /4 = 1, к2 - к1 +1,
^5,Л (ГЕ,Л,'1,'2,'3,'4 ) (Е(Е'1,'2 Л'3,'4 +5+к1 -1)) = (Е С/ '1 у '3 (и'4 + 5+к1 -1))) = (Гу,'1,'3 , и'4 + 5+к1 -1)) =
'1, /3 = 1, п , /2 = 1,5, /4 = 1, к2 - к1 +1,
ЯЛ,Е = (ЯЕ,Л )^
= Я (и -1), и предыдущие формулы принимают следующий вид:
"Л,5 у 5,Л;
Для стационарного случайного процесса у (0 имеем Ау Ц) = (ау1), Яу (¿, и) = Яу (/ - и)
у4и -
А5 = (а5,'1,'2 ) = (ау,'1 ), '1 = 1 n, '2 = 1>5 , 16
А = (а . . ) = (а .), Л = 1, и, и = 1, к.—к, +1,
Л 4 Л,г1,г2 У,Л 1 2 '2 1 '
Л = (^ ■ ■ ) = (г (^ — И )) , Л , К = 1, и, и, Л = 1, 5 , Л = (^ . . . . ) = (г . . , — и. ^ ,)), Л,/, = 1,и , и,л = 1,к. — к +1,
Л 4 Л,1\,1г,13,1ь У,г1,г3 г2+5+кх— 1 г4 +5+^—1" ' Р 3 ' ' 2> 4 '2 1 '
Л = (г . . . . ) = (г . . (/. — и. ,)), Л, /' = 1, и , и = 1,5, л = 1, к. — к +1.
Описание эксперимента и его результатов
В статье анализируется алгоритм линейного статистического прогнозирования (3) стационарной случайной последовательности применительно к температуре атмосферного воздуха. Практическое применение этого алгоритма состоит из двух этапов: получения оценок параметров алгоритма прогнозирования на основе оценок математического ожидания и ковариационной функции [8] и непосредственного прогнозирования. Для непосредственного прогнозирования используется предыстория текущего года, а для получения оценок параметров алгоритма прогнозирования - предыстория более ранних лет. Характер используемого алгоритма прогнозирования предполагает выделение определенных интервалов стационарности реальной последовательности. Выбор этих интервалов в значительной степени определяется организацией метеорологических данных. Файлы фактических метеорологических данных содержат данные за один календарный месяц [11]. Внутри файла данные упорядочиваются по датам, а в пределах одной даты - по времени периодичностью в три часа начиная с нуля часов по Гринвичу. Наиболее естественным является предположение и выбор интервала стационарности длительностью в календарный месяц, а также получение оценок параметров алгоритма прогнозирования также для каждого календарного месяца. Однако такой алгоритм прогнозирования будет более адекватным для прогнозирования в середине месяца (15-го числа каждого месяца) и менее адекватным для прогнозирования в начале или в конце месяца, например, 2-го или 28-го числа месяца. С целью уменьшения этого нежелательного эффекта из месячных файлов формировались файлы длиной в месяц с данными двух соседних месяцев, например с данными от 15 мая до 15 июня. Эти новые файлы позволяют получать более приемлемые алгоритмы для прогнозирования в начале и в конце месяца. Выполнялось линейное статистическое прогнозирование температуры воздуха в соответствии с алгоритмом (3) на метеостанции 26850 (г. Минск). Параметры алгоритма прогнозирования рассчитывались по имеющимся в распоряжении данным за 19982003, 2006-2009 гг. Это позволило использовать данные за 5-10 лет, в зависимости от времени выполнения прогноза. Фактическое число лет, использованное для расчета оценок параметров алгоритма прогнозирования, приведено в таблице в нижней строке каждого года. Так, при расчете прогнозов в январе - апреле 2010 г. использовались метеоданные за 10 предыдущих лет.
Число выполненных прогнозов и число лет, использованное для расчета оценок параметров алгоритма прогнозирования, по годам и месяцам на метеостанции 26850 (г. Минск)
Янв. Февр. Март Апр. Май Июнь Июль Авг. Сент. Окт. Нояб. Дек.
2007 0 0 0 0 2 3 13 8 9 11 8 7
- - - - 6 6 5 6 6 6 6 6
2008 6 4 5 6 4 1 3 4 3 3 3 3
8 8 8 8 7 7 6 7 7 7 7 7
2009 3 1 1 2 2 0 5 9 19 24 19 14
9 9 9 9 8 - 7 8 8 8 8 8
2010 24 23 22 23 19 22 24 24 23 24 23 27
10 10 10 10 9 9 8 9 9 9 9 9
Всего 33 28 28 31 27 26 45 45 54 62 53 51
Выполнялось ретроспективное прогнозирование (прогнозирование задним числом) в различные дни 2007-2010 гг. Для прогнозирования использовалась предыстория в 112 отсчетов, а прогноз выполнялся на глубину в 112 отсчетов (прогноз 112/112 в отсчетах, или 336/336 в часах, или 14/14 в сутках). Это значит, что в формуле (3) использовались следующие значения параметров: к1 = 1, к2 = 5 = 112. Большинство прогнозов выполнялось по состоянию на де-
вять часов по Гринвичу. Результаты прогнозирования группировались по месяцам. В отдельный месяц включались результаты прогнозов, выполненных в дни данного месяца. В таблице приведены числа выполненных прогнозов по месяцам (верхние строки каждого года). Из таблицы видно, в частности, что наибольшее число прогнозов (27) рассчитано за декабрь 2010 г. В сумме выполнено 483 прогноза.
Ретроспективное прогнозирование позволяет получить фактическую ошибку прогнозирования. Для фиксированной глубины прогноза рассчитывалась выборочная средняя квадратичная ошибка (с.к.о.) статистического прогноза:
"V
1Е ('пм - ъ )2, г =1,26=
где 'пр . - прогнозное значение температуры атмосферного воздуха на момент времени г; 'ф г. -
ф,г
фактическое значение температуры атмосферного воздуха на момент времени г; k - число выполненных прогнозов. Выборочные с.к.о. рассчитывались не по всем 112 отсчетам, а на полдень и полночь (15 ч и 3 ч по Гринвичу соответственно). В результате были рассчитаны 26 значений с.к.о. По такой же формуле были рассчитаны также соответствующие значения с.к.о. прогноза Гисметео стгисг., г = 1,26 [12].
На рис. 1, 2 представлены графики выборочных с.к.о. линейного статистического прогноза и прогноза Гисметео (ломаные кривые). Ошибки прогнозирования дневных температур помечены квадратным маркером. Непрерывные кривые являются квадратичными МНК-аппроксимациями ломаных кривых.
На рис. 1 представлены графики с.к.о., рассчитанных по всем 483 прогнозам за 20072010 гг. Видно, что с.к.о. растут с увеличением глубины прогноза. С.к.о. прогноза дневных температур выше с.к.о. прогноза ночных температур. С.к.о. прогноза Гисметео меньше с.к.о. линейного статистического прогноза. Вместе с тем эта разница не столь существенная. Ее значения колеблются от 0 С до 2 С. В то же время разброс с.к.о. дневных и ночных температур для прогноза Гисметео выше.
Глубина прогноза, ч
Рис. 1. Графики годовой средней квадратичной ошибки прогнозов
На рис. 2 представлены графики с.к.о. для каждого месяца года. Здесь результаты не столь однозначны. В декабре и январе статистический прогноз заметно хуже прогноза Гисметео. Максимальное отличие в январе достигает 4 °С, а в декабре - 3 С. В октябре, ноябре и феврале статистический прогноз также хуже прогноза Гисметео, но не столь заметно: в октябре и феврале максимальная разность достигает 1,5 °С, в ноябре - 2 °С. В апреле, мае, июне, июле и августе оба прогноза примерно равноценны. В марте и сентябре статистический прогноз оказывается более точным для долгосрочного прогнозирования (более семи дней).
г=1
Март
Апрель
Глубина прогноза, ч Глубина прогнояя ч
Май Июнь
Июль
Август
Сентябрь
Октябрь
Ноябрь Декабрь
Рис. 2. Графики помесячной средней квадратичной ошибки прогнозов
Анализ отдельных прогнозов и сопоставление их с фактическими изменениями температуры воздуха показывают, что исследуемый статистический алгоритм достаточно хорошо отслеживает тенденцию развития прогнозируемого процесса.
Заключение
Представленные в статье данные позволяют сделать предварительные выводы о точности линейного статистического прогноза температуры атмосферного воздуха в сравнении с точностью официального прогноза Гисметео. Безотносительно к периоду прогнозирования прогноз Гисметео оказывается более точным на 0-2 C в зависимости от глубины прогноза. Вместе с тем прогноз Гисметео обладает большим разбросом значений в прогнозировании дневных и ночных температур. Существуют периоды года (март, сентябрь), когда статистический прогноз оказывается более точным при долгосрочном прогнозировании (более чем на семь дней). Существуют также периоды года (декабрь, январь), когда линейный статистический прогноз достаточно существенно уступает по точности прогнозу Гисметео. Эти периоды коррелируются с периодами, в которые распределение температуры не является гауссовским [2]. Это может свидетельствовать о том, что алгоритма линейного (гауссовского) прогнозирования для этих периодов года недостаточно и возможно увеличение точности за счет разработки алгоритмов нелинейного статистического прогнозирования.
С учетом свойств линейного статистического прогнозирования (удовлетворительной точности, невысоких требований к ресурсам, низкой стоимости прогноза, возможностей достаточно хорошего отслеживания тенденций развития прогнозируемого процесса) его можно рекомендовать к практическому использованию наряду с другими методами прогнозирования.
NUMERICAL EMPIRICAL ANALYSIS OF ACCURACY OF THE LINEAR STATISTICAL FORECASTING OF THE TEMPERATURE OF THE
ATMOSPHERIC AIR
V S. MUKHA, A.F. TROFIMOVICH
Abstract
The empirical data about accuracy of the linear statistical forecasting of the temperature of the atmospheric air in contrast with accuracy of the official forecast are brought and analysed.
Литература
1. Муха В.С. // Информационные системы и технологии (IST'2004). Материалы Международной конференции. 2004. Ч. 2. С. 195-200.
2. Муха В.С., Стасевич О.Н. // Информационные системы и технологии (IST'2006). Третья Международная конференция. 2006. Ч. 2. С. 190-197.
3. Муха В.С. // Информатика. 2009. №2 (22). С. 83-92.
4. Муха, В.С., Трофимович А.Ф. // Международная научная конференция «X Белорусская математическая конференция». 2008. Ч. 5. С. 56-57.
5. Муха В.С, Трофимович А.Ф. // Информатика. 2008. №1 (17). С. 113-124.
6. Муха В.С, Трофимович А.Ф. // Докл. БГУИР. 2009. №7 (45). С. 87-92.
7. Муха В.С., Козячий А.Н. // Материалы научно-практической конференции «Белорусская статистика: вчера, сегодня, завтра». 2010. С. 291-294.
8. Муха В.С, Трофимович А.Ф. // Докл. БГУИР. 2009. №1 (39). С. 93-99.
9. Колмогоров А.Н. // Известия АН СССР. 1941. Т. 5. С. 3-14.
10. Муха В.С. Анализ многомерных данных. Минск, 2004.
11. Сайт Pogoda [Электронный ресурс]. Режим доступа: http://www.pogoda.by/
12. Сайт Gismeteo [Электронный ресурс]. Режим доступа: http://www.gismeteo.ru/