Научная статья на тему 'Обнаружение статистических закономерностей при решении задачи прогнозирования температуры приземного воздуха'

Обнаружение статистических закономерностей при решении задачи прогнозирования температуры приземного воздуха Текст научной статьи по специальности «Математика»

CC BY
74
17
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
обнаружение закономерностей / прогнозирование / температура воздуха / уровень значимости / таблица сопряженности

Аннотация научной статьи по математике, автор научной работы — Копылов Алексей Николаевич, Синегубов Сергей Владимирович

Рассмотрен один из подходов к прогнозированию температуры приземного слоя воздуха на примере г. Воронежа

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Копылов Алексей Николаевич, Синегубов Сергей Владимирович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Обнаружение статистических закономерностей при решении задачи прогнозирования температуры приземного воздуха»

На основании полученных результатов исследовательских испытаний целесообразно:

- внедрить метод экспресс-диагностики трубопроводов с прибором MsS 3030R в качестве длинноволнового метода обследования нефте- и газопроводов на объектах нефтегазового комплекса и других производственных объектах различных министерств и ведомств, уточнение характера и размеров дефектов проводить традиционными методами НК.

Литература

1. Мониторинг состояния трубопроводов. Генератор волноводных волн MsS 3030R. М.: ООО «Компания МС Диагностика», 2010. 7 с.

2. СТО Газпром 2-2.4-083-2006. «Инструкция по неразрушающим методам контроля качества сварных соединений при строительстве и ремонте промысловых и магистральных газопроводов». М.: ООО «Информационно-рекламный центр газовой промышленности» 2007. 105 с.

Обнаружение статистических закономерностей при решении задачи прогнозирования температуры приземного воздуха Копылов А. Н.1, Синегубов С. В.2

1 Копылов Алексей Николаевич /Kopylov Alexey Nikolaevich — кандидат технических наук, доцент, старший преподаватель;

2Синегубов Сергей Владимирович /Sinegubov Sergey Vladimirovich — кандидат технических

наук, доцент,

кафедра высшей математики,

Воронежский институт МВД России, г. Воронеж

Аннотация: рассмотрен один из подходов к прогнозированию температуры приземного слоя воздуха на примере г. Воронежа.

Ключевые слова: обнаружение закономерностей, прогнозирование, температура воздуха, уровень значимости, таблица сопряженности.

Несмотря на то, что оправдываемость прогнозов метеорологических величин и явлений погоды за последние десятилетия возросла, проблема повышения точности прогнозов актуальна и на сегодняшний день [1]. В общем случае при решении задачи прогнозирования метеорологических величин (например, температуры воздуха) не всегда требуется знать их значения в заданный момент времени. В ряде случаев достаточно знать, будет ли температура воздуха выше либо ниже по сравнению с текущей.

Рассмотрим задачу среднесрочного прогнозирования погоды на примере Воронежа на основе архива данных за период с 01.02.2011 по 31.10.2013. При этом в качестве исходных данных возьмем только температуру воздуха по состоянию на 13:00 каждого из дней рассматриваемого промежутка. Разобьем исходную

последовательность на две: обучающую (первые отсчетов) и тестовую

(остальные п2 = 2 5 2 отсчета). Задачу прогнозирования будем решать как для исходного временного ряда, так и для ряда, полученного из исходного путем вычитания сезонной компоненты и среднего значения. Таким образом, если у t ( i = 1 , 1) - отсчеты исходного ряда (температуры воздуха), то значения второго ряда могут быть рассчитаны в соответствии с формулой:

48

(1)

yL= yL — a sin(aii) — b cos(oii) — c,

где о = 2 л/365.2 5 - угловая частота сезонной компоненты, неизвестные a,b и с можно рассчитать в соответствии с методом наименьших квадратов [2, 3], исходя из минимизации £tyt ( i = 1 , пг) , либо то же самое, исходя из решения системы линейных алгебраических уравнений:

1a£i sin2(aii) + Ь sin(aii) cos(aii) + c £iSin(a)i) = Y,iVi sin(aii), a£ jco s (о i)sin(o i) + b£cos2 (о i) + c£ jCos (о i) = £ os (о i), (2)

a £* sin(aii) + b £* cos(wi) + c £* 1 = Si У; ■

Прогнозировать изменение температуры воздуха будем исходя из обнаруженных на обучающей последовательности статистических закономерностей (СЗ). При этом под статистической закономерностью (по аналогии с вероятностной закономерностью в [4]) будем подразумевать правило А1&А 2 &. . . &А к — А0 (где А0 ,А х,. . . ,А к — некоторые атомарные формулы), удовлетворяющее следующим условиям:

1) оценка условной вероятности р(А 0 | А 1&А 2 &. .,&А к) Ф О,

2) оценка условной вероятности правила строго больше

оценок условных вероятностей каждого из его подправил.

В качестве атомарных формул для исходного временного ряда, в частности, можно взять следующие:

1) yi—m 1 < yi—m2 ,

2) yi—m 1 _ yi—m 1 — 1 < yi—m2 _ yi—m2 — 1,

3) (yi—m 1 + yi —m 1—1) /2 < (yi—m2 + yi—m2 — 1) /2 ,

4) min (У—m ^ У—m 1—О < min (У—m2 , У—m2 — 1 ),

5) тах(у—m 1 У—m 1 — 0 < max (У—m2, У—m2 — О> (3)

где и — некоторые натуральные числа либо ноль.

Для временного ряда, полученного в соответствии с (1), можно записать аналогичные формулы. Кроме того, в более общем случае можно рассмотреть и другие атомарные формулы.

Чтобы проверить на обучающем множестве, является ли некоторое правило статистической закономерностью, необходимо проверить выполнимость условий 1 и 2. При этом прежде, чем переходить к оценке условной вероятности , необходимо проверить, являются ли признаки

и зависимыми или нет при заданном уровне ошибки первого рода (

положим равным О. О 5) [5-6]. Так как в рассматриваемой задаче метод отбора данных является перекрестным [5], то достаточно построить таблицу сопряженности 2x2 (табл. 1).

Таблица 1. Таблица сопряженности

Л А0

A1&A28i ■■■ ”12

A1&A28i ■■■ ”21 ”■22

и далее воспользоваться либо критерием Пирсона, либо точным критерием независимости Фишера. Если окажется, что при заданном а гипотезу о независимости признаков и отвергаем, то условную вероятность

р (А 0 | А 1&А 2 &... &А к) можно оценить следующим образом:

р (Ао | А1&А2&. ..&Ак) = ~~ . (4)

ПЦ + П12

49

Статистические закономерности в рассматриваемой задаче будем искать в соответствии с алгоритмом, изложенным в [4], однако при этом наложим дополнительные ограничения на частоту истинности посылки А 1&А2&... &Ак — данная посылка должна быть истинной не менее, чем в у = 1 0 % случаев от объема обучающей выборки. Данное ограничение наложено для того, чтобы можно было объективно сравнить оценки условных вероятностей на обучающей и тестовой выборках. В общем случае выбор данного порога произволен, однако чем ниже порог, тем больше на тестовой выборке будет правил А 1&А 2 &. . . &Ак — А 0, для которых при заданном не будет основания отвергнуть гипотезу о независимости признаков и А 1&А2& . . . &Ак-

Для уменьшения объема расчетов допустимыми атомарными формулами А ; будем считать только те, для которых оценка условной вероятности превышает

некоторый порог (например, 0.55). Кроме того, дополнительно ограничим максимальное число атомарных формул в посылке А 1&А 2 &. . . &Ак (к положим равным 4). Наложим ограничения на значения i, связанные с тем, что исходные данные могут быть неполными, а также на то, что при построении таблицы сопряженности (табл. 1) значения временного ряда, участвующие в атомарных формулах (3), должны быть определены. Так, например, в исходном временном ряде рассматриваемой задачи отсутствуют 4 значения — 3 в обучающей последовательности и 1 в тестовой. В более общем случае, при большом объеме исходных данных можно воспользоваться алгоритмом, приведенным в [7].

Среди обнаруженных закономерностей будем отбирать только те, для которых оценка условной вероятности на обучающей выборке превысит . Однако при этом наложим дополнительные ограничения на добавление новой статистической закономерности в архив — новое правило будем добавлять в

архив статистических закономерностей, если:

1) правило А ]_&А 2 &. . . &А к — А 0 является уточнением правила А ^_&А2&. . . &А к _ —

и при этом справедливо неравенство

р(А 0 | А 5&А 2& ...&Ак) - р(А 0 | А 1&А2& ... &А к _ J > 0.0 1;

2) множество значений i £ И < „ при которых верна посылка А ^_&А 2 &... &Ак (либо

), отличается от аналогичного множества для уже добавленных в архив закономерностей на некоторую величину /?.

Второе условие введено, в том числе, для исключения идентичных либо почти идентичных правил. Так, например, атомарная формула 1) в (3) при к = m + 2 будет идентична атомарной формуле 3) при .

В качестве атомарной формулы А 0 рассмотрим условия yi+7 < у* (у;+7 > у*), т. е. температура воздуха в 13:00 через семь дней будет меньше (больше) температуры воздуха по состоянию на 13:00 рассматриваемого дня. Аналогичную формулу А 0 возьмем и для ряда, заданного соотношением (1). Положим в атомарных формулах (3) т 1 = 0,8, m2 = 00 1 + 1,9 .

Результаты эксперимента приведены в табл. 2.

50

Таблица 2. Результаты эксперимента

^0 У;+7 < У; У;+7 > У; У;+7 < У; У;+7 > У;

у = 10% Количество обнаруженных законо мерно стей 0 0 995 0

Среднее арифметическое оценок условных вероятностей отобранных СЗ на тестовой выборке 0 0 0.84 0

у = 7% Количество обнаруженных законо мерно стей 0 10 6421 89

Среднее арифметическое оценок условных вероятностей отобранных СЗ на тестовой выборке 0 0.65 0.85 0.73

Таким образом, несмотря на достаточную простоту математической модели, видно, что при у = 1 0 % точность среднесрочного прогнозирования уменьшения температуры воздуха (с поправкой на изменение, связанное с сезонной компонентой) достаточно высока. При снижении у до 7% число статистических закономерностей увеличилось. Также появились закономерности, отвечающие за увеличение температуры, однако точность обнаруженных закономерностей на тестовой выборке оказалась ниже.

К недостаткам данной модели следует отнести тот факт, что прогнозировать изменение температуры можно лишь в том случае, если на текущий момент посылка оказалась истинной хотя бы у одной из обнаруженных статистических закономерностей. Очевидно, что для повышения точности прогнозирования и увеличения количества обнаруженных статистических закономерностей желательно использовать дополнительную информацию о состоянии окружающей среды: атмосферном давлении, влажности и т. п.

Литература

1. Васильев А. А., Вилъфанд Р. МПрогноз погоды: монография. — М.:

Гидрометеорологический науч.-исслед. центр РФ. — 2008. — 60 с.

2. Копылов А. Н. Основы вычислительной математики: учебное пособие. — Воронеж: ВИ МВД России, 2012. — 183 с.

3. Родин В. А., Синегубов С. В. Применение метода наименьших квадратов для выравнивания экспериментальных данных, характеризующих поток информации интенсивного режима работы ПЦО // Вестник Воронежского института МВД России. — 1999. — № 2 (4). — С. 152-155.

4. Демин А. В., Витяев Е. Е. Разработка универсальной системы извлечения знаний «Discovery» и ее применения // Вестник НГУ. Серия: Информационные технологии. — 2009. — Т. 7. — Вып. 1. — С. 73-83.

5. Флейс Дж. Статистические методы для изучения таблиц долей и пропорций. Пер. с англ. Под ред. и с предисл. Ю. Н. Благовещенского. — М.: Финансы и статистика, 1989. — 319 с.

6. Думачев В. Н. Теория вероятностей и математическая статистика: учебник. — Воронеж: Воронежский ин-т МВД России, 2006. — 199 с.

7. Копылов А. Н. Алгоритм поиска статистических закономерностей при решении задач двухклассовой классификации // Вестник Воронежского института МВД России. — 2015. — № 2. — С. 233-238.

51

i Надоели баннеры? Вы всегда можете отключить рекламу.