Обнаружение статистических закономерностей при решении задачи прогнозирования температуры приземного воздуха

Копылов Алексей Николаевич; Синегубов Сергей Владимирович

На основании полученных результатов исследовательских испытаний целесообразно:

- внедрить метод экспресс-диагностики трубопроводов с прибором MsS 3030R в качестве длинноволнового метода обследования нефте- и газопроводов на объектах нефтегазового комплекса и других производственных объектах различных министерств и ведомств, уточнение характера и размеров дефектов проводить традиционными методами НК.

Литература

1. Мониторинг состояния трубопроводов. Генератор волноводных волн MsS 3030R. М.: ООО «Компания МС Диагностика», 2010. 7 с.

2. СТО Газпром 2-2.4-083-2006. «Инструкция по неразрушающим методам контроля качества сварных соединений при строительстве и ремонте промысловых и магистральных газопроводов». М.: ООО «Информационно-рекламный центр газовой промышленности» 2007. 105 с.

Обнаружение статистических закономерностей при решении задачи прогнозирования температуры приземного воздуха Копылов А. Н.1, Синегубов С. В.2

1 Копылов Алексей Николаевич /Kopylov Alexey Nikolaevich — кандидат технических наук, доцент, старший преподаватель;

2Синегубов Сергей Владимирович /Sinegubov Sergey Vladimirovich — кандидат технических

наук, доцент,

кафедра высшей математики,

Воронежский институт МВД России, г. Воронеж

Аннотация: рассмотрен один из подходов к прогнозированию температуры приземного слоя воздуха на примере г. Воронежа.

Ключевые слова: обнаружение закономерностей, прогнозирование, температура воздуха, уровень значимости, таблица сопряженности.

Несмотря на то, что оправдываемость прогнозов метеорологических величин и явлений погоды за последние десятилетия возросла, проблема повышения точности прогнозов актуальна и на сегодняшний день [1]. В общем случае при решении задачи прогнозирования метеорологических величин (например, температуры воздуха) не всегда требуется знать их значения в заданный момент времени. В ряде случаев достаточно знать, будет ли температура воздуха выше либо ниже по сравнению с текущей.

Рассмотрим задачу среднесрочного прогнозирования погоды на примере Воронежа на основе архива данных за период с 01.02.2011 по 31.10.2013. При этом в качестве исходных данных возьмем только температуру воздуха по состоянию на 13:00 каждого из дней рассматриваемого промежутка. Разобьем исходную

последовательность на две: обучающую (первые отсчетов) и тестовую

(остальные п2 = 2 5 2 отсчета). Задачу прогнозирования будем решать как для исходного временного ряда, так и для ряда, полученного из исходного путем вычитания сезонной компоненты и среднего значения. Таким образом, если у t ( i = 1 , 1) - отсчеты исходного ряда (температуры воздуха), то значения второго ряда могут быть рассчитаны в соответствии с формулой:

48

(1)

yL= yL — a sin(aii) — b cos(oii) — c,

где о = 2 л/365.2 5 - угловая частота сезонной компоненты, неизвестные a,b и с можно рассчитать в соответствии с методом наименьших квадратов [2, 3], исходя из минимизации £tyt ( i = 1 , пг) , либо то же самое, исходя из решения системы линейных алгебраических уравнений:

1a£i sin2(aii) + Ь sin(aii) cos(aii) + c £iSin(a)i) = Y,iVi sin(aii), a£ jco s (о i)sin(o i) + b£cos2 (о i) + c£ jCos (о i) = £ os (о i), (2)

a £* sin(aii) + b £* cos(wi) + c £* 1 = Si У; ■

Прогнозировать изменение температуры воздуха будем исходя из обнаруженных на обучающей последовательности статистических закономерностей (СЗ). При этом под статистической закономерностью (по аналогии с вероятностной закономерностью в [4]) будем подразумевать правило А1&А 2 &. . . &А к — А0 (где А0 ,А х,. . . ,А к — некоторые атомарные формулы), удовлетворяющее следующим условиям:

1) оценка условной вероятности р(А 0 | А 1&А 2 &. .,&А к) Ф О,

2) оценка условной вероятности правила строго больше

оценок условных вероятностей каждого из его подправил.

В качестве атомарных формул для исходного временного ряда, в частности, можно взять следующие:

1) yi—m 1 < yi—m2 ,

2) yi—m 1 _ yi—m 1 — 1 < yi—m2 _ yi—m2 — 1,

3) (yi—m 1 + yi —m 1—1) /2 < (yi—m2 + yi—m2 — 1) /2 ,

4) min (У—m ^ У—m 1—О < min (У—m2 , У—m2 — 1 ),

5) тах(у—m 1 У—m 1 — 0 < max (У—m2, У—m2 — О> (3)

где и — некоторые натуральные числа либо ноль.

Для временного ряда, полученного в соответствии с (1), можно записать аналогичные формулы. Кроме того, в более общем случае можно рассмотреть и другие атомарные формулы.

Чтобы проверить на обучающем множестве, является ли некоторое правило статистической закономерностью, необходимо проверить выполнимость условий 1 и 2. При этом прежде, чем переходить к оценке условной вероятности , необходимо проверить, являются ли признаки

и зависимыми или нет при заданном уровне ошибки первого рода (

положим равным О. О 5) [5-6]. Так как в рассматриваемой задаче метод отбора данных является перекрестным [5], то достаточно построить таблицу сопряженности 2x2 (табл. 1).

Таблица 1. Таблица сопряженности

Л А0

A1&A28i ■■■ ”12

A1&A28i ■■■ ”21 ”■22

и далее воспользоваться либо критерием Пирсона, либо точным критерием независимости Фишера. Если окажется, что при заданном а гипотезу о независимости признаков и отвергаем, то условную вероятность

р (А 0 | А 1&А 2 &... &А к) можно оценить следующим образом:

р (Ао | А1&А2&. ..&Ак) = ~~ . (4)

ПЦ + П12

49

Статистические закономерности в рассматриваемой задаче будем искать в соответствии с алгоритмом, изложенным в [4], однако при этом наложим дополнительные ограничения на частоту истинности посылки А 1&А2&... &Ак — данная посылка должна быть истинной не менее, чем в у = 1 0 % случаев от объема обучающей выборки. Данное ограничение наложено для того, чтобы можно было объективно сравнить оценки условных вероятностей на обучающей и тестовой выборках. В общем случае выбор данного порога произволен, однако чем ниже порог, тем больше на тестовой выборке будет правил А 1&А 2 &. . . &Ак — А 0, для которых при заданном не будет основания отвергнуть гипотезу о независимости признаков и А 1&А2& . . . &Ак-

Для уменьшения объема расчетов допустимыми атомарными формулами А ; будем считать только те, для которых оценка условной вероятности превышает

некоторый порог (например, 0.55). Кроме того, дополнительно ограничим максимальное число атомарных формул в посылке А 1&А 2 &. . . &Ак (к положим равным 4). Наложим ограничения на значения i, связанные с тем, что исходные данные могут быть неполными, а также на то, что при построении таблицы сопряженности (табл. 1) значения временного ряда, участвующие в атомарных формулах (3), должны быть определены. Так, например, в исходном временном ряде рассматриваемой задачи отсутствуют 4 значения — 3 в обучающей последовательности и 1 в тестовой. В более общем случае, при большом объеме исходных данных можно воспользоваться алгоритмом, приведенным в [7].

Среди обнаруженных закономерностей будем отбирать только те, для которых оценка условной вероятности на обучающей выборке превысит . Однако при этом наложим дополнительные ограничения на добавление новой статистической закономерности в архив — новое правило будем добавлять в

архив статистических закономерностей, если:

1) правило А ]_&А 2 &. . . &А к — А 0 является уточнением правила А ^_&А2&. . . &А к _ —

и при этом справедливо неравенство

р(А 0 | А 5&А 2& ...&Ак) - р(А 0 | А 1&А2& ... &А к _ J > 0.0 1;

2) множество значений i £ И < „ при которых верна посылка А ^_&А 2 &... &Ак (либо

), отличается от аналогичного множества для уже добавленных в архив закономерностей на некоторую величину /?.

Второе условие введено, в том числе, для исключения идентичных либо почти идентичных правил. Так, например, атомарная формула 1) в (3) при к = m + 2 будет идентична атомарной формуле 3) при .

В качестве атомарной формулы А 0 рассмотрим условия yi+7 < у* (у;+7 > у*), т. е. температура воздуха в 13:00 через семь дней будет меньше (больше) температуры воздуха по состоянию на 13:00 рассматриваемого дня. Аналогичную формулу А 0 возьмем и для ряда, заданного соотношением (1). Положим в атомарных формулах (3) т 1 = 0,8, m2 = 00 1 + 1,9 .

Результаты эксперимента приведены в табл. 2.

50

Таблица 2. Результаты эксперимента

^0 У;+7 < У; У;+7 > У; У;+7 < У; У;+7 > У;

у = 10% Количество обнаруженных законо мерно стей 0 0 995 0

Среднее арифметическое оценок условных вероятностей отобранных СЗ на тестовой выборке 0 0 0.84 0

у = 7% Количество обнаруженных законо мерно стей 0 10 6421 89

Среднее арифметическое оценок условных вероятностей отобранных СЗ на тестовой выборке 0 0.65 0.85 0.73

Таким образом, несмотря на достаточную простоту математической модели, видно, что при у = 1 0 % точность среднесрочного прогнозирования уменьшения температуры воздуха (с поправкой на изменение, связанное с сезонной компонентой) достаточно высока. При снижении у до 7% число статистических закономерностей увеличилось. Также появились закономерности, отвечающие за увеличение температуры, однако точность обнаруженных закономерностей на тестовой выборке оказалась ниже.

К недостаткам данной модели следует отнести тот факт, что прогнозировать изменение температуры можно лишь в том случае, если на текущий момент посылка оказалась истинной хотя бы у одной из обнаруженных статистических закономерностей. Очевидно, что для повышения точности прогнозирования и увеличения количества обнаруженных статистических закономерностей желательно использовать дополнительную информацию о состоянии окружающей среды: атмосферном давлении, влажности и т. п.

Литература

1. Васильев А. А., Вилъфанд Р. МПрогноз погоды: монография. — М.:

Гидрометеорологический науч.-исслед. центр РФ. — 2008. — 60 с.

2. Копылов А. Н. Основы вычислительной математики: учебное пособие. — Воронеж: ВИ МВД России, 2012. — 183 с.

3. Родин В. А., Синегубов С. В. Применение метода наименьших квадратов для выравнивания экспериментальных данных, характеризующих поток информации интенсивного режима работы ПЦО // Вестник Воронежского института МВД России. — 1999. — № 2 (4). — С. 152-155.

4. Демин А. В., Витяев Е. Е. Разработка универсальной системы извлечения знаний «Discovery» и ее применения // Вестник НГУ. Серия: Информационные технологии. — 2009. — Т. 7. — Вып. 1. — С. 73-83.

5. Флейс Дж. Статистические методы для изучения таблиц долей и пропорций. Пер. с англ. Под ред. и с предисл. Ю. Н. Благовещенского. — М.: Финансы и статистика, 1989. — 319 с.

6. Думачев В. Н. Теория вероятностей и математическая статистика: учебник. — Воронеж: Воронежский ин-т МВД России, 2006. — 199 с.

7. Копылов А. Н. Алгоритм поиска статистических закономерностей при решении задач двухклассовой классификации // Вестник Воронежского института МВД России. — 2015. — № 2. — С. 233-238.

51

Аннотация научной статьи по математике, автор научной работы — Копылов Алексей Николаевич, Синегубов Сергей Владимирович

Похожие темы научных работ по математике , автор научной работы — Копылов Алексей Николаевич, Синегубов Сергей Владимирович

Текст научной работы на тему «Обнаружение статистических закономерностей при решении задачи прогнозирования температуры приземного воздуха»