УДК 51-74, 614, 519.688
Цейтлин Б.А., Юрченков В.А., Сулима Т.Г., Коршунов С.С., Кудренко М.С.
СРАВНИТЕЛЬНЫЙ АНАЛИЗ МЕТОДОВ ПРОГНОЗИРОВАНИЯ ТЕХНОГЕННЫХ ПОЖАРОВ
В работе приводится обзор методов анализа, временных рядов техногенных пожаров. Приведенные методы рассматриваются как потенциальные модели прогнозирования уровня техногенной пожарной опасности. При этом уровень опасности выражается как количественно, так и качественно. Для анализа используются два типа моделей: 1) модели регрессии позволяют количественно выразить уровень пожарной опасности; 2) модели классификации — качественно. Количественные оценки прогноза могут быть выражены количеством пожаров на заданный интервал времени, в работе интервал прогноза равен одном,у дню. Качественные оценки, выражаются рост,ом, или спадом, динамики пожаров. Приводятся результаты экспериментов и, оценки, качества рассмотренных методов прогнозирования.
Ключевые слова: анализ временных рядов; прогнозирование; техногенные пожары; искусственные нейронные сет,и; модель Хольта; поиск ассоциативных правил; метод опорных векторов.
Cejtlin В.A., YUrchenkov V.A., Sulima T.G., Korshunov S.S., Kudrenko M.S.
COMPARATIVE ANALYSIS OF PREDICTION METHODS OF TECHNOGENIC
FIRE
The paper provides an overview of methods for analyzing the time series of technogenic fixes. These methods are considered as potential models for predicting the level of technogenic fire hazard. The level of danger is expressed both quantitatively and qualitatively. Two types of models are used for analysis: 1) regression models enable measuring the level of fire hazard quantitatively; 2) classification models enable measuring it qualitatively. Quantitative estimate can be a forecast of amount of fixes in a given interval of time, in the article the forecast interval is one day. Qualitative estimates are expressed by growth or decline of fire dynamics. The results of experiments and quality assessments of considered forecasting methods are presented.
Keywords: time series analysis; forecasting; technogenic fires; artificial neural networks; Holt model; association rules mining; support vector machine.
Введение
В Российской Федерации к 2015 году наметилась тенденция сокращения количества техногенных пожаров, количества погибших и травмированных людей на пожарах [1]. Несмотря на этот благоприятный факт, количество погибших по отношению к общей численности населения в стране остается на очень высоком уровне. Так, по данным центра пожарной статистики и Международной ассоциации пожарных и спасательных служб [2], в России на 100 тыс. человек населения гибнет 7 человек. Этот же показатель для Индии составляет 4,7 человек, для США — 0,8, для Китая и Японии — 0,6, для Германии — 0,4.
Очевидным является то, что для установления более значимых тенденций сокращения человеческих жертв необходимо совершенствовать систему предупреждения и реагирования на техногенные пожары. Основу предупреждения техногенных пожаров составляют: 1) мониторинг пожароопасной обстановки, факторов и условий возникновения пожаров; 2) прогнозирование пожароопасной обстановки; 3) проведение профилактических мероприятий.
Стоит отметить, что аналитической базой для рационального выбора профилактических мероприятий служат прогнозы.
Система прогнозирования пожароопасной обстановки представляет собой комплекс мате-
матических моделей, способных предсказывать три основных параметра: время возникновения, место возникновения пожара и его класс. На практике приходится сталкиваться с моделями, которые носят вероятностный характер, т.е. не позволяют дать оценку того, когда произойдет пожар. Практический интерес для исследования представляет ответ на следующий вопрос. Возможно ли предсказать динамику пожаров на один шаг вперед (на завтра, на неделю вперед и т.д.) в определенном месте?
В данной работе рассматриваются модели, которые дают оценку количества техногенных пожаров в определенный день. В основу моделей положен анализ временных рядов различными математическими методами.
Исходные данные
В качестве исходных данных был использован временной ряд
X = {Х1, Х2, ..., хп}, (1)
где XI = х(^) — количество техногенных пожаров в день ^ в административном округе г. Москвы;
— ¿-ый день рассматриваемого временного интервала, г = 1,п,п = 4017. Временной ряд (1) может быть преобразован к временному ряду (2)
Х= {Х1, Х2, ..., Хп} , (2)
где хг = х(и) — класс, которому ставится в соответствие характер (увеличение или уменьшение) изменения количества пожаров в ряде (1) и определяется по следующей формуле:
Хг
1, (х{ - Хг-1) > 0 0, (Х1 - Хг-\) < 0
Постановка задачи
Одной из основных задач МЧС России является обеспечение пожарной безопасности на территории городов. Важной составляющей пожарной безопасности является прогнозирование уровня техногенной пожарной опасности.
Оценка прогноза уровня техногенной пожарной опасности может быть получена количественно или качественно. Количественные оценки прогноза могут быть выражены количеством пожаров на заданный интервал времени, в работе интервал прогноза равен одному дню. Качественные оценки выражаются ростом или спадом динамики пожаров.
Прогноз количества пожаров получается путем решения задачи регрессии. Прогнозирование роста или спада динамики пожаров относится к задачам классификации. Таким образом, научная задача исследования может быть сформулирована следующим образом. Построить математические модели, которые позволят прогнозировать количество пожаров и характер изменения динамики (рост или спад) на один день вперед.
Модель условных вероятностей
Идея метода состоит в том, что класс ¡¿г можно спрогнозировать как наиболее статистически вероятный класс при известном классе ¡¡С1-1, используя теорему Байеса. В качестве входных данных выступает ряд (2), который преобразуется к множеству пар следующего вида: {(Х1, Х2) , (Х2, х3) , ..., (хп-1, Хп)}.
Условные вероятности вычисляются по формуле Байеса:
Р (Хг=а\ Хг-1=Ь) =
где а е {1, 0}, Ь е {1, 0};
Р(¡¿г = а) - доля пар, где ¡¿I = а, от общего числа пар;
Р(х— = Ь) - доля пар, где х— = Ь, от общего числа пар;
Р (х{-1 = Ь \ х^ = а) - доля пар, где ¡¿1 = а, х— = Ь, от общего числа пар.
Р (¡¿1-1=Ъ \ Х{=а) Р (¡¿г=а)
Р (Хг-1=Ь) !
(3)
Логистическая регрессия
Логистическая регрессия — это модель классификации, которая позволяет определить класс ¡¿г на основе объясняющих переменных. В качестве входных данных выступает временной ряд (1), проходящий предобработку. Для каждого ¡¿I из отрезка временного ряда (1) {Х1,Х2, ..., Хг-1} формируется вектор объяс-
няющих переменных:
Уг= [У1,У2, ... ,Ут}. (4)
В число объясняющих переменных входят преобразования и характеристики, извлеченные из отрезка временного ряда, взятые с лагами (смещениями) порядка 1, 2 ... 20 и на окнах (отрезках временного ряда) порядка 3, 5, 1, 15. Преобразования включают в себя сглаживание скользящим средним, экспоненциаль-
ное сглаживание, производную первого порядка и среднеквадратическое отклонение, вычисленное на окне. Каждый вектор объясняющих переменных масштабируется так, что значения всех признаков имеют среднее равное 0 и вариацию равную 1. Уравнение логистической регрессии ставит в соответствие вектору объясняющих переменных вероятность его принадлежности классу 1:
Р (Xi = 1) = 1
!+e-z
Z=ßo +ß\*Vi+ß2 *V2+-----+ ßn*Vn
где ft — вектор коэффициентов модели;
v — вектор объясняющих переменных.
Вектор коэффициентов модели подбирается
методом максимального правдоподобия с применением L2 регуляризации. L2 регуляризация ограничивает переобучение и обеспечивает стабильность модели. Для применения L2 регуляризации к функции потерь добавляется штраф:
L2=X ^ ft2, (6)
где Л - параметр регуляризации.
Прогноз делается путем подстановки вектора объясняющих переменных в уравнение модели.
Метод опорных векторов
Метод опорных векторов (от англ. Support Vector Machine) — это классификатор, разделяющий два класса с помощью гиперплоскости. При этом по обеим сторонам разделяющей гиперплоскости определяются две параллельных гиперплоскости, задающие границы классов и находящиеся на максимально возможном расстоянии друг от друга. Предполагается, что чем больше расстояние между гиперплоскостями, тем меньше средняя ошибка SVM-классификатора [3].
В качестве входных данных выступает временной ряд (1), проходящий предобработку точно так же, как при методе логистической регрессии.
В ходе экспериментов было выявлено, что использование линейных преобразований дает наилучший результат, из чего сделан вывод, что
(5)
имеющаяся выборка линейно разделима. В случае линейно разделимой выборки SVM строит классифицирующую функцию F в виде:
т
F (v)=sign( ^ ßiXiK (ы,ь)+Ь), (7)
i=l
где К (vi,v)= {vi,v};
(ы, v} — скалярное произведение векторов;
ßi - коэффициент модели; и — вектор объясняющих переменных; b — вспомогательный параметр. Объекты, для которых F(v) = 1, относятся к классу 1, а объекты, для которых F(v) = —1 относятся к классу 0.
Поиск ассоциативных правил
Для решения задачи классификации с помощью данного метода, необходимо преобразовать ряд классов (2) во множество транзакций [4]. Транзакцию trans длины d для дня t можно получить по следующей формуле:
tränst = [xt, xt-i, ..., xt-d+i} (8)
Для каждого элемента из ряда классов (2) строится транзакция, если это возможно. К полученному множеству транзакций применяется алгоритм поиска ассоциативных правил apriori. Из найденных правил выбираются те, которые содержат в правой части Xt, а в левой один или более элементов из [Ht-1, xt-2,..., Xt-d+i}-
При прогнозировании класса, соответствующего дню t, берется вектор значений классов для предыдущих дней {xt-1, ¡¿t-2, ..., ¡¿t-d+i}
длины d — 1. Для вектора выбирается подходящее ассоциативное правило с наибольшей поддержкой или достоверностью. Правая часть выбранного правила будет прогнозом класса для дня t.
Эластичная сетка
Эластичная сетка — линейная модель, использующая предложенный в [5] критерий регуляризации. В качестве входных данных выступает временной ряд (1). Входные данные проходят предобработку: для каждого Xi из отрезка временного ряда (1) вида {xi-30, Xi-29, ..., Xi-\} применяется процедура извлечения характеристик с помощью библиотеки tsfresh для языка программирования Python [6]: Vi = {vi,v2,... ,vm}. Vi выступает в качестве вектора объясняющих переменных.
Уравнение модели задается формулой:
X (V, Р) =Po+Pl*Vl+^2*V2+ • • • +Pn*Vn. (9)
Во время обучения модели происходит подбор коэффициентов методом градиентного спуска, и качество результирующей модели оценивается функцией потерь, функция потерь имеет следующий вид:
Е (xi, Xi,a, Р) = ^ (xi—xif+alip||, (10)
г
где Xi — истинное значение ряда;э
Xi — предсказанное значение ряда;
ЦР|| — L1 или L2 норма;
а — параметр регуляризации.
LI регуляризация приводит к тому, что незначительные признаки имеют нулевые коэффициенты. LI норма задается следующей формулой:
li= Е и, (п)
L2 регуляризация способствует тому, чтобы коэффициенты модели не изменялись значительно при незначительных изменениях в данных. L2 норма задается формулой (6).
Эластичная сетка добавляет к функции потерь критерий регуляризации, который объединяет преимущества LI и L2 норм:
L (а1,а2, V, ß) =lx-vßl2+a2L2+aiL1, (12) где a\,ü2 — параметры регуляризации.
Метод опорных векторов для задач регрессии
SVR (Suppor Vector Regression) — расширение метода опорных век-торов для задач регрессии. В качестве входных данных для использования модели выступает временной ряд (1), проходящий предобработку. Уравнение регрессии в нашем случае аналогично уравнению линейной модели (8).
SVR подразумевает использование функции потерь, задаваемой формулой:
0, 1х-х(у,Р)| < £, 1х—х(у,Р)1—е,есп и1х—х(ь,Р)1 >е,
где е € (0,го) — параметр, определяющий ства пожаров, допустимое отклонение.
Данная функция потерь игнорирует все ошибки, которые попадают в диапазон ±£ от ]\/1одель наиболее вероятного перехода линии регрессии. Выбор параметра е определя- Пусть каждому количеству пожаров
ет баланс между средним качеством прогноза п € {0, 1, ..., тах(Х)} соответствует состо-
и точностью прогноза, позволяет эффективно яние Бп. Временной ряд (1) преобразуется к
настроить модель на прогнозирование количе- множеству пар:
L (x,x(v,ß)) =
Т={(Б (1) ,5 (2)), (Б (2), Б (3)), ..., (Б(п-1), ЗД)} (14)
где 5 (г) — состояние, соответствующее г; Вероятность перехода из состояния Sj в со-
(5 (г — 1) ,5(г)) — переход из состояния стояние рассчитывается по следующей фор-Б (г — 1) в состоявие Б (г).
муле:
Р ^) = ^, (15)
где Т1 — количество переходов в Т, равных
Т2 — общее количество переходов в Т.
Чтобы сделать прогноз количества пожаров XI вычисляется наиболее вероятный переход из состояния 5 (г — 1^. Состояние 5 (г) наиболее вероятного перехода соответствует количеству пожаров, которое и будет прогнозом.
Модель Хольта
Модель Хольта основывается на экспоненциальном сглаживании.
Экспоненциальное сглаживание ряда (1) осуществляется по рекуррентной формуле:
Е(хг) =аХг+(1—а) Е(хг-1), (16)
где а Е (0,1);
Е1. — экспоненциальное сглаживание ряда;
хг - значение исходного ряда;
а
Чем меньше параметр а, тем в большей степени подавляются колебания исходного ряда.
Модель Хольта является расширением модели экспоненциального сглаживания и позволяет получить прогноз XI с учетом линейного тренда:
Хг = Ег-1 + Ъг-1, (17)
где аг — коэффициенты авторегрессии;
р — порядок авторегрессионной составляющей модели;
д — порядок скользящего среднего; с — константа;
△ — оператор разности временного ряда порядка ё;
— коэффициенты скользящего среднего.
Метод подбора порядка модели АШМА про-
Искусственные нейронные сети
Для прогнозирования временного ряда (1) применялась многослойная нейронная сеть, также называемая многослойным перцептро-ном [7]. Структура используемой сети MLP(20-40-1) с логистическими сигмоидными функциями активации нейронов всех слоев.
Исходный временной ряд был преобразован в ряд логарифмов приращений по формуле:
Гг = Ь(Хг + 1 - Хг ) , (18) хг+1
Затем ряд логарифмов приращений был преобразован в набор обучающих примеров вида:
{п, (гг-i, гг-2, ..., П-20)} , (19)
г
(гг-1,гг-2, ..., гг-20) — входной вектор.
Обучение сети производилось по алгоритму обратного распространения ошибки. Созданный набор обучающих примеров позволил обучить нейронную сеть прогнозировать самое вероятное следующее значение временного ряда по вектору предыдущих значений.
ARIMA
Временной ряд пожаров является нестационарным, так как в нем присутствует четкий нисходящий тренд. Для нестационарных временных рядов применяется модель ARIMA. которая является расширением модели ARMA [8]. Вид модели ARIMA для нестационарного временного ряда:
(20)
изводился согласно описанию в [9], а также по алгоритму Хиндмана-Кандакара [10].
Локальная аппроксимация
Основная идея метода локальной аппроксимации состоит в том, чтобы разбить исходный временной ряд на несколько локальных подобластей, построить простые аппроксимирующие модели и оценить параметры этих моделей отдельно в каждой подобласти. Для применения данного метода необходимо исходный временной ряд преобразовать во множество векторов
р
AdXt=c+et+^2 fat-j,
г=1 j=i
длины ё по формуле:
Хг = {Хг-1, Хг-2,..., х—}. (21)
Каждому вектору Хг ставится в соответствие значение временного ряда Ьг'.
Ъг = х%. (22)
Обозначим прогноз количества пожаров на день £ как Ь^ Вектор XI, который рассчитывается по формуле 1М, — это вектор значений временного ряда предшествующих Локальной подобластью для вектора XI будут векторы, най-
денные по алгоритму ¿-ближайших соседей. В качестве функции представления была выбрана функция линейной аппроксимации первого порядка:
Ъг = ао + X? а, (23)
где а - вектор параметров; а0 — свободный параметр. Эта функция связывает следующее значение временного ряда bi с предыдущими значениями — вектором Хг-
Далее строим систему уравнений:
( 1 Хг\ 1 Xi
( а0 \
а1
( Ьг \
(24)
V 1 Xk ) \ad ) \bk J
где Х^ Ху, Хк — векторы, входящие в ло- ао, а\, ..., ал — параметры функции
кальную подобласть Х^, представления.
Ъ^ Ьу, Ък — значения временного ряда, Параметры функции представления можно
соответствующие векторам Хг, Х^ Хк; найти по формуле:
( ао \
а1
( 1 Хг\
1 Xi
+
( Ьг\
b-i
\ad ) \1 Хк J \bk
где
t 1 Хг\
1 X,
V 1 xk
+
псевдообратная матрица для матрицы
( 1 Хг\
1 X,
V 1 хк
т
(25)
Найти прогноз, имея значения параметров функции, можно по формуле:
bt = ао + X а. (26)
Оценки качества моделей в задаче Для оценки качества моделей использова-классификации лась метрика точности:
1 п—1
accuracy (х, ж^ =— ^ I(xi=xi), (27)
п i=0
где X — ряд классов;
X — ряд предсказанных классов; п — количество наблюдений; 1(х) — индикаторная функция.
Оценки качества моделей в задаче регрессии
При описании мер используются следующие обозначения: N — количество прогнозных значений; XI — наблюдаемое значение временного ряда; XI — прогнозное значение.
Я (У)= Ц^-, 9= {
Результаты проведенных экспериментов
Для проведения экспериментальных исследований был использован отрезок временного ряда за 2015 год. Данные с 2005 года по 2014 год использовались для обучения моделей.
Предсказания делались методом скользящих предсказаний. Для каждого дня в тестовой
Таблица 1 - Значения точностей моделей
Модель Точность
Модель условных вероятностей 0.62
Логистическая регрессия 0.81
БУМ 0.8
Поиск
ассоциативных 0.67
правил
Таблица 2 - Наименования моделей регрессии
Модель МАЕ ВМ8Е <3
АШМА 0.8306011 1.073781 0.8798
Искусственная нейронная сеть 0.8675079 1.096309 0.8580
Локальная аппроксимация 0.97 1.239624 0.7733
Эластичная сетка 0.893 1.15 0.84
БУИ 0.879 1.12 0.65
Модель Хольта 0.895 1.07 0.55
Модель наиболее вероятного перехода 0.819 1.07 0.89
Средняя абсолютная ошибка (МАЕ): 1 М
МАЕ = -Y^хl—Xl (28)
г=1
Корень из среднеквадратичной ошибки (НМЯК):
КМБЕ=
\
1 М
кТ.^—^)2 (29)
г=1
Функционал качества, рассчитываемый по формуле,
^ ^ 1 {0{\\ 0, \cbi- XII > 1 . ^ '
выборке делалось предсказание, при этом в обучающую выборку входили только дни, предшествующее тестовому. Данный метод приближен к реалистичным условиям применения моделей.
В таблице 1 приведены результаты оценки качества моделей классификации, в таблице 2 — моделей регрессии.
Заключение
Проведенные экспериментальные исследования показали, что наилучшее качество прогноза при решении задачи регрессии дает метод наиболее вероятного перехода. Данный метод основывается на использовании вероятностной модели. Высокая точность вероятностного метода в прогнозировании временного ряда может свидетельствовать о том, что исследуемый ряд имеет стохастическую природу. Наилучшую точность при решении задачи классификации показал метод логистической регрес-
сии.
Полученные результаты подтверждают, что возникновение техногенных пожаров следует рассматривать как случайные события. Анализ временных рядов без специальной предобработки исходных данных не обеспечивает достаточного качества прогноза для задач регрессии, но обеспечивает хороший результат для задач классификации. Данный метод может быть использован для оценки техногенной пожарной опасности.
Литература
1. Пожары и пожарная безопасность в 2015 году: Статистический сборник. Под общей редакцией А.В. Матюшина // М.: ВНИИПО, 2016, -124 е.: ил. 40. [Электронный ресурс]: http:// goo.gl/clDxut (дата обращения: 13.03.2017).
2. WorldLifeExpectancy [Электронный ресурс]: http://www.worldlifeexpectancy.com/ (дата обращения: 13.03.2017).
3. Демидова Л.А., Никульчев Е.В., Соколова Ю.С. Классификация больших данных: использование SVM-ансамблей и SVM-классификаторов с модифицированным роевым алгоритмом // Cloud of science. 2016. №1. [Электронный ресурс]: http: //goo.gl/iXHHIP (дата обращения: 14.02.2017).
4. Hima Suresh, Dr. Kumudha Raimond mining association rules from time series data using hybrid approaches / / International Journal Of Computational En-gineering Research (ijceronline.com). [Электронный ресурс]: http://www.ij ceronline.com/papers/Vol3_ issue3/AD03301810188.pdf (дата обращения 01.09.2016).
5. Hans Chris. Elastic net regression modeling with the orthant normal prior / / Journal of the American Statistical Association 106.496 (2011): 1383-1393.
6. Blue Younder TSFresh [Электронный ресурс]: https://github.com/blue-yonder/tsfresh (дата обращения 20.09.2016).
7. Rob J Hyndman, George Athanasopoulos Forecasting: principles and practice // OTexts, 2014. [Электронный ресурс]: https://www. otexts.org/fpp (дата обращения 24.01.2017).
8. Википедия - свободная энциклопедия [Электронный ресурс]: https://ru.wikipedia. org/wiki/AEIMA (дата обращения: 14.02.2017).
9. Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс. — М.: Дело, 2007. - 504 с.
10. Rob J. Hyndman, Yeasmin Khandakar Automatic Time Series Forecasting: The forecast Package for R // Journal of Statistical Software (www.jstatsoft.org). [Электронный ресурс]: https://www.j statsoft.org/article/view/ v027i03 (дата обращения: 17.02.2017).
11. Лоскутов А.Ю. Анализ временных рядов. Курс лекций / / Физический факультет МГУ. [Электронный ресурс]: http://chaos, phys.msu.ru/loskutov/PDF/Lectures_time_ series_analysis.pdf (дата обращения: 17.02.2017).
Рецензент: кандидат технических наук, Белоусов Р.Л.