Научная статья на тему 'Использование методов машинного обучения для прогнозирования загрязненности атмосферного воздуха'

Использование методов машинного обучения для прогнозирования загрязненности атмосферного воздуха Текст научной статьи по специальности «Математика»

CC BY
491
123
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
AIR POLLUTION / MACHINE LEARNING / TIME SERIES / ЗАГРЯЗНЕНИЕ ВОЗДУХА / МАШИННОЕ ОБУЧЕНИЕ / ВРЕМЕННЫЕ РЯДЫ

Аннотация научной статьи по математике, автор научной работы — Железный Сергей Владимирович, Ситников Александр Иванович, Толстых Андрей Андреевич

В работе приводится анализ применимости алгоритмов машинного обучения к задаче прогнозирования состояния загрязненности атмосферы. Проведен обзор основных моделей предсказания, а также эффективности их применения. Получены оценки времени прогнозирования моделей при фиксированном значении ошибки

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Железный Сергей Владимирович, Ситников Александр Иванович, Толстых Андрей Андреевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MACHINE LEARNING METHODS FOR PREDICTING THE POLLUTION OF ATMOSPHERIC AIR

The paper provides an analysis of the applicability of machine learning algorithms to the problem of predicting the state of atmospheric pollution. A review of the main models of prediction, as well as the effectiveness of their application was given. Estimates of the model prediction time are obtained for a fixed error value

Текст научной работы на тему «Использование методов машинного обучения для прогнозирования загрязненности атмосферного воздуха»

С. В. Железный,

кандидат технических наук, доцент

А. И. Ситников,

кандидат технических наук, доцент

А. А. Толстых

ИСПОЛЬЗОВАНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ПРОГНОЗИРОВАНИЯ ЗАГРЯЗНЕННОСТИ АТМОСФЕРНОГО ВОЗДУХА

MACHINE LEARNING METHODS FOR PREDICTING THE POLLUTION OF ATMOSPHERIC AIR

В работе приводится анализ применимости алгоритмов машинного обучения к задаче прогнозирования состояния загрязненности атмосферы. Проведен обзор основных моделей предсказания, а также эффективности их применения. Получены оценки времени прогнозирования моделей при фиксированном значении ошибки.

The paper provides an analysis of the applicability of machine learning algorithms to the problem of predicting the state of atmospheric pollution. A review of the main models of prediction, as well as the effectiveness of their application was given. Estimates of the model prediction time are obtained for a fixed error value.

Введение. Проблема загрязненности атмосферного воздуха является одной из ключевых проблем экологии. Для определения факторов, вносящих наибольший вклад в загрязнение воздуха, и своевременного противодействия им возникает необходимость постоянного мониторинга воздушной среды. В настоящее время осуществляется контроль на стационарных источниках загрязняющих веществ, однако доля загрязнения отработанными газами автотранспорта за последние годы выросла до 45,1% [1]. Таким образом, для получения объективной картины необходимо производить мониторинг загрязнения автотранспортными средствами, что при классическом подходе, с использованием множества газоанализаторов, является крайне затратным. Предлагается оценивать состояние атмосферы опосредованно, через вычисления, на основе состояния погодных условий, рельефа местности, интенсивности дорожного движения и моделей автомобилей, из которых возможно получить информацию о типе и количестве выбрасываемых загрязняющих веществ.

Система, обрабатывающая подобный поток данных, должна строиться на основе математических моделей, сочетающих в себе достаточную точность и относительно низкую вычислительную сложность.

Загрязнение воздуха является многогранным термином, применяемым ко всем химическим и биологическим агентам, которые изменяют природные характеристики атмосферы. Его можно определить как ситуацию, при которой вещества, которые являются результатом антропогенной активности, присутствуют в концентрациях, значительно превышающих их природные концентрации, измеримое воздействие на людей, животных, растительность, материалы, окружающую среду и погоду. Загрязнение может существовать как в газообразной форме, так и в форме взвеси.

Целью работы является анализ применимости моделей прогнозирования временных рядов в задаче предсказания уровня загрязнения атмосферного воздуха различными источниками.

Интенсивность изменения уровня загрязненности атмосферного воздуха частично зависит от морфологии города и от общей протяженности его дорог. Другим фактором, который следует учитывать, является физиология города, непосредственно связанная с антропогенной деятельностью, которая включает взаимодействие транспорта, производственной деятельности, движений людей, плохую вентиляцию и характерный микроклимат города [2].

Рассмотрим методы моделирования загрязнения атмосферного воздуха, использующиеся в настоящее время. В [3] используется методология, объединяющая модели радиальных базисных функций и авторегрессионные модели. Общая логика построения модели загрязнения атмосферного воздуха строится на основе следующего алгоритма:

1. Вычисление коэффициентов автокорреляции для запаздывания с шагом 1, 2, 3.

2. Вычисление процентной ошибки прогнозирования для разных авторегрессионных моделей.

3. Расчет отклонения белого шума трех авторегрессионных моделей.

4. Идентификация и выбор наилучшей предсказательной модели.

5. Вычисление процентной ошибки прогнозирования с использованием модели.

6. Сравнение эффективности авторегрессионной модели и сети радиальных базисных функций при прогнозировании концентрации атмосферных загрязнителей.

Математическое прогнозирование основывается на критерии Пирсона:

р..=^^, (1)

у а а

х у

где рху — критерий Пирсона; соу(») — операция ковариации; ах,ау — стандартные

отклонения переменных х, у соответственно. Далее производится построение авторегрессионной модели первого порядка [3]. Коэффициент Пирсона является робастной оценкой и имеет два важных свойства: во-первых, коэффициенты корреляции лежат в интервале [-1, 1]. Если ру равно 1, то существует идеальная положительная линейная

связь между двумя переменными х и у, во-вторых коэффициент корреляции не зависит ни от изменения масштаба, ни от природы данных. Указанный коэффициент корреляции имеет значение для случаев, когда задействованы два параметра.

Простейшая модель Бокса — Дженкинса, являющаяся авторегрессионной моделью первого порядка, может быть представлена как

Ъ+1-^ = ф(Ъ +1 (2)

где ¡и — математическое ожидание временного ряда; ф(») — авторегрессионный параметр; Е.{+1 — случайная величина, соответствующая остатку в линейной регрессии. Существенным замечанием является тот факт, что временной ряд полагается стационарным, исходя из этого, математическое ожидание постоянно во всех временных интервалах. Предполагается использование ансамбля авторегрессионных моделей. Ансамбль порядка K определяется как

t+i

= (xt-k+i (3)

где K — общее количество авторегрессионных моделей; фг (•) — K-я авторегрессионная модель. Остаточная дисперсия ^^ (т), также известная как дисперсия белого шума, вычисляется следующим образом [3]:

s2'

(т) = |_1 -ф1 \ 82 (т-1), (4)

где (т) — оценка дисперсии белого шума; m — текущая итерация обучения;

(т — 1) — оценка дисперсии белого шума для предыдущей итерации.

Применение байесовского информационного критерия и критерия Акаике описывается выражениями:

BIC (m ) = n ln AIC (m ) = n ln

n 2/ \ se (m)

n - m -1 n

s2 ( m)

+ ( m +1) ln n; (5)

, + 2 (m +1), (6)

n - m -1

где BIC(») — баесовский информационный критерий; n — количество итераций; m — текущая итерация; AIC(*) — критерий Акаике.

Рассмотренный метод имеет приемлемую ошибку в среднесрочной перспективе (до 72 часов). Опыты показали, что использование ансамбля из нескольких предсказательных моделей превосходит результаты более сложной одиночной предсказательной модели [3].

В качестве дополнительных классификаторов рассмотрим LSTM-сети и регрессионный лес решений.

LSTM-сети (Long Short Term Memory) — это особый вид рекуррентных нейронных сетей, способный изучать долгосрочные зависимости. Они были введены в [4] и в настоящее время широко используются для задач регрессии. На рис. 1 приведена общая структура блока в LSTM-сети.

Более подробно аппарат LSTM-сетей рассмотрен в [4]. Преимуществами LSTM-сетей является способность выделять как долгосрочные, так и краткосрочные тренды.

Алгоритм случайного леса использует в качестве базового классификатора решающее дерево. Метод случайных подпространств позволяет снизить коррелированность между деревьями и избежать переобучения. Алгоритм построения случайного леса, состоящего из N деревьев, выглядит следующим образом:

Для каждого п = 1,..N:

• Сгенерировать выборку Xn с помощью метода bootstrap [5];

• Построить решающее дерево bn по выборке Xn.

K =1

о по заданному критерию выбрать лучший признак, произвести разбиение в

дереве по данному признаку, повторять до исчерпания выборки; о дерево строится, пока в каждом листе не более Птп объектов или пока не

достигнем определенной высоты дерева; о при каждом разбиении сначала выбирается т случайных признаков из п исходных, оптимальное разделение выборки ищется только среди них.

Конечная модель будет иметь вид

1 М

а (* ) = ^ § ь (*) (7)

Рис. 1. Общая структура блока в ЬБТМ-сети: х — операция поэлементного умножения; + — операция сложения; 1апЬ — применение гиперболического тангенса; а — применение сигмоидной функции;

Xt — входные данные; Ь — отклик блока

Преимуществами данной модели являются: обработка данных с большим числом признаков, нечувствительность к масштабированию и возможность обработки как непрерывных, так и дискретных значений.

АШМА представляет собой модель авторегрессивного интегрального скользящего среднего, применяемую для анализа временных рядов. Для нестационарного временного ряда имеет вид [6]:

ДХ, = с + ±а, ДХ^ + §Ъ]е,_] + е,, (8)

¿=1 ]=1

где с, щ, Ъ — параметры модели; Ла — оператор разности временного ряда порядка ё; е — значение ошибки. Преимуществом модели является алгоритмическая простота им-плементации и относительно низкая вычислительная сложность.

В качестве метода конструирования ансамбля использовался метод конкотенации результатов базовых моделей. Для моделей случайного леса и авторегрессии исходные

данные разбивались на последовательности различной длинны (10, 50, 100) для получения более устойчивых оценок при моделировании. В качестве исходных данных использовались открытые отчеты Федеральной службы государственной статистики по загрязнению атмосферного воздуха. Всего было 4 наименования для предсказания — всего выбросов, выбросов от стационарных источников, выбросов от передвижных источников, удельный вес выбросов от стационарных источников в общем объеме выбросов. Следует отметить, что последняя категория линейно зависит от всех остальных, однако если изолированно предсказывать каждую из категорий, то появляется возможность ан-самблирования внутри одного метода.

Рассмотрим результаты прогнозирования для базовых моделей, которые предполагается объединять в ансамбли. Для модели АШМА использовался метод поиска по матрице [7] в пространстве параметров модели. На рис. 2 приведен график предсказания для основной категории (всех выбросов).

КОСО -

ЛООО -1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-1-

^ ^ ^ ^ ^^ $ ^ ^ ^ ^

Годы

Рис. 2. График предсказания для основной категории

Наиболее точное предсказание получено для категории общего числа выбросов, по остальным категориям наблюдаются некоторые расхождения. Для категории всех выбросов отклонение предсказания на два года вперед не превышает 1%. Для более наглядного представления результатов был построен график относительных отклонений для всех категорий, изображенный на рис. 3.

Поиск гиперпараметров и обучение модели в среднем занимает 1,5 минуты. Данная оценка времени приведена для матрицы гиперпараметров, содержащей 64 элемента. При достигнутых показателях точности подобных ограничений подбора достаточно. Полученная модель позволяет производить переобучение практически в режиме реального времени, однако при увеличении числа критериев время обучения будет расти по степенному закону.

7

—•— Выброшено загрязняющих в атмосферу веществ

—• - Стшюнарныли 11СЮЧ1 пшамп

5 —• -Передвижными источниками . ф

—• • УдельныП вес выбросов от стационарных источников в общем объеме

загрязняющих веще™ __. ■ —

1

X Г" й 54 . ■ —----- ---- _ _

Я X Л О 1

ё

о 1 — , ^

с -1

3 ■ . —.

1

2015 2016 2017

Годы

Рис. 3. Относительная разность отклонения предсказаний от наблюдаемых значений

на двух шагах прогнозирования

Второй моделью, рассматриваемой в работе, является случайный лес решений. Учитывая то, что данный класс моделей не является регрессивным, необходимо произвести предобработку данных. В каждый момент времени модель получала п предыдущих

отсчетов каждой категории, при этом п <

2,— N 2

, где N — количество всех отсчетов.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Поиск происходил по матрице с 64 гиперпараметрами. Наиболее точное решение с точки зрения Ьг метрики приведено на рис. 4.

Рис. 4. Предсказание модели случайного леса для категории всех выбросов

Следует отметить, что предсказание сходится в финальной точке из-за особенностей обучения модели. Процесс обучения и подбора гиперпараметров занимает в среднем 4 минуты, что в 2 раза превосходит полное время настройки моделей ARIMA.

Рекуррентные нейронные сети, а именно LSTM-сети, применяются для прогнозирования поведения сложных последовательностей. Однако они требуют большого количества обучающих данных. В ходе вычислительного эксперимента было установлено, что в среднем LSTM-сеть обучается предсказанию подобных последовательностей за 2 часа, что на 3 порядка дольше обучения модели ARIMA. На рис. 5 приведен график предсказания для категории всех выбросов.

3SOOO

р

I 3SOOO

в

>

| 34000

ч

к

| J3000

ос

а.

m

| »ООО

L"

Ъ

СП

31000

'ill- I I I—=1- I I I I ! I I I-III1

/ #/-г rff .f? ^

года

Рис. 5. График предсказания LSTM-сети для категории всех выбросов

Подобное поведение модели объясняется недостаточным объемом обучающей выборки. Порядок величины ошибки предсказаний в среднем в 2 раза выше, чем порядок ошибки предсказаний модели ARIMA.

Вывод. В поставленной задаче наиболее эффективным является применение моделей класса ARIMA. Использование подобных моделей эффективно с двух точек зрения: во-первых, это самые быстрые в настройке модели; во-вторых, они являются достаточно точными. Показана нецелесообразность использования моделей случайного леса и LSTM-сетей. Хотя LSTM-сети являются более сложной и комплексной моделью, для их использования необходимы большие объемы данных. В случае недалекого прогнозирования на основе малого набора данных LSTM-сети являются неэффективными. Полученные результаты планируется применять в системе косвенного определения концентрации загрязняющих веществ [8], для получения краткосрочных предсказаний общей тенденции загрязнения атмосферного воздуха.

ЛИТЕРАТУРА

1. Окружающая среда / Федеральная служба государственной статистики [Электронный ресурс]. — URL: http://www.gks.ru/wps/wcm/ connect/rosstat_main/rosstat/ru/sta-tistics/environment/# (дата обращения: 10.07.2017).

2. Querol X. Levels of PM in rural, urban and industrial sites in Spain // The Science of Total Environment; 334-5, 359-376, 2004.

3. Forecasting the Concentration of Atmospheric Pollutants: Skill Assessment of Autoregressive and Radial Basis Function Network Models / S. Chaudhuri, D. Das, A. Middey, S. Gos-wami // International Journal of Environmental Protection. — 2011. — Vol.1, № 5. — P. 41—47.

4. Hochreiter S., Schmidhuber J. Long short-term memory // Neural computation. — 1997. — № 9 (8). — P. 1735—1780.

5. Ng V., Cardie C. Bootstrapping Conference Classifiers with Multiple Machine Learning Algorithms // Conference on Empirical Methods in Natural Language Processing (EMNLP). — 2003. — P. 113—120.

6. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. — М. : Диалектика, 2016. — 912 с.

7. Comparative Study on Hyperparameter Optimization for Recommender Systems / P. Matuszyk, R. T.Castillo, D. Kottke, M. A. Spiliopoulou // Workshop on Recommender Systems and Big Data Analytics (RS-BDA'16). — 2016. — С. 13—21.

8. Ситников А. И., Толстых А. А., Власов В. А. Анализ моделей загрязнения воздуха для построения вычислительной системы мониторинга выбросов автотранспорта // Пожарная безопасность: проблемы и перспективы : сб. ст. по матер. всерос. науч.-практ. конф. с междунар. уч. / ВИ ГПС МЧС России. — Воронеж, 2017. — С. 467—468.

REFERENCE

1. Okruzhayuschaya sreda: Federalnaya sluzhba gosudarstvennoy statistiki [Elek-tronnyiy resurs]. — URL: http://www.gks.ru/wps/wcm/ connect/rosstat_main/rosstat/ru/statis-tics/environment/# (data obrascheniya: 10.07.2017).

2. Querol X. Levels of PM in rural, urban and industrial sites in Spain // The Science of Total Environment; 334-5, 359-376, 2004.

3. Forecasting the Concentration of Atmospheric Pollutants: Skill Assessment of Au-toregres-sive and Radial Basis Function Network Models / S. Chaudhuri, D. Das, A. Middey, S. Goswami // International Journal of Environmental Protection. — 2011. — Vol.1, # 5. — P. 41—47.

4. Hochreiter S., Schmidhuber J. Long short-term memory // Neural computation. — 1997. — # 9 (8). — P. 1735—1780.

5. Ng V., Cardie C. Bootstrapping Coreference Classifiers with Multiple Machine Learning Algorithms // Conference on Empirical Methods in Natural Language Processing (EMNLP). — 2003. — P. 113—120.

6. Dreyper N., Smit G. Prikladnoy regressionnyiy analiz. — M. : Dialektika, 2016. — 912 s.

7. Comparative Study on Hyperparameter Optimization for Recommender Systems / P. Matuszyk, R. T.Castillo, D. Kottke, M. A. Spiliopoulou // Workshop on Recommender Systems and Big Data Analytics (RS-BDA'16). — 2016. — S. 13—21.

8. Sitnikov A. I., Tolstyih A. A., Vlasov V. A. Analiz modeley zagryazneniya voz-duha dlya postroeniya vyichislitelnoy sistemyi monitoringa vyibrosov avtotransporta // Pozharnaya bezopasnost: problemyi i perspektivyi : sb. st. po mater. vseros. nauch.-prakt. konf. s mezhdu-nar. uch. / VI GPS MChS Rossii. — Voronezh, 2017. — S. 467—468.

СВЕДЕНИЯ ОБ АВТОРАХ

Железный Сергей Владимирович. Начальник кафедры физики. Кандидат технических наук, доцент.

Воронежский институт МВД России.

E-mail: zhelezny@list.ru

Россия, 394065, Воронеж, проспект Патриотов, 53. Тел. (473) 200-52-60.

Ситников Александр Иванович. Доцент кафедры физики. Кандидат технических наук, доцент. Воронежский институт МВД России. E-mail: sitnikov_74@list.ru

Россия, 394065, Воронеж, проспект Патриотов, 53. Тел. (473) 200-52-70.

Толстых Андрей Андреевич. Преподаватель кафедры тактико-специальной подготовки. Воронежский институт МВД России. E-mail: tolstykh.aa@yandex.ru

Россия, 394065, Воронеж, проспект Патриотов, 53. Тел. (473) 200-52-68.

Zhelezny Sergey Vladimirovich. Head of the chair of Physics. Candidate of Technical Sciences, Associate Professor.

Voronezh Institute of the Ministry of the Interior of Russia. E-mail: zhelezny@list.ru

Work address: Russia, 394065, Voronezh, Prospect Patriotov, 53. Tel. (473) 200-52-60.

Sitnikov Alexander Ivanovich. Associate Professor of the chair of Physics. Candidate of Technical Sciences, Associate Professor.

Voronezh Institute of the Ministry of the Interior of Russia. E-mail: sitnikov_74@list.ru

Work address: Russia, 394065, Voronezh, Prospect Patriotov, 53. Tel. (473) 200-52-70.

Tolstykh Andrey Andreevich. Lecturer of the chair of Special and Tactical Training. Voronezh Institute of the Ministry of the Interior of Russia. E-mail: tolstykkh.aa@yandex.ru

Work address: Russia, 394065, Voronezh, Prospect Patriotov, 53. Tel. (473) 200-52-68. Ключевые слова: загрязнение воздуха; машинное обучение; временные ряды. Key words: air pollution; machine learning; time series. УДК 004.852

i Надоели баннеры? Вы всегда можете отключить рекламу.