ОПРЕДЕЛЕНИЕ ОПТИМАЛЬНОЙ МОДЕЛИ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ПРЕДСКАЗАНИЯ ПАВОДКОВ НА РЕКЕ АМУР

Александров Никита Эдуардович; Ермаков Дмитрий Николаевич; Азиз Наофаль Мохамад Хассин Азиз; Казенков Олег Юрьевич

МНОГОМАСШТАБНОЕ МОДЕЛИРОВАНИЕ ДЛЯ УПРАВЛЕНИЯ И ОБРАБОТКИ ИНФОРМАЦИИ

MULTISCALE MODELING FOR INFORMATION CONTROL AND PROCESSING

05.13.10 УПРАВЛЕНИЕ В СОЦИАЛЬНЫХ

И ЭКОНОМИЧЕСКИХ СИСТЕМАХ

GOVERNANCE IN SOCIAL AND ECONOMIC SYSTEMS

DOI: 10.33693/2313-223X-2022-9-2-11-20

Определение оптимальной модели машинного обучения для предсказания паводков на реке Амур

Н.Э. Александров1, a ©, Д.Н. Ермаков1, 2 b ©, Н.М.Х.А. Азиз1, c ©, О.Ю. Казенков1, 2 3 d ©

1 Инженерная академия Российского университета дружбы народов (РУДН), г. Москва, Российская Федерация

2 Научно-исследовательский институт «Полюс» имени М.Ф. Стельмаха, г. Москва, Российская Федерация

3 ФГБОУ ВО «Московский государственный университет технологий и управления имени К.Г. Разумовского (Первый казачий университет)»,

г. Москва, Российская Федерация

a E-mail: 1042210208@pfur.ru b E-mail: dermakow@mail.ru c E-mail: 1042208064@rudn.ru d E-mail: o.kazenkov@gmail.com

Аннотация. Природные катастрофы, связанные с водой, являются одними из наиболее разрушительных и ответственны за 72% от общего экономического ущерба, причиненного стихийными бедствиями, а в связи с изменениями климата их количество будет только расти. В России главной такой катастрофой являются речные паводки. Цель данной исследовательской работы определить наилучший метод машинного обучения для предсказания паводков на реке Амур, где они наносят значительный ущерб населению и экономике региона. Исследование предпринято с целью улучшения методов прогнозирования паводков для последующего использования результатов исследования в решении задач управления при реагировании на паводки. В исследовании учитываются практические аспекты реализации системы прогнозирования, поэтому были изучены 3 наиболее популярных метода машинного обучения: линейная регрессия, нейронная сеть и градиентный бустинг, потому что эти методы обладают развитой экосистемой вспомогательных решений и широко известны в профессиональном сообществе. Методология исследования была нацелена на достижение максимальной сравнимости результатов. Среди проверенных алгоритмов наилучшее качество продемонстрировал градиентный бустинг над деревьями в реализации Catboost. Результаты исследования применимы и к другим рекам, по которым количество данных сравнимо с Амуром.

Ключевые слова: управление катастрофами, предсказание паводков, река Амур, машинное обучение

ССЫЛКА НА СТАТЬЮ: Александров Н.Э., Ермаков Д.Н., Азиз Н.М.Х.А., Казенков О.Ю. Определение оптимальной модели машинного обучения для предсказания паводков на реке Амур // Computational nanotechnology. 2022. Т. 9. № 2. С. 11-20. DOI: 10.33693/2313-223X-2022-9-2-11-20

DOI: 10.33693/2313-223X-2022-9-2-11-20

Finding the Optimal Machine Learning Model for Flood Prediction on the Amur River

N.E. Aleksandrov1,a ©, D.N. Ermakov1, 2' b ©, N.M.H.A. Aziz1, c ©, O.Yu. Kazenkov1, 2, 3, d ©

1 Engineering Academy of the Peoples' Friendship University (RUDN University), Moscow, Russian Federation

2 Research Institute "Polyus" named after M.F. Stelmakh, Moscow, Russian Federation

3 K.G. Razumovsky Moscow State University of Tehnologies and Management (the First Cossack University), Moscow, Russian Federation

a E-mail: 1042210208@pfur.ru b E-mail: dermakow@mail.ru c E-mail: 1042208064@rudn.ru d E-mail: o.kazenkov@gmail.com

Abstract. Water-related natural disasters are among the most devastating and are responsible for 72% of the total economic damage caused by natural disasters, and due to climate change, their number will only increase. In Russia, river floods are the main such disaster. The purpose of this research work is to determine the best machine learning method for predicting floods on the Amur River, where they cause significant damage to the population and economy of the region. The study was undertaken with the aim of improving flood forecasting methods for the subsequent use of the study results in solving management problems in response to floods. The study considers the practical aspects of implementing a forecasting system, so the 3 most popular machine learning methods were studied: linear regression, neural network and gradient boosting, because these methods have a developed ecosystem of auxiliary solutions and are widely known in the professional community. The research methodology was aimed at achieving maximum comparability of results. Among the algorithms tested, gradient boosting over trees in the implementation of Catboost demonstrated the best quality. The results of the study are also applicable to other rivers, for which the amount of data is comparable to that of the Amur.

Key words: disaster management, floods forecasting, Amur River, machine learning

f ^

FOR CITATION: Aleksandrov N.E., Ermakov D.N., Aziz N.M.H.A., Kazenkov O.Yu. Finding the Optimal Machine Learning Model for Flood Prediction on the Amur River. Computational Nanotechnology. 2022. Vol. 9. No. 2. Pp. 11-20. (In Rus.) DOI: 10.33693/2313-223X-2022-9-2-11-20

i i

ВВЕДЕНИЕ

ПОСТАНОВКА ПРОБЛЕМЫ

Среди всех наблюдаемых природных стихийных бедствий, катастрофы, связанные с водой наиболее частые и представляют серьезную опасность для людей и социально-экономического развития. В период с 1900 по 2006 г. всевозможные виды наводнений были ответственны за 30% от общего числа стихийных бедствий, 19% от общего числа погибших и 48% от общего числа пострадавших [Yoganath, Junichi, 2009]. В этом же отчете утверждается, что природные катастрофы, связанные с водой, ответственны за 72% от общего экономического ущерба, причиненного стихийными бедствиями, из которых 26% это наводнений. Еще в связи с изменением климата ожидается увеличение числа потерь от таких явлений. Таким образом,

важно улучшать качество принятия решений при реагировании на наводнения.

Разработка систем прогнозирования и управления риском наводнений рекомендуется в качестве одной из мер подготовки к ним [Arduino, Reggiani, Todini, 2009] по нескольким причинам. Во-первых, из-за неопределенности, связанной с силой, временем и местом наводнений зачастую невозможно полностью контролировать их и как следствие абсолютная защита от этого явления не всегда возможна [Moore, Bell, Jones, 2005]. Во-вторых, традиционные методы управления риском наводнений в основном состоят из структурных мер защиты таких как дамбы и плотины, изменяющих характеристики наводнения для уменьшения пикового уровня воды и снижения масштаба разлива. Несмотря на то, что структурные меры снижают риск наводнения они не могут полностью устранить его.

К тому же на практике данные меры защиты невозможно внедрить в некоторых областях: например, в отдаленные поселениях Сибири и на дальнем востоке. Еще они могут приводить к нежелательным экологическим последствиям [Tullos, 2008]. Таким образом, возведение структурных мер защиты не всегда целесообразно и в таких случаях предиктивные модели могут служить более простой в имплементации и дешевой альтернативой [DiFrancesco, Tullos, 2008]. И еще можно заключить, что разработка и улучшение методов прогнозирования наводнений важна для решения задач управления и принятия решений при реагировании на паводки.

В данной работе будет фокус на поиск наилучшего метода машинного обучения для моделирования паводков на реке Амур, где они наносят значительный ущерб населению и экономике региона [Махинов, Ким, Воронов, 2013]. Исследование предпринято с целью улучшения методов прогнозирования паводков для последующего использования результатов исследования в решении задач управления при реагировании на паводки.

СУЩЕСТВУЮЩИЕ МЕТОДЫ

Зачастую модели, прогнозирующие паводки, предсказывают будущий уровень воды или скорость потока. Классические методы, используемые в гидрологии, основаны на определении зависимостей между метеорологическими данными, характеристиками бассейна, субстрата и смоделированными целевыми значениями [Ramírez, 2010]. Существует множество подходов к моделированию природных процессов, имплементиро-ванных в виде гидрологических моделей. Такие модели могут быть основаны как на детерминистических, так и на стохастических подходах. Большинство моделей не учитывают специфику региона, а основаны на некоторых общих принципах характерных для любой реки.

Для адаптации моделей к специфике региона прибегают к их калибрации [Sahraei, Asadzadeh, Unduche, 2020]. Это позволяет снизить ошибку предсказания. Но калибрация сложных моделей может быть вычислительно слишком сложной. К тому же сложные модели требуют большого количества данных, которых может не быть или которых может быть недостаточно. И из-за прочих сложностей, связанных с калибрацией применение таких моделей может быть неэффективным в некоторых случаях [Aqil, Kita, Nishiyama, 2007].

Другой способ моделирования паводков - это описание паттернов потоков воды с помощью дифференциальных уравнений. Недостаток таких методов заключается в нестабильности решений, вызванных накоплением ошибки и высокой вычислительной сложностью. К тому же такие модели могут быть трудно переносимы на другие реки, для которых им могут потребоваться дополнительные параметры.

В моделировании паводков хорошо себя показывают методы машинного обучения, которым удается достигать высокой точности в этой задаче [Fj Chang, 2019]. У данных методов есть несколько важных практических плюсов: во-первых у методов машинного обучения очень развитая сопутствующая техническая экосистема [Dipanjan, Raghav, Tushar, Sharma, 2017], что существенно упрощает разработку систем на основе

таких методов; во-вторых в России множество специалистов по машинному обучению [Vk, hh.ru, 2020], что является сигналом о том, что возможно найти людей для создания промышленного решения на основе таких методов. Еще в последние годы были созданы методы, позволяющие интерпретировать предсказания любых моделей машинного обучения. Например, метод SHAP [Carvalho, Pereira, Cardoso, 2019], использующий подход из кооперативной теории игр и позволяющий проинтерпретировать отдельное предсказание. Из минусов этого подхода можно выделить необходимость большого количества данных для наиболее передовых моделей машинного обучения. На основе этих доминирующих положительных факторов было решено сфокусироваться в этой работе именно на этих методах.

Научная новизна этой работы заключается не только в определении наилучшего метода машинного обучения для предсказания паводков на реке Амур, но еще и в исследование работы метода Catboost [Prokhorenko-va et al., 2017], созданного российской компанией Яндекс, в данной задаче, что очень актуально в условиях санкций и импортозамещения технологий.

ОПИСАНИЕ ДАННЫХ

Данные для моделирования и тестирования были предоставлены Сбербанком совместно с МЧС, Минприроды и Росгидрометом в рамках хакатона по разработке решений для предсказания паводков [Сбербанк, 2020].

Река Амур является трансграничной рекой, основная часть бассейна которой находится в пределах Российской Федерации (рис. 1). Для Амура характерна низкая водность в зимний период, небольшие половодья весной и неоднократные резкие подъемы воды во второй половине лета и в начале осени. Маловодные периоды сменяются годами большой воды [Новороцкий, 2007]. В многолетнем режиме водного стока Амура отчетливо выражено чередование периодов пониженной и повышенной водности, каждый продолжительностью 10-15 лет [Махинов, 2005]. Амур по оценке гидрологов и исходя из истории наблюдений вошел в очередной период высокой водности в конце 2000-х гг. Исходя из данной гидрологической закономерности режима Амура, в ближайшие 5-7 лет следует ожидать сложную паводковую обстановку в течении Среднего и Нижнего Амура (наиболее сложная обстановка от слияния р. Сунгари и до Комсомольского района включительно).

Наиболее крупномасштабные наводнения произошли в 2013 и 2019 гг. Причиной наводнений стали тропические циклоны, которые несли теплый влажный воздух, вызывали фронтальные разделы и сильные атмосферные осадки. В 2013 г. на значительной площади за 2-3 месяца сумма выпавших осадков превысила годовую, а местами и полуторагодовую норму.

В наборе данных представлены наблюдения на 198 гидрологических постах сети Росгидромета за период с 1984 по 2018 г., содержащие данные об уровнях воды, расходах, температуре воды, наблюдения за поверхностью воды (становление ледостава, вскрытие). Сведения об уровнях воды описаны тремя величинами: минимальный, максимальный и средний уровни воды за день.

1985 1990 1995 2000 2005 2010 2015

Дата [Date]

Рис. 2. Дневные значения максимального уровня воды для датчика 5001 Fig. 2. Daily values of the maximum water level for the sensor 5001

Дата [Date]

Рис. 3. Дневные значения среднедневной температуры Fig. 3. Daily mean temperatures

Далее будет рассмотрено несколько примеров данных по гидрологическому посту под идентификатором 5001 (рис. 2). Отсутствие значений на рис. 3 означает пропуск.

Как можно видеть из графиков временной ряд уровня воды обладает сезонностью с периодом год, что полностью согласуется с контекстом задачи. Еще из графика можно увидеть, что в данных имеются пропуски, например, их много в период с 1985 по 1990 г. (см. рис. 3).

В данных множество пропусков: в 33% наблюдений пропущены значения по температуре воды, в 41% случаях нет данных по потреблению воды и в меньше, чем 1% случаев отсутствуют данные по уровню воды.

Задача - определить модель машинного обучения для предсказания уровня воды на 10 дней вперед.

МЕТОДЫ РЕШЕНИЯ ЗАДАЧИ

В данной статье будет исследовано применение 3 алгоритмов машинного обучения для предсказания паводков на реке Амур: линейная регрессия, нейронные сети и градиентный бустинг в реализации Catboost. Было выбрано эти 3 алгоритма по следующим практическим соображениям: во-первых, они обладают крайне развитой экосистемой вспомогательных решений, во-вторых, подавляющее большинство специалистов по машинному обучению умеет с ними работать. Все эти факторы позволят использовать результаты статьи для быстрого построения промышленной системы.

ЛИНЕЙНАЯ РЕГРЕССИЯ

Линейная регрессия это одна из наиболее изученных и распространенных статистических моделей, описывающая зависимость целевой переменной у от другой или нескольких других целевых переменных х через линейную зависимость.

Регрессионная модель описывается следующим уравнением:

у = /(х, Ь) + Е, Е [£],

где Ь - параметры модели; £ - случайная ошибка модели; /(х, Ь) имеет следующий вид:

Ь) = Ь0 + Ь1 х1 + Ь2Х2 + ... + Ь)^

где Ь. - параметры регрессии; х. - регрессоры; к - количество факторов модели [Демиденко, 1981].

Параметры подбираются через минимизацию квадратичной ошибки на обучающей выборке:

НЕЙРОННАЯ сеть

Нейронная сеть - математическая модель и ее программная реализация, созданная на основе принципов организации и функционирования биологических нейронных сетей [Осипов, 2017]. «Нейрон» в сети получает сигнал в виде вектора действительных чисел, обрабатывает его и отдает одно действительное число, называемое сигналом. Сигнал является результатом вычислений нелинейной функции над взвешенной суммой входных значений. Благодаря этому нейронные сети в отличие от линейной регрессии способны распознавать нелинейные закономерности в данных. Нейроны между слоями связаны друг с другом, и каждая связь в каждом нейроне имеет вес. Веса в нейронах изменяются во время обучения нейронной сети, они отвечают за усиление или ослабление сигнала в соединении.

Нейронные сети обучаются с помощью алгоритма обратного распространения ошибки [Rumelhart, Hinton, Williams, 1986]. Суть алгоритма заключается в расчете градиента функции потерь относительно весов нейронной сети для одного обучающего экземпляра, а затем изменения весов значений весов в направлении антиградиента функции потерь. Эффективность данного метода позволяет использовать его для обучения многослойных нейронных сетей.

Будем проверять нейронную сеть с одним полно связным слоем размером 100 и функцией активации ReLU [Vinod, 2010] и с оптимизатором Adam [Kingma, 2015]. Реализация этой модели будет взята из библиотеки для языка программирования Python scikit-leam [Scikit-leam, 2022].

ГРАДИЕНТНЫЙ БУСТИНГ (CATBOOST)

В данной работе будет использована разновидность градиентного бустинга - так называемый «градиентный бустинг над деревьями».

Градиентный бустинг над деревьями представляет собой ансамбль деревьев решений. В основе данного алгоритма лежит итеративное обучение деревьев решений с целью минимизировать функцию потерь. Благодаря особенностям деревьев решений градиентный бустинг способен работать с категориальными признаками и справляться с нелинейными закономерностями в данных.

В работе будет исследована реализация этого алгоритма из библиотеки Catboost. Одним из преимуществ данной реализации градиентного бустинга является умение работать с пропусками в данных.

min - f (' b))

i = i

где i - номер объекта из обучающей выборке; N - размер обучающей выборке.

В данной работе будет использована реализация линейной регрессии из библиотеки для языка программирования Python scikit-learn [Scikit-learn, 2022].

ЭКСПЕРИМЕНТЫ

ПОДГОТОВКА ДАННЫХ И ИХ РАЗБИЕНИЕ

Поскольку цель определить оптимальную модель, то будут использованы только исторические данные об уровнях воды и толщине льда без сложных объясняющих признаков, потому что они избыточны для задачи определения наилучшего алгоритма машинного

MULTISCALE MODELING FOR INFORMATION CONTROL AND PROCESSING

обучения для этой задачи, поскольку не стоит задачи построить наиболее точную модель. Объясняющие признаки будут описывать сезонность временных рядов и распределение изменений его значений за различные промежутки времени.

Как и в любых реальных данных до расчета фич и обучения моделей была выполнена очистка данных. В датасете были обнаружены явные ошибки и выбросы, выглядящие, например, как на рис. 4.

5000

= 4000

3000

2000

1000

0| I ,,,, I ,,,, 1 ,,,,],,,,[,,,,[,,,, — 1985 1990 1995 2000 2005 2010 2015

Дата [Date]

Рис. 4. Ежедневные значения минимального уровня воды для датчика 6535 Fig. 4. Daily Minimum Water Levels for 6535 Sensor

Сначала были удалены явные ошибки в данных. Это наблюдения, в которых минимальный уровень воды за день превышал максимальный, средний уровень превышал максимальный, средний уровень был меньше минимального, потому что с точки зрения математики такое невозможно. В таких наблюдениях показателям, отвечающим за описание уровня воды, были присвоены значения NaN. Всего таких наблюдений - 0,04%.

Значения меньше 0 не будут удаляться, потому что они являются результатом неправильного выбора нуль графика гидрологического поста. Обычно на практике за нуль графика принимается значение на 0,5 м ниже наблюдавшегося уровня воды и, возможно, из-за обмеления реки нуль мог уменьшиться. Следовательно, несмотря на наличие отрицательных значений динамика изменения уровня воды должна оставаться корректной. Наглядно это можно увидеть на рис. 2, где периодически наблюдаются значения меньше 0, но визуально динамика уровня воды выглядит корректно. Всего таких наблюдений около 5%.

Еще, где это возможно было выполнено восполнение пропусков в показателях максимального уровня воды следующим образом: в наблюдениях, где были пропуски по максимальному уровню воды, но были заполнены значения по среднему и минимальному уровням, и они были равны, максимальному уровню было присвоено то же значение. Потому что минимум может быть равен среднему только при условии, что среднее считалось по одинаковым значения. Всего таких наблюдений около 0,83%.

Далее была посчитана целевая переменная, равная максимальному уровню воды через 10 дней. Будет построена одна модель для всех датчиков по следующим

причинам: во-первых, так модель будет получать больше данных для обучения, во-вторых данные по многим датчикам будут выполнять некоторую регуляризацию модели, потому что ей придется выучивать паттерны, которые работают в большинстве мест реки.

Все наблюдения, для которых отсутствовала, целевая переменная были удалены. Далее были посчитаны следующие дополнительные объясняющие признаки:

1) изменение максимального уровня, температуры и потребления воды за 1, 5, 10, 15, 20, 30, 50, 60, 180, 365 дней, чтобы учесть влияние сезонности и индивидуальные магнитуды изменений;

2) среднее однодневных изменений уровня воды за 7, 30, 90, 365 дней;

3) среднее однодневных изменений температуры за 7, 30, 90 дней;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4) среднее однодневных изменений потребления воды за 7 дней;

5)стандартное отклонение однодневных изменений уровня воды за 7, 30, 90, 365 дней;

6)стандартное отклонение однодневных изменений температуры за 7, 30, 90 дней;

7)стандартное отклонение однодневных изменений потребления воды за 7 и 30 дней.

Все дополнительные объясняющие признаки выше и температура воды вошли в финальный список фич, на которых обучаются модели и делается предсказание.

В конце данные были разбиты на обучающую и тестовую выборку. В обучающую выборку вошли первые 80% дат, все остальные даты вошли в тестовое разбиение. Разбитие было сделано по датам, чтобы добиться максимальной корректности эксперимента за счет того, что в обучающей выборке не окажется дат из тестовой.

Vol. 9. No. 2. 2022 ISSN 2313-223X Print

ISSN 2587-9693 Online

МЕТРИКИ

Для оценки качества модели будут использованы следующие метрики.

1. Коэффициент эффективности модели Нэша-Сатклифа (Nash, Sutcliffe) или NSE

NSE = 1 --

Ш - Qm )2

t = 1

Z (Q0 - Qo )2

Это классическая метрика для оценки предиктив-ной силы гидрологической модели. Она принимает значение 1, если были получены идеальные предсказания, 0 если предсказания были так же хороши, как среднее и отрицательные значения для предсказаний, работающий хуже, чем среднее.

2. Коэффициент детерминации

Е (( - Ъ )2

R2 = 1 -.

- Ц, )2

(=1

Эта метрика аналогична коэффициенту эффективности модели Нэша-Сатклифа, но вместо абсолютных значений уровней использует относительные изменения уровня воды.

3. Симметричная средняя абсолютная ошибка в процентах

SMAPE = 100% Y Q - Q

rj-,

1 t = 1

((+Qtl) 2

4. Средняя абсолютная ошибка

MAE = 1 ]T|dO-Dm |,

T t = i

где T - количество наблюдений в выборке; t - индекс наблюдения; Q0t - наблюдаемое значение уровня воды в наблюдение t; Q t - предсказанное значение уровня воды в наблюдение t; Q0 - среднее наблюдаемое значение; D0t - целевое изменение уровня воды для объекта t; Dmt - предсказанное изменение уровня воды в момент t; D0 - среднее целевое изменение уровня воды. Поскольку модели будут предсказывать изменение уровня воды, то Q t будет получаться из суммы текущего значения уровня воды и предсказанного.

Метрика NSE была выбрана, потому что является классической метрикой в задаче моделирования будущего уровня воды. Метрика R2 была выбрана, потому что является одной из наиболее распространенных метрик для задачи регрессии. А SMAPE и MAE были

выбраны, как вспомогательные метрики, потому что они могут с некоторой вероятностью определить аномальное поведение модели.

ЭКСПЕРИМЕНТЫ

Поскольку линейная регрессия и нейронная сеть не умеют обрабатывать пропуски в данных, то для экспериментов с ними их необходимо предварительно обработать.

Обработка пропусков проводилась в два этапа.

1. В первую очередь там, где это было возможно, пропуски были заполнены последним известным значением.

2. Все оставшиеся пропуски были заполнены нулем. Идея заполнения 0 заключается в том, что поскольку и в линейной регрессии, и в узлах нейронной сети происходит линейная комбинация, то зануление фичи уберет ее из линейной комбинации.

Для градиентного бустинга не было необходимости выполнять заполнение пропусков, потому что его реализация в библиотеки Catboost умеет их обрабатывать. Это свойство является одним из преимущество данного алгоритма, потому что, во-первых, снижает затраты человеческого времени и вычислительных ресурсов на предварительную обработку данных, а во-вторых, поскольку пропуски обрабатываются отдельно, то наличие пропуска в определенном месте само по себе может являться информацией способной повысить качество предсказания. В экспериментах использовались настройки бустинга, при которых пропущенные значения обрабатывались, как самые маленькие значения во всей выборке. Это метод обработки пропущенных значений по умолчанию.

После обработки пропусков каждая модель была обучена на одном и том же наборе обучающих данных и затем протестирована на одной и той же тестовой выборке. В табл. 1 и 2 показаны полученные результаты.

ВЫВОДЫ

Согласно результатам моделей на тестовой выборке можно безоговорочно утверждать, что наилучшей моделью машинного обучения для предсказания паводков на реке Амур является градиентный бустинг в реализации Catboost. Его значения NSE на 1% превысили аналогичные показатели нейронной сети и линейной регрессии, а по показателям Я2 прирост качества составил в 1,28 и 2,6 раз соответственно. Второе место с большим отрывом от третьего получает нейронная сеть. Отчасти превосходство градиентного бустинга в данной задачи можно обяъснить тем, что поскольку данных много и модель является самой сложной из представленных, то при таком количестве данных она способно найти в них больше паттернов, чем остальные. Но необходимо заметить, что линейная регрессия переобучилась меньше остальных моделей, поэтому она скорее всего могла бы стать лучшей на меньшем количестве наблюдений.

t = 1

Таблица 1

Качество работы моделей на обучающей выборке [Model performance on train set]

Название модели [Model name] NSE обуч [Train] R обуч [Train] SMAPE обуч [Train] MAE обуч [Train]

Линейная регрессия [Linear regression] 0,917 0,131 19,92 30,54

Нейронная сеть [Neural network] 0,917 0,278 18,74 28,08

Градиентный бустинг [Gradient boosting] 0,937 0,359 16,57 26,21

Примечание: обуч - обучающая выборка.

Таблица 2

Качество работы моделей на тестовой выборке [Model performance on test set]

Название модели [Model name] NSE тест [Test] R2 тест [Test] SMAPE тест [Test] MAE тест [Test]

Линейная регрессия [Linear regression] 0,916 0,084 19,37 32,29

Нейронная сеть [Neural network] 0,913 0,175 18,13 29,95

Градиентный бустинг [Gradient boosting] 0,929 0,224 16,28 28,19

Примечание: тест - тестовая выборка.

ЗАКЛЮЧЕНИЕ

Стояла задача определить наилучшую модель машинного обучения для предсказания паводков на реке Амур. Выбор происходил среди трех наиболее распространенных в индустрии моделей: линейная регрессия, нейронная сеть и градиентный бустинг. Использовались наблюдения Росгидромета на промежутке с 1984 по 2018 г. Была проведена тщательная подготовка данных и в результате экспериментов наилучшие

результаты продемонстрировал градиентный бустинг. В дальнейшем результаты этого исследования можно использовать для задачи построения модели наибольшей точности для реки Амур, а именно создать разнообразные и сложные объясняющие признаки и подобрать оптимальные параметры для применения градиентного бустинга к этой задаче. Скорее всего, результаты данного исследования переносимы на другие реки, по которым количество наблюдений сравнимо с Амуром.

Литература

1. Arduino G., Reggiani P., Todini E. Recent advances in flood forecasting and flood risk assessment // Hydrology and Earth Sciences. 2005. Pp. 280-284.

2. Aqil M., Kita I., Nishiyama S. Analysis and prediction of flow from local source in a river basin using a Neuro-fuzzy modeling tool // Journal of Environmental Management. 2007. Pp. 215-223.

3. Carvalho D., Pereira E., Cardoso J. Machine learning inter-pretability: A survey on methods and metrics // Electronics. 2019. P. 832.

4. Diederik P. Kingma Jimmy Ba Adam: A method for stochastic optimization // 3rd International Conference for Learning Representations. San Diego, 2015.

5. DiFrancesco K.N., Tullos D.D. Flexibility in water resources management: Review of concepts and development of assessment measures for flood management systems //

References

1. Arduino G., Reggiani P., Todini E. Recent advances in flood forecasting and flood risk assessment. Hydrology and Earth Sciences. 2005. Pp. 280-284.

2. Aqil M., Kita I., Nishiyama S. Analysis and prediction of flow from local source in a river basin using a Neuro-fuzzy modeling tool. Journal of Environmental Management. 2007. Pp. 215-223.

3. Carvalho D., Pereira E., Cardoso J. Machine learning inter-pretability: A survey on methods and metrics. Electronics. 2019. P. 832.

4. Diederik P. Kingma Jimmy Ba Adam: A method for stochastic optimization // 3rd International Conference for Learning Representations. San Diego, 2015.

5. DiFrancesco K.N., Tullos D.D. Flexibility in water resources management: Review of concepts and development of assessment measures for flood management systems.

Vol. 9. No. 2. 2022 ISSN 2313-223X Print

ISSN 2587-9693 Online

Journal of the American Water Resources Association. Pp. 1527-1539.

6. Dipanjan Sarkar, Raghav Bali, Tushar Sharma. The Python machine learning ecosystem // Practical Machine Learning with Python. 2017. Pp. 67-118.

7. Chang F.J., Hsu K., Chang L.C. Flood forecasting using machine learning methods. 2019.

8. Makhinov A.N. Amur terrigene and chemical discharge formation // Proceedings of the International Kyoto Symposium. Kyoto, Japan: Research Institute for Hymanity and Nature, 2005. Pp. 61-65.

9. Moore R.J., Bell V.A., Jones D.A. Forecasting for flood warning // Comptes Rendus Geosciences. 2005. Pp. 203-217.

10. Nash J.E., Sutcliffe J.V. River flow forecasting through conceptual models. Part I: A discussion of principles // Journal of Hydrology. 1970. Pp. 282-290.

11. Frumkin H. Disaster preparedness. In: Environmental health: From global to local. San Francisco: Jossey-Bass Publishers, 2005.

12. Prokhorenkova L. et al. CatBoost: Unbiased boosting with categorical features // NIPS. 2017.

13. Ramírez J.A. Prediction and modeling of flood hydrology and hydraulics. In: Inland flood hazards: Human, riparian and aquatic communities. Cambridge: Cambridge University Press, 2010.

14. Rumelhart D.E., Hinton G.E., Williams R.J. Learning representations by back-propagating errors // Nature. 1986. No. 323. Pp. 533-536.

15. Sahraei S., Asadzadeh M., Unduche F. Signature-based multi-modelling and multi-objective calibration of hydro-logic models: Application in flood forecasting for Canadian Prairies // Journal of Hydrology. 2020. P. 588.

16. Scikit-learn sklearn.linear_model.LinearRegression [Online]. 2022. URL: https://scikit-learn.org/stable/modules/ generated/sklearn.linear_model.LinearRegression.html

17. Tullos D. Assessing environmental impact assessments: A review and analysis of documenting environmental impacts of large dams // Journal of Environmental Management. 2008. Pp. 208-223.

18. Vinod N., Geoffrey E. Hinton rectified linear units improve restricted Boltzmann machines // 27th International Conference on International Conference on Machine Learning [s.l.]. USA: Omnipress, 2010. Pp. 807-814.

19. Академия больших данных MADE и hh.ru составили портрет российского специалиста в сфере Data Science // Vk, hh.ru. 2020. URL: https://vk.company/ru/press/releases/ 10682/

20. Yoganath Adikari, Junichi Yoshitani. Global trends in water related disasters: An insight for policymakers. Tsukuba, Japan: International Centre for Water Hazard and Risk Management (UNESCO) (ICHARM), 2009.

21. Демиденко Е.З. Линейная и нелинейная регрессия // Финансы и статистика. 1981.

22. Махинов А.Н., Ким В.И., Воронов Б.А. Наводнение в бассейне Амура 2013 года: причины и последствия // Вестник ДВО РАН. 2013.

23. Новороцкий П.В. Колебания стока Амура за последние 110 лет // География и природные ресурсы. 2007. C. 86-90.

24. Осипов Ю.С. Нейронная сеть // Большая российская энциклопедия. 2017.

25. Сбербанк NoFloodWithAI: прогнозирование паводков на реке Амур. 2020. URL: https://github.com/sberbank-ai/ no_flood_with_ai_aij2020

Journal of the American Water Resources Association. Pp. 1527-1539.

6. Dipanjan Sarkar, Raghav Bali, Tushar Sharma. The Python machine learning ecosystem. Practical Machine Learning with Python. 2017. Pp. 67-118.

7. Chang F.J., Hsu K., Chang L.C. Flood forecasting using machine learning methods. 2019.

8. Makhinov А.N. Amur terrigene and chemical discharge formation. Proceedings of the International Kyoto Symposium. Kyoto, Japan: Research Institute for Hymanity and Nature, 2005. Pp. 61-65.

9. Moore R.J., Bell V.A., Jones D.A. Forecasting for flood warning. Comptes Rendus Geosciences. 2005. Pp. 203-217.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

10. Nash J.E., Sutcliffe J.V. River flow forecasting through conceptual models. Part I: A discussion of principles. Journal of Hydrology. 1970. Pp. 282-290.

11. Frumkin H. Disaster preparedness. In: Environmental health: From global to local. San Francisco: Jossey-Bass Publishers, 2005.

12. Prokhorenkova L. et al. CatBoost: Unbiased boosting with categorical features. NIPS. 2017.

13. Ramírez J.A. Prediction and modeling of flood hydrology and hydraulics. In: Inland flood hazards: Human, riparian and aquatic communities. Cambridge: Cambridge University Press, 2010.

14. Rumelhart D.E., Hinton G.E., Williams R.J. Learning representations by back-propagating errors. Nature. 1986. No. 323. Pp. 533-536.

15. Sahraei S., Asadzadeh M., Unduche F. Signature-based multi-modelling and multi-objective calibration of hydrologic models: Application in flood forecasting for Canadian Prairies. Journal of Hydrology. 2020. P. 588.

16. Scikit-learn sklearn.linear_model.LinearRegression [Online]. 2022. URL: https://scikit-learn.org/stable/modules/ generated/sklearn.linear_model.LinearRegression.html

17. Tullos D. Assessing environmental impact assessments. A review and analysis of documenting environmental impacts of large dams. Journal of Environmental Management. 2008. Pp. 208-223.

18. Vinod N., Geoffrey E. Hinton rectified linear units improve restricted Boltzmann machines. 27th International Conference on International Conference on Machine Learning [s.l.]. USA: Omnipress, 2010. Pp. 807-814.

19. Big Data Academy MADE and hh.ru compiled a portrait of a Russian specialist in the field of Data Science. Vk, hh.ru. 2020. URL: https://vk.company/ru/press/releases/10682/

20. Yoganath Adikari, Junichi Yoshitani. Global trends in water related disasters: An insight for policymakers. Tsukuba, Japan: International Centre for Water Hazard and Risk Management (UNESCO) (ICHARM), 2009.

21. Demidenko E.Z. Linear and non-linear regression. Finance and Statistics. 1981. (In Rus.)

22. Makhinov A.N., Kim V.I., Voronov B.A. Flooding in the Amur basin in 2013: Causes and consequences. Bulletin of the Far Eastern Branch of the Russian Academy of Sciences. 2013. (In Rus.)

23. Novorotsky P.V. Fluctuations in the Amur runoff over the past 110 years. Geography and Natural Resources. 2007. Pp. 86-90. (In Rus.)

24. Osipov Yu.S. Neural network. In: Great Russian Encyclopedia. 2017.

25. Sberbank NoFloodWithAI: Forecasting floods on the Amur River. 2020. URL: https://github.com/sberbank-ai/no_flood_ with_ai_aij2020

MULTISCALE MODELING FOR INFORMATION CONTROL AND PROCESSING

Статья проверена программой Антиплагиат. Оригинальность - 87,86%

Рецензент: Самусенко О.Е., кандидат технических наук, старший научный сотрудник; директор департамента инновационного менеджмента в отраслях промышленности Инженерной академии Российского университета дружбы народов

Статья поступила в редакцию 26.04.2022, принята к публикации 20.05.2022 The article was received on 26.04.2022, accepted for publication 20.05.2022

СВЕДЕНИЯ ОБ АВТОРАХ

Александров Никита Эдуардович, аспирант Инженерной академии Российского университета дружбы народов. Москва, Российская Федерация. ORCID: 0000-0001-8183-0257; E-mail: 1042210208@pfur.ru Ермаков Дмитрий Николаевич, доктор политических наук, доктор экономических наук, кандидат исторических наук, профессор, магистр технических наук; профессор департамента инновационного менеджмента в отраслях промышленности Инженерной академии ФГАОУ ВО «Российский университет дружбы народов»; главный научный сотрудник научно-технического отдела АО «НИИ "Полюс" имени М.Ф. Стельмаха». Москва, Российская Федерация. SPIN ID: 6835-3155; Author ID: 319114; E-mail: ermakov-dn@rudn.ru Азиз Наофаль Мохамад Хассин Азиз, аспирант Инженерной академии Российского университета дружбы народов. Москва, Российская Федерация. E-mail: 1042208064@rudn.ru

Казенков Олег Юрьевич, почетный работник сферы образования РФ; ассистент кафедры «Нанотехноло-гии и микросистемная техника» Инженерной академии ФГАОУ ВО «Российский университет дружбы народов»; научный сотрудник Управления по научно-исследовательской деятельности ФГБОУ ВО «Московский государственный университет технологий и управления имени К.Г. Разумовского (Первый казачий университет)»; заместитель руководителя Технопарка «Полюс» АО «Научно-исследовательский институт «Полюс» имени М.Ф. Стельмаха». Москва, Российская Федерация. ORCID: https://orcid.org/0000-0002-8893-4443; E-mail: o.kazenkov@gmail.com

ABOUT THE AUTHORS

Nikita E. Aleksandrov, PhD Student at the Academy of Engineering of the Peoples' Friendship University of Russia (RUDN University). Moscow, Russian Federation. ORCID: 0000-0001-8183-0257; E-mail: 1042210208@ pfur.ru

Dmitrii N. Ermakov, Dr. Sci. (Polit.), Dr. Sci. (Econ.), Cand. Sci. (Hist.), Professor, Master of Engineering; Professor at the Department of Innovation Management in Industries of the Academy of Engineering of the Peoples' Friendship University of Russia (RUDN University); leading researcher at the JSC "Research Institute 'Polyus' named after M.F. Stelmakh". Moscow, Russian Federation. SPIN ID: 6835-3155; Author ID: 319114; E-mail: ermakov-dn@rudn.ru

Naofal Mohamad Hassin Aziz, PhD Student at the Academy of Engineering of the Peoples' Friendship University of Russia (RUDN University). Moscow, Russian Federation. E-mail: 1042208064@rudn.ru Oleg Yu. Kazlenkov, Honorary Worker of the Sphere of Education of the Russian Federation; assistant at the Department of Nanotechnology and Microsystem Technology of the Engineering Academy of the Peoples' Friendship University of Russia; researcher at the Department for Research Activities of the K.G. Razumovsky Moscow State University of Technologies and Management (the First Cossack University); deputy Head of the Polyus Technopark of the M.F. Stelmakh Polyus Research Institute JSC. Moscow, Russian Federation. ORCID: https://orcid. org/0000-0002-8893-4443; E-mail: o.kazenkov@gmail. com

ОПРЕДЕЛЕНИЕ ОПТИМАЛЬНОЙ МОДЕЛИ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ПРЕДСКАЗАНИЯ ПАВОДКОВ НА РЕКЕ АМУР Текст научной статьи по специальности «Математика»

FINDING THE OPTIMAL MACHINE LEARNING MODEL FOR FLOOD PREDICTION ON THE AMUR RIVER

Текст научной работы на тему «ОПРЕДЕЛЕНИЕ ОПТИМАЛЬНОЙ МОДЕЛИ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ПРЕДСКАЗАНИЯ ПАВОДКОВ НА РЕКЕ АМУР»