Научная статья на тему 'ЭНТРОПИЙНО-РАНДОМИЗИРОВАННОЕ ПРОГНОЗИРОВАНИЕ ЭВОЛЮЦИИ ПЛОЩАДИ ТЕРМОКАРСТОВЫХ ОЗЁР'

ЭНТРОПИЙНО-РАНДОМИЗИРОВАННОЕ ПРОГНОЗИРОВАНИЕ ЭВОЛЮЦИИ ПЛОЩАДИ ТЕРМОКАРСТОВЫХ ОЗЁР Текст научной статьи по специальности «Науки о Земле и смежные экологические науки»

CC BY
29
9
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТЕРМОКАРСТОВЫЕ ОЗЁРА / ДИСТАНЦИОННОЕ ЗОНДИРОВАНИЕ / ИНФОРМАЦИОННАЯ ЭНТРОПИЯ / БАЛАНСОВЫЕ УРАВНЕНИЯ / ДИНАМИЧЕСКАЯ РЕГРЕССИЯ / ОПТИМИЗАЦИЯ / ЛЯПУНОВСКАЯ ЗАДАЧА / СЭМПЛИРОВАНИЕ / РАНДОМИЗИРОВАННОЕ ПРОГНОЗИРОВАНИЕ / РАНДОМИЗИРОВАННОЕ МАШИННОЕ ОБУЧЕНИЕ

Аннотация научной статьи по наукам о Земле и смежным экологическим наукам, автор научной работы — Дубнов Юрий Андреевич, Полищук Владимир Юрьевич, Попков Алексей Юрьевич, Сокол Евгений Сергеевич, Мельников Андрей Витальевич

Предлагается альтернативный существующему в машинном обучении подход, который назван рандомизированным прогнозированием. Подход основан на рандомизированной параметризованной модели (РПМ) исследуемого процесса. Описана структура общей модели эволюции площади термокарстовых озёр. Для моделирования площади термокарстовых озёр и влияющих на неё среднегодовой температуры и годовой суммы осадков используются математические модели линейной динамической регрессии со случайными параметрами. Рассмотрены три вида прогнозов: краткосрочный, среднесрочный и долгосрочный для трёх зон мерзлоты (сплошной, прерывистой и островной) на территории Западной Сибири. Все полученные результаты являются воспроизводимыми в пределах средних значений и среднеквадратических ошибок. Результаты тестирования показывают, что выбранный вид модели рандомизированного прогнозирования эволюции площадей озёр хорошо описывает зависимость площади озёр и приводит к низким значениям относительных ошибок в 0.01-0.02. С другой стороны, аналогичное моделирование температуры и осадков приводит к существенно б´ольшим погрешностям от 0.08 до 0.22. Полученный в результате прогноз эволюции площади озёр в зоне мерзлоты в условиях климатических изменений характеризуется стандартными отклонениями, не превышающими 2-4.5 %.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по наукам о Земле и смежным экологическим наукам , автор научной работы — Дубнов Юрий Андреевич, Полищук Владимир Юрьевич, Попков Алексей Юрьевич, Сокол Евгений Сергеевич, Мельников Андрей Витальевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ENTROPINE-RANDOMIZED FORECASTING OF THE EVOLUTIONOF THE AREA OF THERMOKARST LAKES

The article proposes an alternative approach to the existing one in machine learning, which is called randomized forecasting. The approach is based on a randomized parameterized model of the process under study. The structure of the general model of the evolution of the area of the thermokarst lakes is described. To model the area of the thermokarst lakes and the average annual temperature and annual precipitation that affect it, mathematical linear dynamic regression models with random parameters are used. Three types of forecasts are considered: short-term, medium-term and long-term for three permafrost zones (continuous, discontinuous and insular) on the territory of Western Siberia. All results obtained are reproducible within the mean and standard error limits. The test results show that the selected type of the model for randomized forecasting of the evolution of lake areas describes well the dependence of the area of the lakes and leads to low values of relative errors of 0.01-0.02. On the other hand, similar modeling of temperature and precipitation leads to significantly larger errors from 0.08 to 0.22. The resulting forecast of the evolution of the area of the lakes in the permafrost zone under climatic changes is characterized by standard deviations not exceeding 2-4.5 %.

Текст научной работы на тему «ЭНТРОПИЙНО-РАНДОМИЗИРОВАННОЕ ПРОГНОЗИРОВАНИЕ ЭВОЛЮЦИИ ПЛОЩАДИ ТЕРМОКАРСТОВЫХ ОЗЁР»

ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ

Челябинский физико-математический журнал. 2021. Т. 6, вып. 3. С. 384-396.

УДК 004.896 Б01: 10.47475/2500-0101-2021-16312

ЭНТРОПИЙНО-РАНДОМИЗИРОВАННОЕ ПРОГНОЗИРОВАНИЕ ЭВОЛЮЦИИ ПЛОЩАДИ ТЕРМОКАРСТОВЫХ ОЗЁР

Ю. А. Дубнов1'2'", В. Ю. Полищук3'6, А. Ю. Попков1с, Е. С. Сокол4^, А. В. Мельников46, Ю. М. Полищук4/, Ю. С. Попков1'5'6'7»

1ФИЦ «Информатика и управление» РАН, Москва, Россия 2 Высшая школа экономики, Москва, Россия

3Институт мониторинга климатических и экологических систем СО РАН, Томск, Россия

4 Югорский НИИ информационных технологий, Ханты-Мансийск, Россия 5Институт проблем управления РАН им. В. А. Трапезникова, Москва, Россия 6Московский физико-технический институт, Москва, Россия

7Московский государственный университет им. М. В. Ломоносова, Москва, Россия " dubnov90@gmail.com, 6liquid_metal@mail.ru, сpopkov.alexey@gmail.com, а sokoles@uriit.ru, 6melnikovav@uriit.ru, ?yupolishchuk@gmail.com, 9popkov.yuri@gmail.com

Предлагается альтернативный существующему в машинном обучении подход, который назван рандомизированным прогнозированием. Подход основан на рандомизированной параметризованной модели (РПМ) исследуемого процесса. Описана структура общей модели эволюции площади термокарстовых озёр. Для моделирования площади термокарстовых озёр и влияющих на неё среднегодовой температуры и годовой суммы осадков используются математические модели линейной динамической регрессии со случайными параметрами. Рассмотрены три вида прогнозов: краткосрочный, среднесрочный и долгосрочный для трёх зон мерзлоты (сплошной, прерывистой и островной) на территории Западной Сибири. Все полученные результаты являются воспроизводимыми в пределах средних значений и среднеквадратических ошибок. Результаты тестирования показывают, что выбранный вид модели рандомизированного прогнозирования эволюции площадей озёр хорошо описывает зависимость площади озёр и приводит к низким значениям относительных ошибок в 0.01— 0.02. С другой стороны, аналогичное моделирование температуры и осадков приводит к существенно большим погрешностям от 0.08 до 0.22. Полученный в результате прогноз эволюции площади озёр в зоне мерзлоты в условиях климатических изменений характеризуется стандартными отклонениями, не превышающими 2-4.5 %.

Ключевые слова: термокарстовые озёра, дистанционное зондирование, информационная энтропия, балансовые уравнения, динамическая регрессия, оптимизация, ляпуновская задача, сэмплирование, рандомизированное прогнозирование, рандомизированное машинное обучение.

Исследование проводилось при финансовой поддержке грантов Российского фонда фундаментальных исследований по проектам № 19-07-00282, № 20-07-00223 и № 20-07-00683.

Введение

Зоны вечной мерзлоты, занимающие значительную часть земной поверхности, — это места локализации термокарстовых озёр, которые являются накопителями парниковых газов (метана и углекислого газа). Последние оказывают существенное влияние на глобальные климатические изменения [1]. Имеющиеся исторические данные позволяют проследить прошлую пространственно-временную эволюцию термокарстовых озёр [2]. Но для её прогнозирования необходимы математические модели (environmental models, EnM), адаптированные к историческим данным. Последнее достигается с помощью алгоритмов машинного обучения и последующего использования EnM для прогнозирования. Проблемам, процедурам и алгоритмам машинного обучения посвящено огромное количество работ. Общее представление могут дать монографии [3; 4].

Одно из направлений в этой области связано с вероятностным обучением и прогнозированием, основанными на параметризованных моделях. По историческим данным строятся оценки параметров с использованием методов математической статистики. Эти оценки снабжают определёнными вероятностными характеристиками: доверительными интервалами и вероятностями, дисперсиями [5; 6]. Однако такая возможность основана на гипотезах о статистических свойствах реальных данных. Например, что они есть выборка из генеральной совокупности с плотностью распределения вероятностей, близкой к нормальной. Проверка подобных гипотез на реальных данных практически невозможна, в особенности когда их объём мал. Поскольку оценки носят вероятностный характер с неизвестными характеристиками, то надёжность прогноза предсказать невозможно [7; 8].

Процессы образования и эволюции термокарстовых озёр изучены недостаточно, исторические данные о них, в особенности получаемые со спутников, сопровождаются значительными погрешностями. Всё это приводит к тому, что прогнозные EnM должны функционировать в условиях достаточно высокой неопределённости. В данной статье предлагается альтернативный существующему в машинном обучении подход, который назван рандомизированным прогнозированием (РП). Он основан на рандомизированной параметризованной модели (РПМ) исследуемого процесса, параметры в которой предполагаются случайными величинами. Поэтому, под характеристиками РПМ понимаются функции плотности распределения вероятностей (ПРВ) параметров. В отличие от детерминированных моделей, где восстанавливаются оценки параметров, в рандомизированных моделях необходимо сформировать оптимальные оценки функций ПРВ. Последнее достигается методами рандомизированного машинного обучения (РМО) [9; 10]. Смысл рандомизированного прогнозирования состоит в том, чтобы, используя энтропийно-оптимизированную модель, генерировать ансамбль предсказательных траекторий при энтропийно-наихудших измерительных шумах и определять его числовые характеристики методами математической статистики [11].

1. Энтропийно-рандомизированное моделирование

Рандомизация как средство придания искусственных, целесообразно организованных случайных свойств событиям, индикаторам, методам и др., по природе своей неслучайным, является довольно распространённым приёмом достижения позитивного эффекта. Тому существует много примеров в самых разных областях науки, управления и экономики [12-15]. При этом рандомизация предполагает придание неслучайным объектам искусственных стохастических свойств с оптималь-

ными, в выбранном смысле, вероятностными характеристиками. Вопрос о выборе количественных характеристик оптимальности всегда оказывается дискуссионным и неоднозначным. Он требует аргументов, которые бы как-то отражали важную специфику рандомизированного объекта. В частности, принципиальной особенностью процедур моделирования и прогнозирования является сопровождающая их неопределённость в используемых данных, предсказывающих моделях, методах генерации прогнозов и др. Здесь будет использоваться в качестве характеристики неопределённости информационная энтропия.

В работах [16; 17] показано, что энтропия, согласно первому закону термодинамики, является естественным функционалом, характеризующим процессы всеобщей эволюции. Во-вторых, согласно второму закону термодинамики, её максимизация определяет наилучшее состояние эволюционного процесса при наихудших воздействиях на него (максимальной неопределённости). Стоит упомянуть ещё одно качество информационной энтропии, связанное с измерительными и иными погрешностями, являющимися важными характеристиками данных. Использование информационной энтропии для учёта влияния указанных погрешностей позволяет оценить вероятностные характеристики шумов, оказывающих наихудшее воздействие на процедуры прогнозирования.

Важным этапом технологии рандомизированного прогнозирования является формирование рандомизированных моделей эволюции площади термокарстовых озёр и влияющих на неё среднегодовой температуры и годовой суммы осадков. Для моделирования указанных переменных используются математические модели линейной динамической регрессии [18] со случайными параметрами (ЛДРР), которые являются одной из математических моделей векторного функционала (2).

1.1. Формирование модели площади

Временная эволюция площади (ЛДРР-П) 51 [и] описывается следующим уравнением динамической рандомизированной регрессии с двумя влияющими факторами — среднегодовой температурой Т[и] и годовой суммой осадков Я[п]:

р

£[п] = ао + ^ Б[п - к] + а(р+1) Т[п] + а(р+2)#[п], V[п] = 5[п] + £[п]. к= 1

Параметры

ак е Ак = [а-, а+], к = 0,1,... ,р + 2, а = {ао, аь ..., ар, ар+1, ар+2} е А = ирк+20Ак

случайные с функцией ПРВ Р(а). Переменная V[п] — наблюдаемый выход модели, значения случайного измерительного шума £[п] в различные моменты времени могут принадлежать различным интервалам:

£[п] е = [£"[п],£ +[п]]

с функцией ПРВ [п]), п = 0,1,... , N.

Для обучения этой модели, т.е. оценивания функций ПРВ Р(а), Qra(£[п]), имеются коллекции исторических данных по площади, температуре и осадкам. Однако на этапе прогнозирования площади данные о температуре и осадках отсутствуют. В данном случае в качестве вспомогательных моделей температуры и количества осадков будут использоваться аналогичные рандомизированные модели, поэтому далее по тексту процесс их построения и обучения опускается. Изменения температуры и осадков являются входными переменными для ЛДРР-П. Структура общей модели эволюции площади термокарстовых озёр ЛДРР показана на рис. 1.

л™

Рис. 1. Блок-схема модели ЛДРР

1.2. Подготовка данных

Состояние региональных термокарстовых озёр характеризуется их суммарной площадью Бг[п] в регионе г, измеряемой в (га), и факторами влияния на термокарстовые образования — среднегодовыми значениями температуры Тг[п] в (С°) и годовыми суммами осадков Дг[п] в (мм) (п — календарный год). Распределение тестовых участков по зонам имеет следующий вид:

— зона сплошной мерзлоты С: 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 30;

— зона прерывистой мерзлоты Б: 9, 10, 11, 12, 13, 14, 15, 16, 25, 26;

— зона островной мерзлоты I: 1, 2, 3, 4, 5, 6, 7, 8.

Данные, характеризующие состояние указанных ТУ, приведены в [19]. Для исключения масштабного эффекта они нормализуются, т. е. преобразуются к интервалу [0,1] по следующим соотношениям:

Б [п] =

Д(г)[п] - д?

Д,шах _ дшт >

Б(г) [п] Б™п Т(г) [п] Т™п

Бс [п] - Бш , т;[п] = Т [п] - Т , д[[п] = д [п] - д

1п ' сь J Фшах Фтт ' сь J

Сшах СШ1П Б+ Б+

Т шах _ Т Ш1п

г = 1, 2,..., 35, п = 0,1,..., 34.

Поскольку тестовые участки расположены в своих зонах достаточно компактно, формируются коллекции нормированных средних для зон данных, которые будут использоваться независимо для обучения, тестирования и прогнозирования: — зона С:

^(г)[п] = 4 Е Б[п], ТТ(г)[п] = 112 £ТДп], Д(г)[п] = 112 £ д>]

сес

сес

сес

зона Д:

^[п] = 110ЕБ[п], т(г)[п] = 10ЕТ[п], дД(г)[п] = 10Едс[п];

сед сед сед

зона I:

£(г)[п] = 8 Е Б[п], ТТ(г)[п] = 1 £ ТДп], д(г)[п] = 1 £ д [п].

се/

п| = -8

се/

п| = 8

е/

Таким образом, для каждой зоны имеется три временных ряда, каждый содержит 35 значений. Разделим их на две группы:

— обучающие коллекции (п = 0,1,... , 24) — для зоны С : £4п] = (Б(г)[п],Т(г)[п],Д(г)[п]),

- для зоны D : Dira[n] = (S(r)[n],T[n,]),

- для зоны I : 1гга[п] = (S(r)[n],T(r)[:], R(r)[n]);

— тестовые коллекции (n=24, 25,..., 34)

- для зоны C: Cts[n] = (S(r)[n],T(r)[n],R(r)[n]),

- для зоны D: Dts[n] = (S(r)[n],T(r)M, R(r)[n]),

- для зоны I: Its[n] = (S(r)[n],T(r) [n],R(r) [n]).

Данная процедура позволяет, пожертвовав некоторой частью данных для обучения, протестировать качество предполагаемой модели на известных точках таким образом, что прогноз на этапе тестирования будет формироваться с помощью модели, обученной на непересекающемся интервале обучения. Процедуру обучения будем проводить отдельно для ЛДРР-П, ЛДРР-Т и ЛДРР-О.

Для обучения модели будем использовать данные из обучающих коллекций (C1n[n], D1:[n], I1:[n],n = 0,1,..., 24). Из исторических данных сформируем векторы-столбцы при n = p,p + 1,... , 24

S((:n)_p)={1,Sr[n-1],... ,S(r)[n-p]}, S((pj={S(r)[p],... ,S(r)[24]}

(r)

T(S)p)={1,T(r)[n-1],... ,T(r)[n-p]}, T(((T))={T(r)[p],... ,T(r)[24]}, ={1,R(r)[n-1],... ,R(r)[n-p]}, R((p)={R(r)[p],... ,R(r)[24]}

R

(r)

(n-p)

и матрицы

S(0) S(24-p)

1.3. Алгоритм РМО

S(r)

T (r)= p

T(0) T(24-p)

, R(r) p

R(0) R(24-p)

Обучение РПМ состоит в оценивании ПРВ её параметров и шумов измерений по имеющимся данным. Он реализуется с помощью алгоритмов рандомизированного машинного обучения (РМО-А) [9; 10]. Алгоритм РМО для ЛДРР-П имеет вид

24

H[P(a,Q(£)] = - P(a)lnP(a)da-^ / Q„(£[n]) lnQ„(£[n])d^[n]^max (1)

:=p

при ограничениях

'A

P (a)da = 1, / Qra(£ [n])d£ [n] = 1,

(2)

P(a)Df;^p)ada + / Q:(£[n])d£[n] = S(r)[n], n = p,p +1,..., 24

A

(:-p)

(3)

где блочный вектор-строка Д(П_р) = £(П-р), Т(г) [п],

Решение этой задачи, параметризованное множителями Лагранжа в {вр, вр+1,... , в24}, имеет вид

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

exp (-(^>) f )

P *(М) =--^, P (#) = J^ exp (-(^,Dpr) » da,

n

n

где блочная матрица Дрг) = ^Б2(г),Тр(г), . Измерительный шум для ЛДРР-П имеет энтропийно-оптималные ПРВ следующего вида:

ЗП№] А) = ехр(Ч[п]^га) 2п(в„), Оп(вп) = / ехР(_С[п] в„)й £[п]. (5)

Множители Лагранжа в определяются из системы уравнений

Р-1(в^ехр (_(в,Я<г)а)) Я^аЛа+О-Чв) ^ехр(_£[п]в„К[п] =Б(г)[п], (6)

п = р,р + 1,... , 24. Интегралы, входящие в эти равенства, являются табличными, а переменные в них — множители Лагранжа вр, вр+1,... , в24.

Для ЛДРР-Т и ЛДРР-О алгоритм РМО отличается от (1)-(3) тем, что нужно оценивать совместные функции ПРВ, Ш(6,^) и Е(с, £) параметров и входных случайных последовательностей и функции ПРВ измерительных шумов Е(п) и С(х) (см. рис. 1). Из равенств (4), (5) видно, что энтропийно-оптимальные функции ПРВ — это распределения экспоненциального класса, параметризованные соответствующими множителями Лагранжа, значения которых определяются балансовыми уравнениями (6).

1.4. Рандомизированное прогнозирование площади

Прогнозирование эволюции площади термокарстовых озёр осуществляется на интервалах времени, превышающих интервал, на котором имеются необходимые данные о площади и климатических параметрах. В рассматриваемом нами случае начало интервала прогноза относится к 2008 г. Будем рассматривать три интервала:

— краткосрочный 2008-2012 гг. (п = 35, 36,... , 40);

— среднесрочный 2008-2017 гг. (п = 35, 36,..., 45);

— долгосрочный 2008-2022 гг. (п = 35, 36,..., 50).

Прогнозирование временной эволюции площади термокарстовых озёр осуществляется композицией рандомизированных обученных моделей (рис. 1) на указанных интервалах прогноза. Модели из указанной композиции характеризуются энтропийно-оптимальными функциями ПРВ параметров, вспомогательных случайных последовательностей и измерительных шумов, причём ПРВ последних различные для моментов времени на интервале обучения: они зависят от момента времени и соответствующего ему множителя Лагранжа. Так, например, измерительные шумы для ЛДРР-П имеют ПРВ Ог(£[п], вп), п = 0,1,... , 34. Для процедуры прогнозирования будем использовать усреднённые по множителям Лагранжа функции ПРВ.

Итак, блоки композиции моделей характеризуются следующими функциями ПРВ:

— ЛДРР-П: Р*(а), д* = (£, А), в = з4—р ЕШР вп;

— ЛДРР-Т: Ь*(6), М* = (0,и), Е* = (п,и), и = ^ £П1Р и;

— ЛДРР-О: Ь*(с), Z* = (С, А), С* = (х, А), А = 34-р ЕП=Р Ага.

На соответствующих прогнозных интервалах сэмплируются указанные функции ПРВ и генерируются с помощью метода Монте-Карло прогнозные ансамбли, состоящие из траекторий — изменений площади.

п

2. Результаты обучения, тестирования и прогнозирования временной эволюции площади термокарстовых озёр

2.1. Рандомизированное обучение (1973—1997 гг.)

В результате РМО определены энтропийно-оптимальные ПРВ параметров моделей, вспомогательных случайных последовательностей и измерительных шумов. Последние параметризованы множителями Лагранжа.

Поскольку ЛДРР-П — линейные, то они все экспоненциального типа:

Р*М) = Прк (а*), ) = ехр(7"^), Р* = / ехр(-д*а*, к=0 Рк ^к

24 24

50 = Е «к = Е [П - к], к =1, 2,...,р,

га=р га=р

24 24

= Е (Г)[п], 5р+2 = Е ^Д(Г)И,

га=р га=р

о-к,в) = ех4-м,<г =/е*р(-г0*, г 50

С ' у3 " 24 - р

В табл. 1 приведены средние значения оценок параметров методом энтропийного оценивания (МНЭ — метод наибольшей энтропии) в сравнении с оценками методом наименьших квадратов (МНК). Как видно из данной таблицы, энтропийное оценивание позволяет достигнуть сопоставимого с МНК значения коэффециента детерминации модели Я2 в терминах среднего, при этом обеспечивая возможность рандомизированного прогнозирования посредством генерации ансамбля траекторий.

Таблица 1

ЛДРР-П: оценки параметров модели площади Б 4-го порядка

Зона С

Параметр Оценка МНК Оценка МНЭ

ао -0.2888 -0.2750

а1 0.1069 0.1126

а2 -0.2224 -0.2212

аз -0.1289 -0.1333

а4 0.0535 0.0533

а5 0.8330 0.8322

аб 0.6245 0.6080

Коэффициент детерминации Л2 0.7307 0.7303

Аналогичная процедура обучения выполняется для вспомогательных моделей температуры и осадков по всем зонам С, Б, I.

2.2. Тестирование (1998-2007 гг.)

Процедура тестирования применяется к комбинации обученных моделей с использованием тестовых коллекций данных. Основу процедуры составляет сэмплирование оптимальных ПРВ и генерация ансамблей случайных траекторий на интервале тестирования. На рис. 2 показан ансамбль по площади, генерируемый моделью ЛДРР-П, на примере зоны С, а в табл. 2 приведены показатели точности тестирования для всех зон С, Б, I.

я а° 9-q а f\j

cr-f о о^б

\ г \

О .Щмчий -О - atmnmt Ш - ткифснч*«

ЛмСА^Яь

-(*J-)CT откл

1Э70

1975

1ЗД0

1985

1990 ГОД

1995

2000

ах»

2010

Рис. 2. Результаты моделирования эволюции площади (модель ЛДРР-П)

Абсолютные и относительные ошибки тестирования

Таблица 2

ЛДРР-П ЛДРР-T ЛДРР-O

Зона C D I C D I C D I

AbsErr 0.3446 0.5354 1.3534 1.2863 1.1239 1.0284 107.64 118.97 86.66

RelErr 0.0089 0.0135 0.0140 0.0801 0.1084 0.2215 0.1675 0.1370 0.0947

2.3. Рандомизированное прогнозирование (2008—2022 гг.)

Все прогнозы строятся с использованием комбинированной модели (рис. 1), элементами которой являются ЛДРР-П, ЛДРР-Т и ЛДРР-О. Энтропийно-оптимальные ПРВ генерируют ансамбли траекторий, характеризующие временную эволюцию площади термокарстовых озёр на соответствующем интервале прогноза. Отличие интервала прогноза от интервала тестирования заключается в том, что в данном случае для обучения моделей используются все точки исторических данных. Для каждой точки по ансамблю вычисляется среднее значение (mean) и стандартное отклонение (std). Результаты прогнозирования всех зон представлены в табл. 3, 4 и 5 для прогнозов с 2007 года на 5, 10 и 15 лет соответственно.

Таблица 3

Прогнозируемая эволюция площади термокарстовых озёр до 2012 г.

Год 2007 2008 2009 2010 2011 2012

C — mean 19.9252 19.2820 19.4881 19.4444 19.7255 19.8765

C — std — 0.5193 0.5509 0.5462 0.5623 0.5694

D — mean 21.3674 18.8605 20.7156 19.0790 20.1559 19.3715

D — std — 1.2405 1.2599 1.1607 1.2085 1.0924

I — mean 53.2158 43.1694 50.1471 44.7717 48.9104 46.3077

I — std — 2.3760 2.3276 2.2961 2.2025 2.1959

Таблица 4

Прогнозируемая эволюция площади термокарстовых озёр до 2017 г.

Год 2013 2014 2015 2016 2017

C — теми 20.0226 19.9603 19.9349 19.8134 19.7374

C — std 0.6205 0.6542 0.6878 0.6878 0.6713

D — теаи 19.9220 19.5528 19.8171 19.6082 19.7359

D — std 1.1424 1.0787 1.1133 1.0887 1.1053

I — теаи 48.6890 47.3009 48.2036 47.4963 47.8111

I — std 2.0383 2.0673 2.0253 2.0554 2.0402

Таблица 5

Прогнозируемая эволюция площади термокарстовых озёр до 2022 г.

Год 2018 2019 2020 2021 2022

C — теаи 19.6453 19.5491 19.4576 19.3742 19.3070

C — std 0.6367 0.5969 0.5569 0.5215 0.4901

D — теаи 19.6215 19.6897 19.6372 19.6780 19.6546

D — std 1.0913 1.0979 1.0885 1.0911 1.0867

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

I — теаи 47.5081 47.6778 47.6040 47.6912 47.6729

I — std 2.0584 2.0421 2.0484 2.0405 2.0443

На рис. 3 показан ансамбль прогноза для зоны C, на графике отмечены траектория средних значений (mean) и дисперсионная трубка (std).

Рис. 3. Результаты прогнозирования эволюции площади (2008-2022 гг.)

3. Обсуждение результатов

Приступая к обсуждению, отметим, что все полученные результаты являются воспроизводимыми в пределах средних значений и среднеквадратических ошибок. Несмотря на рандомизированную природу моделей и способа прогнозирования, воспроизводимость достигается благодаря методу энтропийно-робастного оценивания и выполнению балансовых ограничений на средний выход модели.

Результаты тестирования, приведённые в табл. 2, показывают, что выбранный вид модели ЛДРР-П хорошо описывает зависимость площади озёр и приводит к низким значениям относительных ошибок в 0.01-0.02. Абсолютная ошибка больше для области I, так как средняя величина площади тестовых участков в данной области превосходит остальные. С другой стороны, аналогичное моделирование температуры и осадков приводит к существенно большим погрешностям от 0.08 до 0.22, что связано в первую очередь с достаточно простым линейным видом моделей ЛДРР-Т и ЛДРР-О. И поскольку именно эти модели используются далее для прогнозирования, то совершенствование моделей температуры и осадков в дальнейшем позволит значительно повысить качество прогнозирования площади.

Полученный в данной работе прогноз эволюции площади характеризуется средними значениями (табл. 3-5) и стандартными отклонениями, составляющими от 2 до 4.5 %. Также в прогнозах для зон D и I наблюдается колебательный процесс и выход на некоторый постоянный уровень после 2018 г., аналогичная ситуация встречается при построении тренда методом скользящего среднего на достаточно длительном интервале. В данном случае на динамику площади в наибольшей степени влияет изменение температуры.

Список литературы

1. KirpotinS., Polishchuk Yu., BryksinaN. Abrupt changes of thermokarst lakes in Western Siberia: impacts of climatic warming on permafrost melting // International Journal of Environmental Studies. 2009. Vol. 66, no. 4. P. 423-431.

2. Karlson J. M., Lyon S. W., Destouni G. Temporal behavior of lake size-distributionin a thawing permafrost landscape in Northwestern Siberia // Remote Sensing. 2014. No. 6. P. 621-636.

3. Vapnik V. N. Statistical Learning Theory. New York : John Willey & Sons, 1998.

4. Bishop C. Pattern Recognition and Machine Learning. New York : Springer, 2007.

5. ZellnerA. Bayesian shrinkage estimation and forecasts of individual and total or aggregate outcomes // Economic Modelling. 2010. Vol. 27, iss. 6. P. 1392-1397.

6. HorvathR. Research & development and growth: A Bayesian model averaging analysis // Economic Modelling. 2011. Vol. 28, iss. 6. P. 2669-2673.

7. Allen M. R., StainforthD. A. Towards objective probabilistic climate forecasting // Nature. 2002. Vol. 419, no. 228.

8. Lawrence M., Goodwin P., O'Connor M., OnkalD. Judgemental forecasting: A review of progress over the last 25 years // International Journal of Forecasting. 2006. Vol. 22, iss. 3. P. 493-518.

9. PopkovYu., PopkovA. New method of entropy-robust estimation for randomized models under limited data // Entropy. 2014. Vol. 16. P. 675-698.

10. Попков Ю. С., Попков А. Ю., Дубнов Ю. А. Рандомизированное машинное обучение при ограниченных объёмах данных. М. : УРСС, 2019.

11. PopkovYu. S., PopkovA.Yu., DubnovYu. A., SolamatineD. Entropy-randomized forecasting of stochastic dynamic regression models // Mathematics. 2020. Vol. 8, no. 1119.

12. Vidyasagar M. Statistical learning theory and randomized algorithms for control // IEEE Control System Magazine. 1998. Vol. 1, no. 17. P. 69-88.

13. LutzW., SandersenS., ScherbovS. The end of world population growth // Nature. 2001. Vol. 412, no. 6846. P. 543-545.

14. Граничин О. Н., Поляк Б. Т. Рандомизированные алгоритмы оценивания и оптимизации при почти произвольных помехах. М. : Наука, 2002.

15. BiondoA.E., PluchinoA., RapisardaA., HelbingD. Are random traiding strategies more successful than technical ones? // PLoS ONE. 2013. Vol. 6, no. 7. P. e68344.

16. Jaynes E. T. Information theory and statistical mechanics // Physics Review. 1957. Vol. 106. P. 620-630.

17. Jaynes E. T. Papers on Probability, Statistics and Statistical Physics. Dordrecht: Kluwer Academic Publisher, 1989.

18. Айвазян С. А., Енюков И. С., МешалкинЛ.Д. Прикладная статистика: исследование зависимостей // Вестн. Юж.-Урал. гос. ун-та. Сер. : Математика. Механика. Физика. 2013. Т. 5, № 2. С. 45-51.

19. Айвазян С. А., Енюков И. С., МешалкинЛ.Д. Прикладная статистика: исследование зависимостей. М. : Финансы и статистика, 1985.

Поступила в 'редакцию 12.07.2021. После переработки 28.08.2021.

Сведения об авторах Дубнов Юрий Андреевич, научный сотрудник Института системного анализа, ФИЦ «Информатика и управление» РАН; старший преподаватель кафедры технологий моделирования сложных систем, Высшая школа экономики (НИУ ВШЭ), Москва, Россия; e-mail: dubnov90@gmail.com.

Полищук Владимир Юрьевич, кандидат технических наук, доцент, научный сотрудник лаборатории геоинформационных технологий, Институт мониторинга климатических и экологических систем СО РАН, Томск, Россия; e-mail: liquid_metal@mail.ru. Попков Алексей Юрьевич, кандидат технических наук, ведущий научный сотрудник лаборатории математического моделирования транспортных потоков, ФИЦ «Информатика и управление» РАН, Москва, Россия; e-mail: popkov.alexey@gmail.com. Сокол Евгений Сергеевич, ведущий системный администратор, Югорский НИИ информационных технологий, Ханты-Мансийск, Россия; e-mail: sokoles@uriit.ru. Мельников Андрей Витальевич, доктор технических наук, профессор базовой кафедры Югорского государственного университета на базе Югорского НИИ информационных технологий; директор Югорского НИИ информационных технологий, Ханты-Мансийск, Россия; e-mail: melnikovav@uriit.ru.

Полищук Юрий Михайлович, доктор физико-математических наук, профессор, главный научный сотрудник Центра космических услуг Земли, Югорский НИИ информационных технологий, Ханты-Мансийск, Россия; e-mail: yupolishchuk@gmail.com. Попков Юрий Соломонович, академик РАН, доктор технических наук, профессор, главный научный сотрудник Института системного анализа, ФИЦ «Информатика и управление» РАН; главный научный сотрудник, Институт проблем управления РАН; заведующий кафедрой «Системные исследования», Московский физико-технический институт; профессор кафедры «Нелинейные динамические системы», факультет вычислительной математики и кибернетики, Московский государственный университет им. М. В. Ломоносова, Москва, Россия; e-mail: popkov.yuri@gmail.com.

Chelyabinsk Physical and Mathematical Journal. 2021. Vol. 6, iss. 3. P. 384-396.

DOI: 10.47475/2500-0101-2021-16312

ENTROPINE-RANDOMIZED FORECASTING OF THE EVOLUTION OF THE AREA OF THERMOKARST LAKES

Yu.A. Dubnov1'2'", V.Yu. Polishchuk3b, A.Yu. Popkov1c, E.S. Sokol 4'd, A.V. Melnikov4e, Yu.M. Polishchuk4f, Yu.S. Popkov1'5'9

1 Federal Research Center «Computer Science and Control», RAS, Moscow, Russia 2Higher School of Economics University, Moscow, Russia

3Institute of Monitoring of Climatic and Ecological Systems of the Siberian Branch of the RAS, Tomsk, Russia

4 Yugra Research Institute of Information Technologies, Khanty-Mansiysk, Russia 5V.A. Trapeznikov Institute of Control Sciences, RAS, Moscow, Russia 6Moscow Institute of Physics and Technology, Moscow, Russia 6Lomonosov Moscow State University, Moscow, Russia

"dubnov90@gmail.com, bliquid_metal@mail.ru, cpopkov.alexey@gmail.com, dsokoles@uriit.ru, emelnikovav@uriit.ru, f yupolishchuk@gmail.com, 9popkov.yuri@gmail.com

The article proposes an alternative approach to the existing one in machine learning, which is called randomized forecasting. The approach is based on a randomized parameterized model of the process under study. The structure of the general model of the evolution of the area of the thermokarst lakes is described. To model the area of the thermokarst lakes and the average annual temperature and annual precipitation that affect it, mathematical linear dynamic regression models with random parameters are used. Three types of forecasts are considered: short-term, medium-term and long-term for three permafrost zones (continuous, discontinuous and insular) on the territory of Western Siberia. All results obtained are reproducible within the mean and standard error limits. The test results show that the selected type of the model for randomized forecasting of the evolution of lake areas describes well the dependence of the area of the lakes and leads to low values of relative errors of 0.01-0.02. On the other hand, similar modeling of temperature and precipitation leads to significantly larger errors from 0.08 to 0.22. The resulting forecast of the evolution of the area of the lakes in the permafrost zone under climatic changes is characterized by standard deviations not exceeding 2-4.5%.

Keywords: thermokarst lakes, remote sensing, information entropy, balance equations, dynamic regression, optimization, Lyapunov problem, sampling, randomized forecasting, randomized machine learning.

References

1. KirpotinS., Polishchuk Yu., BryksinaN. Abrupt changes of thermokarst lakes in Western Siberia: impacts of climatic warming on permafrost melting. International Journal of Environmental Studies, 2009, vol. 66, no. 4, pp. 423-431.

2. Karlson J.M., Lyon S.W., Destouni G. Temporal behavior of lake size-distributionin a thawing permafrost landscape in Northwestern Siberia. Remote sensing, 2014, no. 6, pp. 621-636.

3. Vapnik V.N. Statistical Learning Theory. New York, John Willey & Sons, 1998.

4. Bishop C. Pattern Recognition and Machine Learning. New York, Springer, 2007.

The research was carried out with the financial support of grants from the Russian Foundation for Basic Research under projects 19-07-00282, 20-07-00223 and 20-07-00683.

5. ZellnerA. Bayesian shrinkage estimation and forecasts of individual and total or aggregate outcomes. Economic Modelling, 2010, vol. 27, iss. 6, pp. 1392-1397.

6. HorvathR. Research & development and growth: A Bayesian model averaging analysis. Economic Modelling, 2011, vol. 28, iss. 6, pp. 2669-2673.

7. Allen M.R., StainforthD.A. Towards objective probabilistic climate forecasting. Nature, 2002, v. 419, no. 228.

8. Lawrence M., Goodwin P., O'Connor M., OnkalD. Judgemental forecasting: A review of progress over the last 25 years. International Journal of Forecasting, 2006, vol. 22, iss. 3, pp. 493-518.

9. PopkovYu., PopkovA. New method of entropy-robust estimation for ramdomized models under limited data. Entropy, 2014, vol. 16, pp. 675-698.

10. PopkovYu.S., PopkovA.Yu., DubnovYu.A. Randomizirovannoye mashinnoye obucheniye pri ogranichennykh obyomakh dannykh [Randomized machine learning with limited data]. Moscow, Nauka Publ., 2019. (In Russ.).

11. PopkovYu.S., PopkovA.Yu., DubnovYu.A., SolamatineD. Entropy-randomized forecasting of stochastic dynamic regression models. Mathematics, 2020, vol. 8, no. 1119.

12. Vidyasagar M. Statistical learning theory and randomized algorithms for control. IEEE Control System Magazine, 1998, vol. 1, no. 17, pp. 69-88.

13. LutzW., SandersenS., ScherbovS. The end of world population growth. Nature, 2001, vol. 412, no. 6846, pp. 543-545.

14. Granichin O.N., PolyakB.T. Randomizirovannye algoritmy otsenivaniya i optimizatsii pri pochti proizvol'nykh pomekhakh [Randomized estimation and optimization algorithms with almost arbitrary noises]. Moscow, Nauka Publ., 2002. (In Russ.).

15. BiondoA.E., PluchinoA., RapisardaA., HelbingD. Are random traiding strategies more successful than technical ones? PLoS ONE, 2013, vol. 6, no. 7, p. e68344.

16. Jaynes E.T. Information theory and statistical mechanics. Physics Review, 1957, vol. 106, pp. 620-630.

17. Jaynes E.T. Papers on Probability, Statistics and Statistical Physics. Dordrecht, Kluwer Academic Publ., 1989.

18. Ajvazyan S.A., Enyukovl.S., Meshalkin L.D. Prikladnaya statistika: Issledovaniye zavisimostey. Vestnik Yuzhno-Ural'skogo gosudarstvennogo universiteta. Seriya: Matematika. Mekhanika. Fizika [Bulletin of South Ural State University. Series: Mathematics. Mechanics. Physics], 2013, vol. 5, no. 2, pp. 45-51. (In Russ.).

19. Ajvazyan S.A., Enyukovl.S., Meshalkin L.D. Prikladnaya statistika: Issledovaniye zavisimostey [Applied Statistics: Exploring Dependencies]. Moscow, Finance and Statistics, 1985. (In Russ.).

Accepted article received 12.07.2021 Corrections received 28.08.2021.

i Надоели баннеры? Вы всегда можете отключить рекламу.