Решение уравнения Пуассона с помощью физико-информированной нейронной сети с натуральным градиентным спуском с распределением
Дирихле
Р.И. Абдулкадиров, П.А. Ляхов, Н.Н. Нагорнов Северо-Кавказский федеральный университет, Ставрополь
Аннотация: В данной статье предлагается физико-информированная нейронная сеть, содержащая натуральный градиентный спуск, для решения краевой задачи уравнения Пуассона. Методы машинного обучения, использующийся в решении дифференциальных уравнений в частных производных, являются альтернативой по отношению методу конечных элементов. Традиционные численные методы решения дифференциальных уравнений не способны с эквивалентной эффективностью решать произвольные задачи математической физики, в отличии от методов машинного обучения. За точность решения начальных и краевых задач уравнений в частных производных отвечает функция потерь нейронной сети. Чем эффективнее проходит минимизация функции потерь, тем более точное решение получается в итоге. Самым традиционным алгоритмом оптимизации является адаптивная оценка моментов, которая по сей день используется в глубоком обучении. Однако данный подход не гарантирует достижения глобального минимума функции потерь. Вследствие этого, мы предлагаем использовать натуральный градиентный спуск с распределением Дирихле, который позволил повысить точность решения уравнения Пуассона.
Ключевые слова: натуральный градиентный спуск, уравнение Пуассона, матрица Фишера, метод конечных элементов, нейронные сети.
Введение
Проблема поиска точных или численных решений дифференциальных и интегральных уравнений остается актуальной. Существует множество аналитических методов решения различных уравнений в частных производных (УЧП), отмеченных в [1 - 3]. К точным методам относятся классические и неклассические редукции симметрии, дифференциальные ограничения, разделение переменных и подходы Пенлеве. Это облегчает изучение УЧП, но, к сожалению, не всегда удается построить аналитическое решение. Тогда приходится применять численные методы.
На практике многие исследователи применяют методы конечных разностей, конечных элементов (МКЭ) и конечных объемов для решения начальных и граничных условий УЧП в [2]. Первый метод является самым
ранним среди других и требует много времени для вычислений. Второй и третий методы эффективны для моделирования, существенно сокращая время вычислений. Более того, МКЭ является наиболее предпочтительным подходом для УЧП в 2 и 3 измерениях.
Новейшим подходом поиска решений УЧП является физико-информированная нейронная сеть (PINN) [4]. Она состоит из обычного многослойного персептрона и слоев автоматической дифференциации. В соответствии со значениями, полученными от УЧП и его начального и граничного условия, PINN корректирует решение на каждой итерации.
В данной статье мы предлагаем PINN, содержащую натуральный градиентный спуск (NGDM Nesterov) с распределением Дирихле, для повышения точности решения уравнения Пуассона и сокращения времени обучения по сравнению с МКЭ. В экспериментальной части демонстрируется преимущество предложенного NGDM Nesterov над адаптивной оценкой моментов (Adam). Кроме того, мы показываем, что PINN с NGDM Nesterov достигает точности выше, чем МКЭ.
Мы рассматриваем следующее УЧП с параметром для решения u( x)
Предварительные сведения
с x eßc Rn:
/ du f x; —
dxx
с граничным условием:
В(и, х) = 0, х е , где В(и, х) может быть условием Дирихле, Неймана или Робина.
Neural Network (x, t, 6)
PDEß)
Рис. 1. - Архитектура физико-информированной сети
На рисунке 1 представлена архитектура PINN. Эта конструкция принимает на входных слоях значения пространственных и временных переменных х и t, соответственно. Далее эти значения проходят через скрытые слои, а затем на последнем нейроне нейронная сеть выдает значение Затем выходные результаты нейронной сети поступают на слой, который
состоит из частных производных произвольных порядков и начальных и граничных условий (IC и BC). Обратите внимание, что 6 = {W(l\b(l-
это набор всех весовых матриц W (l) и векторов смещения b(l) в нейронной сети, а также параметры 6, полученные путем минимизации функции потерь L(6;T). Необходимо ограничить нейронную сеть, налагаемой УЧП и граничными условиями. На практике мы ограничиваемся некоторыми разбросанными точками (например, случайно распределенными точками или кластеризованными точками в области определения), то есть обучающими данными размером T = }. Кроме того, состоит из двух множеств
Tf eQ и Tb е5Q, которые являются точками в области и на границе соответственно. Мы будем называть T^ и T6 множествами «остаточных точек».
и
Чтобы измерить несоответствие между нейронной сетью и ограничениями, мы рассматриваем функцию потерь, определяемую, как взвешенное суммирование Ь2 норм для УЧП и граничных условий:
L(в; Т) = wfLf (0; Т/) + м>ьЬь (0; Ть)
где
N 2
f
x;
д£ д€ d € d &
v 'dx' 'dx 'dx, dx ' 'dx, dx
V 1 n 11 1 n
и
Lb (в;Т) = Х,етьИ(€ *)||2, где wf и ^ — веса УЧП и граничных условий. Для сохранения физического
смысла УЧП, функция потерь содержит производные, такие как
д€ dx.
и
d 2€ dxt dx}
которые обрабатываются посредством автоматического
дифференцирования.
Нейронные сети, решающие дифференциальные и интегральные уравнения в частных производных, можно модифицировать, выбрав новый оптимизатор, расширив функции потерь и преобразовав уровни в сети. На практике сеть на рисунке 1 можно заменить на рекуррентные, модульные, вейвлетные или комплекснозначные нейронные сети, но этот подход подходит в случае уравнений Бюргерса, Клейна-Гордона, КдВ и Навье-Стокса.
Алгоритм Adam (Adaptive Moment Estimation, адаптивная оценка момента) из [5] вычисляет индивидуальные скорости адаптивного обучения для различных параметров на основе оценок из первого и второго моментов градиентов. Данный алгоритм является одним из наиболее широко применяемых в сверточных, остаточных и многих других нейронных сетях.
2
М Инженерный вестник Дона, №10 (2023) ivdon.ru/ru/magazine/arcliive/nl0y2023/8790
Также он имеет применение в PINN, что было продемонстрировано в [6]. В Алгоритме 1 мы представляем псевдокод Adam.
Алгоритм 1 Адаптивная оценка момента
Входные данные: у (скорость обучения), Д, Д (моменты первого и второго порядка), 0О (начальное значение), f (функция потерь), X (распад веса) Выходные данные: вп (результат)
1. m0 ^ 0 (первый момент), v0 ^ 0 (второй момент)
2. for i from 1 to n do
3. gt ^Vf (0M -1)+X6l_l
4. m ^ßimi-i +(1 -ßi)gt
5. Vi ^ß2Vi-i + (1 -ß2)gf
m
6. € ^ m
7. € ^
(1 -д )
v.
(1-Д2)
9. end for
Отметим, что существуют две модификации адаптивной оценки моментов, такие как NAdam [7] и RAdam [8]. Они лучше работают в сверточных нейронных сетях, но в PINN такие алгоритмы не эффективны. В [6] лучшие результаты были получены благодаря Adam, а не NAdam или RAdam. Но недостатком Adam в PINN являются слишком большие затраты времени, что не позволяет конкурировать с МКЭ. Но если уменьшить оценку моментов и учесть не только направления градиентов, но и кривизну функции потерь, то можно уменьшить затраты времени и существенно повысить точность решения.
и
Натуральный градиентный спуск с распределением Дирихле
Алгоритм натурального градиентного спуска, способный ускорить процесс обучения нейронных сетей, рассмотрен в [9]. Напомним итерационную формулу с размером шага ук:
0к+1 = вк -rkF (0k )-1vf (вк).
Основной частью естественного градиентного спуска является матрица Фишера F(вк) из [10], которую можно вычислить на многообразии вероятностных распределений с помощью дивергенции Кульбака-Лейблера для любой функции f (6k). Пусть p( x;%) - некоторое семейство вероятностных распределений по x , параметризованное вектором действительных чисел . Тогда мы получаем расхождение K - L для
непрерывного распределения вероятностей:
KL (p(x;£ ); p(x;£ +S%)) =
-1 SfE[V log p( x; 4t )V log p( x; £ )T Щ
где E[V log p( x;^ )V log p( x;%t )T ] = F ) - информационная матрица Фишера, которая представляет собой Риманову структуру на многообразии вероятностных распределений [11] и [12].
Распределение Дирихле порядка K > 2 с параметрами ах,...,ак> 0 [13] имеет функцию плотности вероятности относительно меры Лебега на Евклидовом пространстве RK-1, определяемую выражением:
f (x; a) = -Ц ПК=1 *?-1, B(a) = ,
B(a) Ц^ц)
где {x }Ki принадлежит (K -1)-симплексу.
М Инженерный вестник Дона, №10 (2023) ivdon.ru/ru/magazine/arcliive/nl0y2023/8790
Следовательно, мы можем найти матрицу Фишера F из [14] с
d2
Fü = у' (at) - у' (Х^ ) и Fa = -у' (^ a ), где у/ ' = -Г2 log( Г( x)) - тригамма-
функция и г,I = 1,...,К,г ФI.
Согласно информационной матрице Фишера распределения Дирихле получаем Алгоритм 2.
Алгоритм 2 Натуральный градиентный спуск с моментом и распределением Дирихле
Входные данные: у (скорость обучения), 60 (начальное значение), f (функция потерь), X (распад веса), и (импульс), т (демпфирование), F (матрица Фишера). Выходные данные: вп (результат)
1. for i from 1 to n do
2. gt ^Vf (6M -1) + X6-
3. if i > 1 then
4. b ^/b-1 + (1 + т)gt
5. else
6. b ^ g>
7. end if
8. 6t ^6M -yF"1(gi-1 + /)
9. end for
Заметим, что в Алгоритме 2 нет необходимости уменьшать длину шагов или числовое значение градиента для улучшения конечных значений экстремумов. Матрица Фишера содержит параметры без элементов вектора x, что позволяет избежать дополнительных вычислений в цикле. Учитывая свойства кривизны, натуральные градиенты достигают глобального минимума быстрее, что позволяет за короткое время добиться более высокой точности решения в PINN.
и
Эксперимент
В экспериментальной части демонстрируются точности решений, полученных МКЭ, PINN(Adam) и PINN (NGDM Nesterov). Рассмотрим уравнение Пуассона:
-Au( x, y) = -1, Q = [0,1]2,
u(x, y) = 0, öQ.
Точное решение краевой задачи, которое можно получить методом разделения, имеет вид:
u(X У) = J J G(x y, £ r)drdÇ,
0 0
sin( pnx) sin( qmy) sin (pj)sin (qmr)
G( x, y£,rf) = Z"=1 Z™=1 2 2 '
P2 + qm
где pn =Л2, qm =rnn.
Решение уравнения Пуассона, заданное PINN, представлено на рис. 2. Теперь сравним решения, полученные МКЭ и PINN, содержащие Adam и NGDM Nesterov (таблица 1).
Таблица № 1
Сравнение решений, представленных МКЭ и PINN (Adam и NGDM)
Метод решения Ошибка Сетка, количество эпох Время, c
FEM 1,378e-4 квадрат 256x256 61,1
PINN (Adam) 2,098e-4 10000 95,3
PINN (NGDM Nesterov) 8,911e-5 10000 66,7
1.0 0.0
Рис. 2. - Решение уравнения Пуассона, заданное PINN
В таблице 1 показано, что PINN (NGDM) достигает максимальной точности за 66,7 секунды, что довольно быстро для уравнения Пуассона. Но он решает уравнение медленнее, чем МКЭ, который использует сетку из квадратов 256*256 и обеспечивает хорошую точность. Если мы возьмем сетку с квадратами больше 256, это займет слишком много времени. PINN (Adam) решает первую краевую задачу за 95,3 секунды.
Заключение
По результатам экспериментов можно сделать вывод, что PINN (NGDM Nesterov) дает наибольшую точность решения за короткое время. Это означает, что предлагаемый подход может конкурировать с МКЭ по
точности и времени. В ходе дальнейших исследований мы сможем рассчитать информационные матрицы Фишера распределений Гумбеля и Гомпертца, которые потенциально могут быть более эффективными, чем распределение Дирихле. Более того, вместо PINN мы будем применять глубокую операторскую сеть (DeepONet) для решения нелинейных уравнений в частных уравнениях, таких, как уравнения Клейна-Гордона, Бюргерса и КдВ.
Благодарности
Исследование проведено при поддержке Совета по грантам Президента Российской Федерации (проект № МК-371.2022.4).
Литература
1. Полянин А.Д., Журов А.И. Методы разделения переменных и точные решения нелинейных уравнений математической физики. Москва. ИПМех РАН. 2020. 384 с.
2. Полянин А.Д. Справочник по линейным уравнениям математической физики. Москва. Физ.-мат. лит., Наука/Интерпериодика. 2001. 575 с.
3. Полянин А.Д., Зайцев В.Ф. Справочник по нелинейным уравнениям математической физики. Москва. ФИЗМАТЛИТ. 2008. 688 с.
4. Raissia M., Perdikaris P., Karniadakis G.E. Physics-informed neural networks: A deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations. Journal of Computational Physics. 2019. V. 378. Pp. 686-707.
5. Wu H.P., Li L. The BP Neural Network with Adam Optimizer for Predicting Audit Opinions of Listed Companies. IAENG International Journal of Computer Science. 2021. V. 48. Pp. 364-368.
М Инженерный вестник Дона, №10 (2023) ivdon.ru/ru/magazine/arcliive/nl0y2023/8790
6. Lu L., Meng X., Mao Z., Karniadakis G.E. DeepXDE: A deep learning library for solving differential equations. SIAM Review. V. 63. №1. Pp. 208-228.
7. Dozat T. Incorporating Nesterov Momentum into Adam. Proceedings of the 4th International Conference on Learning Representations California. 2016. Pp. 1-4.
8. Liu L., Jiang H., He P., Chen W., Liu X., Gao J., Han J. On the Variance of the Adaptive Learning Rate and Beyond. International Conference on Learning Representations California. 2020. Pp. 1-13.
9. Martens J. New Insights and Perspectives on the Natural Gradient Method. Journal of Machine Learning Research. 2020. V. 21. Pp. 1-76.
10. Huang Y., Zhang Y., Chambers J.A. A Novel Kullback-Leibler Divergence Minimization-Based Adaptive Student's t-Filter. IEEE Transactions on Signal Processing. 2019. V. 67. Pp. 5417-5432.
11. Alvarez F., Bolte J., Brahic O. Hessian Riemannian Gradient Flows in Convex Programming. SIAM Journal on Control and Optimization. 2004. V. 43. №2. Pp. 68-73.
12. Abdulkadirov R., Lyakhov P., Nagornov N. Accelerating Extreme Search of Multidimensional Functions Based on Natural Gradient Descent with Dirichlet Distributions. Mathematics. 2022. V. 10. №19. P. 3556.
13. Wong T.T. Generalized Dirichlet distribution in Bayesian analysis. Applied Mathematics and Computation. 1998. V. 87. Pp. 165-181.
14. Abdulkadirov R.I., Lyakhov P.A. Improving Extreme Search with Natural Gradient Descent Using Dirichlet Distribution. Mathematics and its Applications in New Computer Systems. Lecture Notes in Networks and Systems. 2021. V. 424. Pp. 19-28.
М Инженерный вестник Дона, №10 (2023) ivdon.ru/ru/magazine/arcliive/nl0y2023/8790
References
1. Poljanin A.D., Zhurov A.I. Metody razdelenija peremennyh i tochnyt reshenija nelinejnyh uravnenij matematicheskoj fiziki [Separation of Variables and Exact Solutions to Nonlinear PDEs]. Moskva: IPMeh RAN, 2020. 384 p.
2. Poljanin A.D. Spravochnik po linejnym uravnenijam matematicheskoj fiziki [Handbook of Linear Partial Differential Equations for Engineers and Scientists]. Moskva: Fiz.-mat. lit., Nauka/Interperiodika, 2001. 575 p.
3. Poljanin A.D., Zajcev V.F. Spravochnik po nelinejnym uravnenijami matematicheskoj fiziki [Handbook of Nonlinear Partial Differential Equations]. Moskva: FIZMALIT, 2008. 688 p.
4. Raissia M., Perdikaris P., Karniadakis G.E. Physics-informed neural networks: A deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations. Journal of Computational Physics. 2019. V. 378. Pp. 686-707.
5. Wu H.P., Li L. The BP Neural Network with Adam Optimizer for Predicting Audit Opinions of Listed Companies. IAENG International Journal of Computer Science. 2021. V. 48. Pp. 364-368.
6. Lu L., Meng X., Mao Z., Karniadakis G.E. DeepXDE: A deep learning library for solving differential equations. SIAM Review. V. 63. №1. Pp. 208-228.
7. Dozat T. Incorporating Nesterov Momentum into Adam. Proceedings of the 4th International Conference on Learning Representations California. 2016. Pp. 1-4.
8. Liu L., Jiang H., He P., Chen W., Liu X., Gao J., Han J. On the Variance of the Adaptive Learning Rate and Beyond. International Conference on Learning Representations California. 2020. Pp. 1-13.
9. Martens J. New Insights and Perspectives on the Natural Gradient Method. Journal of Machine Learning Research. 2020. V. 21. Pp. 1-76.
10. Huang Y., Zhang Y., Chambers J.A. A Novel Kullback-Leibler Divergence Minimization-Based Adaptive Student's t-Filter. IEEE Transactions on Signal Processing. 2019. V. 67. Pp. 5417-5432.
11. Alvarez F., Bolte J., Brahic O. Hessian Riemannian Gradient Flows in Convex Programming. SIAM Journal on Control and Optimization. 2004. V. 43. №2. Pp. 68-73.
12. Abdulkadirov R., Lyakhov P., Nagornov N. Accelerating Extreme Search of Multidimensional Functions Based on Natural Gradient Descent with Dirichlet Distributions. Mathematics. 2022. V. 10. №19. P. 3556.
13. Wong T.T. Generalized Dirichlet distribution in Bayesian analysis. Applied Mathematics and Computation. 1998. V. 87. Pp. 165-181.
14. Abdulkadirov R.I., Lyakhov P.A. Improving Extreme Search with Natural Gradient Descent Using Dirichlet Distribution. Mathematics and its Applications in New Computer Systems. Lecture Notes in Networks and Systems. 2021. V. 424. Pp. 19-28.