NEURAL NETWORK APPROACH TO SOLVING THE PROBLEM OF SELF-ACTION OF WAVE FIELDS IN NONLINEAR MEDIA
E. Vasiliev, D. Bolotov, M. Bolotov, L. Smirnov
Lobaehevsky State University, 603022, Nizhny Novgorod, Russia
DOI: 10.24412/2073-0667-2022-1-5-16
We consider the problem of propagation of optical impulses in media with Kerr nonlinearitv. As a mathematical model describing an optical pulse propagation process, we chose a generalized parabolic equation, which in dimensionless variables has the form of a one-dimensional modified Nonlinear Schrodinger Equation. We trained a fully connected neural network with various optimization functions and did experiments with network configuration and hvperparameters optimization. The conducted experiments have shown the promise of using the quasi-Newtonian L-BGFS optimization function over first-order optimization functions in this problem.
The article presents the results of experiments on training the model using various optimization functions: SDG, RMSProp, Adam, L-BGFS, the last optimizer allows you to train the network about an order faster. We also consider the size of the training sample required to train the model. From the obtained training results, we can conclude that due to the randomly uniform selection of points from the area using the Latin hvpercube, it is enough to make a train sample of 10 15 % of the dataset, this will correspond to a step of about 0.12 in z and 0.022 in r compared to 0.039 in z and 0.008 in t in a regular grid obtained by numerical methods.
In low-dimensional problems, the use of machine learning is not always appropriate, since training takes much more time than solving the problem using direct numerical simulation. However, as the complexity of the system increases, due to the increase in the number of unknown variables, a huge superiority of machine learning methods is expected due to fast calculation using an already trained network. Also open and interesting for future research is the issue of fast retraining of an already trained model for a problem with new parameters.
Key words: nonlinear Schrodinger equation, neural networks, deep learning, optimization functions.
References
1. George D., Huerta E. A. Deep Learning for real-time gravitational wave detection and parameter estimation: Results with Advanced LIGO data /7 Physics Letters. 2018. B 778, P. 64 70. [Electron. Res.]: https: //doi . org/10.1016/j .physletb.2017.12.053.
2. Gonoskov A., et al. Employing machine learning for theory validation and identieation of experimental conditions in laser-plasma physics /7 Scientic Reports. 2019. N 9 1, P. 1 15. [Electron. Res.]: https://doi.org/10.1038/s41598-019-43465-3.
3. Ravi D., et al. Deep Learning for Health Informatics /7 IEEE .J. of Biomedical and Health Informatics. 2017. N 21 1, P. 4 21. [Electron. Res.]: https://doi.org/10.1109/JBHI.2016.2636665.
© E. Vasiliev, D. Bolotov, M. Bolotov, L. Smirnov, 2022
4. Lachinov D., Vasiliev E., Turlapov V. Glioma Segmentation with Cascaded UNet // BrainLes 2018. LNCS 11384. 2018. [Electron. Res.]: https://doi.org/10.1007/978-3-030-11726-9_17.
5. Kumar M., Yadav N. Multilayer perceptrons and radial basis function neural network methods for the solution of differential equations: A survey // Computers and Mathematics with Applications. 2011. N 62, P. 3796-3811.
6. Hazanov E. A., Mironov S.Y., Muru. Z. Nelinejnoe szhatie sverhmoshchnvh lazernvh impul'sov: kompressiva posle kompressora // Uspekhi fizicheskih nauk. 2019. N 189, P. 1173-1200. [Electron. Res.]: https://doi.org/10.3367/UFNr.2019.05.038564.
7. Ahmanov S. A., Vvslouh V. A., CHirkin A. S. Optika femtosekundnvh lazernvh impul'sov // M.: Nauka. Gl. red. fiz.-mat. lit. 1988.
8. Moxlev F. I. Generalized finite-difference time-domain schemes for solving nonlinear Schrodinger equations //A Dissertation Presented in Partial Fulfillment of the Requirements for the Degree Doctor of Philosophy/ 2013. [Electron. Res.]: https://core.ac.uk/download/pdf/236621293.pdf.
9. Stein M. Large sample properties of simulations using Latin hvpercube sampling // Technometrics. 1987. N 29. P. 143-151. [Electron. Res.]: https://www.jstor.org/stable/1269769.
10. Glorot X., Bengio Y. Understanding the difficulty of training deep feedforward neural networks // Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics. 2010. N 9, P. 249-256. [Electron. Res.]: http://proceedings.mlr.press/v9/glorotl0a.html.
11. Robbins H., Monro S. A stochastic approximation method // The annals of mathematical statistics. 1951. Vol. 22. P. 400-407. [Electron. Res.]: https://doi.org/10.1214/aoms/1177729586.
12. Hilton G. Neural Networks for Machine Learning. Lecture 6a. Overview of mini-batch gradient descent. 2012. [Electron. Res.]: http://www.cs.toronto.edu/~tijmen/csc321/slides/ lecture_slides_lec6.pdf.
13. Kingma D., Ba J. Adam. A Method for Stochastic Optimization // Cornell University Library. 2014. [Electron. Res.]: https://arxiv.org/abs/1412.6980.
14. Schraudolph N.N., Yu J., Gunter S. A Stochastic Quasi-Newton Method for Online Convex Optimization // International Conference on Artificial Intelligence and Statistics. 2007. P. 436-443. [Electron. Res.]: http: //proceedings.mlr.press/v2/schraudolph07a/schraudolph07a.pdf.
НЕЙРОСЕТЕВОЙ ПОДХОД К РЕШЕНИЮ ЗАДАЧИ САМОВОЗДЕЙСТВИЯ ВОЛНОВЫХ ПОЛЕЙ В НЕЛИНЕЙНЫХ СРЕДАХ
Е. П. Васильев, Д. И. Болотов, М.И. Болотов, Л. А. Смирнов
Нижегородский государственный университет им, Н, И, Лобачевского, 603022, Нижний Новгород, Россия
УДК 517.957
Б01: 10.24412/2073-0667-2022-1-5-16
В работе рассматривается возможность применения технологий глубинжнх) обучения для чис-леннохх) решения задачи о распространении оптических импульсов в средах с нелинейностью Керра. В качестве математической модели, описывающей процессы эволюции огибающей элек-тромагнитших) излучения, выбрано обобщенное параболическое уравнение, которое в безразмерных неременных имеет вид одномерного модифицировавших) нелинейшнх) уравнения Шре-диш'ера. Была предложена постановка указанной проблемы, позволяющая задействовать для расчетов методы иекуеетвенших) интеллекта, и реализован один из возможных вариантов дан-ших) подхода с применением полноевязной нейронной сети для решения физических задач. При этом был проведен анализ различных а.;п'оритмов подбора параметров, ответственных за передачу информации от слоя к слою такой сети в ходе ее обучения. Выполненные исследования показали, что наиболее перспективными с точки зрения скорости вычислений и адекватности предсказаний являются квази-ньютоновские функции оптимизации, которые в стандартных библиотеках имеют аббревиатуру Т.-ВОГЯ.
Ключевые слова: нелинейное уравнение Шредиш'ера, нейронные сети, глубокое обучение, функции оптимизации.
Введение. В последние годы технологии слабого искусственного интеллекта и глубинного обучения, изначально создавшие большой прорыв в компьютерном зрении, активно применяются как в цифровой и промышленной индустрии, так и в различных областях наук, например, в физике |1, 2|, биологии |3|, медицине |4|, В свою очередь, в основе большого числа базовых математических моделей, достоверно описывающих фундаментальные явления и процессы в природе, .нежат дифференциальные уравнения в частных производных. В связи с этим в настоящее время существенно возрос интерес к использованию нейросетевого моделирования дня анализа возможных решений такого рода задач с учетом различных вариантов начальных и граничных условий, а также потенциально нетривиальной геометрии окружения. Идея применения алгоритмов машинного обучения как альтернативы аналитическим методам исследования проблем, возникающим в
Работа выполнена при поддержке Проекта № 0729-2021-013. выполняемого в рамках Государственного задания на выполнение научно-исследовательских работ лабораториями, прошедшими конкурсный отбор в рамках национального проекта „Наука и университеты", в отношении которых принято решение Бюджетной комиссии Минобрнауки России (от 14.09.2021 № БК-П/23) о предоставлении из федерального бюджета субсидии на финансовое обеспечение государственного задания на выполнение научно-исследовательских работ.
(с) Е. П. Васильев, Д. И. Болотов, М. И. Болотов, Л. А. Смирнов, 2022
нелинейной динамике и математической физике, не нова [5], однако ранее такой подход был ограничен доступными вычислительными ресурсами и существующими библиотеками, С распространением параллельных вычислений на графических ускорителях и развитием таких инструментов как TensorFlow, Torch резко увеличилась целесообразность и востребованность программных реализаций и развития идей, позволяющих задействовать средства интеллектуальной обработки больших массивов данных при изучении долговременной эволюции полей и классификации режимов их распространения в композитных средах,
В данной работе для апробации поиска направлений модернизации основных концепций использования искусственных нейронных сетей при построении решений уравнений в частных производных рассмотрена задача о самовоздействии волновых пучков и пакетов в нелинейных и неоднородных средах [6]. Математическое описание подобных волновых процессов обычно проводят в рамках параболического приближения, которое неоднократно подтверждало свою эффективность в различных областях классической физики, в частности, в физике плазмы, гидродинамике и нелинейной оптике, а также при изучении распространения радиоволн в ионосфере и анализе передачи электромагнитного излучения по системам, состоящим из открытых резонаторов или волноводов. Стоит особо отметить, что выбор и актуальность обсуждаемой проблемы обусловлены дополнительно еще одним обстоятельством. Несмотря на принципиальное различие в самой природе явлений, если принять во внимание коллективные эффекты, то в квантовой механике и теории конденсированных сред нередко приходят к аналогичным по своей структуре уравнениям. Наиболее наглядно это можно продемонстрировать в случае вырожденных квантовых газов (бозе-чаетиц) в приближении среднего поля для описания возбуждения эволюции и взаимодействия нелинейных когерентных локализованных образований (светлых и темных солитонов, одиночных квантовых вихрей, вихревых пар и вихревых колец) в бозе-эйнштейновеком конденсате среднего поля удается ввести комплексную волновую функцию, играющую роль параметра порядка и удовлетворяющую уравнению Гросса-Питаевского, которое в безразмерных единицах идентично нелинейному уравнению Шре-дингера (НУШ) при наличии в нем нелинейного потенциала, связанного с внешними неод-нородностями.
Ниже представлен ряд результатов по использованию полносвязных искусственных нейронных сетей для предсказаний наиболее вероятного сценария распространения оптических волн сквозь нелинейный кристалл: произведено сравнение построенного прогноза с данными, получаемыми путем прямого численного моделирования с помощью принятых стандартных схем расчета,
1. Постановка задачи. Для большей конкретики нами рассматривается задача о распространении оптических импульсов в средах с нелинейностью Керра [6]. При этом в качестве математической модели, описывающей процессы самовоздействия интенсивного лазерного излучения при прохождении через такой кристалл, выбрано обобщенное параболическое уравнение, которое в безразмерных переменных имеет вид модифицированного НУШ [6] Г
if - * - - а0 - в (|*12* + ) = 0 (1)
где комплексная функция *(r,x,y,z) пропорционально медленно изменяющейся амплитуде огибающей нестационарного квазимонохроматического поля в слабо неоднородном
образце диспергирующего материала, а 6(х,у) представляет собой относительное изменение его диэлектрической проницаемости, В свою очередь, постоянные а и в могут принимать значения ±1 в зависимости от знака дисперсии групповой скорости и нелинейной составляющей показателя преломления, соответственно, В соотношении (1) учтен не только квазистатический кубический отклик среды на приложенное электромагнитное воздействие, отвечающий за первый член заключенного в скобки составного слагаемого в левой части равенства (1), но и эффект волновой нестационарности, который проявляет себя фактически в форме зависимости групповой скорости от интенсивности поля, т, е, как нелинейная дисперсия, и приводит к возникновению второго члена в окруженном скобками выражении. Коэффициент 7, участвующий там в качестве множителя, вычисляется по следующей формуле: 7 = кш(и0)/и0кшо(ш0), где к(ш) — волновой вектор, и0 — центральная (несущая) частота излучения. Стоит отметить, что данный эффект вызывает „самообострение" фронта импульса, вследствие чего происходит формирование ударной волны огибающей. Подчеркнем также, что уравнение (1) допускает обобщение на векторные поля, а также на другие типы нелинейноетей. Кроме того, для тех исследований, где это необходимо, в (1) можно принять во внимание старшие производные по т, т.е. более высокие порядки дисперсии.
Для моделирования процесса распространения оптического импульса в нелинейном кристалле в рамках параболического приближения на основе НУШ (1) разработан целый ряд численных схем [7, 8], Одним из наиболее популярных и эффективных алгоритмов является метод расщепления с использованием быстрого преобразования Фурье [8]. Однако данная задача остается весьма трудоемкой и затратной с точки зрения вычислений, особенно когда в ходе расчетов появляются все более мелкие характерные масштабы, как по пространственным координатам из-за самофокусировки, так и по связанной со временем т
то момент размеры возникающей неоднородности становятся сравнимы с расстояниями между узлами (ячейками) расчетной (чаще всего эквидистантной) сетки, с которыми к тому же должен быть согласован элементарный шаг эволюции, В итоге, при попытках избежать нефизичных результатов (в том числе, развития численных неуетойчивоетей) и повысить разрешающие возможности в ходе моделирования значительно возрастает объем обрабатываемых данных и вместе с тем резко увеличивается количество необходимых итераций используемой процедуры. Поэтому существует необходимость в разработке альтернативных методов расчета динамики волновых полей не только в приложении к нелинейной оптике, но и для других областей физики, В настоящее время перспективным направлением здесь представляется использование достижений слабого искусственного интеллекта, которые позволят делать с высокой степенью точности достоверный прогноз о виде функции и выявлять скрытые закономерности в наборе исходных правил на основе сформулированных ограничений на класс искомых зависимостей и априорной информации о семействе возможных ответов для исследуемой проблемы. Данный подход снимает ограничения, которые имеются у классических алгоритмов поиска решений уравнений в частных производных, где проводится процедура дискретизации непрерывных переменных, т, е, их замены на упорядоченный ряд дискретных точек и формирование сетки узлов в многомерном пространстве,
С целью апробации, развития и тестирования идей нейросетевого моделирования (интеллектуальных вычислений) далее нами рассматривается случай распространяющегося в практически однородной среде локализованного лазерного излучения с большой попереч-
ной апертурой, в связи с чем можно пренебречь линейными дифракционными эффектами и считать структуру поля в плоскости х.у заданной и неизменной. Тогда уравнение (1) существенным образом упрощается и сводится к одномерному модифицированному НУШ:
.дф ад2ф ,12,, . д (\Ф\2 Ф)
- 2 дф - в(ф2ф + = 0 (2)
Для его решения с помощью методов глубинного обучения прежде всего требуется составить функционал качества С(ф(г,т)), который определяет степень выполнения моделью своего назначения и позволяет путем его минимизации осуществить подбор параметров искусственной нейросетн (ее весов и смещений), В выделенном нами классе задач подобные функционалы ошибки следует выбирать, исходя из физических соображений и фундаментальных принципов и законов природы (например, на основе законов сохранения), Кроме того, стоит задействовать и дополнительные свойства и особенности изучаемой системы, такие как наличие симметрии и инвариантность относительно специфических преобразований (в частности, сдвигов, смещений, поворотов и т.д.), В качестве первого приближения к построению универсальных схем и рецептов по применению искусственного интеллекта для предсказания режимов эволюции волновых полей нами были рассмотрены процессы самовоздействия оптических импульсов на базе НУШ (2), При этом формирование функционала качества С(ф(г,т)) выполнялось прежде всего на базе дифференциальных соотношений, вытекающих из (2):
с™ а, .к,)=I £ - 2 ^ - в ((к*+«л*+/+;л2 +
N £ (а^+в к+«л«. - ,д
\ дг 2 дт2 ' \ 4 п дт
п= 1 \ \
(3)
где ип и ^П — соответственно ре^ьная и мнимая части комплексной функции ф(г.т) = и(г.т) + IV(г.т) в случайно взятых точках (гп.тп), которые лежат внутри счетной области. Кроме того, в С(ф(г.т)) необходимо добавить две дополнительные компоненты, которые будут отвечать за согласование предсказания искусственной нейронной сети ф(г.т) с начальными и краевыми условиями:
1 м
Сю (итут) = - £ ((«т - «Я2 + (ут - к!0))2). (4)
1 . \ III,
'т
т= 1
К
Свс («кУк) = К £ («к2 + Vk2) . (5)
к= 1
Здесь пары «т.Ут и «кук также представляют собой комбинацию реальной и мнимой частей ф(г.т), взятых соответственно в случайных М точках (г = 0.тт) и в К случайных точках (гк.т = ±Г), Видно, что (4) дает среднеквадратичное отклонение результатов нейросетевой модели от истинного начального распределения ф(г = 0.т) = ф(°">(т) = «0(т)+гУ°(т), а (5) позволяет оценить близость ф(г.т = ±Г) = «(г.т = ±Г)+%У(г.т = ±Г) к границам т = ±Г их расчетной области. Отметим, что нулевые граничные условия были выбраны для определенности. Их при необходимости можно заменить на любой другой тип условий. Таким образом, окончательно получаем следующий функционал качества:
Рис. 1. Значения функции потерь во время обучения модели с помощью различных функций оптимизации для первых 50000 шагов. В графиках выводится значение функции потерь на каждой 10-й
итерации
Таблица 1
Значения функции потерь после проведеншнх) обучения и нормализованная ереднеквадратичеекая ошибка для обученных разными оптимизаторами
моделей на исходных данных
Оптимизатор Loss Ошибка U Ошибка V Ошибка ф
SGD 0.07529 0.8698683 1.163877 0.4125057
RMSProp 0.02175 1.156291 1.197228 0.3141282
Adam 0.0004897 0.06765208 0.1103277 0.01818167
L-BGFS 0.00001284 0.004083095 0.006000219 0.001985626
G = Gpde (Un,Vn) + GlC (Um,Vm) + GBC (Uk,Vk). (6)
Способ генерации наборов из N, M и K случайных точек будет обсуждаться ниже. Отметим. что в данной работе мы ограничились случаем, когда базовая структура нейронной сети представляет собой полпосвязпый граф. Отдельно стоит выделить вопрос о ширине и глубине конфигурации из внутренних (скрытых) слосчз такой модели, а также о функциях активации отдельных элементов.
2. Вычислительный эксперимент. 2.1. Определение оптимального варианта алгоритма обратного распространения ошибки для, обучения, нейронной сети. Исходными данными дня обучения является численное решение данной системы 2, они представлены с дискретизацией на равномерной сетке: 256 точек по координате г от —5 до 5, 201 точка по времени т от 0 до п/2, в каждой полученной точке сетки вычислены действительная и мнимая части функции ф(г,т), таким образом, всего имеется 51456 точек. Для обучения в качестве тренировочной выборки используется выборка латинского гиперкуба (Latin hyperenbe sampling, LHS) |9|, дня равномерной выборки случайных значений из сетки. В тренировочную выборку S включены 50 случайных точек по г для т = 0 и по 50
т = 0.59
1 1
1 2 3
V(T>Z)
Рис.2. Слова: график предсказанных значений функции \ф(г,т)\ на двумерной сетке г € [—5, 5] и т € [0,7г/2]. Справа: сравнение предсказанных с помощью нейронной сети и полученных в рамках прямого численного моделирования решений \ф(г,т)\, соответствующих трем временным снимкам. Сплошная линия результаты численного моделирования, прерывистая линия результаты
предсказания нейронной сети
случайных точек из интервала значений моментов времени |0, 7г/2| для л = —5 и л = 5, а также 20000 тысяч точек внутри границ.
В качестве модели дня экспериментов но обучению используется но.нносвязная сеть с двумя входами (параметры л и г), 4 скрытыми слоями но 100 нейронов в каждом слое, и выходной с.ной с двумя выходами (действительный и мнимый корень НУШ), в качестве функции активации используется гиперболический тангенс. Дня начальной инициализации весов используется алгоритм Ксавье |10|, начальные веса имеют нормальное распределение и при этом позволяют хорошо обучаться с гиперболическим тангенсом в качестве функции активации.
Проведены эксперименты но использованию в качестве функции оптимизаторов следующих алгоритмов: стохастический градиентный спуск (SGD) |11|, RMSProp |12|, Adam |13|, L-BGFS |14|.
Представленные ниже эксперименты но созданию и обучению сети были выполнены в программной библиотеке дня машинного обучения TensorFlow vi.14. На рис. 1 представлены графики обучения модели с помощью различных оптимизаторов.
По результатам обучения были получены следующие погрешности относительно заданных значений (таблица 1). Из данной таблицы можно увидеть, что методы SGD и RMSProp показывают наихудшие результаты обучения. Метод Adam справился значительно лучше двух предыдущих, однако ошибка па реальных данных является слишком высокой и не позволяет использовать обученную модель дня решения НУШ. Оптимизатор L-BGFS за значительно меньшее число итераций позволяет достичь точности 10_3 степени, что показывает перспективность его применения дня обучения искусственных нейронных сетей, решающих предсказывающих решение НУШ.
Таблица 2
Значение ошибки для моделей, обученных на различном размере обучающей выборки
Количество точек Ошибка и Ошибка V Ошибка ф
500 0,532398 0,762146 0,119605
1000 0,096608 0,182720 0,026675
2000 0,046927 0,081595 0,010848
3000 0,011139 0,019412 0,004159
5000 0,017167 0,027406 0,004724
10000 0,007420 0,013037 0,002648
15000 0,006562 0,010187 0,002382
20000 0,005604 0,008395 0,002236
51456 (все точки) 0,005444 0,008823 0,001897
Таблица 3
Значение ошибки для моделей с различным количеством внутренних слоев и нейронов
Архитектура сети Ошибка и Ошибка V Ошибка ф
[2, 32, 32, 21 0,02664 0,04244 0,00704
[2, 32, 32, 32, 21 0,00364 0,00578 0,00202
[2, 32, 32, 32, 32, 21 0,00337 0,00463 0,00166
[2, 32, 32, 32, 32, 32, 21 0,00230 0,00329 0,00145
[2, 64, 64, 21 0,00571 0,00884 0,00201
[2, 64, 64, 64, 21 0,00191 0,00257 0,00128
[2, 64, 64, 64, 64, 21 0,00182 0,00239 0,00123
[2, 64, 64, 64, 64, 64, 21 0,00211 0,00288 0,00121
[2, 128, 128, 21 0,00547 0,00904 0,00181
[2, 128, 128, 128, 21 0,00184 0,00260 0,00107
[2, 128, 128, 128, 128, 2] 0,00133 0,00162 0,00103
[2, 128, 128, 128, 128, 128, 21 0,00148 0,00175 0,00115
[2, 32, 64, 21 0,00605 0,00988 0,00213
[2, 32, 64, 128, 21 0,00288 0,00393 0,00150
[2, 32, 32, 64, 128, 21 0,00201 0,00256 0,00158
[2, 32, 64, 64, 128, 2] 0,00202 0,00263 0,00138
2.2. Определение количества точек для обучения. Важным параметром обучения модели является размер обучающей выборки, С увеличением размера выборки повышается точность предсказания и линейно увеличивается время обучения, В таблице 2 представлены результаты обучения модели на различном размере подвыборки, начиная от 500 точек и заканчивая полным набором (51456), Из представленных данных можно сделать вывод, что, благодаря случайно-равномерному выбору точек из области с помощью латинского гиперкуба [9], для обучения достаточно сделать выборку 10-15 % от набора, это будет соответствовать шагу около 0,12 по г и 0,022 по т то сравнению с 0,039 по г и 0,008 по т в регулярной сетке, полученной численными методами.
2.3. Определение внутренней архитектуры нейронной сети. Открытым для изучения является вопрос внутренней архитектуры нейронной сети, В таблице 3 собраны результаты обучения моделей с различным количеством внутренних слоев и нейронов в них. Для решения НУШ 2 двух скрытых слоев или 32 нейронов в скрытом слое недостаточно, предлагается использовать 4-5 скрытых слоев с количеством скрытых нейронов в каждом слое, близком к 100, Также были исследованы варианты структуры с увеличением количества нейронов в более дальних скрытых слоях, но большого прироста от использования данной стратегии получить не удалось.
Заключение, В статье предлагается решение задачи о распространении оптических импульсов в средах с нелинейностью Керра в форме модифицированного НУШ 2 с помощью нейросетевого подхода: произведено сравнение данных, полученных в результате обучения нейронных сетей с данными, получаемыми путем прямого численного моделирования с помощью принятых стандартных схем расчета.
Проведенные исследования показали возможность применения машинного обучения для решения поставленной задачи. Были проведены эксперименты по использованию различных функций оптимизации для обучения модели, в том числе SGD, RMSProp, Adam, L-BGFS, полученные результаты показывают превосходство квази-ныотоновекого оптимизатора над оптимизаторами первого порядка в данной задаче.
На задачах малой размерности использование машинного обучения не всегда является целесообразным, так как обучение занимает значительно большее количество времени, чем решение задачи с помощью прямого численного моделирования. Однако, при увеличении сложности системы, вследствие увеличения количества неизвестных переменных ожидается превосходство методов машинного обучения из-за быстрого вычисления с помощью уже обученной сети. Также открытым и интересным для будущих исследований является вопрос быстрого дообучения уже обученной модели для задачи с новыми параметрами.
Список литературы
1. George D., Huerta Е. A. Deep Learning for real-time gravitational wave detection and parameter estimation: Results with Advanced LIGO data // Physics Letters. 2018. В 778, P. 64-70. [Electron. Res.]: https://doi.org/10.1016/j .physletb.2017.12.053.
2. Gonoskov A., et al. Employing machine learning for theory validation and identication of experimental conditions in laser-plasma physics // Scientic Reports. 2019. N 9 1, P. 1-15. [Electron. Res.]: https://doi.org/10.1038/s41598-019-43465-3.
3. Ravi D., et al. Deep Learning for Health Informatics // IEEE J. of Biomedical and Health Informatics. 2017. N 21 1, P. 4-21. [Electron. Res.]: https://doi.org/10.1109/JBHI.2016.2636665.
4. Lachinov D., Vasiliev E., Turlapov V. Glioma Segmentation with Cascaded UNet // BrainLes 2018. LNCS 11384. 2018. [Electron. Res.]: https://doi.org/10.1007/978-3-030-11726-9_17.
5. Kumar M., Yadav N. Multilayer perceptrons and radial basis function neural network methods for the solution of differential equations: A survey // Computers and Mathematics with Applications. 2011. N 62, P. 3796-3811.
6. Хазапов E. А., Миронов С.Ю., Mypv. Ж. Нелинейное сжатие сверхмощных лазерных импульсов: компрессия после компрессора // Успехи физических наук. 2019. № 189, С. 1173-1200. [Электронный ресурс]: https: //doi . org/10.3367/UFNr. 2019.05.038564.
7. Ахманов С. А., Выслоух В. А., Чиркин А. С. Оптика фемтосекупдпых лазерных импульсов // М.: Наука. Гл. ред. физ.-мат. лит. 1988.
8. Moxley F.I. Generalized finite-difference time-domain schemes for solving nonlinear Schrodinger equations //A Dissertation Presented in Partial Fulfillment of the Requirements for the Degree Doctor of Philosophy/ 2013. [Electron. Res.]: https://core.ac.uk/download/pdf/236621293.pdf.
9. Stein M. Large sample properties of simulations using Latin hypercube sampling // Technometrics. 1987. N 29. P. 143-151. [Electron. Res.]: https://www.jstor.org/stable/1269769.
10. Glorot X., Bengio Y. Understanding the difficulty of training deep feedforward neural networks // Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics. 2010. N 9, P. 249-256. [Electron. Res.]: http://proceedings.mlr.press/v9/glorotl0a.html.
11. Robbins H., Monro S. A stochastic approximation method // The annals of mathematical statistics. 1951. Vol. 22. P. 400-407. [Electron. Res.]: https://doi.org/10.1214/aoms/1177729586.
12. Hilton G. Neural Networks for Machine Learning. Lecture 6a. Overview of mini-batch gradient descent. 2012. [Electron. Res.]: http://www.cs.toronto.edu/~tijmen/csc321/slides/ lecture\slides\lec6.pdf.
13. Kingma D., Ba J. Adam. A Method for Stochastic Optimization // Cornell University Library. 2014. [Electron. Res.]: https://arxiv.org/abs/1412.6980.
14. Schraudolph N.N., Yu J., Gunter S. A Stochastic Quasi-Newton Method for Online Convex Optimization // International Conference on Artificial Intelligence and Statistics. 2007. P. 436-443. [Electron. Res.]: http://proceedings.mlr.press/v2/schraudolph07a/schraudolph07a.pdf.
Васильев Евгений Павлович — младш. науч. сотр. научно-исследовательской лаборатории „Искусственного интеллекта и обработки больших массивов данных", старший преподаватель кафедры математического обеспечения и суперкомпьютерных технологий института информационных технологий, математики и механики ННГУ им. Н. И. Лобачевского; е-mail: [email protected], тел. 8-831-462-3320. Область научных интересов: научная визуализация, компьютерное зрение, глубокое обучение.
Evgenii Vasiliev is a Research Associate at the Laboratory of Artificial Intelligence and Big Data Processing of the Department of Control Theory and System Dynamics and lecturer of Department of Software and Supercomputer Technologies of Institute of Information Technology, Mathematics and Mechanics, Lobachevsky State University of Nizhny Novgorod. Research interests: scientific visualization, computer vision, deep learning.
Болотов Дмитрий Ильич — лаборант-исследователь научно-исследовательской лаборатории „Искусственного интеллекта и обработки больших массивов данных" кафедры тео-
рии управления и динамики систем Института информационных технологий, математики и механики ННГУ им. Н. И. Лобачевского; e-mail: bolotovdmGgmail.com, тел. 8-831-462-33-20. Область научных интересов: искусственный интеллект, глубокое обучение, нелинейная динамика.
Dmitry Bolotov is а
research assistant at the Laboratory of Artificial Intelligence and Big Data Processing of the Department of Control Theory and System of Institute of Information Technology, Mathematics and Mechanics, Lobachevsky State University of Nizhny Novgorod. Research interests: artificial intelligence, deep learning, nonlinear dynamics.
Болотов Максим Ильич
— канд. физ.-мат. наук, младший науч. сотр. научно-исследовательской лаборатории „Искусственного интеллекта и обработки больших массивов данных", старший преподаватель кафедры теории управления и динамики систем Института информационных технологий, математики и механики ННГУ им. Н. И. Лобачевского; e-mail:
[email protected], тел. 8-831-46233-20. Область научных интересов: нелинейная динамика, пространственно-временные структуры, распределенные системы, динамические системы.
Maxim Bolotov is a PhD. in Physical and Mathematical Sciences, Research Associate at the Laboratory of Artificial Intelligence and Big Data Processing of the Department of Control Theory and System Dynamics and lecturer of Department of Control Theory and System Dynamics of Institute of Information Technology, Mathematics and Mechanics, Lobachevsky State University of Nizhny Novgorod. Research interests: nonlinear dynamics, space-time structures, distributed systems, dynamic systems.
Смирнов Лев Александрович —
канд. физ.-мат. наук, заведующий научно-исследовательской лаборатории „Искусственного интеллекта и обработки больших массивов данных" кафедры теории управления и дина-
мики систем Института информационных технологий, математики и механики ИНГУ им. Н.И. Лобачевского; e-mail: lev. smirnov@itmm. unn.ru, тел. 8-831-462-33-20. Область научных интересов: нелинейные волны (солитопы и вор-тексы), неравновесная статистическая механика, турбулентность, высокопроизводительные вычисления.
Lev Smirnov is a PhD. in Physical and Mathematical Sciences, the Head of the Laboratory of Artificial Intelligence and Big Data Processing of the Department of Control Theory and System of Institute of Information Mathematics and Mechanics, State University of Nizhny Novgorod. Research interests: non-linear waves (solitons and vortexes), non-eqnilibrinm statistical mechanics, turbulence, high-performance computing.
Technology, Lobachevskv
Дата поступления — 01.02.2022