Ядерная физика
Научная статья УДК 539.12
DOI: https://doi.org/10.18721/JPM.16414
ГЕНЕРАТОР ГЛУБОКОНЕУПРУГОГО РАССЕЯНИЯ ЛЕПТОНОВ НА ПРОТОНЕ НА ОСНОВЕ ГЕНЕРАТИВНО-СОСТЯЗАТЕЛЬНОЙ
НЕЙРОННОЙ СЕТИ А. А. Лобанов п, Я. А. Бердников
Санкт-Петербургский политехнический университет Петра Великого,
Санкт-Петербург, Россия
и lobanov2.aa@edu.spbstu.ru
Аннотация. В работе рассмотрено применение генеративно-состязательной сети (ГСС) для создания генератора глубоконеупругого лептон-протонного рассеяния. Отмечена сложность эффективного обучения генератора на основе ГСС, которая связана с использованием сложных схем распределения физических характеристик (энергий, компонентов импульсов и т. п.) частиц в процессе глубоконеупругого лептон-протонного рассеяния. Показано, что ГСС позволяет точно воспроизводить распределения физических характеристик лептона в конечном состоянии.
Ключевые слова: инклюзивное глубоконеупругое рассеяние, нейронная сеть, генеративно-состязательная сеть, лептон-протонное рассеяние
Для цитирования: Лобанов А. А., Бердников Я. А. Генератор глубоконеупругого рассеяния лептонов на протоне на основе генеративно-состязательной нейронной сети // Научно-технические ведомости СПбГПУ. Физико-математические науки. 2023. Т. 16. № 4. С. 181-188. DOI: https://doi.org/10.18721/ JPM.16414
Статья открытого доступа, распространяемая по лицензии CC BY-NC 4.0 (https:// creativecommons.org/licenses/by-nc/4.0/)
Original article
DOI: https://doi.org/10.18721/JPM.16414
A GENERATOR OF DEEP INELASTIC LEPTON-PROTON SCATTERING BASED ON THE GENERATIVE-ADVERSARIAL
NETWORK (GAN) А. A. Lobanov n, Ya. A. Berdnikov
Peter the Great St. Petersburg Polytechnic University, St. Petersburg, Russia
и lobanov2.aa@edu.spbstu.ru
Abstract. The paper considers the application of a Generative Adversarial Network (GAN) for the development of a generator of deep inelastic lepton-proton scattering. The difficulty of effective training of the generator based on GAN is noted. It is associated with the use of complex schemes of distributions of physical properties (energies, momentum components, etc.) of particles in the process of deeply inelastic lepton-proton scattering. It is shown that the GAN makes it possible to faithfully reproduce the distributions of lepton physical properties in the final state at different initial energies of the center of mass in the range between 20 and 100 GeV.
Keywords: inclusive deep inelastic scattering, neural network, generative adversarial network, lepton-proton scattering
© Лобанов А. А., Бердников Я. А., 2023. Издатель: Санкт-Петербургский политехнический университет Петра Великого.
For citation: Lobanov A. A., Berdnikov Ya. A., A generator of deep inelastic lepton-pro-ton scattering based on the Generative-Adversarial Network (GAN), St. Petersburg State Polytechnical University Journal. Physics and Mathematics. 16 (4) (2023) 181 — 188. DOI: https://doi.org/10.18721/JPM.l6414
This is an open access article under the CC BY-NC 4.0 license (https://creativecommons. org/licenses/by-nc/4.0/)
Введение
Обработка и анализ результатов экспериментальных исследований глубоконеупругого лептон-протонного рассеяния требует привлечения моделирования как самого процесса взаимодействия частиц, так и функционирования детекторных комплексов; при этом наиболее удобен метод Монте-Карло. Проблема заключается в том, что моделирование включает сложные физические модели, расчет которых требует больших вычислительных и временных затрат.
Альтернативой может служить использование методов машинного обучения для построения генераторов событий. Преимуществом указанных методов можно считать возможность их обучения на разнородных данных, в качестве которых могут быть как экспериментальные результаты, так и данные, полученные путем моделирования всего рассматриваемого процесса (например, инклюзивного глубоконеупругого рассеяния). В итоге можно создать генератор событий, который способен быстро и с минимальными вычислительными затратами получать необходимые данные.
В настоящей работе рассмотрена одна из таких моделей машинного обучения — генеративно-состязательная сеть (ГСС). [1].
Преимуществом рассмотренной модели является ее возможность воспроизводить с высокой точностью данные (называемые далее эталонными), на которых она обучалась.
Модель ГСС включает две нейронные сети: генератор и дискриминатор. Задача первой состоит в генерации некоторых величин, например характеристик частиц. Задача второй сети — выделить отличия величин, полученных генератором, от эталонных значений.
Стараясь отличать эталонные значения от полученных генератором, дискриминатор таким образом корректирует генератор. С каждой новой итерацией обучения генератор все лучше справляется с генерацией величин, что, в свою очередь, корректирует работу дискриминатора [1].
Несмотря на успешное использование метода ГСС в различных приложениях (например, он позволяет генерировать фотографии и видео, неотличимые от реальных [2, 3]), этот метод не лишен некоторых недостатков, связанных с усложнениями в процессе обучения модели.
Эти усложнения проявляются вследствие сильной зависимости от параметров модели.
В результате такой зависимости часто возникают следующие неудобства:
неустойчивости при обучении,
несходимости,
осцилляции параметров,
переобучение моделей.
Для решения перечисленных проблем существует множество подходов, например, представленные в работе [4].
Для настоящего исследования использован подход, предложенный в работе [5], который подробно описан ниже в разделе «Методика исследования».
Применение ГСС в области физики высоких энергий и физики элементарных частиц создает новые затруднения. Самым важным из них является множество строгих ограничений, продиктованных законами сохранения. В результате не любой результат генерации можно признать пригодным.
Важна и точность предсказания; в противном случае возможны нарушения взаимосвязей между производными величинами, что также недопустимо. Подобные проблемы, например, описаны в работе [6].
© Lobanov A. A., Berdnikov Ya. A., 2023. Published by Peter the Great St. Petersburg Polytechnic University.
Рис. 1. Графики распределения компоненты импульса рг конечного лептона (а) и преобразованной величины Т(р) (Ь). Начальная энергия электрона Е0 = 30 ГэВ
Законы сохранения могут приводить к существенным нерегулярностям в распределениях физических величин (например, угловых, импульсных, энергетических и т. п.), характеризующих взаимодействие частиц. Примером может служить распределение p-ком-поненты импульса конечного лептона (рис. 1,а). Под множественностью (Multiplicity) понимается (на рис. 1 и далее) число отсчетов бине, нормированное на общее число событий, т. е. это безразмерная величина. На рис. 1,а видно, что у распределения есть «острый» край, связанный с законами сохранения энергии-импульса: энергия (импульс) в конечном состоянии не может превышать уровень энергии (импульса) в начальном состоянии. Существование такой нерегулярности плохо сказывается на обучении ГСС, что показано в работе [6].
Для решения проблем, связанных с нерегулярностями в распределении величины по некоторому физическому параметру, в работе [7] была предложена генерация не самих величин, а их преобразованных «двойников», причем измененных таким образом, чтобы новое распределение становились более гладким.
Для величины p-компоненты импульса конечного лептона в данной работе использовано следующее преобразование [7]:
T(p) = log[(E0 -pz)/(l GeV/c)].
В результате получено более гладкое распределение (см. рис. 1,6).
Аналогичное преобразование применялось для величины полной энергии рассеянного лептона E .:
T(E) = log[E -E)/(! GeV/c)].
Методика исследования
Поскольку в данной работе рассматривается инклюзивное рассеяние заряженного леп-тона (e+, e , на протоне, рассеянный лептон характеризуется 4-импульсом в систе-
ме центра масс лептона и протона:
Р =( Ei > Р ) >
где p — трехмерный вектор импульса лептона, задаваемый компонентами px, p , p ; E : — полная энергия рассеянного лептона.
В качестве дополнительных параметров выступают полная энергия E0 налетающего лептона в системе центра масс лептон-протон и тип лептона (e+ либо e или либо Данные параметры позволяют ГСС предсказывать конечное состояние различных лепто-нов при разных рассмотренных начальных энергиях.
Энергия E0 определяется как
E0 ~ V^lN/2,
где -JSN — начальная энергия в системе центра масс лептон-протон.
Для обучения были рассмотрены начальные энергии E0 = 10, 20, 30, 40, 50 ГэВ.
Для получения конечных состояний лептонов использовалась программа PYTHIA8 [8]. Было сгенерировано по 100 тыс. событий при начальных энергиях „Js^ = 20, 40, 60, 80 и 100 ГэВ для каждого типа лептона: (e+, e-, ц-). В каждом событии фиксировались значения 4-импульса конечного лептона (мы будем их называть эталонными).
Использование величин T(p) и T(E) (мы будем их называть преобразованными) позволяет генератору избежать предсказания нефизических значений, а дискриминатору легче отличать эталонные данные от сгенерированных.
Для повышения точности дискриминатора ему на вход передаются величины
Pp E Pt =V P2 + P^ ф = arctan (pJpT) , 0 = arctan (pyj px)
(эти величины мы будем называть дополнительными).
На вход генератора поступает 128-мерный вектор шума (вектор значений, полученных из распределения Гаусса со средним, равным 0, и дисперсией, равной 1), энергия E0 и тип лептона. Сеть генератора состоит из 4 скрытых слоев по 512 нейронов с функцией активации "Leaky ReLU" и показателем 0,2 [9]. Выходной слой состоит из 4 нейронов с линейной функцией активации. На выходе получаем четыре основных предсказываемых величины: p, p , T(p ) и T(E). Помимо этих, модель включает в себя предсказание дополнительных величин: p, E, pT, ф, 0, полученных на основе предсказываемых. Основные и дополнительные величины далее передаются на вход дискриминатора.
Сеть дискриминатора представляет собой 4 скрытых слоя по 512 нейронов с функцией активации "Leaky ReLU" и показателем 0,2 [9]. Для каждого из слоев применяется так называемый "dropout layer" с коэффициентом 10 % [10], который случайным образом обнуляет 10 % весов слоя. Это помогает бороться с переобучением при классификации [11]. Также к каждому слою применяется спектральная нормализация [12], которая позволяет добиться 1-липшицева отображения для дискриминатора [13]. Выходной слой состоит из одного нейрона с линейной функцией активации. Чем больше полученное значение, тем дискриминатор «увереннее» считает рассмотренные значения «реалистичными».
В работе использована разновидность генеративно-состязательной сети с функцией потерь в виде наименьших квадратов.
Для таких сетей справедливы следующие выражения для функций потерь дискриминатора (Ld) и генератора (LG) [5]:
L = - E
D x~ р,^ ( x )
(D(x | y) - b)2 ] + iEz~p(z) [(D(G(z | y)) - a)2
Lg = - Ez~p(z) {[D(G(z|y)) - c]2}, (2)
где 0(...) — сеть дискриминатора; — сеть генератора; х — эталонные данные; х — вектор шума; В(х) — значения, полученные дискриминатором на основе эталонных данных; П(0(х)) — значения, найденные дискриминатором на основе данных, полученных генератором; Е — математическое ожидание; а, Ь — гиперпараметры данной функции потерь, равные 0 и 1 соответственно [5].
В данном исследовании генеративно-состязательная сеть обучалась 400 эпох. В качестве оптимизатора градиентного спуска использовался КМ8Ргор со значением р = 0,9 [14] и шагами обучения 1-10"4 для генератора и 5-10-5 для дискриминатора. Использование разных шагов обучения способствует лучшей сходимости при обучении, что показано в работе [15].
Результаты моделирования
Ввиду большого числа возможных конфигураций рассеяния (различные типы лептона и значения начальной энергии E0), для демонстрации работы ГСС далее приведены лишь некоторые конфигурации.
На рис. 2 представлены распределения компонент импульса мюона и электрона e~ в конечных состояниях, полученные с помощью ГСС и программы PYTHIA8. Видно, что модель генерирует величины, распределения которых практически не различаются, о чем говорят приведенные на графиках значения х2 и соответствующие им значения импульса (p-value) [17].
Рис. 2. Предсказанные графики распределений по компонентам импульсов р, р , pz для мюона (a, b, c) и электрона e- (d, e, f) при одинаковых значениях начальной энергии E0 = 30 ГэВ. Получены с помощью ГСС (кривые серого цвета) и PYTHIA8 (черного цвета). Для каждого распределения приведено соответствующее значение х2 и график отношения предсказания ГСС к PYTHIA8 (GAN/PYT)
Рис. 3. Распределения компоненты pг-импульса электрона, предсказанные с помощью программы PYTHIA8 (кривые серого цвета) и с помощью ГСС (черного цвета), при разных значениях
начальной энергии E0. Треугольными указателями отмечены значения энергии, при которых модель обучалась
На рис. 3 представлены распределения pг-компоненты импульса конечного электрона при различных энергиях, полученные с помощью ГСС и программы PYTHIA8. Анализ представленных результатов позволяет заключить, что модель способна предсказывать верные распределения как при энергиях, на которых проводилось обучение (10, 20, 30, 40, 50 ГэВ), так и при интерполированных энергиях (15, 25, 35, 45 ГэВ). Стоит также отметить, что модель может предсказывать значения p и при больших энергиях E0 (60, 70, 80z, 90 ГэВ).
Представляют интерес не только значения импульса и энергии леп-тона, но и значения производных от них величин, которые используются
для характеристики рассеяния. К таким величинам относятся квадрат переданного импульса О2 = —ц2 (ц — импульс виртуального фотона) и переменная Бьёркина = Q2/2Pq (Р — импульс налетающего протона).
Рис. 4. Графики совместного распределения величин Q2 и xB. для электрона при значениях начальной энергии E0 = 10 ГэВ (а, с) и 4(0 ГэВ (b, d), предсказанные с помощью PYTHIA8 (а, b) и ГСС (с, d).
Для характеристики точности предсказания ГСС приведены значения х2 при каждом значении E0
На рис. 4 представлены совместные распределения Q2 и xBj при энергиях E0 = 10 и 40 ГэВ, полученные на основе данных PYTHIA8 и ГСС. Сравнение между распределениями на рис. 4, а и b и таковыми на рис. 4, с и d, полученными двумя путями при двух значениях E0 (10 и 40 ГэВ), указывает на хорошее согласие между распределениями, полученными с помощью PYTHIA8 и ГСС. В качестве количественной оценки этого согласия приведены значения х2, рассчитанные по всем бинам распределений.
Заключение
В работе рассмотрено применение генеративно-состязательной сети (ГСС) для генерации конечного состояния лептона в инклюзивном глубоконеупругом лептон-протонном рассеянии в диапазоне начальных энергий 20 — 100 ГэВ в системе центра масс.
Показано, что разработанная модель способна генерировать распределения различных характеристик разных конечных лептонов, включая величины, которые рассчитываются на основе изначально сгенерированных. ГСС способна генерировать распределения не только при начальных энергиях центра масс, при которых велось обучение, но и при интерполированных значениях энергии (ГэВ): 15, 25, 35, 45.
Кроме того, показано, что модель может генерировать требуемые распределения и при экстраполированных начальных энергиях (ГэВ): 120, 140, 160 и 180.
В дальнейшем несомненный интерес представляет рассмотрение полуинклюзивного, глубоконеупругого рассеяния с генерацией характеристик дополнительной частицы, в частности пиона.
СПИСОК ЛИТЕРАТУРЫ
1. Goodfellow I., Pouget-Abadie J., Mirza M., Xu B., Warde-Farley D., Ozair S., Courville A., Bengio Y. Generative adversarial networks // Communications of the ACM. 2020. Vol. 63. No. 11. Pp. 139-144.
2. Karras T., Laine S., Aila T. A style-based generator architecture for generative adversarial networks // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA, June 15-20, 2019. Pp. 4401-4410.
3. Clark A., Donahue J., Simonyan K. Adversarial video generation on complex datasets. arXiv: 1907.06571v2, 2019. https://doi.org/10.48550/arXiv. 1907.06571.
4. Gulrajani I., Ahmed F., Arjovsky M., Dumoulin V., Courville A. Improved training of Wasserstein GANs. arXiv: 1704.00028v3, 2017. https: //doi.org/ 10.48550/arXiv.1704.00028.
5. Mao X., Li Q., Xie H., Lau R. Y. K., Wang Zh., Smolley S. P. On the effectiveness of least squares generative adversarial networks // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2019. Vol. 41. No. 12. Pp. 2947-2960.
6. Hashemi B., Amin N., Datta K., Olivito D., Pierini N. LHC analysis-specific datasets with Generative Adversarial Networks. arXiv: 1901.05282v1, 2019. https: //doi.org/10.48550/arXiv.1901.05282.
7. Alanazi Y., Sato N., Liu T., et al. Simulation of electron-proton scattering events by a Feature-Augmented and Transformed Generative Adversarial Network (FAT-GAN). arXiv: 2001.11103v2, 2019. https: //doi.org/10.48550/arXiv.2001. 11103.
8. Sjostrand T., Mrenna S., Skands P. A brief introduction to PYTHIA 8.1 // Computer Physics Communications. 2008. Vol. 178. No. 11. Pp. 852-867.
9. Sharma O. A new activation function for deep neural network // Proceedings of the International Conference on Machine Learning, Big Data, Cloud and Parallel Computing (COMITCon). IEEE, Faridabad, India, February 14-16, 2019. Pp. 84-86.
10. Srivastava N., Hinton G., Krizhevsky A., Slutskever I., Salakhutdinov R. Dropout: A simple way to prevent neural networks from overfitting // The Journal of Machine Learning Research. 2014. Vol. 15. Pp. 1929-1958.
11. Hawkins D. M. The problem of overfitting // Journal of Chemical Information and Computer Sciences. 2003. Vol. 44. No. 1. Pp. 1-12.
12. Miyato T., Kataoka T., Koyama M., Yoshida Y. Spectral normalization for Generative Adversarial Networks. arXiv: 1802.05957/v1, 2018. https://doi.org/10.48550/arXiv.1802.05957.
13. Qin Y., Mitra N., Wonka ^ How does Lipschitz regularization influence GAN training? // Computer Vision - ECCV 2020. Springer International Publishing, 2020. Pp. 310-326. https://doi. org/10.48550/arXiv.1811.09567
14. Xu D., Zhang Sh., Zhang H., Mandic D. P. Convergence of the RMSProp deep learning method with penalty for nonconvex optimization // Neural Networks. 2021. Vol. 139. July. Pp. 17-23.
15. Heusel M., Ramsauer H., Unterthiner T., Nessler B., Hochreiter S. GANs trained by a two time-scale update rule converge to a local Nash equilibrium. arXiv: 1706.08500v6, 2017. https://doi. org/10.48550/arXiv.1706. 08500.
16. McHugh M. L. The chi-square test of independence // Biochemia Medica. 2013. Vol. 23. No. 2. Pp. 143-149.
REFERENCES
1. Goodfellow I., Pouget-Abadie J., Mirza M., et al., Generative Adversarial Networks, Commun. ACM. 63 (11) (2020) 139-144.
2. Karras T., Laine S., Aila T., A style-based generator architecture for Generative Adversarial Networks, Proc. IEEE/CVF Conf. on Computer Vision and Pattern Recognition (CVPR), Long Beach, USA, June 15-20 (2019) 4401-4410.
3. Clark A., Donahue J., Simonyan K., Adversarial video generation on complex datasets, arXiv: 1907.06571v2, 2019. https://doi.org/10.48550/arXiv. 1907.06571.
4. Gulrajani I., Ahmed F., Arjovsky M., et al., Improved training of Wasserstein GANs, arXiv:1704.00028v3, 2017. https: //doi.org/ 10.48550/arXiv. 1704.00028.
5. Mao X., Li Q., Xie H., et al., On the effectiveness of least squares Generative Adversarial Networks, IEEE Trans. Pattern Anal. Mach. Intell. 41 (12) (2019) 2947-2960.
6. Hashemi B., Amin N., Datta K., et al., LHC analysis-specific datasets with Generative Adversarial Networks. arXiv: 1901.05282v1, 2019. https: //doi.org/10.48550/arXiv.1901.05282.
7. Alanazi Y., Sato N., Liu T., et al., Simulation of electron-proton scattering events by a Feature-Augmented and Transformed Generative Adversarial Network (FAT-GAN). arXiv: 2001.11103v2, 2019. https: //doi.org/10.48550/arXiv.2001. 11103.
8. Sjostrand T., Mrenna S., Skands P., A brief introduction to PYTHIA 8.1, Comput. Phys. Commun. 178 (11) (2008) 852-867.
9. Sharma O., A new activation function for deep neural network, Proc. Int. Conf. Machine Learning, Big Data, Cloud and Parallel Computing (COMITCon), IEEE, Faridabad, India, Febr. 14-16 (2019) 84-86.
10. Srivastava N., Hinton G., Krizhevsky A., et al., Dropout: A simple way to prevent neural networks from overfitting, J. Mach. Learn. Res. 15 (2014) 1929-1958.
11. Hawkins D. M., The problem of overfitting, J. Chem. Inf. Comput. Sci. 44 (1) (2003) 1-12.
12. Miyato T., Kataoka T., Koyama M., Yoshida Y., Spectral normalization for Generative Adversarial Networks, arXiv: 1802.05957/v1, 2018. https://doi.org/10.48550/arXiv.1802.05957.
13. Qin Y., Mitra N., Wonka С., How does Lipschitz regularization influence GAN training? Computer Vision - ECCV 2020, Springer Int. Publ. (2020) 310-326. https://doi.org/10.48550/ arXiv.1811.09567
14. Xu D., Zhang Sh., Zhang H., Mandic D. P., Convergence of the RMSProp deep learning method with penalty for nonconvex optimization, Neural Netw. 139 (July) (2021) 17-23.
15. Heusel M., Ramsauer H., Unterthiner T., et al., GANs trained by a two time-scale update rule converge to a local Nash equilibrium, arXiv: 1706.08500v6, 2017. https://doi.org/10.48550/arXiv.1706. 08500.
16. McHugh M. L., The chi-square test of independence, Biochem. Med. 23 (2) (2013) 143-149.
СВЕДЕНИЯ ОБ АВТОРАХ
ЛОБАНОВ Андрей Александрович - студент Физико-механического института Санкт-Петербургского политехнического университета Петра Великого, Санкт-Петербург, Россия.
195251, Россия, г. Санкт-Петербург, Политехническая ул., 29
lobanov2.aa@edu.spbstu.ru
ORCID: 0000-0002-8910-4775
БЕРДНИКОВ Ярослав Александрович - доктор физико-математических наук, профессор Высшей школы фундаментальных физических исследований Санкт-Петербургского политехнического университета Петра Великого, Санкт-Петербург, Россия. 195251, Россия, г. Санкт-Петербург, Политехническая ул., 29 berdnikov@spbstu.ru ORCID: 0000-0003-0309-5917
THE AUTHORS
LOBANOV Andrey A.
Peter the Great St. Petersburg Polytechnic University 29 Politechnicheskaya St., St. Petersburg, 195251, Russia lobanov2.aa@edu.spbstu.ru ORCID: 0000-0002-8910-4775
BERDNIKOV Yaroslav A.
Peter the Great St. Petersburg Polytechnic University 29 Politechnicheskaya St., St. Petersburg, 195251, Russia berdnikov@spbstu.ru ORCID: 0000-0003-0309-5917
Статья поступила в редакцию 20.07.2023. Одобрена после рецензирования 31.07.2023. Принята 31.07.2023.
Received 20.07.2023. Approved after reviewing 31.07.2023. Accepted 31.07.2023.
© Санкт-Петербургский политехнический университет Петра Великого, 2023