Научная статья на тему 'Верификация программы моделирования для создания цифровых двойников распределенных центров сбора, хранения и обработки данных'

Верификация программы моделирования для создания цифровых двойников распределенных центров сбора, хранения и обработки данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
26
5
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
моделирование / вычислительная инфраструктура / распределенный центр хранения и обработки данных / верификация / цифровой двойник / эксперимент BM@N / simulation / computing infrastructure / distributed data storage and processing center / verification / digital twin / BM@N experiment

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Д.И. Пряхина, В.В. Кореньков, В.В. Трофимов, К.В. Герценбергер

Программа моделирования, которая является ключевым элементом программного комплекса для создания цифровых двойников распределенных центров хранения и обработки данных, была верифицирована на примере работы вычислительной инфраструктуры эксперимента BM@N ускорительного комплекса NICA при первом физическом сеансе 2023 года. Проведено моделирование таких процессов, как сбор экспериментальных данных, последующая передача их к узлам хранения, а также многоступенчатая обработка до реконструированных данных событий столкновения частиц. Результаты моделирования сравнивались со статистикой, собранной средствами мониторинга вычислительной инфраструктуры, по таким показателям, как объем хранилищ, загрузка вычислительных ресурсов, скорость передачи данных, астрономическое время обработки потока задач. На основании сравнения сделан вывод о достоверности и удовлетворительной точности моделирования, которая обеспечивает корректное планирование процессов сбора и обработки данных. Программа может быть использована в составе комплекса для создания цифровых двойников распределенных центров хранения и обработки данных с целью проектирования, развития и оперативного управления такими системами.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Д.И. Пряхина, В.В. Кореньков, В.В. Трофимов, К.В. Герценбергер

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Verification of the simulation program for creating digital twins of distributed data acquisition , sto rage and processing centers

The simulation program is a key element of the software complex for creating digital twins of distributed data storage and processing centers. It was verified using the example of the computing infrastructure of the BM@N experiment of the NICA accelerator complex during the first physical session of 2023. Such processes as the acquisition of experimental data, its subsequent transfer to storage nodes, as well as the multi-stage processing of particle collision events to reconstructed data, were modeled. The simulation results were compared with statistics collected by computing infrastructure monitoring tools according to such indicators as storage capacity, computing resource load, data transfer rate, astronomical processing time of the job flow. Based on the comparison, a conclusion about the reliability and satisfactory accuracy of the modeling, which ensures the correct planning of data acquisition and processing, was made. The program can be used as part of a complex to create digital twins of distributed data storage and processing centers for the design, development and operational management of such systems.

Текст научной работы на тему «Верификация программы моделирования для создания цифровых двойников распределенных центров сбора, хранения и обработки данных»

Верификация программы моделирования для создания цифровых двойников распределенных центров сбора, хранения

и обработки данных

Д.И. Пряхина, В.В. Кореньков, В.В. Трофимов, К.В. Герценбергер

Аннотация—Программа моделирования, которая является ключевым элементом программного комплекса для создания цифровых двойников распределенных центров хранения и обработки данных, была верифицирована на примере работы вычислительной инфраструктуры эксперимента BM@N ускорительного комплекса NICA при первом физическом сеансе 2023 года. Проведено моделирование таких процессов, как сбор экспериментальных данных, последующая передача их к узлам хранения, а также многоступенчатая обработка до реконструированных данных событий столкновения частиц. Результаты моделирования сравнивались со статистикой, собранной средствами мониторинга вычислительной инфраструктуры, по таким показателям, как объем хранилищ, загрузка вычислительных ресурсов, скорость передачи данных, астрономическое время обработки потока задач. На основании сравнения сделан вывод о достоверности и удовлетворительной точности моделирования, которая обеспечивает корректное планирование процессов сбора и обработки данных. Программа может быть использована в составе комплекса для создания цифровых двойников распределенных центров хранения и обработки данных с целью проектирования, развития и оперативного управления такими системами.

Ключевые слова—моделирование, вычислительная инфраструктура, распределенный центр хранения и обработки данных, верификация, цифровой двойник, эксперимент BM@N.

I. Введение

В Лаборатории информационных технологий им. М.Г. Мещерякова (ЛИТ) Объединенного института ядерных исследований (ОИЯИ) разрабатывается программный комплекс для создания цифровых двойников (ЦД) распределенных центров сбора, хранения и обработки данных (РЦОД), которые

Статья получена 7 декабря 2023.

Д. И. Пряхина, Объединенный институт ядерных исследований, Дубна, Россия (e-mail: pryahinad@jinr.ru).

В. В. Кореньков, Объединенный институт ядерных исследований, Дубна, Россия (e-mail: korenkov@jinr.ru).

В. В. Трофимов, Объединенный институт ядерных исследований, Дубна, Россия (e-mail: tvv@jinr.ru).

К. В. Герценбергер, Объединенный институт ядерных исследований, Дубна, Россия (e-mail: gertsen@jinr.ru).

являются основой вычислительной инфраструктуры научных экспериментов класса «мегасайенс». ЦД помогут проводить исследования эффективности и надежности функционирования РЦОД, проверять различные сценарии масштабирования, учитывая процессы, происходящие в системе, и требования к потокам данных и задач [1]. Ключевым элементом любого ЦД является ядро, которое представляет собой программу моделирования. В рамках рассматриваемой задачи по созданию ЦД разработано уникальное ядро, которое моделирует распределенные системы с учетом параметров потоков данных и задач для обработки, а также вероятностных характеристик процессов, происходящих в РЦОД. Уникальность ядра заключается в его универсальности и применимости для моделирования процессов передачи, хранения и обработки данных любых РЦОД [2]. От качества построенной модели зависит возможность дальнейшего использования ЦД, поэтому прежде всего необходимо осуществить верификацию результатов работы программы моделирования с параметрами вычислительной инфраструктуры реального

эксперимента.

Верификация программы моделирования

осуществлялась на примере вычислительной инфраструктуры эксперимента BM@N [3] ускорительного комплекса NICA [4], который создается в России на базе Объединенного института ядерных исследований (ОИЯИ, Дубна). Экспериментальная установка BM@N является одним из элементов первого этапа реализации комплекса NICA. После проведения серии технических сеансов эксперимента зимой 20222023 года состоялся первый физический сеанс, в котором было набрано более 550 миллионов событий взаимодействия пучка ионов ксенона на мишени цезий-йод, подлежащих дальнейшей обработке и физическому анализу полученных экспериментальных данных [5]. Вычислительная инфраструктура эксперимента включает в себя различные ресурсы, а именно:

1) кластер NICA, который располагается в Лаборатории физики высоких энергий имени В.И. Векслера и А.М. Балдина (ЛФВЭ) ОИЯИ;

2) компоненты распределенной грид-инфраструктуры Многофункционального информационно-вычислительного комплекса (МИВК) ОИЯИ [6]:

ресурсный центр первого уровня Tier1 ЛИТ и ресурсный центр второго уровня Tier2 ЛИТ;

3) Суперкомпьютер «Говорун», входящий в состав гетерогенной платформы HybriLIT [7] (ЛИТ ОИЯИ);

4) хранилище данных на распределенной файловой системе EOS (ЛИТ ОИЯИ).

Для интеграции объектов инфраструктуры и обеспечения единого доступа к ним с целью запуска задач массовой обработки данных используется система DIRAC [8]. Мониторинг и оценка производительности вычислительных ресурсов в результате выполнения задач эксперимента также осуществляется с помощью программного обеспечения DIRAC Interware [9]. Результаты мониторинга были использованы при верификации разработанной программы моделирования.

Таким образом, цель представленной ниже работы -верификация программы моделирования, которая является частью программного комплекса для создания ЦД распределенных центров сбора, хранения и обработки данных, на примере вычислительной инфраструктуры эксперимента BM@N. В качестве исходных данных для моделирования использовалась статистика, полученная по результатам мониторинга с помощью программного обеспечения DIRAC Interware при запуске задач преобразования полученных «сырых» (необработанных) экспериментальных данных в формат digit (далее RawToDigit задачи) и задач преобразования данных формата digit в данные реконструированных событий столкновения частиц формата DST (далее DigitToDst задачи). Для достижения поставленной цели было проведено три этапа моделирования. Задача первого этапа заключается в осуществлении

Data

моделирования процесса сбора экспериментальных данных, определении количества ресурсов, необходимых для их хранения. Задачей второго и третьего этапа является моделирование процесса запуска задач RawToDigit и DigitToDst соответственно, измерение таких показателей, как загрузка вычислительных ресурсов, общее время выполнения задач, скорость передачи данных.

II. Описание данных эксперимента и результатов мониторинга

В работе рассматривается физический сеанс работы эксперимента BM@N, который проходил с декабря 2022 года по февраль 2023 года. Общее время сбора данных составило примерно 720 часов. «Сырые» необработанные данные (далее raw-данные) поступали с установки со скоростью, усредненной по всему времени проведения сеанса, 142 МБ/с. По окончании сеанса суммарный объем физических raw-данных составил 379 ТБ (см. рис. 1). В течение каждого запуска при наборе данных эксперимента в буфере приема и хранения данных осуществлялась запись экспериментальных данных в raw-файлы. Выбранный объем отдельного файла составил 15 ГБ. По готовности raw-файлы в полном объеме копировались в хранилище данных на файловой системе EOS. Объем полученных экспериментальных raw-данных, записанных в хранилище, соответствует 25 800 raw-файлам для обработки. Обработка экспериментальных данных представляет собой преобразование и последующее получение реконструированных данных событий. per day

Î1T6

line

ïia

ее

Total raw physics size ~ 379 ТВ

гП ГЦ

- -

r-n i_ , г

г Vr J L г

1ZAJ4 12Л)в 12/1Z 12/16 12/2 О 12/2* 12/28 01/01 — brrn.filea sun

Рис. 1. Реальный объем поступающих raw-данных эксперимента BM@N

Преобразование raw-файлов в digit-файлы (RawToDigit задачи) осуществлялась на вычислительных ресурсах эксперимента: кластере NICA и Tier1 ЛИТ. Каждая задача RawToDigit обрабатывает 1 файл «сырых» экспериментальных данных один раз. Размер digit-файла составляет в среднем 870 МБ. Все RawToDigit задачи были отправлены на выполнение одновременно. Общее время обработки всех raw-файлов составило примерно 36 часов. На рисунках 2 и 3 изображены графики, отражающие количество выполненных задач на вычислительных компонентах кластера NICA ЛФВЭ и Tier1 ЛИТ соответственно за

ОП/flí 01/Oí 01 .'13 01Л 7 01Л1 01/2S 01/29 OirtH

указанный период времени. По графику на рисунке 2 видно, что вычислительные ресурсы кластера NICA ЛФВЭ загружены равномерно, каждый час выполнялось примерно по 100 задач. Это позволило сделать предположение о том, что на кластере NICA ЛФВЭ предоставлялось 100 ядер. Что касается вычислительных ресурсов Tier1 ЛИТ, можно сделать вывод о неравномерном использовании ресурсов (см. рис. 3). Количество выполненных задач в час изменяется примерно от 200 до 1 500, что свидетельствует о постепенной загрузке предоставляемых для обработки 1 500 ядер. Следует

отметить, что на кластере NICA ЛФВЭ всего было обработано 4 844 задачи, что составляет примерно 19% от общего количества, а на Tierl ЛИТ — 20 956 задач (81%). Мониторинг производительности процессоров при выполнении всех RawToDigit задач показал, что среднее время выполнения одной задачи составляет примерно 2 500 секунд. Суммарный объем получившихся Jigit-файлов в хранилище данных составил 23 ТБ (без учета зеркалирования данных).

График на рисунке 4 отражает скорость передачи данных. Видно, что скорость передачи данных от хранилища данных до вычислительных ресурсов кластера NICA ЛФВЭ составляет в среднем 0,5 ГБ/с. В связи с тем, что задачи на вычислительные компоненты Tierl ЛИТ поступали неравномерно, аналогичная скорость передачи данных изменяется от 1 ГБ/с до 8 ГБ/с.

12:00 16:00 20:00 4 Mir

Рис. 2. Количество выполненных задач на кластере NICA ЛФВЭ

12:00 1600 2000 4 Mir

Рис. 3. Количество выполненных задач на ресурсах Tierl ЛИТ

Рис. 4. Мониторинг скорости передачи данных: желтый хранилища данных до ресурсов Tierl ЛИТ

Получение реконструированных данных формата DST (DigitToDst задачи) — преобразование digit-файлов в dst-файлы — осуществлялось уже на большем количестве вычислительных компонент, а именно: кластере NICA ЛФВЭ, Tier1 ЛИТ, Tier2 ЛИТ (кластер в составе распределенной грид-инфраструктуры МИВК), Суперкомпьютере «Говорун» (в составе гетерогенной платформы МИВК). Аналогично, каждая задача DigitToDst обрабатывает 1 digit-файл один раз. Размер каждого dst-файла составил в среднем 2 000 МБ. Все DigitToDst задачи были отправлены на выполнение одновременно. Общее время обработки всех digit-файлов составило примерно 73 часа. На рисунках 5-8 изображены графики, отражающие количество выполненных задач на вычислительных компонентах кластера NICA ЛФВЭ, Tier1 ЛИТ, Tier2 ЛИТ, Суперкомпьютера «Говорун» соответственно за

от хранилища данных до вычислительных ресурсов кластера NICA ЛФВЭ; голубой - от

указанный период времени. По графикам видно, что все вычислительные ресурсы загружены неравномерно. На кластере NICA ЛФВЭ для запуска DigitToDst задач выделено 300 ядер (см. рис. 5), при этом имеется промежуток времени, когда используется меньше ресурсов (от 10 до 200 ядер). На Tier1 ЛИТ выделено 1 500 ядер, вычислительная компонента постепенно загружается до максимума, а затем количество используемых ресурсов сокращается до 10 ядер (см. рис. 6). Аналогичная ситуация просматривается на Tier2 ЛИТ, где выделено 1 000 ядер (см. рис. 7). Суперкомпьютер «Говорун», где выделено 500 ядер, используется для запуска задач только в первую половину рассматриваемого промежутка времени (см. рис. 8). Таким образом на кластере NICA ЛФВЭ всего было обработано 5 315 задач, что составляет примерно 21% от общего количества, на Tier1 ЛИТ —

9 289 задач (36%), на Игг2 ЛИТ — 9 016 задач (35%), время выполнения одной задачи составляет примерно

на Суперкомпьютере «Говорун» — 2 180 задач (8%). 10 000 секунд. Суммарный объем получившихся dst-

Мониторинг производительности процессоров при файлов в хранилище данных составил 53 ТБ. выполнении всех RcrwToDigit задач показал, что среднее

Рис. 5. Количество выполненных задач на кластере NICA ЛФВЭ

Рис. 7. Количество выполненных задач на Tier2 ЛИТ

Рис. 8. Количество выполненных задач на Суперкомпьютер «Говорун»

III. Моделирование процесса получения и хранения ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ BM@N

Моделируемая система получения и хранения данных эксперимента BM@N схематично представлена на рисунке 9. Исходными данными для запуска программы моделирования являются скорость генерации данных и пропускная способность каналов связи между объектами инфраструктуры. Требуется определить количество ресурсов, которые необходимы для хранения всех поступающих данных на буфере и в хранилище данных EOS.

Буфер приема и хранения данных

результатами мониторинга реального

эксперимента BM(a)N с точностью 96%.

Total data volume on the Online storage

сеанса

350

300

£ 250

к

о»

I 200

Триггер

mm

EOS

С \ 100 Гб/с S" —S 100 Гб/<^

142 МБ/с V > ? • ? •

S 150 Û

100

50 0

0

100

200

500

600

300 400 Time (h)

Рис. 10. Объем данных на буфере приема и хранения данных Data volume on the EOS

raw (100%)

Рис. 9. Моделируемая система получения и хранения данных эксперимента BM@N

Результаты моделирования показали, что объем накопленных за 720 часов данных составит примерно 363 ТБ (см. рис. 10). В хранилище EOS будет передан весь объем данных, упакованных в raw-файлы (см. рис. 11). Для приема и хранения экспериментальных данных при заданной средней частоте генерации будет достаточно буфера объемом 400 ТБ (без учета зеркалирования данных). Таким образом, результаты моделирования совпадают с

350

300

S 250 ь

ш

§ 200

0

1 150

О

100 50 0

..... R¿ - То w data

tal

100

200

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

500

300 400 Time (h)

Рис. 11. Объем raw-файлов в хранилище данных EOS

IV. Моделирование процесса выполнения задач

ПРЕОБРАЗОВАНИЯ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ

Исходя из результатов мониторинга была промоделирована система обработки

экспериментальных данных, схематично представленная на рисунке 12. Во время моделирования требовалось рассчитать загрузку вычислительных ресурсов в процессе выполнения RawToDigit задач и скорость передачи данных при следующих условиях. На кластере NICA ЛФВЭ выделено 100 ядер, на Tier1 ЛИТ —

1 500 ядер. Количество выполненных задач в час на Tier1 ЛИТ изменяется примерно от 200 до 1 500, поэтому при моделировании процесса выполнения RawToDigit задач следует установить параметры для изменения количества используемых ядер. Такими параметрами являются вероятность наступления события изменения количества свободных ядер, доступных для выполнения задач, а также диапазон допустимых значений. Согласно результатам моделирования, процесс обработки RawToDigit задач длился 36 часов (129 600 секунд), при моделировании события происходят каждую минуту (60 секунд), значит всего произошло 2 160 событий. Так как количество ядер изменяется от 200 до 1 500, в среднем на 100 единиц при каждом событии, то должно произойти не менее 12 событий увеличения количества ресурсов. Таким образом, в рассматриваемом случае вероятность наступления события увеличения количества ресурсов составляет 12 / 2 160 = 0,005. Для моделирования использовались: равномерное распределение времени выполнения задач со средним значением равным

2 500 секунд, средний размер raw-файла равный 15 ГБ, средний размер digit-файла — 870 МБ. Также необходимо определить общее время выполнения всех RawToDigit задач.

Рис. 12. Моделируемая вычислительная инфраструктура эксперимента BM@N для выполнения задач преобразования экспериментальных данных

Все 25 800 RawToDigit задачи генерируются одновременно. Процесс запуска задач во время моделирования контролируют пилоты. Под пилотом понимается алгоритм, который подготавливает задачу к запуску, в том числе анализирует количество свободных ядер на вычислительной компоненте. Если доступны свободные ресурсы, то пилот берет очередную задачу из очереди и отправляет ее на исполнение. Далее задача занимает процессорное ядро и начинает исполняться, то есть обрабатывать входной raw-файл из хранилища данных EOS. В результате выполнения задачи выходной digit-файл также записывается в EOS.

Рассмотрим полученные результаты моделирования. На рисунке 13 представлены графики, отражающие общее количество выполненных задач на кластере NICA ЛФВЭ и Tier1 ЛИТ соответственно в каждый момент времени. По графикам видно, что все RawToDigit задачи выполняются примерно за 30 часов, при этом на кластере NICA ЛФВЭ обработано 3 875 задач, что составляет примерно 15% от общего количества, а на Tier1 ЛИТ — 21 924 задачи (85%).

Рис. 13. Количество выполненных RawToDigit задач на вычислительных ресурсах при моделировании

На рисунках 14 и 15 представлены графики, отражающие количество используемых ядер на вычислительных компонентах кластера NICA ЛФВЭ и Tier1 ЛИТ соответственно в каждый момент времени. По графикам видно, что ресурсы кластера NICA ЛФВЭ равномерно загружены на 100%, однако ресурсы Tier1 ЛИТ используются не в полном объеме, то есть сначала загружены на 15%, а затем постепенно начинают заполняться до 100%.

15 Time (h)

Рис. 14. Использование ресурсов вычислительной компоненты кластера NICA ЛФВЭ

15 Time /i)

Рис. 17. Загрузка канала связи между EOS и Tier1 ЛИТ

Также стоит отметить, что размер digit-файла при моделировании является равномерно распределенной случайной величиной со средним значением 870 МБ (см. рис. 18), а суммарный объем всех digit-файлов составил примерно 22 ТБ (см. рис. 19). Итак, результаты моделирования процесса запуска задач преобразования экспериментальных данных совпадают с результатами мониторинга запуска RawToDigit задач на вычислительной инфраструктуре эксперимента BM@N со средней точностью 90%.

15

Time (h)

Рис. 15. Использование ресурсов вычислительной компоненты Tier1 ЛИТ

Графики, показывающие нагрузку на каналы связи между хранилищем и вычислительными компонентами кластера NICA ЛФВЭ и Tier1 ЛИТ представлены на рисунках 16 и 17 соответственно. Можно сделать вывод, что средняя скорость передачи данных между EOS и кластером NICA ЛФВЭ составляет 5 Гб/с = 0,63 ГБ/с; между EOS и Tier1 ЛИТ скорость изменяется от 8 Гб/с = 1 ГБ/с до 64 Гб/с = 8 ГБ/с. Таким образом, изменение скорости передачи данных между EOS и Tier1 ЛИТ соответствует изменению количества ядер, свободных для запуска задач.

750 1000 1250 Data volume (MB)

Рис. 18. Равномерное распределение размеров digit-файлов в хранилище EOS

Data volume on the EOS

400

£

5 200

50 0

..... Raw data

Digit data ....." - Total

-----

0

10

20

25

15 Time (h)

Рис. 16. Загрузка канала связи между EOS и кластером NICA ЛФВЭ

15 Time (h)

Рис. 19. Объем данных в хранилище EOS после преобразования экспериментальных данных

V. Моделирование процесса выполнения задач

РЕКОНСТРУКЦИИ СОБЫТИЙ

Инфраструктура, которая использовалась для реконструкции событий столкновения частиц по полученным digit-данным, схематично представлена на рисунке 20. Во время моделирования требуется рассчитать загрузку вычислительных ресурсов в процессе выполнения DigitToDst задач при следующих условиях. На кластере NICA ЛФВЭ выделено 300 ядер, на Tier1 ЛИТ — 1 500 ядер, на Tier2 ЛИТ — 1 000 ядер, на Суперкомпьютере «Говорун» — 500 ядер. При этом кластер NICA ЛФВЭ загружен полностью 60% времени, в остальное время используется от 10 до 200 ядер. Tier1 ЛИТ постепенно загружается до максимума, а затем оставшиеся 40% времени количество используемых ресурсов сокращается до 10 ядер. Аналогичная ситуация просматривается на Tier2 ЛИТ. Суперкомпьютер «Говорун» используется для запуска задач половину рассматриваемого промежутка времени. Таким образом, при моделировании процесса выполнения DigitToDst задач следует установить параметры для изменения количества используемых ядер (вероятности и диапазон изменений) для всех вычислительных ресурсов. Вероятности рассчитаны по аналогии с вероятностями для моделирования процесса выполнения RawToDigit задач. В данном случае вероятность наступления событий увеличения и уменьшения количества ресурсов составляет 0,001, при этом количество ядер на кластере NICA ЛФВЭ изменяется от 10 до 300, на Tier1 ЛИТ — от 10 до 1 500, на Tier2 ЛИТ — от 10 до 1 000, на Суперкомпьютере «Говорун» — от 50 до 500. Для моделирования использовались: равномерное распределение времени выполнения задач со средним значением равным 10 000 секунд, средний размер digit-файла равный 870 МБ, средний размер dst-файла — 2 000 МБ. Помимо этого, необходимо определить общее время выполнения всех DigitToDst задач. Все 25 800 DigitToDst задачи генерируются одновременно. Процесс запуска DigitToDst задач во время моделирования аналогичен процессу запуска RawToDigit задач.

Рис. 20. Моделируемая вычислительная инфраструктура эксперимента BM@N для выполнения задач реконструкции событий

Рассмотрим полученные результаты моделирования. На рисунке 21 представлены графики, отражающие общее количество выполненных задач на кластере NICA ЛФВЭ, Tier1 ЛИТ, Tier2 ЛИТ, Суперкомпьютере в каждый момент времени. По графикам видно, что все DigitToDst задачи выполняются примерно за 80 часов. При этом на кластере NICA ЛФВЭ обработано 5 906 задач, что составляет примерно 24% от общего количества, на Tier1 ЛИТ — 8 872 задачи (34%), на Tier2 ЛИТ — 8 598 задач (33%), на Суперкомпьютере — 2 424 задач (9%).

40 50 Time (h)

Рис. 21. Количество выполненных DigitToDst задач на вычислительных ресурсах при моделировании

На рисунках 22-25 представлены графики, показывающие количество используемых ядер на вычислительных компонентах кластера NICA ЛФВЭ, Tier1 ЛИТ, Tier2 ЛИТ, Суперкомпьютера

соответственно в каждый момент времени. По графикам

видно, что ресурсы кластера NICA ЛФВЭ равномерно загружены полностью в течении 60% времени, в остальное время используется от 10 до 200 ядер. Ресурсы Tier1 ЛИТ и Tier2 ЛИТ постепенно загружаются до максимума, а 40% времени используется в среднем 10 ядер. Суперкомпьютер «Говорун» выполняет запуск задач только в первую половину рассматриваемого промежутка времени, при этом сначала используется 10% ресурсов, а затем прослеживается загрузка до 100%.

40 50 Time (h)

Рис. 22. Иснользование ресурсов вычислительной компоненты кластера NICA ЛФВЭ

30 40 50 Time !h)

Рис. 23. Иснользование ресурсов вычислительной компоненты

Tierl ЛИТ

компоненты

40 Time (h)

Рис. 25. Использование ресурсов вычислительной Суперкомпьютер «Говорун»

Также стоит отметить, что размер dst-файла при моделировании является равномерно распределенной случайной величиной со средним значением 2 000 МБ (см. рис. 26), а суммарный объем всех dst-файлов составил примерно 52 ТБ (см. рис. 27). Таким образом, результаты моделирования совпадают с результатами мониторинга реального сеанса эксперимента BM@N со средней точностью 92%.

Рис. 26. Равномерное распределение размеров digit-файлов в хранилище EOS

30 40 50 Time (h)

Рис. 24. Использование ресурсов вычислительной компоненты Tier2 ЛИТ

Рис. 27. Объем данных в хранилище EOS после получения данных реконструкции

VI. Заключение

Верификация программы моделирования, которая является частью программного комплекса по созданию цифровых двойников РЦОД, разрабатываемого в ЛИТ ОИЯИ, проведена на примере вычислительной инфраструктуры эксперимента BM@N проекта NICA. Рассматриваемая вычислительная инфраструктура использовалась для получения, хранения и обработки данных последнего сеанса эксперимента, который проходил с декабря 2022 года по февраль 2023 года. В качестве исходных данных для моделирования использовалась статистика, полученная по результатам мониторинга вычислительной инфраструктуры эксперимента с помощью программного обеспечения DIRA C Interware.

В процессе моделирования были определены такие показатели, как количество ресурсов, необходимых для

хранения поступающих данных, загрузка вычислительных ресурсов при преобразовании экспериментальных данных и получении по ним реконструированных данных событий, общее время выполнения задач, скорость передачи данных между объектами инфраструктуры. В таблице I приведены результаты мониторинга и моделирования для более удобного сравнения.

Результаты верификации доказали корректную работу программы моделирования со средней точностью 92%. Такое значение точности достаточно для дальнейшего использования программы моделирования в составе комплекса для создания цифровых двойников РЦОД, которые применяются для решения задач проектирования и развития вычислительной инфраструктуры научных экспериментов класса «мегасайенс».

Таблица I. Сравнение результатов мониторинга и моделирования

МОНИТОРИНГ

МОДЕЛИРОВАНИЕ

Объем экспериментальных данных, накопленных за

720 часов работы установки (ТБ) Общее время выполнения всех RawToDigit задач (ч.) Количество выполненных задач на кластере NICA ЛФВЭ / % от общего числа задач Количество выполненных задач на Tier1 ЛИТ / % от

общего числа задач Скорость передачи данных между EOS и кластером NICA ЛФВЭ (ГБ/с) Скорость передачи данных между EOS и Tier1 ЛИТ (ГБ/с) Суммарный объем digit-файлов (ТБ) Общее время выполнения всех DigitToDst задач (ч.) Количество выполненных задач на кластере NICA ЛФВЭ / % от общего числа задач Количество выполненных задач на Tier1 ЛИТ / % от

общего числа задач Количество выполненных задач на Tier2 ЛИТ / % от общего числа задач Количество выполненных задач на Суперкомпьютере / % от общего числа задач Суммарный объем dst-файлов (ТБ)

379 363

36 30

4 844 I I9% 3 875 I I5%

20 956 I 8I% 2I 924 I 85 %

0,5 0,63

от 1 до 8 от 1 до 8

23 22

73 80

5 3I5 I 2I% 5 906 I 24%

9 289 I 36% 8 872 I 34%

9 0I6 I 35% 8 598 I 33%

2 I80 I 8% 53

2 424 I 9% 52

СРЕДНЯЯ ТОЧНОСТЬ

96% 83% 80%

96%

80

100% 96% 91%

88% 94% 94%

88%

98% 92%

информационные технологии и ИТ-образование, Т. 19, №3, 2023,

Благодарности

Авторы выражают благодарность сотрудникам ОИЯИ, предоставляющим доступ и оказывающим техническую поддержку кластера NICA ЛФВЭ, Tier1 и Tier2 ЛИТ и Суперкомпьютера «Говорун».

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Библиография

[1] Д. И. Пряхина, В. В. Кореньков, «Актуальность создания цифрового двойника для управления распределенными центрами сбора, хранения и обработки данных,» Современные информационные технологии и ИТ-образование, Т. 19, №3, 2023, в печати.

[2] Д. И. Пряхина, В. В. Кореньков, В. В. Трофимов, «Метод построения цифровых двойников для решения задач эффективного управления и развития распределенных центров сбора, хранения и обработки данных,» Современные

в печати.

[3] M. Kapishin, "Studies of baryonic matter at the BM@N experiment (JINR)," Nuclear Physics A., vol. 982, pp. 967, 2019.

[4] V. Kekelidze, A. Kovalenko, R. Lednicky, V. Matveev, I. Meshkov, A. Sorin, G. Trubnikov, "Status of the NICA project at JINR," EPJ Web Conf., vol. 138. p. 01027, 2017.

[5] NICA Bulletin. (2023, March). [Online]. Available: http://www.jinr.ru/wp-content/uploads/2023/03/nica_vypusk9.pdf

[6] МИВК - ИНФРАСТРУКТУРА. 2023. (2023). [Online]. Available: https://micc.jinr.ru/

[7] Gh. Adam, M. Bashashin, D. Belyakov, M. Kirakosyan, M. Matveev, D. Podgainy, T. Sapozhnikova, O. Streltsova, Sh. Torosyan, M. Vala, L. Valova, A. Vorontsov, T. Zaikina, E. Zemlyanaya, M. Zuev. (2018, December). IT-ecosystem of the HybriLIT heterogeneous platform for high performance computing and training of IT specialists. CEUR Workshop Proceedings. [Online]. 2267. pp. 638-644. Available: https://ceur-ws.org/Vol-2267/638-644-paper-122.pdf

[8] V. Korenkov, I. Pelevanyuk, A. Tsaregorodtsev. (2023). DIRAC at JINR as a general purpose system for massive computations. J. Phys.: Conf. Ser. [Online]. 2438. p. 012029. Available: https://iopscience.iop.org/article/10.1088/1742-6596/2438/1/012029

[9] I. Pelevanyuk. (2021, September). Performance evaluation of computing resources with DIRAC interware. AIP Conference Proceedings. [Online]. 2377. pp. 4-6. Available: https://pubs.aip.org/aip/acp/article/2377/1/040006/658233/Performance -evaluation-of-computing-resources-with

Пряхина Дарья Игоревна, научный сотрудник, Лаборатория информационных технологий им. М.Г. Мещерякова, Объединенный институт ядерных исследований, ORCID: 0000-0002-7523-5459 (pryahinad@jinr.ru).

Кореньков Владимир Васильевич, доктор технических наук, профессор, научный руководитель Лаборатории информационных технологий им. М.Г. Мещерякова, Объединенный институт ядерных исследований, ORCID: 0000-0002-2342-7862 (korenkov@jinr.ru). Трофимов Владимир Валентинович, ведущий программист, Лаборатория информационных технологий им. М.Г. Мещерякова, Объединенный институт ядерных исследований (tvv@jinr.ru). Герценбергер Константин Викторович, кандидат технических наук, начальник группы математического и программного обеспечения, Лаборатория физики высоких энергий им. В.И. Векслера и А.М. Балдина, Объединенный институт ядерных исследований, ORCID: 0000-0002-5753-1852 (e-mail: gertsen@jinr.ru).

Verification of the simulation program for creating digital twins of distributed data acquisition, storage and processing centers

Daria I. Priakhina, Vladimir V. Korenkov, Vladimir V. Trofimov, Konstantin V. Gertsenberger

Abstract—The simulation program is a key element of the software complex for creating digital twins of distributed data storage and processing centers. It was verified using the example of the computing infrastructure of the BM@N experiment of the NICA accelerator complex during the first physical session of 2023. Such processes as the acquisition of experimental data, its subsequent transfer to storage nodes, as well as the multi-stage processing of particle collision events to reconstructed data, were modeled. The simulation results were compared with statistics collected by computing infrastructure monitoring tools according to such indicators as storage capacity, computing resource load, data transfer rate, astronomical processing time of the job flow. Based on the comparison, a conclusion about the reliability and satisfactory accuracy of the modeling, which ensures the correct planning of data acquisition and processing, was made. The program can be used as part of a complex to create digital twins of distributed data storage and processing centers for the design, development and operational management of such systems.

Keywords—simulation, computing infrastructure, distributed data storage and processing center, verification, digital twin, BM@N experiment.

References

[1] D. Priakhina, V. Korenkov, "Relevance of creating a digital twin for managing distributed data acquisition, storage and processing centers,"

Modern Information Technologies and IT-Education, vol. 19, no. 3, 2023, in press (in Russ.).

[2] D. Priakhina, V. Korenkov, V. Trofimov, "Method of constructing digital twins for solving the tasks of effective management and development of distributed data acquisition, storage and processing centers," Modern Information Technologies and IT-Education, vol. 19, no.3, 2023, in press (in Russ.).

[3] M. Kapishin, "Studies of baryonic matter at the BM@N experiment (JINR)," Nuclear Physics A., vol. 982, pp. 967, 2019.

[4] V. Kekelidze, A. Kovalenko, R. Lednicky, V. Matveev, I. Meshkov, A. Sorin, G. Trubnikov, "Status of the NICA project at JINR," EPJ Web Conf., vol. 138. p. 01027, 2017.

[5] NICA Bulletin. (2023, March). [Online]. Available: http://www.jinr.ru/wp-content/uploads/2023/03/nica_vypusk9.pdf

[6] MICC - INFRASTRUCTURE. 2023. (2023). [Online]. Available: https://micc.jinr.ru/

[7] Gh. Adam, M. Bashashin, D. Belyakov, M. Kirakosyan, M. Matveev, D. Podgainy, T. Sapozhnikova, O. Streltsova, Sh. Torosyan, M. Vala, L. Valova, A. Vorontsov, T. Zaikina, E. Zemlyanaya, M. Zuev. (2018, December). IT-ecosystem of the HybriLIT heterogeneous platform for high performance computing and training of IT specialists. CEUR Workshop Proceedings. [Online]. 2267. pp. 638-644. Available: https://ceur-ws.org/Vol-2267/638-644-paper-122.pdf

[8] V. Korenkov, I. Pelevanyuk, A. Tsaregorodtsev. (2023). DIRAC at JINR as a general purpose system for massive computations. J. Phys.: Conf. Ser. [Online]. 2438. p. 012029. Available: https://iopscience.iop.org/article/10.1088/1742-6596/2438/1/012029

[9] I. Pelevanyuk. (2021, September). Performance evaluation of computing resources with DIRAC interware. AIP Conference Proceedings. [Online]. 2377. pp. 4-6. Available: https://pubs.aip.org/aip/acp/article/2377/1/040006/658233/Performance -evaluation-of-computing-resources-with

i Надоели баннеры? Вы всегда можете отключить рекламу.