УДК 004.415.538
DOI 10.25559/SITITO.2017.4.633
Кореньков В.В.1- 2 3, Подгайный Д.В.1, Стрельцова О.ИЛ 2 3
1 Объединенный институт ядерных исследований, Лаборатория информационных технологий, г. Дубна,
Россия
2 Государственный университет «Дубна», г. Дубна, Россия 3 Российский университет дружбы народов, г. Москва, Россия
ОБРАЗОВАТЕЛЬНАЯ ПРОГРАММА ПО ТЕХНОЛОГИЯМ HPC НА БАЗЕ ГЕТЕРОГЕННОГО КЛАСТЕРА HYBRILIT (ЛИТ ОИЯИ)
Аннотация
В статье освещен вопрос подготовки кадров для работы на высокопроизводительных вычислительных системах (HPC), а также для поддержки программно-информационной среды, необходимой для эффективного использования гетерогенных вычислительных ресурсов и разработки параллельных, в том числе, гибридных приложений. В качестве основной платформы для подготовки и переподготовки специалистов, а также обучения студентов, аспирантов и молодых ученых используется гетерогенный вычислительный кластер HybriLIT, являющегося одной из компонент Многофункционального информационно-вычислительного комплекса ОИЯИ. Кластер HybriLIT является динамической, активно развиваемой структурой, включает в себя самые современные вычислительные HPC-архитектуры (графические ускорители вычислений, сопроцессоры Intel Xeon Phi), а также обладает развитой программно-информационной средой, что, в свою очередь, позволяет построить учебные программы на самом современном уровне, и дать обучающим возможность научится работать, как на современных вычислительных платформах, так и овладеть современными IT-технологиями.
Ключевые слова
Высокопроизводительные вычисления; гетерогенный кластер; технологии параллельного программирования; вычислительная наука.
Korenkov V.V.1- 2 3, Podgainy D.V.1, Streltsova O.I.1' 2 3
1 Joint Institute for Nuclear Research, Laboratory of Information Technologies, Dubna, Russia
2 Dubna State University, Dubna, Russia 3 Peoples' Friendship University of Russia, Moscow, Russia
EDUCATIONAL PROGRAM ON HPC TECHNOLOGIES BASED ON THE HETEROGENEOUS
CLUSTER HYBRILIT (LIT JINR)
Abstract
The article highlights the issues of training personnel for work with high-performance computing systems (HPC), as well as of support of the software and information environment which is necessary for the efficient use of heterogeneous computing resources and the development of parallel and hybrid applications. The heterogeneous computing cluster HybriLIT, which is one of the components of the Multifunctional Information and Computing Complex of JINR, is used as the main platform for training and re-training specialists, as well as for training students, graduate students and young scientists. The HybriLIT cluster is a dynamic, actively developing structure, incorporating the most advanced HPC computing architectures (graphics accelerators, Intel Xeon Phi coprocessors), and also it has a developed software and information environment, which in turn, makes it possible to build educational programs on the up-to-date level, and enables the learners to master both modern computing platforms and modern IT technologies.
Keywords
High-performance computing; heterogeneous cluster; Parallel programming technologies; mmputational science.
Введение
В последние годы наблюдается бурное развитие вычислительных архитектур для HPC (High Performance Computing) платформ. В частности, ведущие производители Intel [1] и NVIDIA [2] регулярно предлагают как новые решения в области высокопроизводительных вычислений, так и программное обеспечение для проведения ресурсоёмких массивно-параллельных вычислений. Такое интенсивное развитие вычислительных архитектур и IT-Технологий, позволяющих эффективно использовать все возможности новых архитектур, требуют постоянного обновления как учебных программ, так и переподготовки IT-специалистов. В этой связи представляется особо актуальным проведение обучения студентов, аспирантов и молодых специалистов на динамически развиваемом гетерогенном кластере, содержащим новейшие
вычислительные компоненты от ведущих производителей. Таким активно
развивающимся кластером является гетерогенный вычислительный кластер HybriLIT [3], являющегося одной из компонент Многофункционального информационно-
вычислительного комплекса ОИЯИ [4]. На настоящий момент кластер содержит 10
вычислительных узлов, содержащих как графические ускорители от NVIDIA (Tesla K20, K40, K80), так и сопроцессоры Intel Xeon Phi (5110P, 7120P), полная производительность кластера составляет 142 Tflops. Для наиболее эффективного использования ресурсов кластера, разработки параллельных приложений группами пользователей и организации учебных курсов создана и активно развивается программно-информационная среда,
включающая вебсайт, сервис Indico, сервис GitLab и др. (См. Рис.1.) Для освоения работы с этими сервисами проводятся
специализированные курсы, которые позволяют пользователям освоить современные IT-технологии в области управления проектами. Не менее важными являются специализированные курсы для системных администраторов, что связано с нехваткой специалистов, способных инсталлировать и поддерживать работу современных HPC платформ. Также на кластере проводятся специальные учебные курсы, на которые в качестве лекторов приглашаются ведущие специалисты в области технологий параллельного программирования и разработчиков современных вычислительных архитектур.
SLURM
(workload manager)
OS: Scientific
Linux 6.8 Nano RAMFS
Ibootloader Linux)
Software an Information Environment
CernVM-FS
(Virtual Software Appliance)
MODULES
System Level
Software for pnlel computing:
OpenMPI 1.10.4.2.0.1: CUDA Û.0.6.6. 7.0. 7.5. SjO:
GNU . 4.3.4.4.9.3.6.2.0 Intel Parallel Studio XC 2016; PGIISJ
FreelPA
(identity manager solution)
HybriLIT web-site
User level
http://hybrilit.jinr.nj/
Indico:
http://irvdkohybrilrt.jinr. ru
HybriLIT user support:
GitLab:
h ttpi J/git lab ■ h ybrilrt.jin r. ru
http»y/pm.jinrju/projectj/hybrilKuierjupport
Monitoring:
http»y/itathlit.jinrju/
Monitoring (МоЫГГ):
httpy/hvbrlllt.|lnr.ru/mobllR/
Рис.1. Программно-аппаратная среда кластера HybriLIT
Структура кластера, программно-
информационная среда HYBRILIT
В настоящий момент вычислительная компонента кластера содержит четыре узла с графическими процессорами NVIDIA Tesla K80 и четыре узла с ускорителями NVIDIA Tesla K40, один узел с сопроцессорами Intel Xeon Phi 7120P, а также узел с двумя типами ускорителей вычислений NVIDIA Tesla K20x и Intel Xeon Phi 5110P. Все узлы имеют по два многоядерных процессора Intel Xeon. В целом, кластер содержит 252 CPU-ядер, 77184 GPU-ядер, 182 PHI-ядер, имеет 2,4 TБ RAM и 57,6 TБ HDD, а общая производительность составляет 142 Tflops для операций с одинарной точностью и 50 TFlops для двойной точности.
На кластере также развивается специализированная компонента - система виртуальных рабочих столов для поддержки работы пользователей с пакетами прикладных программ. Облачная компонента кластера позволяет пользователям эффективно использовать ресурсы кластера, проводя ресурсоёмкие расчеты из пакетов прикладных программ на вычислительных узлах кластера.
Для повышения эффективности разработки приложений и проведения расчетов с использованием ресурсов кластера HybriLIT, группой по гетерогенным вычислениям разрабатывается и поддерживается
программно-информационная среда (См. Рис.1), которую можно разделить на два уровня.
Первый уровень является системным и включает в себя базовое ПО:
• Операционная система Scientific Linux 6.8 (выбор системы обусловлен совместимость с ОС всех компонент МИВК) и bootloader Linux Nano RAMFS
• Файловые системы NFS4 и EOS;
• Пакет-планировщик SLURM 14.11.6, отвечающий за распределение потока задач между узлами гетерогенного кластера, в зависимости от степени нагрузки. Его широкое применение в различных системах из списка TOP 500 (примерно половина суперкомпьютеров из списка TOP 500 используют SLURM) стало весомым аргументом для ее использования. Для эффективного использования различных типов ускорителей в SLURM организовано распределением задач по пяти основным очередям: интерактивная (для отладки приложений), cpu, gpu, gpuK80, phi;
• Пакет Modules 3.2.10 для динамической настройки переменных окружения
среды пользователя - подгружает пути к заголовочным, библиотечным файлам, файлам документации, добавляет пути к каталогам с исполняемыми файлами;
• ОС CVMFS (CERN Virtual Machine File System).
Такая методология построения кластера обеспечило эффективное системное
администрирование, а именно, реализовать динамическое расширение кластера в будущем посредствам добавления новых
вычислительных узлов; предоставить возможность по синхронному обновлению или изменению ПО на всех текущих и будущих вычислительных узлах; обеспечить быструю установку узлов, включая ошибки и перезагрузки.
Второй уровень содержит компиляторы, инструменты для отладки, профилирования параллельных приложений и проведения ресурсоемких расчетов. Одной из основных составляющих второго уровня программно-информационной среды кластера HybriLIT является информационная поддержка пользователей. Эта поддержка необходима для эффективной организации работы
пользователей, а также для обеспечения доступа пользователей к необходимой и полезной информации. Информационная поддержка состоит из следующих основных сервисов:
• веб-сайт HybriLIT (http://hybrilit.jinr.ru): содержит подробную информацию о ресурсах, предоставляемых пользователям кластера. Уделено особое внимание аппаратному обеспечению, включающему подробные характеристики кластера HybriLIT, а также программному обеспечению, которое установлено на кластере. Очень важным аспектом является процедура регистрации на гетерогенном кластере. На сайте предоставлена подробная информация по данной процедуре. Помимо этого, пользователи могут ознакомиться с руководством запуска задач на кластере. Данное руководство предоставляет базовые сведения о кластере, методах и средствах работы с ним.
• система Indico (http://indico-hybrilit.jinr.ru): используется группой HybriLIT для организации конференций, семинаров и встреч, посвященных технологиям параллельного программирования. В данной системе возможно создавать различные мероприятия, которые пройдут в рамках института. Созданное событие представляет краткую информацию о тематике мероприятия, месте и времени проведения. В системе также есть возможность загрузки материалов лекций и семинаров выступающих,
что позволяет пользователям более детально ознакомиться с ними.
Помимо сервисов, которые содержат подробную информацию о самом кластере и о возможностях, предоставляемых
пользователям, необходимы также сервисы, которые способствовали бы активному и тесному взаимодействию пользователей с группой HybriLIT. В качестве таких сервисов используются следующим системы:
• HybriLIT User Support - проект, реализованный в системе Project Management Service (http://pm.jinr.ru), позволяющей оперативно отвечать на вопросы пользователей кластера, размещать полезные материалы, новости и др. Данный проект разработан для более эффективного взаимодействия пользователей, как между собой, так и с группой HybriLIT. Данная система предоставляет возможности по быстрому информированию пользователей о предстоящих мероприятиях и состоянии кластера. Пользователи также могут создавать задачи по улучшению или исправлению возникающих ошибок в системе. Таким образом, взаимодействие между пользователями кластера и разработчиками осуществляется быстро и эффективно.
• GitLab (http://gitlab-hybrilit.jinr.ru) - сервис, который предназначен для совместной параллельной разработки приложений. Данный сервис представляет собой систему контроля версий, что позволяет следить за изменениями в коде проектов. Функционал системы достаточно широк и включает в себя такие возможности как разделение полномочий между пользователями, систему управления задачами, вики, инспекция кода и др. На сегодняшний день группой HybriLIT создано несколько проектов, основными из которых являются проект по написанию документации по работе на кластере, а также проект по разработке системы мониторинга.
Учитывая тот факт, что пользователями кластера являются и становятся ученые и исследователи из различных стран, важным аспектом является поддержка всех ресурсов на двух языках: русском и английском.
Программно-информационная среда
кластера позволяет пользователям
разрабатывать программные приложения, проводить расчеты с использованием новейших вычислительных архитектур. Общее количество пользователей составляет 450 человек из лабораторий ОИЯИ и стран-участниц. В частности, ресурсы кластера используются для проведения расчетов в области квантовой хромодинамики, квантовой механики и
молекулярной динамики, также на кластере установлено программное обеспечение PandaRoot, MpdRoot для проведения расчетов в области физики высоких энергий.
Образовательная программа на HYBRILIT
Как уже упоминалось выше, кластер HybriLIT используется не только для проведения массивно-параллельных расчетов, но и как базовая платформа для обучения IT-специалистов. Образовательная программа может быть разделена на два направления.
Целью первого направления является ознакомление слушателей с основами технологий параллельного программирования, а также c IT-технологиями, необходимыми для эффективного использования HPC-платформ. В рамках этого направления группой HybriLIT проводятся обзорные лекции и мастер-классы в рамках конференций и школ, проводимых ЛИТ ОИЯИ (MMCP'2015, NEC'2015, AIS GRID'2015,2016 и др.), в рамках программ по международному сотрудничеству в Софийском университете Болгарии, Монгольском государственном университете и др., а также программ Учебного научного цента ОИЯИ [5].
Второе направление связано с глубоким обучением технологиям параллельного программирования в рамках регулярно проводимых группой HybriLIT учебных курсов для сотрудников ОИЯИ, студентов и аспирантов Университета «Дубна». Проводятся учебные курсы по C/C++, MPI, OpenMP, CUDA, OpenC, а также гибридным технологиям: MPI+OpenMP, MPI+CUDA и др, а также специализированному программному обеспечению, такому как ROOT, PROOF и др., применяемому для решения задач в области физики высоких энергий. Данные курсы направлены на повышение квалификации и переподготовки специалистов.
В рамках подготовки IT-специалистов в Университете «Дубна» института Системного анализа и управления [6] читаются семестровые курсы «Архитектуры вычислительных систем», «Архитектуры и технологии вычислительных систем», «Математические модели в физике» для студентов вторых курсов (бакалавриат) и пятых курсов (магистратура), практические занятия проводятся на кластере HybriLIT. На семинарских занятиях студенты также осваивают инструменты для работы на HPC-платформах и соответствующими IT-сервисами.
Наряду с регулярно проводимыми занятиями студенты университета «Дубна» проходят учебно-производственные практики в ЛИТ ОИЯИ, решая конкретные научно-исследовательские задачи на базе кластера
HybriLIT. Студентам также предлагаются темы для бакалаврских и магистерских диссертаций по решению задач, связанных с научной тематикой ОИЯИ с использованием HPC-технологий.
Такая адаптивная образовательная программа, базирующаяся на кластере HybriLIT, позволяет обучать студентов и готовить специалистов с учетом быстро развивающемся HPC-сектором в области научного компьютинга для ОИЯИ и других организаций и IT-компаний, деятельность которых связана с использованием HPC-платформ.
Заключение
Одним из основных научных проектов ОИЯИ является создание нового ускорительного комплекса NICA (Nuclotron based Ion Collider fAcility) [7] для изучения свойств плотной барионной материи. Неотъемлемой частью этого проекта является создание компьютинга, обеспечивающего проведение прикладных расчетов (прочные расчеты, расчеты магнитных полей, магнитов и т.д.), выполняемых на этапе проектирования экспериментальных установок, работ по построению моделей компьютинга для экспериментов, решения задач, связанных с обработкой и анализом данных, а также
создание информационной среды по управлению всеми компонентами NICA. Комплексный подход к решению задач, связанных с созданием компьютинга для NICA, приводит к разработке IT-экосистемы, которая может быть адаптирована к другим мега-проектам в физике высоких энергий.
Для подготовки кадров, обеспечивающих решение поставленных долгосрочных задач на всех этапах функционирования мега-проектов: от прототипирования и моделирования до обеспечения экспериментов и дальнейшего анализа данных, необходимо расширить образовательную программу, разработанную и развиваемую на базе кластера HybriLIT, путем включения в нее специализированных курсов от ведущих компаний в области
высокопроизводительных вычислений,
разработчиков прикладного программного обеспечения и специалистов по математическому моделированию в области физики высоких энергий.
Благодарности
Публикация подготовлена при финансовой поддержке Минобрнауки России (соглашение № 02.a03.21.0008).
Литература
1. «Intel» - официальный сайт корпорации - [электронный ресурс] // URL: http://www.intel.ru/ (дата обращения 15.10.2017)
2. NVIDIA Corporation - официальный сайт корпорации - [электронный ресурс] // URL: http://www.nvidia.ru / (дата обращения 15.10.2017)
3. Гетерогенный кластер «HybriLIT» - [электронный ресурс] // URL: http://hybrilit.jinr.ru/ (дата обращения 15.10.2017)
4. Korenkov V., Strizh T., Adam Gh., Podgainy D. The development of distributed computing technologies and BigData in LIT-JINR Proc. of the 8-th ROLCG 2015 Conference («Grid, Cloud and High Performance Computing in Science», 28th - 30th October, Cluj-Napoca, Romania, ISBN: 978-606-737-039-3
5. Официальный сайт Учебно-научного центра Объединенного института ядерных исследований - [электронный ресурс] // URL: http://ucnew.jinr.ru/ (дата обращения 15.10.2017)
6. Официальный Сайт Института системного анализа и управления Университета «Дубна» - [электронный ресурс] // URL: http://saudubna.ru/ (дата обращения 15.10.2017)
7. Официальный Сайт нового ускорительного комплекса NICA (Nuclotron-based Ion Collider fArility) - [электронный ресурс] // URL: http://nica.jinr.ru/ (дата обращения 15.10.2017)
References
1. «Intel» - oficial'nyj sajt korporacii - [jelektronnyj resurs] // URL: http://www.intel.ru/ (data obrashhenija 15.10.2017)
2. NVIDIA Corporation - oficial'nyj sajt korporacii - [jelektronnyj resurs] // URL: http://www.nvidia.ru / (data obrashhenija 15.10.2017)
3. Geterogennyj klaster «HybriLIT» - [jelektronnyj resurs] // URL: http://hybrilit.jinr.ru/ (data obrashhenija 15.10.2017)
4. Korenkov V., Strizh T., Adam Gh., Podgainy D. The development of distributed computing technologies and BigData in LIT-JINR Proc. of the 8-th ROLCG 2015 Conference («Grid, Cloud and High Performance Computing in Science», 28th - 30th October, Cluj-Napoca, Romania, ISBN: 978-606-737-039-3
5. Oficial'nyj sajt Uchebno-nauchnogo centra Ob#edinennogo instituta jadernyh issledovanij - [jelektronnyj resurs] // URL: http://ucnew.jinr.ru/ (data obrashhenija 15.10.2017)
6. Oficial'nyj Sajt Instituta sistemnogo analiza i upravlenija Universiteta «Dubna» - [jelektronnyj resurs] // URL: http://saudubna.ru/ (data obrashhenija 15.10.2017)
7. Oficial'nyj Sajt novogo uskoritel'nogo kompleksa NICA (Nuclotron-based Ion Collider fAsility) - [jelektronnyj resurs] // URL: http://nica.jinr.ru/ (data obrashhenija 15.10.2017)
Поступила: 10.09.2017
Об авторах:
Кореньков Владимир Васильевич, доктор технических наук, профессор, директор Лаборатории информационных технологий, Объединенный институт ядерных исследований;
Государственный университет «Дубна»; Российский университет дружбы народов, [email protected]
Подгайный Дмитрий Владимирович, учёный секретарь Лаборатории информационных технологий,
Объединенный институт ядерных исследований, [email protected] Стрельцова Оксана Ивановна, старший научный сотрудник Лаборатории информационных технологий, Объединенный институт ядерных исследований; Государственный университет «Дубна»; Российский университет дружбы народов, [email protected]
Note on the authors:
Korenkov Vladimir V., Doctor of Technical Sciences, Professor, Director of the Laboratory of Information Technologies, Joint Institute for Nuclear Research; Dubna State University; Peoples' Friendship University of Russia, [email protected] Podgayny Dmitriy V., Scientific Secretary of the Laboratory of Information Technologies, Joint Institute for
Nuclear Research, [email protected] Streltsova Oksana I., Senior Researcher of the Laboratory of Information Technologies, Joint Institute for Nuclear Research, Dubna State University, Dubna, Peoples' Friendship University of Russia, [email protected]