АРХИТЕКТУРА СЕТЕВОГО СЕГМЕНТА ЦОД УРОВНЯ TIER 1 ЭКСПЕРИМЕНТА CMS В ОБЪЕДИНЕННОМ ИНСТИТУТЕ ЯДЕРНЫХ ИССЛЕДОВАНИЙ
Багинян Андрей Сергеевич,
аспирант Учебно-научного центра Лаборатории Информационных Технологий, Объединенный институт ядерных исследований,
г. Дубна, Московская область Россия, [email protected]
Долбилов Андрей Геннадьевич,
инженер Лаборатории Информационных Технологий, Объединенный институт ядерных исследований, г. Дубна, Московская область Россия, [email protected]
Кореньков Владимир Васильевич,
директор Лаборатории информационных технологий,
Объединенный институт ядерных исследований, Ключевые слова: ЦОД, Дата-центр,
г. Дубна, Московская область Россия, [email protected] ОИЯИ, грид, ЦЕРН, БАК.
Работа посвящена итогу создания первого модуля 1-й очереди центра обработки данных в Объединенном институте ядерных исследований для моделирования и обработки экспериментов, проводимых на стендовых установках Большого адронного коллайдера. Рассматриваются проблемы, связанные с обработкой большого потока данных с экспериментальных установок БАК. Представлена иерархическая модель проекта WLCG, описаны уровни его работы. Отдельные разделы посвящены рабочему проекту сетевого сегмента, выбору протоколов передачи данных, каналообразующего оборудования и обеспечению надежности работы дата-центров.
До недавнего времени для обеспечения работы сетевого сегмента в избыточных топологиях сетевые инженеры использовали Spanning Tree Protocol (STP). В нашем проекте применен совершенно новый протокол, выполняющий те же задачи, что и STP на втором уровне модели OSI. В основе протокола лежит алгоритм Дейкстры, который рассчитывает наикратчайший путь от каждой точки графа для достижения определенного сетевого сегмента в виде дерева сети. Полное название протокола Transparent Interconnection of Lots of Links (TRILL). Ко второму запуску БАК, который начался в 2015 г., один из центров обработки данных заработал в Объединенном институте ядерных исследований. Приведены первые экспериментальные данные по загрузке каналов сетевой фермы и проведен прогноз по быстродействию распределенной сетевой архитектуры. Доказано, что в результате такой архитектуры выход из строя одного коммутатора приводит к снижению общей пропускной способности сетевого сегмента всего лишь на 25%. При этом все сервера продолжают иметь доступ к внешней сети. Такая архитектура позволит в дальнейшем без ущерба для непрерывной работы ЦОД проводить расширение и увеличение его мощности.
В заключении отмечается, что сетевой сегмент ЦОД и другие крупные сетевые проекты в ОИЯИ, такие как "ЦОД для мегапроекта НИКА" будут строиться на основе протокола второго уровня модели OSI Transparent Interconnection of Lots of Links с использованием коммутаторов фирмы Brocade, которые будут объединены между собой в Virtual Cluster Switching (VCS) fabric. Такая архитектура позволит строить высоконадежные, мобильные, много портовые сетевые сегменты.
Для цитирования:
Багинян А.С., Долбилов А.Г., Кореньков В.В. Архитектура сетевого сегмента ЦОД уровня Tier 1 эксперимента CMS в Объединенном
институте ядерных исследований // T-Comm: Телекоммуникации и транспорт. - 2016. - Том 10. - №1. - С. 25-29.
For citation:
Baginyan A.S., Dolbilov A.G., Korenkov V.V. Network for data-center Tier 1 at JINR for experiment CMS (LHC). T-Comm. 2016. Vol. 10.
No.1, рр. 25-29. (in Russian).
r i >
СИСТЕМА ХРАНЕНИЯ И ОБРАБОТКИ ИНФОРМАЦИИ ЭКСПЕРИМЕНТОВ БАК
Объединенный институт ядерных исследований (ОИЯИ) участвует в многоцелевом эксперименте «Компактный мюонный соленоид» {Compact Muon Solenoid, CMS) [I], проводимом на пучках ускорительного комплекса Большого адронного коллайдера (БАК) в Европейской организации по ядерным исследованиям (ЦЕРН). На установке эксперимента CMS имеется возможность проводить эксперименты различной направленности, при этом получая огромный поток данных. В программе исследований предусмотрены исследования, направленные на решение задач физики по проверке стандартной модели на новом масштабе энергий: бозон Хигса, суперсимметрия, а также проведение исследований в области физики тяжелых ионов [I].
Большой адронный коллайдер обеспечивает столкновения пучков протонов, обеспечивающие генерацию потока данных из точки взаимодействия объемом интенсивностью 300 Гбайт/с. Система последовательного отбора событий в режиме реального времени, снижает этот поток до 300 Мбайт/с и записывает его. Большее количество данных на сегодняшний день записывать не представляется возможным. Общий объем сырых экспериментальных данных, подлежащих хранению и последующей детальной обработке, и анализу, достигает около 30 Пбайт в год.
Проект эксперимента CMS сложен не только с точки зрения физики, но и с точки зрения хранения, передачи и обработки колоссальных объемов данных. Моделирование проекта показало, что такой объем данных невозможно хранить в одном месте, как по техническим, так и по финансовым причинам - требуется распределенная система хранения и обработки на базе всемирной вычислительной грид-среды для БАК - WLCG (Worldwide LHC Computing Grid). Для работы с WLCG предложена Автоматизированная система обработки и хранения данных (АСОД) эксперимента «Компактный мюонный соленоид», которая выполняет полный цикл обработки физической информации, получаемой в ходе проведения эксперимента, поддерживает работы по моделированию физических процессов, защищенному хранению и приему/передаче данных в другие центры проекта.
Участники эксперимента CMS рассредоточены по всему миру, а его вычислительная инфраструктура включает 2 центра уровня TIER 0 в непосредственной близости от БАК, семь центров TIER I, расположенных в крупнейших мировых компьютерных центрах и связанных высокоскоростной сетью, и множеством центров уровня TIER 2, созданных в различных научных организациях. Такая архитектура позволяет взаимодействовать участникам из разных стран, проводя совместные вычисления, обработку, архивирование, генерацию событий методом Монте-Карло и др.
Каждый из центров различных уровней предоставляет специфический набор услуг для обработки экспериментальных данных. На уровне TIER 0 выполняется прием необработанных данных; архивация необработанных дан-
ных; распределение необработанных данных по центрам TIER f; сохранение калибровочных данных, для дальнейшей реконструкции событий и выполнение анализа объектных данных [I]. Обработки данных в центре TIER 0 не предполагается. Центры уровня TIER 1получают данные из TIER 0 и выполняют архивацию на ленты, для дальнейшего обеспечения реконструкции событий, скимминга, калибровки и анализа объектных данных. Кроме этого производится распределение установочных записей по остальным центрам TIER I и обеспечивается хранение обработанных данных, полученных из центров TIER 2 [2].
Многочисленное количество центров обработки данных уровня TIER 2, называемые так же «маленькие центры при университетах» [2], обладают большими ресурсными мощностями для обработки, исследований и генерации событий методом Монте-Карло, Центры TIER 2 получают доступ к данным в центрах TIER I, обрабатывают их, затем возвращают для дальнейшего хранения [2].
Руководство коллаборации CMS постоянно выражало пожелание по скорейшему запуску дополнительных ресурсов проекта WLCG, и в связи с этим, ко второму запуску БАК, который начался в 2015 г„ один из центров TIER I заработал в Объединенном институте ядерных исследований (ОИЯИ), в подмосковной Дубне.
В ОИЯИ на базе Лаборатории информационных технологий уже реализован прототип проекта вычислительного грид-центра TIER I. Дальнейшая работа предусматривает строительство двух равнозначных и, примерно, равно мощностных модулей ЦОД TIER I. Запуск первого модуля ЦОД осуществлен в конце 2015 г. Запуск второго модуля планируется в конце 2016 г.
ЦОД TIER I
Одним из важнейших ключей в работе любого дата-центра является бесперебойная работа его сетевого сегмента. На рисунке I представлена проектная документация сетевой архитектуры первого модуля центра TIER I в ОИЯИ. По техническому заданию коллаборации CMS сетевой сегмент должен обеспечить между собой бесперебойное взаимодействие 160 дисковых серверов, 25 блейд-сервероа, 100 серверов инфраструктуры и ленточного робота. Для первого модуля, соответственно, потребуется 80 дисковых серверов (160 портов I0G в режиме bonding), 15 блейд-серверов (30 портов I0G в режиме bonding), 60 серверов инфраструктуры (40 портов I0G и 40 портов IG в режиме bonding). Итого необходимо снабдить сетевой сегмент 230 портами I0G и 40 портами IG. Аналогичная ситуация будет наблюдаться и во втором модуле.
На рисунке I представлены 24 стойки, [6 из которых заполнены серверным оборудованием, а 8 выделены для обеспечения климатических условий. Дисковыми серверами заполнены 10 стоек, 3 стойки выделены под блейд-сервера, на которых выполняются функции счета. Сервера инфраструктуры так же занимают 3 стойки, на них возложена работа по обеспечению взаимодействия всего ЦОД TIER I ОИЯИ.
7T\
У
Т-Сотт Том 10. #1-2016
COMMUNICATIONS
NETWORK FOR DATA-CENTER TIER 1 AT JINR FOR EXPERIMENT CMS (LHC)
Baginyan Andrey, student University Center Laboratory of Information Technologies, Joint Institute for Nuclear Research,
Dubna, Moscow region, Russia, [email protected]
Dolbilov Andrey, engineer Laboratory of Information Technologies, Joint Institute for Nuclear Research,
Dubna, Moscow region, Russia, [email protected]
Korenkov Vladimir, Director of Laboratory of Information Technologies, Joint Institute for Nuclear Research,
Dubna, Moscow region, Russia, [email protected]
Abstract
The work is dedicated to the results of work on creating a first module of the 1-st stage of the data processing center at the Joint Institute for Nuclear Research for modeling and processing experiments conducted on the LHC stand installations. The article discusses the problems related to processing an enormous data stream coming from the LHC experimental installations. A hierarchical model of the WLCG project is presented; levels of its operation are described. Some sections are devoted to a working project of the network segment and the selection of data transfer protocols, channelgenerating equipment as well as to the provision of reliability of the data centers operation. Until recently, the network engineers have used Spanning Tree Protocol (STP) to provide work of the network segment in redundant topologies. Our project proposes an all-new protocol performing the same tasks the STP does at a second level of the of OSI model. It is based on Dijkstra algorithm which calculates the shortest way from each point of the graph to reach a definite network segment in the form of the network tree. The protocol is called Transparent Interconnection of Lots of Links (TRILL). One of the data processing centers began its operation at JINR by the second LHC start-up in 2015. The article gives first experimental data on loading the network farm channels and provides a forecast on high-performance of the distributed network architecture. It is proven that as a result of such architecture the failure of a switch leads to only a 25% decreasing of the total throughput of the network segment, all servers having access to an external data link. Such architecture will allow one in the future to provide extension and increase of its capacity without detriment to the operation of the Data Processing Centre. In conclusion it is noted that the network segment of the data processing center and other large network projects at JINR like "Data processing center for NICA" will be built on the basis of the second-level protocol of the model OSI Transparent Interconnection of Lots of Links using Brocade switches which are interconnected in Virtual Cluster Switching (VCS) fabric. Such architecture will allow one to design highly reliable, mobile, multi-port network segments.
Keyworlds: Big data, LHC, JINR, grid, CERN, Data-center.
References
1. "Russian segment of global infrastructure LCG", Vyacheslav Ilin, Vladimir Korenkov, Aleksey Soldatov, "Open system", No. 01, 2003, viewed 03 November 2015 http://www.osp.ru/os/2003/0l/l824l4. (In Russian)
2. The architecture of the service data in GRID, "Open system", № 02, 2008, Vladimir Korenkov, Aleksandr Uginskii, viewed 11 October 2015 http://www.osp.ru/os/2008/02/4926522. (In Russian)
3. How Star, Bus, Ring & Mesh Topology Connect Computer Networks in Organizations, Chapter 5/Lesson 10, Paul Zandbergen, http://education-portal.com/academy/lesson/how-star-topology-connects-computer-networks-in-organizations.html#lesson. Viewed 20 October 2015.
4. Oversubscription and Density Best Practices, http://www.cisco.com/c/en/us/solutions/collateral/data-center-virtualization/storage-networking-solution/net_implementation_white_paper0900aecd800f592f.html. Viewed 20 October 2015.
5. A high performance, low-latency switch for data center Ethernet connectivity http://www.brocade.com/en/products-services/switch-es/data-center-switches/vdx-6740-switches.html. Viewed 20 October 2015.
r I A