Научная статья на тему 'Балансировка трафика в высоконагруженных системах с помощью протокола trill'

Балансировка трафика в высоконагруженных системах с помощью протокола trill Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
299
40
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЦОД / ДАТА-ЦЕНТР / ОИЯИ / ГРИД / ЦЕРН / БАК

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Багинян Андрей, Долбилов Андрей, Кашунин Иван, Кореньков Владимир

Работа посвящена итогу создания первого модуля первой очереди центра обработки данных в Объединенном институте ядерных исследований для моделирования и обработки экспериментов, проводимых на стендовых установках Большого адронного коллайдера. Рассматриваются проблемы, связанные с обработкой большого потока данных с экспериментальных установок БАК и невозможностью их хранения без распределенной сетевой инфраструктуры. Представлена иерархическая схема сетевой фермы. Описаны основные уровни модели сетевой архитектуры. Приведена проектная документация сети, построенная на оборудовании фирмы Brocade. Рассмотрены протоколы для обеспечения утилизации сети в полносвязанных топологиях. Представлен новейший современный протокол передачи данных Transparent Interconnection Of Lots Of Links (TRILL). Показаны его преимущества по сравнению с другими возможными вариантами реализации полносвязных топологий на примере протокола Spanning tree. Приводится эмпирический расчет подобных маршрутов передачи данных на основе алгоритма Дейкстры и патентной формулы протокола TRILL. Описаны две системы мониторинга сетевого сегмента и загрузки каналов передачи данных. В первом случае рассматривается стандартный пакетный программный продукт, во втором вновь разработанная система мониторинга с алгоритмом построения графиков загрузки каналов данных. Представлены данные, полученные экспериментальным путем с 40G интерфейсов каждой системой мониторинга, и проведен анализ их поведения. Доказана точность полученных данных разными системами. Основным результатом работы является доказательство расхождения экспериментальных данных с теоретическим прогнозом равновесовой балансировки трафика при передаче пакетной информации по равнозначным ребрам графа. Показано, что распределение трафика по подобным маршрутам носит произвольный, несогласующейся с патентной формулой, характер. В заключении рассматриваются вопросы по поведению трафика в экстремальных условиях. Представлены вопросы для дальнейшего изучения характера поведения трафика в подобных системах, а именно: каким образом происходит распределение при передаче пакетных данных по четырем равнозначным маршрутам, притом, что условия патентной формулы не соблюдаются? А также, что произойдет, когда загрузка по одному из четырех каналов связи достигнет пиковых значений? Сделано предположение о необходимости сравнения характера поведения трафика в различных дата-центрах и с помощью генераторов трафика.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по электротехнике, электронной технике, информационным технологиям , автор научной работы — Багинян Андрей, Долбилов Андрей, Кашунин Иван, Кореньков Владимир

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Балансировка трафика в высоконагруженных системах с помощью протокола trill»

БАЛАНСИРОВКА ТРАФИКА В ВЫСОКОНАГРУЖЕННЫХ СИСТЕМАХ С ПОМОЩЬЮ ПРОТОКОЛА TRILL

Багинян Андрей,

Объединенный институт ядерных исследований, г. Дубна, Московская область, Россия, bag@jinr.ru

Долбилов Андрей,

Объединенный институт ядерных исследований, г. Дубна, Московская область, Россия, dolbilov@jinr.ru

Кашунин Иван,

Объединенный институт ядерных исследований, г. Дубна, Московская область, Россия, miramir@jinr.ru

Кореньков Владимир,

Объединенный институт ядерных исследований, г. Дубна, Московская область, Россия, korenkov@jinr.ru

Ключевые слова: ЦОД, дата-центр, ОИЯИ, грид, ЦЕРН, БАК.

Работа посвящена итогу создания первого модуля первой очереди центра обработки данных в Объединенном институте ядерных исследований для моделирования и обработки экспериментов, проводимых на стендовых установках Большого адронного коллайдера. Рассматриваются проблемы, связанные с обработкой большого потока данных с экспериментальных установок БАК и невозможностью их хранения без распределенной сетевой инфраструктуры. Представлена иерархическая схема сетевой фермы. Описаны основные уровни модели сетевой архитектуры. Приведена проектная документация сети, построенная на оборудовании фирмы Brocade. Рассмотрены протоколы для обеспечения утилизации сети в полносвязанных топологиях. Представлен новейший современный протокол передачи данных Transparent Interconnection Of Lots Of Links (TRILL). Показаны его преимущества по сравнению с другими возможными вариантами реализации полносвязных топологий на примере протокола Spanning tree. Приводится эмпирический расчет подобных маршрутов передачи данных на основе алгоритма Дейкстры и патентной формулы протокола TRILL. Описаны две системы мониторинга сетевого сегмента и загрузки каналов передачи данных. В первом случае рассматривается стандартный пакетный программный продукт, во втором вновь разработанная система мониторинга с алгоритмом построения графиков загрузки каналов данных. Представлены данные, полученные экспериментальным путем с 40G интерфейсов каждой системой мониторинга, и проведен анализ их поведения. Доказана точность полученных данных разными системами. Основным результатом работы является доказательство расхождения экспериментальных данных с теоретическим прогнозом равновесовой балансировки трафика при передаче пакетной информации по равнозначным ребрам графа. Показано, что распределение трафика по подобным маршрутам носит произвольный, несогласующейся с патентной формулой, характер.

В заключении рассматриваются вопросы по поведению трафика в экстремальных условиях. Представлены вопросы для дальнейшего изучения характера поведения трафика в подобных системах, а именно: каким образом происходит распределение при передаче пакетных данных по четырем равнозначным маршрутам, притом, что условия патентной формулы не соблюдаются? А также, что произойдет, когда загрузка по одному из четырех каналов связи достигнет пиковых значений? Сделано предположение о необходимости сравнения характера поведения трафика в различных дата-центрах и с помощью генераторов трафика.

Информация об авторах:

Андрей Багинян, инженер Лаборатории ядерных реакций, Объединенный институт ядерных исследований, г. Дубна, Россия.

Андрей Долбилов, главный инженер Лаборатории информационных технологий, Объединенный институт ядерных исследований, г. Дубна, Россия.

Иван Кашунин, инженер-программист Лаборатории информационных технологий, Объединенный институт ядерных исследований,

г. Дубна, Россия.

Владимир Кореньков, директор Лаборатории информационных технологий, Объединенный институт ядерных исследований, г. Дубна, Россия.

Для цитирования:

Багинян А., Долбилов А., Кашунин И., Кореньков В. Балансировка трафика в высоконагруженных системах с помощью протокола TRILL // T-Comm: Телекоммуникации и транспорт. 2017. Том 11. №4. С. 14-19.

For citation:

Baginyan A., Dolbilov A., Korenkov V. (2017). Equal cost multi pathing in high power systems with TRILL. T-Comm, vol. 11, no.4, рр. 14-19. (in Russian)

T-Comm "Гом 1 1. #4-20 1 7

Центр обработки данных в объединенном институте ядерных исследований

Объединенный институт ядерных исследований (ОИЯИ) участвует в многоцелевом эксперименте «Компактный мю-онный соленоид» (Compact Muon Solenoid, CMS) [1], проводимом на пучках ускорительного комплекса Большого ад-роиного коллайдера (БАК) в Европейской организации по ядерным исследованиям (ЦЕРН). На установке эксперимента CMS имеется возможность проводить эксперименты различной направленности с большим потоком данных.

Ко второму запуску (RUN 2) Большого адронного коллайдера в ОИЯИ был введен в эксплуатацию один их новых центров обработки и хранения данных. По техническому заданию коллаборации CMS сетевой сегмент должен был обеспечить между собой бесперебойное взаимодействие 160 дисковых серверов, 25 блейд-серверов, 100 серверов инфраструктуры и ленточного робота. Для первого модуля требовалось 80 дисковых серверов (160 портов 10G в режиме bonding), 15 блейд-серверов (30 портов 10G в режиме bonding), 60 серверов инфраструктуры (40 портов 10G и 40 портов 1G в режиме bonding). Итого, необходимо было обеспечить сетевой сегмент ЦОДа 230 портами 10G и 40 портами 1G. Аналогичная ситуация будет наблюдаться во втором модуле, планируемом к запуску в конце 2017 г, [2]

отрицательного веса, что подходит для использования в сетях передачи данных. На основе этого алгоритма был разработан протокол Transparent Interconnection Of Lots Of Links (TRILL).

Протокол TRILL выполняет обработку маршрутов, реализованную в протоколе intermediate System to Intermediate System (iS-IS) на втором уровне модели OSI, позволяя строить решения для кампусных сетей и центров обработки данных.

В облачных сервисах и дата-центрах используется распределенная сетевая архитектура для хранилищ данных, запросов и поисковых служб. При такой архитектуре в кластере создается колоссальный горизонтальный трафик (east-west traffic). На сегодняшний день получены данные по загрузке некоторых линий связи между дисковыми и счетными серверами, доходящий до 8G. В данный момент в вычислительных кластерах все больше и шире применяются технологии виртуализации, соответственно каждый сервер начинает выполнять намного больше задач чем раньше и это, в свою очередь, приводит к значительному увеличению трафика на интерфейсах в вода-вы вода. К виртуализации для повышения надежности, снижения стоимости IT сервисов и повышения гибкости в развертывании служб предъявляются требования возможности миграции с одного физического сервера на другой.

Учитывая все вышесказанное, традиционный подход, при котором на уровне доступа работают протоколы STP (Spaning tree protocol), а на уровне агрегации/ядра работают протоколы 3 уровня [3], не может в полной мере решить задачи по передачи горизонтального трафика, так как значительная часть кабельной инфраструктуры оказывается неза-действованной.

Протокол TRILL позволяет построить неблокируемую сетевую архитектуру, которая обеспечивала бы в полной мере незаметную для пользователей полную утилизацию сети {рис. 2), также он помогает без ущерба для работающих устройств вводить в эксплуатацию новые сервера, так как все задействованные каналы данных остаются зарезервированными.

Рис. 1, Трехуровневая модель сетевого сегмента TiER ! в ОИЯИ

На рисунке 1 представлена проектная документация сетевой архитектуры первого модуля центра TIER 1 в ОИЯИ. На всех уровнях модели обеспечено полное резервирование связей. В результате такой архитектуры выход из строя одного коммутатора приведет к снижению общей пропускной способности сетевого сегмента всего лишь на 25%. При этом все сервера будут продолжать иметь доступ к внешней сети [2].

SFP протокол и TRILL

Для обеспечения передачи данных в многосвязных сетях существует несколько решений, каждое из которых обладает определенными преимуществами и недостатками. Один из наиболее известных протоколов - Shortest Path First -SPF-протокол, в основе которого лежит алгоритм Дейкстры, находит кратчайшее расстояние от одной из вершин графа до всех остальных. Работает только для графов без рёбер

Рис. 2, Неблокируемая сетевая архитектура

Сетевая архитектура ЦОД TIER 1 в ОИЯИ проектируется с двойным маршрутом между уровнем доступа и уровнем серверов на оборудовании фирмы Brocade. Каждый сервер будет иметь доступ к сетевому сегменту двумя равнозиач-

T-Comm Vol. 1 1. #4-201 7

У

На рисунке 5 представлена другая четверка линий связи. На ней мы видим аналогичный характер поведения кривых.

Соответственно, получается, что наше предположение о равнозначных весовых категориях для данного маршрута не верно. Чтобы убедиться в данном предположении и исключить сторонние программные продукты была разработана собственная система мониторинга каналов связи.

Система мониторинга LITMON

Для обеспечения стабильности функционирования вычислительных элементов Многофункционального информационно вычислительного комплекса (МИВК) |4j ОИЯИ в 2015 году была запущена в эксплуатацию система мониторинга Litmon. Этот программный комплекс включает в себя различные программные пакеты. Также в него входят дополнительные расширения и плагины для адаптации их под задачи слежения за оборудованием вычислительного комплекса. Основными из них являются:

• система мониторинга - Nagios;

• система построения графиков pnp4nag¡os;

• система визуализации - NagVís;

• система отображение графиков Nagios HightChart;

• различные плагины визуализации данных;

• различные плагины сбора данных;

• агент сбора данных с узлов - NRPE.

В задачи системы на данный момент входит организация слежения за следующими элементами МИВК:

• серверная и сетевая инфраструктура J INR Tier-2;

• серверная и сетевая инфраструктура JINR CMS Tier-1;

• серверная и сетевая инфраструктура .NNR MIC[4J.

Также, как и система Cacti, система мониторинга Litmon

обеспечивает слежение за пропускной способностью сетевой инфраструктуры. Однако, в отличие от Cacti, в Litmon применяются плагины сбора данных собственной разработки, что позволяет получать более точные данные за счёт того, что алгоритм получения их известен.

Алгоритм расчёта входящего и исходящего трафика

сетевых интерфейсов на сетевой фабрике TIER-I

Для построения алгоритма подсчёта входящего и исходящего трафика требуется ввести определения для входящего и исходящего трафика.

Входящий трафик (D) - есть отношение входящих байт (I) за единицу времени (t) (формула 1):

D = — (1)

Д/

Исходящий трафик (U) - есть отношение исходящих байт (О) за единицу времени (t) (формула 2):

U = (2)

At

Для расчёта входящего и исходящего трафика с коммутатора требуется:

1. получить входящие/исходящие октеты;

2. отследить время сбора данных;

3. подождать время At;

4. выполнить следующий замер;

5. получить величину как отношение;

6. перевести полученное отношение в мегабиты.

Входящие/исходящие октеты можно получить на основе протокола SNMP, Единица времени сбора данных At выбирается в соответствии с требуемой точностью. В Litmon она равняется 10 секундам.

В соответствии с алгоритмом можно произвести расчёт входящего и исходящего графика. На основании полученных данных существует возможность сравнить полученные результаты между различными системами мониторинга. Для этого включены параметры аналогично заданные для системы мониторинга Cacti, а именно:

• дата измерения с 4 ноября 2016 г. по 5 ноября 2016 г;

• сетевые интерфейсы TenGigabit09-012.

Следует учитывать, что система мониторинга Cacti считает данные в Мегабайтах, а система Litmon считает данные в Мегабитах. Несмотря на это, кривые не должны отличаться, так как разница между мегабайтами и мегабитами есть величина фиксированная {рис. 6).

Рис. 6, Входящий/Исходящий трафик интерфейсов TenGigabít09-0!2

Как видно из графиков кривые фактически полностью повторяют те, что отображаются в системе мониторинга Cacti. Существуют некоторые отличия, однако их можно объяснить тем, что разные системы мониторинга собирают данные через различные интервалы времени. Так как входящий/исходящий график есть величина постоянно меняющаяся, то получить идеально идентичные данные фактически невозможно. Однако основные экстремумы на различных интервалах в графиках совпадают, что может говорить о правильности полученных данных как системой мониторинга Cacti, так и Litmon,

T-Comm Vol. I I. #4-201 7

7T>

У

T

COMMUNICATIONS

EQUAL COST MULTI PATHING IN HIGH POWER SYSTEMS WITH TRILL

Andrey Baginyan, Joint Institute for Nuclear Research, Dubna, Moscow region, Russia, bag@jinr.ru Andrey Dolbilov, Joint Institute for Nuclear Research, Dubna, Moscow region, Russia, dolbilov@jinr.ru Ivan Kashunin, Joint Institute for Nuclear Research, Dubna, Moscow region, Russia, miramir@jinr.ru Vladimir Korenkov, Joint Institute for Nuclear Research, Dubna, Moscow region, Russia, korenkov@jinr.ru

Abstract

The work is devoted to the result of the creating a first module of the 1-st phase of the data processing center at the Joint Institute for nuclear research for modeling and processing experiments carried out on the test installations of the Large Hadron Collider. The issues related to handling the enormous data flow from the LHC experimental installations and troubles of distributed storages are considered. The article presents a hierarchical diagram of the network farm and a basic model of the network architecture levels. The project documentation of the network based on the Brocade equipment is considered. Protocols for disposal full mesh network topologies are considered. The newest modern data transfer protocol Transparent Interconnection of Lots of Links (TRILL) is presented. Its advantages are analyzed in comparison with the other possible protocols that may be used in the full-mesh topology, like a Spanning tree protocol. Empirical calculations of data routing based on a Dijkstra's algorithm and a patent formula of the TRILL protocol are given. Two monitoring systems of the network segment and download of the data channels are described. The former is a typical packet software; the latter is a newly designed software with an application to graph drawing. The data are presented which were obtained experimentally from 40G interfaces through by each monitoring systems, their behavior is analyzed. The data accuracy in different systems is proved. The main result is that the discrepancy of experimental data with theoretical predictions to be equal to the weight balancing of the traffic when transmitting the batch information over the equivalent edges of the graph. It is shown that the distribution of the traffic over such routes is of arbitrary and inconsistent with the patent formula character.

The conclusion analyzes the issues of the traffic behavior under extreme conditions. There are two main questions to be answered. Which way does the distribution of batch data transfer over four equivalent routes occur? What happens if overload takes place? An assumption is made of the need to compare the traffic behavior in various data centers with the help of the traffic generators.

Keywords: big data, LHC, JINR, grid, CERN, data-center.

References

1. Astakhov N.S., Baginyan A.S., Dolbilov A.G., Gromova N.I., Kashunin I.A., Korenkov V.V., Mitsyn V.V., Shmatov S.V., Strizh A., Trofimov V.V., Voitishin N.N., Zhiltsov V.E. (2015). JINR TIER-1-level computing system for the CMS experiment at LHC: status and perspectives. Computer studies and simulation, vol. 7, no 3, pp. 455-462. (in Russian)

2. Baginyan A.S., Dolbilov A.G., Korenkov V.V. (2016). Network for data-center Tier 1 at JINR for experiment CMS (LHC). T-Comm, vol. 10, no.1, pp. 25-29. (in Russian)

3. Baginyan A.S., Dolbilov A.G. (2013). TCAM - from Ipv4 to Ipv6. T-Comm, no.4, pp. 24-28. (in Russian)

4. Astakhov N.S., Baginyan A.S., Belov S.D., Dolbilov A.G., Golunov A.O., Gorbunov I.N., Gromova N.I., Kadochnikov I.S., Kashunin I.A., Korenkov V.V., Mitsyn V.V., Pelevanyuk I.S., Shmatov S.V., Strizh T.A., Tikhonenko E.A., Trofimov V.V., Voitishin N.N., Zhiltsov V.E. (2016). JINR Tier-1 center for the CMS Experiment at LHC. Particles and Nuclei, Letters, vol.13, no 5, pp. 1103-1107.

(in Russian)

5. Korenkov V.V., Nechaevskiy A.V., Ososkov G.A., Pryahina D.I., Trofomov V.V., Uzhinskiy A.V. (2016). Simulation concept of NICA-MPD-SPD Tier0-Tierl computing facilities. Particles and Nuclei, Letters, vol.13, no 5, pp.1074-1083. (in Russian)

Information about authors:

Andrey Baginyan, Engineer of Laboratory of Nuclear Reserch, Joint Institute for Nuclear Research, Dubna, Moscow region, Russia. Andrey Dolbilov, Lead engineer of Laboratory of Information Technologies, Joint Institute for Nuclear Research, Dubna, Moscow region, Russia. Ivan Kashunin, Engineer Laboratory of Information Technologies, Joint Institute for Nuclear Research, Dubna, Moscow region, Russia. Vladimir Korenkov, Director of Laboratory of Information Technologies, Joint Institute for Nuclear Research, Dubna, Moscow region, Russia.

i Надоели баннеры? Вы всегда можете отключить рекламу.