Труды ИСП РАН, том 27, вып. 6, 2015 г..
Облачный сервис ОИЯИ: статус и перспективы
1Н. А. Балашов <balashov@jinr.ru>
1А. В. Баранов <Ьaranov@jinr.ru>
12В. В. Коренъков <korenkov@jinr.ru >
1,2Н.А. Кутовский <kut@jinr.ru>
!А. В. Нечаевский <nechav@jinr.ru>
1,2Р.Н. Семенов <roman@jinr.ru>
1Объединенный Институт Ядерных Исследований, Россия, Дубна 2Российский Экономический Университет им. Г.В. Плеханова Россия Москва
Аннотация: Рассмотрены основные принципы и примеры использования облачных вычислительных сред различными научными лабораториями. Описаны работы, проводимые в Объединенном институте ядерных исследований (ОИЯИ) и направленные на развитие имеющейся облачной инфраструктуры, принятые стратегии повышения эффективности, отказоустойчивости и надежности, а также подходы к интеграции с другими ОВС.
Ключевые слова: распределенные вычисления; облачные вычисления- виртуализация-
цод.
Введение
И в науке, и в бизнесе в настоящий момент широко используются облачные вычислительные среды (ОВС). ОВС характеризуют высокая гибкость архитектуры и возможность снижения расходов на содержание вычислительной инфраструктуры организации. Широкое распространение облачных вычислений сейчас не вызывает сомнений. В значительной степени этому способствовала возросшая потребность в суперкомпьютерных ресурсах, которые были бы доступны конечным пользователям для проведения вычислений.
По всему миру на данный момент создано и успешно работают множество крупномасштабных центров обработки данных. И сейчас многие мировые научные организации разворачивают собственные частные ОВС, перенося в них свои вычисления и информационные сервисы.
Например, в Европейской организации по ядерным исследованиям - ЦЕРН (European Organization for Nuclear Research, CERN) развернута одна из крупнейших облачных инфраструктур в мире, которая включает четыре
345
Trudy ISP RAN [The Proceedings of ISP RAS], vol. 27, issue 6, 2015.
частных облака, территориально размещённых в двух ЦОДах и интегрированных в единую систему обработки данных с большого адронного коллайдера - БАК (Large Hadron Collider, LHC) [1].
Национальная ускорительная лаборатория им. Энрико Ферми (Fermi National Accelerator Laboratory, FNAL) также имеет собственное частное облако FermiCloud, используемое для обработки данных с физических экспериментов этой организации и поддержки их информационных сервисов [2].
В Объединенном институте ядерных исследований (ОИЯИ) есть своя облачная вычислительная среда, реализованная Лабораторией информационных технологий (ЛИТ) [3]. В ЛИТ ОИЯИ в настоящий момент активно ведутся работы по исследованию возможностей ОВС, разрабатываются методики применения облачных технологий для решения различного класса задач. ОВС ОИЯИ основана на модели «инфраструктура как сервис», и схема ее работы показана на рис. 1.
1. Использование облачного сервиса ОИЯИ сторонними экспериментами
ОИЯИ принимает активное участие во многих научных экспериментах, в том числе в таких как BES-III и NOvA. В рамках работы над экспериментом BES-III был развернут интерфейс доступа к облачному сервису ОИЯИ, основанный на протоколе Open Cloud Computing Interface (OCCI), что позволило
Рис. 1. Схема работы ОВС ОИЯИ.
346
Труды ИСП РАН, том 27, вып. 6, 2015 г..
использовать ОВС ОИЯИ для запуска вычислительных задач данного эксперимента [4]. Для этого используется система управления заданиями DIRAC - программный фреймворк (framework), предназначенный для организации распределенных вычислений, поддерживающий интерфейсы для запуска задач как в грид, так и в локальные кластеры и ОВС. Интерфейс OCCI позволяет осуществлять операции управления виртуальными машинами ОВС (создание, запуск, удаление и т.д.) и проводить их так называемую контекстуализацию - передачу необходимых сетевых параметров и конфигурационных скриптов внутрь ВМ, которые будут выполнены при старте виртуальной машины и таким образом подготовят ее к работе. Схема работы интеграции DIRAC и облачного сервиса ОИЯИ представлена на рис. 2.
Виртуальные машины
Рис. 2. Схема взаимодействия системы DIRAC и облачного сервиса ОИЯИ.
Эксперимент NOvA - это нейтринный ускорительный эксперимент нового поколения, который является одним из первых, построенных на базе ускорителя в FNAL. В ОВС ОИЯИ в ходе участия в этом эксперименте была развернут фреймворк (framework) Art, позволивший использовать данный сервис для проведения физического анализа, поддержки набора и контроля экспериментальных данных, моделирования нейтринных событий. Также в рамках эксперимента NOvA планируется создание выделенного виртуального Центра Обработки Данных (ЦОД), представляющего собой совокупность серверов, объединенных в кластер. Ресурсы данного ЦОД, выделенных в отдельный виртуальный кластер рамках ОВС ОИЯИ, планируется предоставлять исключительно пользователям, входящим в рабочую группу
347
Trudy ISP RAN [The Proceedings of ISP RAS], vol. 27, issue 6, 2015.
эксперимента NOvA. Данные ресурсы в ходе эксперимента планируется использовать как для решения задач локальных пользователей из ОИЯИ (членов рабочей группы), так и для поддержки обработки данных эксперимента путем интеграции с американской грид-инфраструктурой Open Science Grid (OSG) (интеграция подобного рода также реализована и в эксперименте BES-III).
ОВС ОИЯИ используется для решения различных по ресурсоемкости задач. Так в ОИЯИ ведутся работы по строительству коллайдера НИКА, для моделирования событий которого (моделирование столкновений тяжелых ядер таких элементов, как золото, медь, уран) используется ОВС, так как требуется существенное количество доступной физической памяти и высокая производительность используемых процессоров. В то же время облачный сервис используется в ОИЯИ и для решения менее ресурсоемких задач (например, таких как разработка информационных систем, тестирование обновлений ПО, обучение студентов работе с облачными и грид-технологиями [5] и т.д.).
2. Выгрузка вычислительной нагрузки в сторонние облачные среды
Частные облачные среды обычно имеют гораздо меньше вычислительных ресурсов, чем коммерческие публичные облака, а потребности в вычислительных ресурсах растут все быстрее. С ростом вычислительных потребностей велика вероятность, что в определенный момент времени внутренних ресурсов частного облачного сервиса станет недостаточно, чтобы справляться с пиковыми нагрузками. Все это обуславливает актуальность направления исследований в области разработки методов повышения эффективности использования вычислительных ресурсов, а также поиск возможностей расширения ресурсов за счет интеграции различных облачных сред менаду собой.
Один из возможных путей решения проблемы дефицита ресурсов - это передача части нагрузки в облачный сервис стороннего провайдера [6], в роли которого может выступать либо коммерческий облачный сервис (например, такой как Amazon ЕС2 или Rackspace), либо партнерская инфраструктура, которая предоставляет какой-либо API. Сервисы, имеющие возможность выгрузить часть своей нагрузки в сторонний облачный сервис, называются гибридными облачными сервисами.
В настоящий момент облачный сервис ОИЯИ перегружен и перестал справляться с быстро растущими потребностями пользователей в вычислительной мощности. Было принято решение о сотрудничестве с Институтом Физики Национальной Академии Наук Азербайджана (ИФ НАН), располагающего достаточным количеством свободных ресурсов, и в рамках данного сотрудничества попробовать интегрировать оба сервиса, используя т.н. подход «cloud bursting».
348
Труды ИСП РАН, том 27, вып. 6, 2015 г..
Платформа OpenNebula, на базе которой построены облачные сервисы ОИЯИ и ИФ НАН Азербайджана, уже имеет встроенную поддержку механизма «cloud bursting», однако поставляемый вместе этой облачной платформой набор драйверов поддерживает только несколько популярных облачных сервисов, таких как Amazon ЕС2, ЮМ SoftLayer и Microsoft Azure. Тот факт, что OpenNebula является платформой с открытым исходным кодом, позволяет разрабатывать собственные драйвера. Команда разработчиков облачного сервиса ЛИТ ОИЯИ разработала драйвер интеграции облаков, основанных на платформе OpenNebula, используя комбинацию встроенного программного интерфейса XML-RPC и стороннего OCCI. Решение об использовании двух разных интерфейсов было принято, исходя из необходимости будущей интеграции с облачным сервисом ИТФ им. Н.Н. Боголюбова, который развёрнут с использованием облачного ПО OpenStack. В данный момент работа по интеграции ведется сразу в нескольких направлениях: идёт тестирование уже выполненной интеграции с облаком Российского Экономического Университета им. Г.В. Плеханова; производится доработка драйвера для интеграции облака ОИЯИ с облаком ИТФ им. Н.Н. Боголюбова, ведутся работы по интеграции облака ОИЯИ и ИФ НАН Азербайджана.
3. Федеративное облако ЕГИ
В данный момент рассматривается возможность подключения облачного сервиса ОИЯИ в качестве провайдера ресурсов в Федеративное облако Европейской грид-инфраструктуры (EGI Federated Cloud) [7]. Федеративное Облако ЕГИ - это интеграция частных академических облаков и виртуализованных ресурсов, построенная на открытых стандартах и нацеленная на решение задач научного сообщества. Результатом этой интеграции является новый тип инфраструктуры, основанной на федеративном управлении сервисами, и предлагающей пользователям четыре модели использования инфраструктуры: хостинг сервисов (веб-серверы, базы данных и т.д.), высоконагруженные вычисления и обработка данных, репозиторий данных, одноразовые и тестовые среды.
4. Интеллектуальное планирование ресурсов
В ОИЯИ также ведутся исследования методов организации внутренней инфраструктуры ОВС для повышения скорости выделения и развертывания виртуальных ресурсов, а также повышения отказоустойчивости и надежности их работы.
4.1 Динамическое перераспределение ресурсов
В настоящий момент на базе ЛИТ ОИЯИ, кроме прочих, ведутся работы по созданию на базе платформы OpenNebula информационной системы динамического перераспределения ресурсов, которая реализует подход, основанный на методике ранжирования виртуальных машин и серверов,
349
Trudy ISP RAN [The Proceedings of ISP RAS], vol. 27, issue 6, 2015.
составляющих облачный сервис. Данная методика базируется на анализе исторической информации о фактически потребляемых физических ресурсах. Практической реализацией методики будет программное обеспечение, реализующее на основе сопоставления рангов оптимального в данный конкретный момент времени распределения виртуальных машин на физических серверах. Иллюстрация данного подхода показана на рис. 3.
Рис. 3. Схема работы системы динамического перераспределения ресурсов.
4.2 Прототип системы мониторинга
Первым шагом в реализации вышеописанного планировщика является сбор данных о фактической нагрузке виртуальных машин (и, возможно, других метрик производительности). С этой целью был разработан прототип подобной системы сбора исторических данных. Сбор информации осуществляется скриптами, написанными на языке ruby, которые получают метрики всех виртуальных машин от гипервизора каждого сервера и передают их на центральный сервер, где они записываются в единый отформатированный определенным образом текстовый файл. Данные из этого файла затем заносятся в две базы данных: MySQL и InfluxDB. Для анализа данных важна скорость обработки данных и для этой задачи больше подходит СУБД MySQL, в то время как InluxDB была специально спроектирована для 350
Труды ИСП РАН, том 27, вып. 6, 2015 г..
работы с временными рядами и метриками и больше подходит для визуализации данных. В качестве системы визуализации была использована система Grafana. Схема работы прототипа системы мониторинга показана на рис. 4.
Ruby-скрипты
Текстовый файл
И
influxDB
Моделирование и анализ
Визуализация
Grafana
Рис. 4. Схема работы прототипа системы мониторинга.
Заключение
Все вышесказанное доказывает, что применение облачных вычислительных систем сейчас - задача актуальная и значимая. Для построения облачных сред научные лаборатории во многих случаях используют свободные облачные платформы с открытым исходным кодом. Например, облачная среда ЦЕРН построена на платформе OpenStack, FermiCloud - на платформе OpenNebula, и та и другая являются свободными платформами с открытым исходным кодом. Использование открытых платформ позволяет свободно модифицировать их, проводить исследования по совершенствованию и оптимизации облачных вычислительных сред, построенных на их основе. Развитие облачных технологий привело на сегодняшний день уже к следующему этапу -интеграции облачных вычислительных сред, что накладывает дополнительные требования как на используемые платформы, так и на основные принципы и методы работы ОВС в целом, и порождает целый спектр новых задач и исследований. Проводимые работы поддержаны грантами РФФИ №15-29-07027 и №14-07-90405.
351
Trudy ISP RAN [The Proceedings of ISP RAS], vol. 27, issue 6, 2015.
Список литературы
[1] . “Virtualization, clouds and IaaS at CERN”, Helge Meinhard, VTDC '12 Proceedings of
the 6th international workshop on Virtualization Technologies in Distributed Computing, pp. 27-28, ACM New York, NY, USA ©2012
[2] . “Automatic Cloud Bursting under FermiCloud”, Proceedings of the International
Conference on Parallel and Distributed Systems (ICPADS), 2013, pp. 681 - 686.
[3] . A. V. Baranov, N. A. Balashov, N. A. Kutovskiy, R. N. Semenov, “Cloud Infrastructure
at JINR”, Computer Research and Modeling, 2015, vol. 7, no. 3, pp. 463M67.
[4] . “BES-III Distributed Computing Status”, Computer Research and Modeling, 2015, vol.
7, no. 3, pp. 469-473.
[5] . “Cloud Autonomous Grid Infrastructures for Training, Research, Development and
Testing”, Scientific Report 2012-2013,2014, LIT JINR, Dubna, pp. 33-35.
[6] . “Automatic Cloud Bursting under FermiCloud”, Proceedings of the International
Conference on Parallel and Distributed Systems (ICPADS), 2013, pp. 681 - 686.
[7] . “Federated Cloud”, https://www.egi.eu/infrastructure/cloud/, дата обращения:
11.11.2015
352
Труды ИСП РАН, том 27, вып. 6, 2015 г..
JINR Cloud Service: Status and Perspectives
!N. Balashov <balashov@jinr.ru>
1A. Baranov <b aranov@jinr.ru>
I,2V. Korenkov <korenkov@i'inr.ru>
1,2N. Kutovskiy <kut@jinr.ru>
*A. Nechaevskiy <nechav@jinr.ru> i,2R. Semenov <roman@jinr.ru>
1 Joint Institute for Nuclear Research, Russia, Dubna 2PLEKHANOV Russian University of Economics, Russia, Moscow
Abstract. The paper describes some basic topics and use cases of cloud computing environments in various scientific laboratories. It describes the Joint Institute for Nuclear Research (JINR) activities aimed at the development of the cloud infrastructure deployed in the Laboratory of Infomation Technologies in JINR, as well as applied strategies of the improvement of efficiency, fault tolerance and reliability of the JINR cloud service, and also its integration with other cloud services.
Keywords: distributed computing; cloud computing; virtualization; datacenters.
References
[1] . “Virtualization, clouds and IaaS at CERN”, Helge Meinhard, VTDC '12 Proceedings of
the 6th international workshop on Virtualization Technologies in Distributed Computing, pp. 27-28, ACM New York, NY, USA ©2012
[2] . “Automatic Cloud Bursting under FeimiCloud”, Proceedings of the International
Conference on Parallel and Distributed Systems (ICPADS), 2013, pp. 681 - 686.
[3] . A. V. Baranov, N. A. Balashov, N. A. Kutovskiy, R. N. Semenov, “Cloud Infrastructure
at JINR”, Computer Research and Modeling, 2015, vol. 7, no. 3, pp. 463^167.
[4] . “BES-III Distributed Computing Status”, Computer Research and Modeling, 2015, vol.
7, no. 3, pp. 469^173.
[5] . “Cloud Autonomous Grid Infrastructures for Training, Research, Development and
Testing”, Scientific Report 2012-2013, 2014, LIT JINR, Dubna, pp. 33-35.
[6] . “Automatic Cloud Bursting under FeimiCloud”, Proceedings of the International
Conference on Parallel and Distributed Systems (ICPADS), 2013, pp. 681 - 686.
[7] . “Federated Cloud”, https: //www.egi. eu/infrastructure/cloud/, accessed on: 11.11.2015
353