Научная статья на тему 'Система оперативного мониторинга температуры и энергопотребления суперкомпьютера «Уран»'

Система оперативного мониторинга температуры и энергопотребления суперкомпьютера «Уран» Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
214
87
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Система оперативного мониторинга температуры и энергопотребления суперкомпьютера «Уран»»

Если М=Ь, то линейка запоминается дополнительно.

Если М<Ь, то Ь+М и линейка запоминается вместо прежних [3].

На основе расчетов, полученных в соответствии с описанной выше методикой, разрабатывается таблица, в которой приводятся время начала ТП каждой производственной линейки и время его окончания.

Порядок ТП производственных линеек оборудования группы ПЭЭ

Подытоживая, отметим, что данный метод, описывающий процесс планирования ТП группы

ПЭЭ, является уникальным. Его использование дает возможность наиболее четко организовать процесс управления ТП и решить ряд сложных задач, таких как поиск последовательности и время начала ТП. В совокупности с программой расчета параметров процесса технического перевооружения группы предприятий электроэнергетики он позволяет сократить как временные затраты на расчеты, так и людские ресурсы. С помощью этого метода можно спланировать и скоординировать будущие действия и таким образом правильно рассчитать затраты и заложить их в бюджет.

Литература

1. Татт У. Теория графов. М.: Мир, 1988.

2. Программы для ЭВМ, базы данных, топологии интегральных микросхем. [электрон. бюл.] URL: http://www1.fips.ru (дата обращения: 2.07.2011).

3. Джулиан М. Бакнелл. Фундаментальные алгоритмы и структуры данных в Delphi. М.-СПб-К., 2003.

Этап Номер производственной линейки оборудования

1 2 3 n

Начало ТП t, t7 t.i ti

Окончание ТП ti+Ai t2+A2 tß+Aß ti+Ai

УДК 004.052.32'272.43

СИСТЕМА ОПЕРАТИВНОГО МОНИТОРИНГА ТЕМПЕРАТУРЫ И ЭНЕРГОПОТРЕБЛЕНИЯ СУПЕРКОМПЬЮТЕРА «УРАН»

(Работа поддержана грантом УрО РАН № РЦП-11-И-22)

А.В. Созыкин, к.т.н.; М.Л. Голъдштейн, к.т.н.; М.А. Черноскутов

(Институт математики и механики УрО РАН, г. Екатеринбург, avs@mm.uran.ru, mlg@mm.uran.ru, mach@mm.uran.ru)

Рассматривается разработанная система оперативного мониторинга температуры и энергопотребления суперкомпьютера «УРАН», ключевой особенностью которой является компактное представление данных мониторинга, позволяющее администратору быстро оценить работоспособность суперкомпьютера, просмотрев один-два экрана. Система основана на открытом ПО Zabbix.

Ключевые слова: суперкомпьютеры, вычислительные кластеры, оперативный мониторинг, !РЫ!, Zabbix.

Институт математики и механики Уральского отделения РАН (УрО РАН) (г. Екатеринбург) располагает суперкомпьютером (СК) «УРАН» [1], который является основным вычислительным ресурсом УрО РАН и одним из четырех ресурсных центров информационно -вычислительной базы Уральского федерального округа. Корректная работа этой сложной и многокомпонентной системы существенно зависит от температурного режима и тесно связана с настройками электропитания, а следовательно, и с энергопотреблением. Поэтому непрерывный мониторинг и хранение данных о температуре и энергопотреблении компонентов СК «УРАН» являются актуальными задачами. Мониторинг СК осложняется большим количеством входящих в их состав компонентов и параметров, влияющих на работоспособность.

СК «УРАН» состоит из сотен вычислительных узлов (ВУ), каждый из которых имеет девять температурных датчиков. Выполнять мониторинг ка-

ждого датчика в отдельности неэффективно. Просмотр данных только о температуре входящего воздуха на всех ВУ через стандартный интерфейс управления и мониторинга Integrated Light Out Management (iLO), предоставляемый производителем HP, занимает у администратора более 45 минут, при этом большая часть времени тратится на переключения между экранами, показывающими состояние отдельных компонентов. Для обеспечения оперативного мониторинга система должна представлять администратору данные о состоянии СК в один-два экрана. Распространенные системы мониторинга такой возможности не имеют.

Хранение данных по температуре и энергопотреблению СК позволяет осуществлять их статистическую обработку с последующим прогнозированием возможных сбоев на раннем этапе возникновения, тем самым увеличивая среднее время между отказами СК [2].

Статистический анализ данных по энергопотреблению в совокупности с данными запуска задач на СК позволяет выбирать оптимальный режим (в наличии имеются средства) управления питанием, что благоприятно сказывается на таком важном параметре, как производительность на единицу потребляемой мощности.

Целью работы является создание системы мониторинга температуры и энергопотребления СК «УРАН» для прогнозирования возможных сбоев на раннем этапе и обеспечения бесперебойного функционирования СК. Для достижения данной цели требуется решить следующие задачи:

- круглосуточный мониторинг температуры компонентов СК и мощности потребляемого ими электропитания;

- предупреждение специалистов о нештатных ситуациях с температурой и энергопотреблением СК;

- сбор и хранение статистических данных по температуре и энергопотреблению СК;

- обеспечение представления собранных данных в виде, пригодном для дальнейшего анализа.

Источники данных и методы доступа к ним

СК «УРАН» состоит из ВУ на основе блейд-серверов производства компании HP, моделей Proliant BL2x220c G5 и Proliant BL460c G5. Сбор данных производится с датчиков температуры ВУ, установленных в области процессоров, системной платы, памяти и на месте входа воздуха в ВУ, а также с датчика энергопотребления ВУ. Полученные данные необходимо хранить в течение среднего срока эксплуатации вычислительного оборудования (примерно три года).

Показания датчиков можно получать как из ОС Linux, которая работает на ВУ, так и через управляющий интерфейс HP iLO, который имеет собственный /P-адрес и выделенный сетевой интерфейс, подключенный к сети управления СК. Взаимодействие с HP iLO ведется по протоколам HTTP, SSH, SNMP и IPMI. Важной особенностью является работоспособность HP iLO при подключении питания к шасси с ВУ, при этом не требуется запуск ОС и питание самого сервера может быть выключено.

Существуют следующие методы доступа к данным о температуре и энергопотреблении ВУ.

• SNMP (Simple Network Management Protocol) - стандартный протокол сетевого управления и мониторинга, поддерживаемый практически всеми современными аппаратными устройствами и ОС.

• IPMI (Intelligent Platform Management Interface) - интерфейс удаленного управления серве-

рами, разработанный компанией Intel, поддержанный многими производителями (в том числе HP) и ставший де-факто стандартом удаленного управления серверами. IPMI позволяет через сетевое соединение включать и выключать питание, получать доступ к консоли сервера, собирать данные о состоянии оборудования и показания встроенных в сервер датчиков.

• Агент системы мониторинга - специальная программа, устанавливаемая на сервер, собирающая информацию о его работе и передающая ее системе мониторинга по стандартному (SNMP) или специально разработанному протоколу.

• SSH-соединение с ОС Linux или адаптером iLO позволяет получать данные о показаниях датчиков с помощью командной строки.

Проанализировав методы сбора информации о температуре и энергопотреблении ВУ СК, авторы выбрали получение данных по протоколу IPMI через управляющий интерфейс HP iLO по следующим причинам:

- возможность сбора и передачи данных при неработающей ОС или выключенном питании ВУ;

- отсутствие трудоемких операций по установке и сопровождению агентов системы мониторинга;

- возможность использования выделенной сети управления СК.

Кроме того, производительность IPMI выше, чем SSH и агентов систем мониторинга благодаря аппаратной реализации.

Обзор аналогов

В настоящее время для мониторинга СК используются системы трех типов:

1) универсальные системы с открытыми исходными кодами: Ganglia (http://ganglia.source-forge.net), Nagios (http://www.nagios.org), Cacti (http://www. cacti. net);

2) специализированные системы, разработанные производителями СК: SkifMon [3], Clustrx Watch, HP Cluster Management Utility, IBM Cluster Systems Management;

3) специализированные системы, разработанные организациями, эксплуатирующими СК: Вычислительный центр ДВО РАН [4], Институт кибернетики им. В.М. Глушкова НАН Украины [5].

Институт математики и механики УрО РАН является академической организацией и ориентирован на преимущественное использование открытого ПО. Поэтому был выполнен анализ возможностей популярных бесплатных систем мониторинга СК Ganglia, Nagios, Cacti, Zabbix. Все системы поддерживают большое количество устройств (тысячи и сотни тысяч) и метрик мониторинга, имеют необходимую производительность, предоставляют web -интерфейс с возможностью

просмотра данных мониторинга и построения графиков. Оценить применимость системы для мониторинга СК «УРАН» авторы предлагают с помощью следующего набора критериев:

- С1 - поддержка интерфейса IPMI, используемого для сбора данных;

- С2 - технология хранения данных, учитывающая тип репозитория, возможный срок хранения и интерфейс доступа к данным;

- С3 - средства консолидированного представления информации, включающие единый отчет о состоянии, групповые функции и графики, настраиваемые карты и экраны;

- С4 - средства предупреждения о проблемах: визуальная идентификация, отправка сообщений по e-mail или SMS;

- С5 — поддержка пользовательского интерфейса на русском языке.

Качественный анализ открытых систем мониторинга приведен в таблице 1.

Таблица 1

Характеристика Ganglia Nagios Cacti Zabbix

Поддержка трш Сторонний плагин Нет Есть

Тип репози-тория RRDTool БД (MySQL, PostgreSQL Oracle и др.)

Средства консолидации представления данных Групповые графики Единый отчет о состоянии, карты Нет Единый отчет о состоянии, групповые функции, групповые графики, карты, экраны

Уведомление о проблемах Нет Есть Нет Есть

Прямой доступ к данным Требуется предварительный экспорт Есть, документированная структура БД

Средства доступа к данным rrdfetch, rrdxport SQL

Поддержка русского языка Нет Есть

Интегральный критерий оценки ^ рассчитывается по формуле ^=0,2-С1+0,3-С2+0,3-Сз+ +0,1С4+0,1С5.

Результаты экспертной оценки открытых систем мониторинга по предложенным критериям приведены в таблице 2.

Таблица 2

Критерий Ganglia Nagios Cacti Zabbix

С1 0,5 0,5 0,1 1

С2 0,5 0,5 0,5 1

Сз 0,2 0,6 0,1 1

С4 0,1 1 0,1 1

С5 0 0 0 1

Q 0,32 0,53 0,21 1

На основе результатов экспертной оценки можно сделать вывод, что система Zabbix более всего подходит для мониторинга температуры и энергопотребления СК «УРАН».

Практическая реализация

Система мониторинга СК «УРАН» выполнена на основе Zabbix на платформе Scientific Linux 6. Сбор данных обеспечен через управляющий модуль HP iLO 2 по интерфейсу IPMI. Для хранения данных используется СУБД MySQL, срок хранения - три года. Пользовательский интерфейс организован через web. Схему системы мониторинга можно представить выражением СК{СУ[МЦ ВУ(iLO)]}^МЦ(IPMI)^СМ(СZ+БД+Web), где СК - суперкомпьютер, СУ - сервер управления, МЦ - массовые цепи, ВУ - вычислительный узел, СМ - сервер мониторинга, CZ - сервер Zabbix, БД - база для хранения статистической информации, Web - интерфейс пользователя системы мониторинга.

Стандартный web-интерфейс Zabbix был существенно расширен в целях обеспечения оперативности мониторинга за счет предоставления администраторам компактной информации, позволяющей быстро оценить температуру и энергопотребление всех компонентов СК. Использованы групповые функции (среднее, минимальное и максимальное значения датчиков температуры, сумма значений датчиков энергопотребления), групповые графики для представления значений нескольких групповых функций, настраиваемые экраны для компактного представления показаний датчиков одного типа на всех ВУ СК (температура входящего воздуха, энергопотребление и др.). Возможно построение графика на основе данных за предыдущие периоды средствами web-интерфейса Zabbix, что полезно при расследовании инцидентов с СК. Разработанные средства консолидированного представления данных позволяют найти проблему в работе СК, просмотрев всего несколько экранов системы мониторинга, что существенно сокращает затраты времени на диагностику.

В заключение можно отметить следующее. Созданная на базе открытого ПО Zabbix система оперативного мониторинга температуры и энергопотребления СК «УРАН» обеспечивает современный уровень эксплуатационной поддержки СК за счет быстрого обнаружения проблем и отправки сообщения администраторам для их устранения. Встроенные средства консолидации представления данных мониторинга позволяют оперативно получать информацию о работоспособности СК путем просмотра одного-двух экранов системы. Обеспечено долговременное хранение данных мониторинга в СУБД MySQL, что дает возможность проводить их обработку с помощью статистиче-

ских методов в целях прогнозирования сбоев в работе СК. Дальнейшая работа направлена на исследование и практическую реализацию таких методов анализа данных мониторинга.

Литература

1. Рейтинг TOP 50 // Суперкомпьютеры. URL: http://top50. supercomputers.ru (дата обращения: 15.08.2011).

2. Московский А.А., Первин А.Ю., Стоцкий М.В. Прогнозирование аппаратных сбоев вычислительных кластеров с помощью систем мониторинга // Программные системы: тео-

рия и приложения (PSTA-2006): тр. Междунар. конф. М.: Физ-матлит, 2006. С. 277-283.

3. Гумин М.В., Стоцкий М.В. Система мониторинга и управления кластерными установками семейства СКИФ -8ЫМоп // Телематика'2010: телекоммуникации, веб-технологии, суперкомпьютинг: сб. стат. участников Всерос. конкурса науч. работ студент. и аспирант. СПб: СПбГУ ИТМО, 2010. С. 183-186.

4. Тарасов А.Г. Расширяемая система мониторинга вычислительного кластера // Вычислительные методы и программирование. 2009. Т. 10. С. 147-158.

5. Головинский А.Л., Маленко А.Л., Белоус Л.Ф. Веб-портал системы управления суперкомпьютером // Вычислительные методы и программирование. 2010. Т. 11. С. 130-136.

УДК 004.891.2

ПОДХОД К АВТОМАТИЗАЦИИ ПОСТРОЕНИЯ ГИДРОДИНАМИЧЕСКИХ МОДЕЛЕЙ

С.В. Доровский

(Институт систем информатики им.. А.П. Ершова СО РАН, г. Новосибирск,

savva_dorovsky@front. ru)

Предлагается подход к автоматизации построения моделей, описывающих движение сплошной среды в гидродинамическом приближении. Подход развивается в рамках экспертной системы поддержки конструирования гидродинамических моделей. Целью его является построение математической модели произвольной гидродинамической системы в виде системы дифференциальных уравнений. Описаны построение качественной модели гидродинамической системы, онтология терминов и отношений качественной модели.

Ключевые слова: экспертная система, гидродинамическая модель, автоматизация конструирования, качественная модель, онтология.

Гидродинамическое описание эволюции исследуемых систем занимает центральное место практически во всех физических приложениях. В качестве примера можно привести конденсированные среды, где в принципе отсутствует кинетический этап эволюции. Гидродинамические исследования в последнее время стимулировали большой поток численных прикладных методов исследований. Гидродинамическое описание конденсированных сред с различным характером упорядочения проникло во все прикладные области современного естествознания - от гидродинамического описания движения жидких кристаллов до сложнейших современных композиционных систем. Оно занимает достаточно большое место в газовой динамике и физике плазмы, позволяет исследовать физическую систему, используя значительно меньшее число степеней свободы.

В среде исследователей различных научных направлений давно существует, как и в технологических отраслях, разделение труда. Однако многим из них, например математикам-прикладникам, часто приходится перемещаться из одной области исследований в смежную область, перенося развитые численные методы на новые технологические

области, в которых часто используется современное гидродинамическое описание. Исследование всего класса гидродинамических явлений невозможно без адекватных математических моделей, которые неизбежно проходят через стадию построения системы дифференциальных уравнений, адекватно отображающих физический процесс. Сконструировать необходимую систему дифференциальных уравнений, позволяющую корректно описать интересующее явление, зачастую под силу только экспертам в данной области физических исследований.

Работу такого рода исследователей гидродинамических явлений могла бы значительно облегчить автоматизированная система поддержки, позволяющая правильно выписать систему уравнений, соответствующую требованиям пользователя. Принципиальная возможность развития такой системы поддержки заложена в основных свойствах и характере описания гидродинамического этапа эволюции физических систем. Все вышесказанное делает актуальной проблему автоматизации построения систем дифференциальных уравнений, описывающих гидродинамические системы.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.