Научная статья на тему 'Грид-сервисы в вычислительной химии: достижения и перспективы'

Грид-сервисы в вычислительной химии: достижения и перспективы Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
383
78
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГРИД ВЫЧИСЛЕНИЯ / ВЫЧИСЛИТЕЛЬНАЯ И КВАНТОВАЯ ХИМИЯ / ГРИД-ПОЛИГОНЫ / ПОРТАЛ / GRID COMPUTING / COMPUTATIONAL AND QUANTUM CHEMISTRY / GRID SITES / PORTAL

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Волохов Вадим Маркович, Варламов Дмитрий Анатольевич, Волохов Александр Вадимович, Пивушков Александр Викторович, Покатович Геннадий Александрович

В статье сделан обзор возможностей применения грид-сервисов для нужд вычислительной химии. На примере ресурсного гридцентра ИПХФ РАН продемонстрирована реализация ряда подобных сервисов для запуска в распределённых вычислительных средах однопроцессорных и параллельных приложений на ведущих российских грид-полигонах (EGI-RDIG, СКИФ-Полигон и Национальная нанотехнологическая сеть). Охарактеризованы основные компоненты созданных грид-сервисов от адаптированных прикладных пакетов до web-ориентированного грид-портала. Описаны особенности их работы в обстановках различных грид-платформ и методы совмещения различных грид-сайтов на едином физическом пространстве. Сформулированы перспективы развития применения грид-сервисов в химии, указана их основополагающая роль в иерархическом многомасштабном моделировании материальных объектов от квантового до макроуровней.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Волохов Вадим Маркович, Варламов Дмитрий Анатольевич, Волохов Александр Вадимович, Пивушков Александр Викторович, Покатович Геннадий Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Grid services in computational chemistry: ACHIEVEMENTS AND PROSPECTS

This article provides an overview of the possible application of Grid services for the needs of computational chemistry. On the example of a resource center grid IPCP demonstrated implementation of a number of similar services to run in distributed computing environments both uniprocessor and parallel applications on the leading Russian grid polygons (EGI-RDIG, SKIF-Polygon and National Nanotechnology Network). Describes the main components of the established Grid services from customized application packages to web-based Grid portal. The features of their work environments in different Grid platforms and methods of combining the different grid sites on a single physical space. Formulated prospects of Grid services in chemistry, indicated their fundamental role in hierarchical multi-scale modeling of physical objects from quantum to macrolevels.

Текст научной работы на тему «Грид-сервисы в вычислительной химии: достижения и перспективы»

МАТЕМАТИЧЕСКОЕ И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ...

УДК 004.272.2+004.75+544.18

В. М. Волохов, Д. А. Варламов, А. В. Волохов,

А. В. Пивушков, Г. А. Покатович, Н. Ф. Сурков

ГРИД-СЕРВИСЫ В ВЫЧИСЛИТЕЛЬНОЙ ХИМИИ:

ДОСТИЖЕНИЯ И ПЕРСПЕКТИВЫ

В статье сделан обзор возможностей применения грид-сервисов для нужд вычислительной химии. На примере ресурсного грид-центра ИПХФ РАН продемонстрирована реализация ряда подобных сервисов для запуска в распределённых вычислительных средах однопроцессорных и параллельных приложений на ведущих российских грид-полигонах ^1^Ю, СКИФ-Полигон и Национальная нанотехнологическая сеть). Охарактеризованы основные компоненты созданных грид-сервисов - от адаптированных прикладных пакетов до web-ориентированного грид-портала. Описаны особенности их работы в обстановках различных грид-платформ и методы совмещения различных грид-сайтов на едином физическом пространстве. Сформулированы перспективы развития применения грид-сервисов в химии, указана их основополагающая роль в иерархическом многомасштабном моделировании материальных объектов от квантового до макроуровней. Грид вычисления; вычислительная и квантовая химия; грид-полигоны; портал

ВВЕДЕНИЕ

Вычислительная и квантовая химия являются одними из наиболее заинтересованных в грид-вычислениях (в том числе на входящих в состав грид-полигонов суперкомпьютерах) отраслями науки. Исследования в области химии и смежных наук зачастую абсолютно неэффективны без использования сверхмощных параллельных и распределенных вычислительных ресурсов для решения задач разных классов.

Наиболее востребованы грид-вычисления (как и суперкомпьютинг) в следующих областях химии, химической физики и близких к ним науках:

• изучение строения вещества;

• строение молекул и структура твердых

тел;

• создание материалов с заранее заданными свойствами;

• кинетика и механизм сложных химических реакций;

• химическая физика процессов горения и взрыва;

• газодинамика экстремальных состояний;

• химическая физика процессов образования и модификации полимеров;

• предсказательное моделирование наноструктур и различные нанотехнологии;

Контактная информация: +7(916)2518933 Статья рекомендована к публикации программным комитетом Международной научной конференции "Параллельные вычислительные технологии 2011".

• общие проблемы химической физики и др.

Для проведения крупномасштабных вычислений в области вычислительной и квантовой химии и сопряженных областей науки требуется проведение высокоинтенсивных параллельных и распределенных расчетов. Например, некоторые задачи оптимизации молекулярных структур требуют выполнения до 109 отдельных расчетов. Подобные расчеты требуют вычислительных ресурсов, которые не может предоставить ни один из вычислительных центров, что приводит к необходимости использования мощностей крупных распределенных грид-полиго-нов.

ВЫЧИСЛИТЕЛЬНАЯ ХИМИЯ КАК ПЕРСПЕКТИВНЫЙ ИНСТРУМЕНТ ИЕРАРХИЧЕСКОГО МОДЕЛИРОВАНИЯ МАТЕРИАЛЬНЫХ ОБЪЕКТОВ

Рассмотрим только одну из областей применения вычислительной химии, требующую высокопроизводительных и весьма ресурсоемких расчетов. Сейчас одним из наиболее перспективных и востребованных направлений в области вычислительной химии и смежных наук является разработка материалов с заранее заданными функциональными свойствами, включая как создание принципиально новых материалов, так и расширение функциональных возможностей технологически уже освоенных. Физикохимические и функциональные свойства подобных материалов определяются на микро- и на-нометровом пространственном диапазоне масштабов. С физико-химической точки зрения та-

кие материалы и структуры относятся к области молекулярно- и наноструктурированных систем. В связи с этим особую важность приобретают методы компьютерного моделирования молекулярных и наносистем, которые должны быть достаточно быстрыми и точными для возможно более точного прогноза свойств и структуры создаваемых или проектируемых материалов, в том числе под влиянием внешних воздействий. Вообще, оптимизация наноматериалов, молекулярных и наноструктур в рамках создаваемых нанотехнологий включает исследование поведения свойств широкого круга веществ в многообразных физико-химических условиях. Чисто экспериментальный подход к решению подобных задач практически исчерпан ввиду огромного числа подлежащих оценке соединений и фазовых состояний, а также по временным и экономическим соображениям. В качестве альтернативы прямым экспериментам в молекулярных и нанотехнологиях все большее применение находят методы компьютерного моделирования разных уровней строения вещества, которые основаны на использовании высокопроизводительных вычислительных систем: суперкомпьютеров и распределенных вычислительных сетей.

В настоящее время разработано большое количество прикладных пакетов и авторских программ по квантово-механическому и молекулярно-динамическому моделированию атомно-молекулярных систем. Используя различные методы распараллеливания, они позволяют рассчитывать квантово-механические системы, содержащие до нескольких тысяч атомов, и молекулярно-динамические системы, насчитывающие миллионы атомов, в диапазонах времени существования до первых наносекунд. Все это позволяет осуществлять иерархический муль-тимасштабный подход к моделированию всего диапазона материальных объектов: от квантового до макроуровней. При этом на каждом более нижнем уровне вычисляются параметры и переменные, необходимые для построения моделей более высокого уровня. Цели, достигаемые на верхнем уровне иерархического моделирования, определяют задачи моделирования на нижних уровнях. Квантово-механическое моделирование методами ab initio проводится для малых кластеров с числом атомов 10-100 и определяет существование возможных в материале фаз, а также описывает электронный энергетический спектр, собственные функции и плотность состояний изолированного кластера при фиксированном положении ядер, потенциальную энергию системы с учетом электронно-

ядерных подсистем. На последующем квантовостатистическом уровне используются модели, учитывающие уже окружение кластеров. Затем на кинетическом уровне исследуется эволюция неравновесных систем из сотен кластеров в различных внешних условиях. На этом уровне также могут использоваться методы молекулярной динамики (с решением уравнений механики) для атомов в роли классических частиц. Становится возможным рассматривать системы от 1000 до 1 млн атомов и описывать объекты размером 100-1000 нм3, а также моделировать работу устройств молекулярных размеров. На этом уровне происходит расчет кинетических коэффициентов, уравнений состояния, равновесная структура, фазовые переходы, неравновесные процессы. Потом можно переходить к мезоуровню и уровню сплошных сред, где рассчитываются вязкость, теплопроводность, коэффициенты трения и другие макроскопические процессы в материалах, а также волновые процессы в элементах. Результаты этой модели применяются уже для определения параметров методов конечных элементов и подобных ему, реализующих модели сплошной среды и модели уровня конструкций (теория механизмов и машин, теория сложных систем). Последовательное иерархическое моделирование материальных объектов в результате позволяет спрогнозировать их свойства на любом уровне, что крайне важно для построения технологических цепочек по производству новых материалов или материалов с измененными свойствами. Как легко видеть, вычислительная химия поддерживает первые уровни подобной цепи построения моделей: моделирование молекулярных и наносистем, а также биообъектов на квантовомеханическом, квантово-статистическом и кинетическом уровнях с использованием методов молекулярной динамики на основе как известных, так и вновь разрабатываемых пакетов прикладных программ, допускающих параллельную вычислительную реализацию. Таким образом, вычислительная химия на основе высокопроизводительных расчетов определяет базис дальнейшего моделирования материальных объектов и несомненно станет ведущим инструментом как в химии, так и в большом ряде смежных областей науки.

Построение подобных иерархий моделирования, как и крупномасштабные квантовохимические расчеты - лишь одно из основных научных направлений работы вычислительного центра ИПХФ РАН [1-3].

РЕСУРСНЫЙ ГРИД-ЦЕНТР ИПХФ РАН, СТРУКТУРА И ВОЗМОЖНОСТИ

Работы с системами распределенных вычислений в ИПХФ РАН были начаты в 2004-2005 годах и велись по программам Президиума РАН и федеральным целевым научно-техническим программам, а в настоящее время продолжаются в рамках следующих программ:

• программа № 13 фундаментальных исследований Президиума РАН на 2009-2011 годы «Проблемы создания национальной научной распределенной информационно-вычислительной среды на основе развития GRID технологий и современных телекоммуникационных сетей», проект «Исследование методов виртуализации вычислительных сред и приложений в области вычислительной химии. Динамическое формирование параллельных программных сред на распределенных ресурсах»;

• программа № 27 фундаментальных исследований Президиума РАН на 2009-2011 годы «Основы фундаментальных исследований наноматериалов», проект «Самоорганизация наноразмерных материалов и процессы их взаимодействия с адсорбируемыми соединениями: компьютерное моделирование в параллельных и распределенных GRID средах тераф-лопного уровня»;

• научно-техническая программа Союзного государства РФ-РБ 2009-2010 гг. «Разработка и использование программно-аппаратных средств Грид-технологий перспективных высокопроизводительных (суперкомпьютерных) вычислительных систем семейства «СКИФ» («СКИФ-ГРИД»), проект «Разработка ряда вычислительных сервисов различного уровня (включая объединенный веб-портал) для проведения высокопроизводительных расчетов в распределённых вычислительных средах с использованием наиболее востребованных однопроцессорных и параллельных квантово-химических приложений»;

• Федеральная целевая программа «Развитие инфраструктуры наноиндустрии в Российской Федерации на 2008-2010 годы», инициативный проект «Создание Национальной нанотехнологической сети (ГридННС)».

Основными направлениями исследований авторов стали: 1) адаптация наиболее востребованных прикладных пакетов в области вычислительной (прежде всего квантовой) химии к работе в распределенных средах и обеспечение широкого доступа пользователей к работе с ним с использованием самых различных методов и технологий; 2) развитие ресурсного грид-

центра (в виде объединения ресурсных сайтов для нескольких российских грид-полигонов), выступающего как в роли полигона для проведения вычислительных экспериментов в данной области, так и в роли средства для решения реальных фундаментальных и научно-практических задач; 3) развитие новых методов вычислений и организации вычислительных сервисов в условиях распределенных сред. Выбор данных направлений был обусловлен основными стратегиями развития грид-инфраструктур как в России, так и в мире, и позволяет наилучшим образом «приблизить» конечного пользователя (прежде всего - ученого-химика) к широкомасштабному использованию распределенных вычислительных ресурсов и обеспечить возможность решения задач, принципиально трудно разрешимых в настоящее время на единичных вычислительных комплексах.

Для проведения всех работ с распределенными средами основой стал реализованный ранее в ИПХФ РАН ресурсный грид-центр, который объединяет в своем составе полнофункциональные ресурсные сайты следующих российских грид-полигонов:

• узел консорциума EGEE-RDIG (Enable GRID for E-sciencE и Russian Data Intensive GRID (http://www.egee-rdig.ru) с мая 2010 года EGI - European Grid Infrastructure) на основе среды gLite (http://glite.web.cern.ch), виртуальная организация (ВО) RGSTEST;

• сайт категории «А» СКИФ-Полигона (http://skif-grid.botik.ru) на базе промежуточного ПО Unicore (http://www.unicore.eu);

• сайт Национальной нанотехнологической сети (ГридННС, http://www.ngrid.ru, виртуальная организация NanoChem) - среда Globus Toolkit 4 (http://www.globus.org).

Данные ресурсные сайты позволяют решать входящие задачи как с использованием адаптированных к распределенным средам прикладных квантово-химических пакетов (см. ниже), так и общего характера (если таковые не требуют предустановки на кластере).

В состав ресурсных сайтов входит также комплекс клиентских интерфейсов различных уровней для взаимодействия адаптированного квантово-химического прикладного ПО с грид-средами. Они позволяют запускать исходящие задачи вычислительной химии на распределенных ресурсах указанных полигонов, обеспечивая возможность формирования заданий, запуск на удаленных сайтах через брокеры ресурсов, мониторинга прохождения заданий, сбора результатов и статистики.

Важнейшей частью ресурсного центра ИПХФ РАН является грид-портал (http://grid. icp.ac.ru, Grid Enabled Chemical Physics), объединяющий высокоуровневые web-интерфейсы в систему грид-сервисов (см. ниже).

Работа в рамках ВО RGSTEST обеспечивает доступ к вычислительным мощностям до 500700 процессоров и дисковым массивам порядка 8-12 терабайт в нескольких географических зонах (Москва, Дубна, Харьков, Черноголовка и др.). Разнородность узлов данной ВО позволяет легко варьировать параметры запускаемых задач, ориентируясь на различные типы ресурсов. Использование подобного полигона обеспечивает проведение достаточно масштабных вычислительных экспериментов как научного, так и прикладного характеров.

Ресурсный сайт для среды Unicore позволяет выполнять входящие задачи сертифицированных пользователей СКИФ-Полигона, производить мониторинг задач и передавать полученные результаты пользователям. Обеспечена возможность мониторинга состояния сайта извне. Клиентский интерфейс обеспечивает запуски исходящих задач через среду Unicore на собственном ресурсном сайте ИПХФ (в роли удаленного ресурса (https://unicorgw.icp.ac.ru:8080) и на доступных (через брокер ресурсов ИПС (https://testbed.botik.ru:9999) ресурсных узлах СКИФ-Полигона - в основном ИПС РАН, Сев-КавГУ, СКИФ-МГУ, Cyberia (Томск), СКИФ-Аврора (Челябинск) и др.

В рамках создаваемой с 2010 года Национальной нанотехнологической сети (ГридННС) ресурсному сайту ИПХФ предоставлен доступ к вычислительному полигону с общим числом CPU более 8000 (http://mon.ngrid.ru/stats7page = usage) и большим количеством виртуальных организаций, в том числе поддерживающих квантово-химические расчеты. Отметим, что в рамках ГридННС ИПХФ создал и возглавил виртуальную организацию ВО Nanochem для проведения крупномасштабных квантовохимических расчетов.

По состоянию на 01.12.2010 ресурсный грид-центр ИПХФ реализован следующим образом. Установлен и настроен вычислительный кластер - на базе системы пакетной обработки заданий PBS/Torque Resource Manager подключены 6 расчетных узлов (с текущей пиковой производительностью до 172 GFLOPS - 6х2х4 ядра, Intel Xeon 3,6 ГГц) с увеличением их количества в течение конца 2010 - начала 2011 до 9, а затем до 13 расчетных узлов (по мере передачи узлов из основного вычислительного кластера ИПХФ РАН в состав грид-сайта). Управ-

ляющая и расчетная сеть - Gigabit Ethernet. Ресурсный сайт доступен для вычислений и мониторинга извне в постоянном режиме (24/7/365). На расчетных узлах установлен Scientific Linux 5.4 Boron, поскольку наличие данного дистрибутива требуется для расчетных узлов ресурсного сайта gLite, а для других распределенных сред выбор ОС (варианты Linux) не принципиален. На двух управляющих машинах установлен гипервизор KVM (Kernel-based Virtual Machine, http://www.linux-kvm.org), выбранный из ряда прочих гипервизоров благодаря простоте администрирования, минимуму накладных расходов ресурсов и устойчивости работы под нагрузкой. После установки гипервизора на управляющих машинах были установлены следующие сервисные виртуальные машины:

• для Computing Element среды gLite 3.1 (полигон EGEE-RDIG) - ScientificLinux 4.5 и соответствующие сервисы типа lcg-ce, сервисов авторизации и мониторинга;

• для среды Unicore 6.2 (сайт СКИФ-Полигона) - OC Ubuntu 9.10, сервисы - шлюз (Gateway); серверный контейнер (Unicore/X), интерфейс к целевой системе (TSI), авторизационный сервис-пользовательская база данных -XUUDB$, пользовательский интерфейс (UI);

• для среды Globus Toolkit 4 (полигон ГридННС) - ОС CentOS 5.4, сервисы MDS, GRAM, GridFTP, RFT, User Interface.

Выбор соответствующих ОС для управляющих узлов обусловлен либо требованиями дистрибутивов распределенного ПО (как, например, для gLite), либо рекомендациями разработчиков, либо простотой администрирования. На все управляющие машины были установлены серверные компоненты пакета управления заданиями PBS/Torque (http://www.cluster-resources.com), тогда как на расчетные узлы была установлена клиентская часть данного пакета. Поскольку все распределенные middleware требуют наличия своих собственных очередей PBS, было принято решение о настройке трех одновременно работающих экземпляров даемо-на pbs mom на расчетных узлах с соответствующим набором очередей заданий. В таком варианте каждая управляющая машина связывается с расчетными узлами по уникальному порту и имеет дело только со своими заданиями. Недостатком данного подхода является невозможность (пока) правильного учета ресурсов, используемых расчетным узлом, однако для вычислительных экспериментов работ и отладки прикладного ПО это вполне приемлемо. Более детально механизм размещения ресурсных сай-

тов на едином физическом пространстве кластера описан здесь [6].

ОСНОВНЫЕ ВАРИАНТЫ ГРИД-СЕРВИСОВ ДЛЯ РЕШЕНИЯ ЗАДАЧ ВЫЧИСЛИТЕЛЬНОЙ ХИМИИ

Работа в распределенных средах с прикладными пакетами

вычислительной химии и авторскими программами

Авторами проводилась экспериментальная проверка и апробация возможности использования грид-ресурсов для реальных расчетов на стандартных прикладных пакетах программ (в том числе и параллельных), используемых в вычислительной химии, а также различных авторских программ, разработанных в ИПХФ и НЦЧ РАН. Особый интерес имеет адаптация этих программ для распределенных вычислений на максимуме доступных ресурсов российских и международных грид-инфраструктур.

Для адаптации во всех упомянутых распределенных вычислительных средах (см. выше) были выбраны следующие, наиболее востребованные пользователями ИПХФ прикладные программные пакеты:

• GAMESS-US (http://www.msg.ameslab. gov/GAMESS) - одна из самых популярных программ для теоретического исследования свойств химических систем, уступает по известности лишь комплексу Gaussian, позволяет рассчитывать энергию, структуры молекул, частоты их колебаний, а также разнообразные свойства молекул в газовой фазе и в растворе, как в основном, так и в возбужденных состояниях. Основное направление - развитие методов расчета сверхбольших молекулярных систем;

• VASP (http://cms.mpi.univie.ac.at/vasp, Vienna University) и PWscf, Plane-Wave Self-Consistent Field (http://www.pwscf.org) - предназначены для моделирования объема и поверхности твердых тел в рамках неэмпирических подходов, основанных на применении функционалов плотности с использованием периодических граничных условий с базисами на плоских волнах. VASP позволяет проводить оптимизацию структуры и выполнять моделирование в рамках молекулярной динамики. Программный комплекс VASP необходим для моделирования процессов на поверхности и в объеме твердых тел (прежде всего катализа и ионной проводимости). Моделирование на квантово-механическом уровне осуществляется для малых кластеров с числом атомов 10-100, определяющих существование возможных в материале фаз.

Описание моделируемого объекта строится на языке волновых функций и заданного гамильтониана системы. Целевыми функциями являются электронный энергетический спектр, собственные функции и плотность состояний изолированного кластера при фиксированном положении ядер, потенциальная энергия системы с учетом электронно-ядерных подсистем.

• Gaussian-03 (http://www.gaussian.com) -самое популярное средство выполнения квантово-химических расчетов среди основной массы химиков. Основные причины этого - широта охвата реализованных квантово-химических методик, высокая эффективность и удобный интерфейс пользователя. Современные версии комплекса программ Gaussian характеризуются расширением спектра поддерживаемых квантово-химических методов и их модификаций. Комплекс программ Gaussian позволяет рассчитывать энергию, структуру молекул, частоты их колебаний, а также разнообразные свойства молекул в газовой фазе и в растворе, как в основном, так и в возбужденных состояниях. Основное направление, в котором развиваются версии, это развитие методов расчета сверхбольших молекулярных систем. Однако использование пакета в распределенных средах затруднено лицензионными ограничениями.

• Dalton-2 (http://www.kjemi.uio.no/soft-ware/dalton/dalton.htm) - позволяет рассчитывать синглет-синглетные возбуждения, а также электронные структуры, вращательные и колебательные спектры молекул, учитывать релятивистские эффекты и эффект сольватации;

• CPMD (http://www.cpmd.org) - расчеты в области молекулярной динамики;

• NAMD (University of Illinois at Urbana-Champaign, Computational Biophysics Group, http://www.ks.uiuc.edu/Research/namd) - хорошо масштабируемая молекулярно-динамическая программа. Одна из наиболее быстрых при параллельном вычислении на большом числе процессоров. Программа активно используется в ИПХФ РАН для расчетов мицеллы (micelle -коллоидная частица, несущая электрический заряд и объединяющая в себе несколько крупных молекул);

• авторские программы (разработки ИПХФ), включающие многопараметрические задачи из области квантовой химии и молекулярной динамики.

Для всего выбранного ПО был проведен детальный анализ модульной структуры квантовохимического кода и изучены особенности работы различных реализаций однопроцессорных

и параллельных версий, определены стратегии реализации выбранных типов квантовохимических вычислений применительно к различным распределенным средам.

Для большинства выбранных прикладных пакетов созданы и протестированы на реальных задачах низкоуровневые интерфейсы для запуска их в распределенных вычислительных средах. Данные интерфейсы включают набор скриптов по формированию исходящих заданий, запуску через брокер ресурсов на удаленных узлах, мониторингу выполнения задач, возвращению полученных результатов с удаленных ресурсов и «сборке» окончательных результатов на интерфейсе пользователя. Реализованы интерфейсы для однопроцессорных и параллельных (SMP, сокетные, MPI-1,2) вариантов указанного ПО. На ресурсном грид-узле ИПХФ, использованном в качестве удаленного распределенного ресурса, проведены запуски указанного прикладного ПО через инфраструктуры ВО RGSTEST (EGEE-RDIG) и СКИФ-Полигона. Запуски всего адаптированного ПО проводились в разных режимах и конфигурациях (с разным количеством востребованных процессоров и использованием разных вариантов параллельных расчетов). Были изучены варианты совмещения различных вариантов распараллеливания (например, SMP+MPI) вычислений применительно к некоторым прикладным пакетам (пакеты Dalton-2 и CPMD). После ряда вычислительных экспериментов была проведена коррекция созданных низкоуровневых интерфейсов и окончательная оптимизация их для распределенных сред. Были скорректированы проблемы запуска и работы параллельных (SMP, сокет-ные, MPI-1,2) вариантов указанного ПО на различных типах ресурсных узлов (разные пакетные системы PBS и параллельные среды). В настоящее время ресурсные сайты ИПХФ позволяют решать в качестве входящих задачи вычислительной химии с использованием всех указанных квантово-химических пакетов.

Реализация грид-сервисов в виде высокоуровневых web-интерфейсов

Составной частью ресурсного центра ИПХФ РАН является грид-портал, объединяющий грид- и web-сервисы. В его рамках сформированы высокоуровневые web-интерфейсы, позволяющие более эффективно использовать все преимущества грид-расчетов. Эта среда позволяет пользователям получить доступ к грид-ресурсам и сервисам, вызывать и настраивать их с помощью web-браузера. Архитектура грид-портала основана на идее, что портальная сис-

тема является контейнером для низкоуровневых пользовательских интерфейсов, обеспечивающих работу с грид-службами. Преимущество данной архитектуры в том, что она достаточно легко позволяет встраивать в портал интерфейсы новых грид-служб и изменять существующие. Портальные сервисы контролируют и визуализируют пользовательский интерфейс.

В ИПХФ РАН был сформирован грид-портал (http://grid.icp.ac.ru, Grid Enabled Chemical Physics - GEСP), включающий WWW интерфейсы к следующим прикладным пакетам:

• квантово-химический комплекс GA-MESS-US, методы ab initio которого могут использовать параллельные вычисления;

• вычисление многопараметрических функций, под которыми следует понимать целый класс задач химической физики, обладающих свойством параллелизма по данным (Data Parallel).

Данные web-интерфейсы позволяют определять входные параметры и условия (включая загрузку данных, создание и редакцию конфигурационных файлов, работу с сертификатами пользователя), формировать сложные первичные файлы запуска, производить (при условии авторизации пользователя) запуск данного ПО в распределенных средах, осуществлять мониторинг выполнения заданий и сбор результатов. Интегрирована также технология работы через web-интерфейс с «пучками» независимых заданий на «нарезаемых» областях данных, а также с использованием метода формирования «виртуальных контейнеров» для пакета GAMESS-US (см. ниже). Заметим, что основная часть программного кода web-интерфейсов не связана напрямую с выбранной распределенной средой, поэтому они подключены ко всем трем вышеупомянутым грид-полигонам (EGI-RDIG, СКИФ-Полигон, ГридННС) и, соответственно, поддерживают три распределенные среды (gLite, Unicore, Globus Gt4).

Созданные web-интерфейсы значительно снижают трудоемкость работы пользователя в части формирования задач и работы с первичными данными и значительно облегчают последующую работу с пакетами в распределенных средах.

Решение грид-задач с применением методов «виртуальных контейнеров»

Следует отметить, что большинство прикладных пакетов вычислительной химии (как, впрочем, и прикладных пакетов из других областей науки и техники) отличаются сложно-

стью конфигураций и повышенными требованиями к среде выполнения, особенно для проведения параллельных расчетов. Обычно эта проблема решается путем создания виртуальных организаций, т. е. объединением через распределенные среды во многом однотипных (по установленному программному обеспечению и настройкам) вычислительных ресурсов. Для них выбранные прикладные пакеты (вместе со средствами конфигурирования и настройки) распространяются из единого репозитория (как, например, для прикладных пакетов ЦЕРНа -Atlas, CMC, Alice и т. п.). В большинстве же случаев неподготовленный ресурсный сайт не имеет нужного заранее установленного прикладного ПО или хотя бы не сконфигурирован должным образом, поэтому запуск непредустановленных сложных прикладных пакетов обычно для таких ресурсов оканчивается неудачей. Поэтому в общем случае необходима ручная или полуавтоматическая перенастройка ресурсных узлов распределенных сред, включающая установку собственно пакетов, конфигурирование центрального узла и расчетных узлов (настройка переменных окружения, общих NFS ресурсов, PBS очередей), установка дополнительных системных библиотек и исполняемых файлов (включая параллельные среды типа Mpich-2). При условии этого возможны запуски пакетов на распределенных ресурсах (как это и сделано на ресурсных сайтах ИПХФ для решения входящих задач).

Для частичного решения данной проблемы авторами был разработан метод создания виртуальных перемещаемых программных «контейнеров». «Контейнер», включающий собственно прикладной пакет, набор необходимых системных файлов и библиотек, скрипты по развертыванию и настройке среды исполнения, файлы данных и конфигурационные файлы, доставляется на удаленный ресурсный узел грид-среды стандартными средствами распределенного middleware. Применение таких «контейнеров» позволяет передавать заранее настроенную среду как единое задание, не требующее дополнительного конфигурирования и сложной процедуры установки и настройки, производимых, как правило, вручную администратором кластеров. «Контейнер» по прибытии на ресурсный узел производит развертывание пакета и необходимых системных библиотек, настройку среды исполнения (включая параллельную среду), запуск задания, по его окончании проводится отправка результатов на пользовательский интерфейс и «очистка» среды исполнения, т. е. приведение ресурса в первоначальное состоя-

ние. Так могут быть решены проблемы установки, настройки, несовместимости с операционной системой и другими программами, разрешаются конфликты одинаковых приложений. Более детально этот метод описан здесь [4, 7].

Работа с «пучками» формально независимых заданий

Для решения широкого класса многопараметрических задач вычислительной химии с использованием грид-технологий был создан метод запуска «пучков» независимых заданий для использования всех доступных ресурсов распределенной среды. Как говорилось ранее [1,

3, 5], в области химической физики существует класс задач, требующих перебора большого количества параметров. При этом полная задача разбивается на огромное количество независимых подзадач (каждая определяется группой значений совокупности параметров). Задача автоматизации процесса разбиения полной задачи на фрагменты важна и определяет удобство пользования системой. Типичный пример -фундаментальная задача в теории элементарных химических процессов: туннельные реакции под воздействием электромагнитного излучения. Параметрами являются частота и амплитуда излучения. Задача имеет высокую вычислительную сложность, однако вычисления в каждой точке сетки в ней происходят независимо друг от друга, поэтому оказалось возможным разбить область вычислений на множество непересе-кающихся подобластей и для каждой из них запускать задачу на различных процессорах.

Была разработана методика запуска задач и получения результатов методом запуска «пучков» заданий на всех доступных ресурсах выбранной распределенной среды. На языке Perl написан комплекс программ для запуска «пучков» заданий и получения результатов счета с использованием пользовательских интерфейсов (UI) сред gLite, Unicore, Globus GT4. Для решения многопараметрических задач квантовой химии были разработаны методы формирования «пучков» независимых заданий с варьирующими параметрами - до 104, в перспективе до 107 «атомарных» заданий на задачу. Для выбранных областей данных авторскими скриптами производится «нарезка» областей данных, формирование пулов независимых заданий, создание очередей запуска и отправки заданий на брокер ресурсов. После запуска периодически запускаемые (средствами ОС, например по cron) скрипты ведут мониторинг выполнения заданий, контроль таймаутов, перезапуск неудачных заданий и сбор результатов выполнен-

ных заданий (с использованием базы данных и таблиц в ней, контролирующих состояние заданий - «ожидание», «запуск», «выполнение» и т. д.). По окончании расчетов проводится сборка «атомарных» результатов в единый выходной файл.

В настоящее время изменена стратегия работы с «пучками». Теперь данные о разбиении расчетной области сохраняются в базе данных (MySQL) и используются в оперативном режиме для формирования временного файла начальных данных при генерации исполняемого задания. Это позволило резко снизить нагрузку на файловую систему сервера и увеличить скорость работы. Для работы с большим количеством грид-заданий (для «пучков») переделан механизм контроля «нарезанных» данных и состояния отдельных задач. Для оптимизации времени доступа и скорости просмотра все задания записываются в три таблицы базы данных MySQL: ожидающие запуска, отправленные

и посчитанные. Эти таблицы являются общими для всех зарегистрированных пользователей портала. Соответственно, для каждой таблицы заданий написан соответствующий монитор на языке Perl, который может запускаться в качестве сервиса как после заполнения формы запроса пользователем, так и с использованием системных средств (например, утилитой cron). Таблица заданий, ожидающих запуска, заполняется после того, как пользователь определил все параметры как для формирования файлов данных, так и файлов запуска, а также загрузил свои личные сертификаты и получил прокси-сертификат для запуска заданий в грид-средах.

Монитор запуска заданий просматривает последовательно таблицу заданий, ожидающих запуска, и при обнаружении записи формирует команду обращения к брокеру ресурсов соответствующего полигона. Если получен положительный ответ от брокера ресурсов, то текущая запись перемещается в таблицу отправленных заданий. Монитор запуска прекращает свою работу, если таблица пуста. Однако система периодически порождает запуск монитора, если он отсутствует в списке процессов. Аналогично работает монитор проверки статуса запущенного задания с таблицей отправленных заданий. В результате записи перемещаются в таблицу завершенных заданий, с которыми работает монитор возврата файлов результатов по описанному выше алгоритму, при этом соответствующая запись удаляется. Файлы результатов пользователя получают имена, содержащие индекс запуска, и накапливаются в директории портала указанного проекта. Данная технология облег-

чает проведение непрерывного мониторинга запуска заданий, включая контроль таймаутов, перезапуск неудачных заданий и т. п.

Главным недостатком механизма работы с «пучками» заданий являются ограниченные возможности пользователя по мониторингу собственных заданий в средах Unicore и Globus GT4. В целом же, описанный новый, полностью асинхронный механизм запуска «пучка» заданий требует от пользователя только выбора ресурса по желанию, что возможно через механизмы web-портала.

ЗАКЛЮЧЕНИЕ

Авторами описано использование некоторых технологий грид-вычислений применительно к приложениям вычислительной химии. Наши работы позволили создать достаточно полный ряд грид-сервисов для проведения крупномасштабных расчетов в области вычислительной химии. Это позволило достигнуть нового уровня расчетов в области вычислительной химии:

• создан комплекс адаптированных к различным грид-средам (gLite, Unicore, Globus GT4) прикладных программных пакетов вычислительной химии с интерфейсами различного уровня (от низкоуровневых интерфейсов вплоть до web-портала);

• разработаны новые методики вычислений (методы формирования «пучков» независимых заданий, метод «виртуальных контейнеров» и т. д.) в распределенных и параллельных средах применительно к прикладному ПО вычислительной химии;

• создан ресурсный центр (включающий ресурсные узлы полигонов EGI-RDIG, СКИФ-Полигона, ГридННС, а также web-портал) для проведения вычислительных экспериментов в этой предметной области, объединяющий как ресурсы для решения входящих заданий в средах gLite, Unicore, Globus GT4, так и пользовательские интерфейсы к этим распределенным средам для решения исходящих задач на внешних ресурсах.

В результате выполнения всего проекта создан вычислительный центр, позволяющий проводить масштабные расчеты в области вычислительной химии в распределенных средах на крупномасштабных полигонах (в перспективе до 104 CPU на узлах многотерафлопного масштаба). На ряде реальных задач продемонстрирована применимость созданных ресурсов для решения крупномасштабных химических задач на высокопроизводительных вычислительных

полигонах. Это позволяет ставить и решать вычислительные задачи фундаментального и прикладного характера в области химических наук, ранее не доступные из-за ограниченности возможностей вычислительных ресурсов. Основные научные области применения - химическая физика, квантовая химия, исследование наноструктур, молекулярная динамика, фармацевтика, разработка топливных элементов и прочие близкие отрасли наук.

СПИСОК ЛИТЕРАТУРЫ

1. Технологии грид в вычислительной химии /

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

B. М. Волохов [и др.] // Вычислительные методы и программирование. М.: МГУ, 2010. Т. 11, № 1.

C. 175-182.

2. GRID и вычислительная химия / В. М. Волохов [и др.] // Вычислительные методы и программирование. М.: МГУ, 2009. Т. 10, № 1. С. 224-235.

3. Использование грид-полигонов для решения больших задач вычислительной химии / В. М. Волохов [и др.] // Научный сервис в сети Интернет: су-перкомпьютерные центры и задачи (20-25 сентября 2010 г., г. Новороссийск). М.: Изд-во МГУ, 2010. С. 107-111.

4. Виртуализация вычислительной среды в грид / Д. А. Варламов [и др.] // Параллельные вычислительные технологии 2010, ПаВТ-2010. Уфа, март 2010. Челябинск: изд-во ЮУрГУ. С. 63-70.

5. Новые методы решения задач вычислительной химии в распределенных средах / В. М. Волохов [и др.] // Научный сервис в сети Интернет: супер-компьютерные центры и задачи (20-25 сентября 2010 г., г. Новороссийск). М.: Изд-во МГУ, 2010. С. 181-184.

6. Реализация нескольких независимых ресурсных грид-сайтов на едином физическом пространстве кластера / В. М. Волохов [и др.] // Высокопроизводительные параллельные вычисления на кластерных системах: Тр. X международн. конф. HPC-2010. Пермь, ноябрь 2010; изд-во ПГТУ. Т. 1. С. 119-124.

7. Динамически формируемые параллельные среды в условиях грид-полигонов, проблемы и решения / В. М. Волохов [и др.] // Вычислительные методы и программирование: Новые вычислительные технологии. М.: МГУ, 2011. Т. 12, № 1. С. 39-45.

ОБ АВТОРАХ

Волохов Вадим Маркович, д-р физ.-мат. наук, зав. отделом ОВИР Института проблем химической физики РАН (ИПХФ). Иссл. в обл. грид-сервисов в вычислительной химии.

Варламов Дмитрий Анатольевич, ст. науч. сотр. ИПХФ и Института экспериментальной минералогии РАН. Иссл. в обл. грид-сервисов в вычислительной химии.

Волохов Александр Вадимович, вед. инженер ИПХФ. Иссл. в обл. грид-сервисов в вычислительной химии.

Пивушков Александр Викторович, канд. физ.-мат. наук, ст. науч. сотр. ИПХФ. Иссл. в обл. грид-сервисов в вычислительной химии.

Покатович Геннадий Александрович, вед. инженер ИПХФ. Иссл. в обл. грид-сервисов в вычислительной химии.

Сурков Николай Федорович, ст. науч. сотр. ИПХФ. Иссл. в обл. грид-сервисов в вычислительной химии.

i Надоели баннеры? Вы всегда можете отключить рекламу.