© П.В. Бабяк, Г.В. Т арасов, 2009
УДК 913:002(571)
П.В. Бабяк, Г.В. Тарасов
ОРГАНИЗАЦИЯ ПОТОКОВОЙ ОБРАБОТКИ СПУТНИКОВЫХ ДАННЫХ НА ОСНОВЕ GRID- ТЕХНОЛОГИЙ
Рассмотрен подход к интеграции двух Центров Коллективного Пользова-ния (ЦКП) ДВО РАН, для организации потоковой обработки принимаемых спутниковых данных на больших вычислительных ресурсов с использованием GRlD-технологий.
Ключевые слова: спутниковый мониторинг, информационное обеспе-чение, grid-вычисления.
Дистанционное зондирование Земли из космоса играет большую роль во многих сферах человеческой деятельности. Результаты обработки изображений, получаемых из космоса, широко применяются в исследованиях глобальных и локальных климатических изменений, прогнозировании и анализе чрезвычайных ситуаций природного и техногенного характера, исследованиях Мирового Океана и других направлениях. Важность этих исследований, а также все возрастающий объем спутниковой информации обуславливают развитие методов и средств ее анализа и обработки. В данной работе описывается подход на примере задачи анализа структурных характеристик моря, который позволил организовать поточную обработку изображений при построении карт доминантных ориентаций термических контрастов (ДОТК) [1].
Рассмотрим основные задачи и вычислительные мощности двух центров обработки данных. Спутниковый ЦОД (СЦОД) обеспечивает полный цикл обработки спутниковой информации, а именно, прием данных со спутников, хранение и систематизация информации, привязка к координатам, непосредственно обработка и анализ, а также предоставление информации пользователям центра. СЦОД не обладает собственными достаточно мощными вычислительными ресурсами. Весь цикл обработки осуществляет автоматизированная система обработки (диспетчер обработки), которая для вычислений наравне с выделенными вычислительными ресурсами задействует рабочие
Рис. 1. GRID-сеть обработки спутниковых данных
компьютеры центра. Вычислительный ЦОД (ВЦОД) представляет собой самостоятельное подразделение, отвечающее за работу кластерных систем общего пользования для проведения сложных и объемных вычислительных экспериментов. Текущая пиковая производительность установленного оборудования оценивается в 1.5 Тфлопа.
Интеграция двух центров для расчета ДОТК проводилась с использованием GRID-технологий, как наиболее перспективного и современного направления построения широкомасштабных вычислительных системе на основе территориально распределенных ресурсов. Разработанная GRID-сеть включает два основных узла: Обработчик и Вычислитель. Обработчик физически располагается на стороне СЦОД, Вычислитель - на стороне ВЦОД. В настоящее время центры связаны между собой магистральной научнообразовательной сетью с пропускной способностью 1 Гбит/с. Общая схема GRID-сети показана на рис. 1.
Работа автоматизированной системы обработки СЦОД построена по классической схеме. Для заданного списка заданий, которые необходимо выполнить, определяется список доступных ресурсов, которым эти задания передаются. Таким образом, по завершению сеанса приема информации со спутника диспетчером в автоматическом или ручном режиме запускаются соответствующие команды обработки, которые могут быть выполнены на всех доступных компьютерах, в том числе на Обработчике. Отличие Обработчика от других компьютеров состоит в том, что для выполнения команды он использует не свои внутренние ресурсы, а передает соответствующие задания на обработку внешним вычислительным ресурсам. За счет того, что возможности внешнего Вычислителя заведомо больше стандартных компьютеров, Диспетчер обработки формирует целый поток команд, которые, в конечном счете, выполняются на удаленных ресурсах. После передачи всего потока команд Обработчику, Диспетчер ожидает их завершения, периодически запрашивая состояние каждой команды. Все файлы с изображениями располагаются в архиве данных, доступ к которым для Обработчика организован через сетевую файловую систему.
Непосредственное взаимодействие Обработчика и Вычислителя через научно-образовательную сеть реализовано на базе
Рис. 2. Термическая структура юга Охотского моря в форме поля ДОТК
открытого пакета Globus Toolkit 4 [2]. На каждом ресурсе выполнена стандартная установка данного пакета, включающая установку основных GRID-сервисов и получение сертификатов принадлежности данной GRID-сети. В представленной схеме связи ресурсов используется два основных сервиса: GRAM и RFT. RFT отвечает за надежный двухсторонний файловый обмен между ресурсами, GRAM отвечает за выполнение заданных команд. Для каждого задания, полученного от Диспетчера, Обработчик формирует паспорт задачи в формате XML в соответствии с требованиями сервиса GRAM. Основные поля паспорта: входной и выходной файл, файл параметров алгоритма, исполняемый файл алгоритма построения ДОТК, ссылка на Вычислитель. Имена файлов с данными и параметрами задаются в терминах RFT-сервиса для их последующей автоматической передачи между ресурсами в процессе выполнения задания. Сформированный паспорт задачи Обработчик передает локальной службе GRAM, которая далее по ссылке передает его Вычислителю. GRAM-сервис Вычислителя, получив паспорт задачи, исполняет его за три основные стадии: копирование (через RFT) исходного файла с Обработчика на Вычислитель, выполнение команды обработки, обратное копирование (тоже через RFT) файла результата с Вычислителя на Обработчик. Представленный процесс взаимодействия двух ресурсов продолжается до тех пор, пока не будут выполнены все задания, поставленные Диспетчером. В качестве примера, на рисунке 2 показан фрагмент изображения, полученного после обработки алгоритмом построения ДОТК.
Таким образом, реализованная схема позволяет организовать непрерывный потоковый способ обработки спутниковых данных. Фактически неограниченная масштабируемость ресурсов, предусмотренная идеологией GRID, позволит в будущем включить в разработанную GRID-сеть дополнительные ресурсы, тем самым еще больше увеличить пропускную способность задач обработки, а также увеличить объемы и скорость обрабатываемой спутниковой информации.
1. Алексанин А.И., Загуменное А.А. Автоматическое выделение вихрей океана и расчет их формы // Сборник статей «Современные проблемы дистанционного зондирования Земли из космоса», выпуск 5, 2008 г., с. 17-21.
2. Интернет-ресурс http://www.globus.org/toolkit/docs/latest-stable/. Документация к пакету Globus Toolkit, шыз
Babyak P. V., Tarasov G. V.
ORGANIZATION FOR STREAMING PROCESSING OF SATELLITE DATA BASED ON GRID-TECHNOLOGIES.
An approach to the integration of the two centers shared (TSKP) Russian Academy of Sciences, for streaming processing of satellite data for large computational resources, using GRID-technologies.
Key words: satellite monitoring, information supplying, grid-computing
— Коротко об авторах ----------------------------------------------------
Бабяк Павел Владимирович - ведущий инженер лаборатории спутникового мониторинга ИАПУ ДВО РАН,
E-mail: [email protected]
Тарасов Гиоргий Витальевич - научный сотрудник лаборатории супер-компьютерных и распределенных вычислительных технологий ИАПУ ДВО РАН, E-mail: [email protected]
Институт автоматики и процессов управления ДВО РАН, г. Владивосток.