Устименко О.В.
ГБОУ ВПО «Международный Университет природы, общества и
человека«Дубна», ассистент [email protected]
Архитектура информационной среды для доступа и использования данных, полученных при зондировании
Земли из Космоса
Аннотация
В докладе описывается модель архитектуры информационной среды для доступа и использования данных дистанционного зондирования Земли на основе архитектуры предметных посредников с использованием специализированного интерфейса пользователя российскойgrid-сети.
Исследование Земли всегда было важной составляющей человеческого существования. В последнее десятилетие спутниковые системы зондирования Земли достигли принципиально нового уровня развития. Они отличаются частотой наблюдений, высокой стабильностью и глобальностью.
Одновременно разрабатывается современная техника съемки Земли из Космоса, и создаются совершенно новые методы обработки спутниковых данных для выявления отдельных характеристик окружающей среды.
Уже накоплены колоссальные объемы данных, грамотное использование которых позволяет, с одной стороны, создавать различные прикладные системы для решения повседневных потребностей общества, с другой — на новом уровне решать многочисленные научные и прикладные задачи, связанные с исследованием состояния и динамики природных объектов.
Однако данные формируются в весьма сложных условиях наблюдения и содержат в себе специфичные искажения. В связи с этим выдвигаются новые требования к вычислительным алгоритмам, задаются специфичные критерии качества обработки данных. Таким образом, космические снимки, их хранение и обработка представляет собой гетерогенную систему. Здесь неизбежна разработка специальных быстрых алгоритмов обработки, целесообразно применение суперкомпьютеров, распределенных систем и grid-систем.
Актуальной представляется задача разработки архитектуры распределенного хранения информации обеспечения устойчивого доступа к информационным ресурсам для возможности их дальнейшего использования.
Данные в ГИС
Данные ДЗЗ - данные дистанционного зондирования Земли,
полученные с помощью космических аппаратов и применяемые в геоинформационных системах (ГИС) (к примеру, картография). ГИС позволяет нам видеть, понимать, интерпретировать и визуализировать данные в различных форматах, которые показывают отношения, закономерности и тенденции в виде карт, глобусов, отчетов и диаграмм.
На сегодняшний день в России не существует единой инфраструктуры, позволяющей использовать имеющуюся информацию из-за специфики аэрокосмических изображений. Основными особенностями ГИС являются:
• Большое количество данных, получаемых при зондировании Земли и их объем. Для обработки такой информации необходимы новые высокопроизводительные системы обработки информации на основе параллельных вычислений с применением хранилищ данных, высокоскоростной среды передачи данных и использования суперкомпьютеров.
• Нет единой инфотелекоммуникационной и вычислительной среды. Существующие станции приема практически не взаимодействуют между собой.
• Отсутствует обмен данными, что затрудняет развитие научных исследований, требующих интеграции разнородных данных по большим территориям.
• Существующие интернет-порталы доступа к данным ДЗЗ (типа nakarte.ruи Googlemaps) непригодны для использования в задачах, требующих точного и полноценного геоинформационного пространства, так как не соответствуют повышенным требованиям к точности географической привязки, своевременности и оперативности обновления информации, индивидуальной настройке.
• Сложность настройки инструментария для приема данных на станциях приема при смене космических аппаратов ДДЗ.
• ГИС технологии мало применяются в хозяйственной деятельности (в сельском хозяйстве, природопользовании, градостроительстве, мониторинге чрезвычайных ситуаций).
• Множество форматов данных ДЗЗ, что создает дополнительную сложность использования таких данных в разнообразных приложениях.
При организации пространственных данных необходимо учитывать следующие принципы[1]:
• данные должны создаваться единожды и поддерживаться там, где это можно сделать наиболее эффективно;
• должна быть создана возможность объединения пространственных данных из разных источников;
• к данным должны иметь доступ многие пользователи и приложения;
• пространственные данные, полученные на одном уровне управления,
должны легко передаваться на все другие уровни;
• пространственные данные, необходимые для эффективной хозяйственной деятельности, должны быть доступны на условиях, не препятствующих их активному использованию;
• организация пространственных данных должна обеспечивать их легкий поиск, оценку пригодности и актуальности для определенных целей и условий их получения.
Для успешного решения проблемы использования данных ДДЗ необходимо преобразовать гетерогенную среду в гомогенную, то есть в систему с едиными методами доступа к различной по своей физической сущности структуре данных.
Уровни информационной системы
Проблема обмена данными достаточно актуальна и сводятся к решению технической стороны вопроса. Для успешного обмена требуется только наличие достаточно полного описания формата, поддержка которого входит в необходимое условие функционирования системы. Большинство распространённых форматов, использующихся для обмена данными, являются открытыми. Кроме описаний графических форматов (векторных и растровых) необходимо обращать внимание на спецификации, полезные для использования в геоинформационных системах (базы данных, стандартные и специализированные библиотеки и т.п.) [2].
Уровень 1 Уровень 2 Уровень 3
Вазы Клиентские
данных ДДЗ приложения
Рис.1.Основныеуровни информационной среды
Характерные особенности ГИС и принципы организации пространственных данных вносят дополнительные сложности в реализацию распределенной архитектуры. При создании информационной среды должно быть согласие уровней между собой и к выбираемым решениям или технологиям. Следует выделить три основных уровня (Рис. 1):
1. оборудование вычислительной сети, каналов и линий передачи данных, рабочих мест пользователей, системы хранения данных;
2. операционные системы, сетевые службы и сервисы по управлению
доступом к ресурсам, программное обеспечение среднего слоя;
3. прикладное программное обеспечение, информационные сервисы и среды, ориентированные на пользователей.
Так на первом уровне возникают проблемы связанные с территориально распределенной структурой информационной среды и отсутствием надежных каналов связи. Дополнительно возникают проблемы из-за несогласованности оборудования.
На втором уровне возникает проблемы, связанные с плохой системной интеграцией ИС. Это связано с наличием нескольких несогласованных центров ответственности за развитие технологий и отсутствием утвержденной архитектуры ИС. Архитектура второго уровня ИС на данном этапе представляет собой разрозненные и слабо связанные подсистемы с разными операционными средами, согласованные друг с другом только на уровне закрепления 1Р-адресов или обмена сообщениями.
Состояние третьего уровня архитектуры ИС можно охарактеризовать следующим образом: в основном завершен переход от локальных программных приложений, опирающихся на локальный набор данных, к корпоративным клиент-серверным информационным системам, обеспечивающим доступ пользователей к оперативным базам данных.
Технологии распределенного хранения
Распределенные информационные системы невозможно рассматривать вне контекста темы распределенных баз данных. Поэтому были рассмотрены имеющиеся технологии распределенного хранения данных для подбора наиболее оптимальной файловой системы для использования в разрабатываемой архитектуре информационной среды.
Распределенная база данных (DistributedDataBase - DDB) - это такая база данных, которая включает фрагменты из нескольких баз данных, при этом эти фрагменты располагаются на различных узлах сети компьютеров, и, возможно управляются различными системами управления базами данных (СУБД) [3]. Можно выделить такие свойства, которые характеризуют идеальную DDB:
• Локальная автономия (1оса1а^опоту) означает, что управление данными на каждом из узлов распределенной системы выполняется локально.
• Независимость узлов (погеНапсеопсеМга^ке) означает, что в распределенной система узлы равноправны и независимы друг от друга, т.к. база данных на каждом узле имеет полный словарь данных и защиту от несанкционированного доступа.
• Прозрачность расположения (locationindependence) говорит о том, что обращение к распределенной базе данных должно выполняться без учета местонахождения необходимых данных.
• Прозрачная фрагментация (fragmentationindependence) определяется возможностью распределенного размещения данных, логически
представляющих собой единое целое. Можно выделить фрагментацию горизонтальную (распределение строк одной логической таблицы в таблицах на других узлах) и вертикальную (столбцы распределены по различным узлам).
• Прозрачное тиражирование (replicationindependence) означает возможность переноса изменений объектов исходной базы данных в базы других узлов средствами, невидимыми пользователю распределенной системы.
• Непрерывные операции (continuousoperation) - это свойство означает и непрерывный доступ к данным.
• Обработка распределенных запросов (distributedqueryprocessing) -возможность производить операции с распределенными базами данных с помощью таких же языковых средств, которые используются для работы над локальной базой данных.
• Обработка распределенных транзакций (distributedtransactionprocessing) - возможность выполнения операций обновления распределенной базы данных (INSERT, UPDATE, DELETE) с применением двухфазового или двухфазного протокола фиксации транзакций, и при этом не повреждая целостность и согласованность данных.
• Независимость от оборудования (hardware independence) - узлами распределенной системы могут служить любые компьютеры.
• Независимость от операционных систем (operationgsystem independence) - возможность выбора операционной системы для каждого из узлов.
• Прозрачность сети (network independence) - разнообразие поддерживаемых сетевых протоколов.
• Независимость от баз данных (database independence). Это качество означает, что в распределенной системе могут мирно сосуществовать СУБД различных производителей, и возможны операции поиска и обновления в базах данных различных моделей и форматов.
• Существует множество файловых систем, которые можно классифицировать различным способом [4]. Однако для решения задачи в рамках данного проекта были выбраны наиболее важные свойства DDB, такие, как месторасположение, независимость от операционных систем и оборудования и непрерывность операций. Исходя из приведенных выше критериев, наиболее распространенным системами для распределенного хранения данных являются AFS, Lustre, GPFS, dCache, DPM, Xrootd. Выбор файловой системы также зависит и от программного обеспечения анализа данных.
Функциональная структура информационной среды для доступа и использования данных ДЗЗ
Одним из главных направлений практической работы было
определение компонентов самой системы и используемого в ней программного обеспечения, включающих применение стандартов и протоколов, их международное согласование, создание «соединяющих» компонентов (точки входа, интерфейса, реестра, потока данных), распознавание пользователей, виртуального хранилища, предоставление ресурсов данных,создание механизмов для научной обработки данных,установка и сопровождение реестров ресурсов и систем поддержки пользователей.
Для возможности использования данных ДЗЗ и данных геоинформационных систем, которые имеют такие особенности, как огромный размер и разнообразие применяемых к данным программных средств, предполагает наличие в разрабатываемой архитектуре следующих средств:
• информационные ресурсы;
• реестры, содержащие описания представляемых ресурсов (реестры метаданных);
• средства программирования;
• интерфейсы для доступа к ресурсам и их использования.
Исходя из перечисленных средств, инфраструктура должна содержать уровни:
1. уровень данных;
2. уровень взаимодействия приложений с информационными ресурсами;
3. уровень способов решения задач (то есть возможность отображения разнообразных ресурсов в соответствии с необходимым результатом).
Таким образом, основными компонентами информационной системы являются (Рис. 2):
1. Виртуальное хранилище данных (ВХД);
2. Реестр метаданных - РМ (будет содержать описания имеющихся ресурсов);
3. Система доступа к данным - СДД (система, позволяющая подключиться к базе данных);
4. Программные средства для планирования и написания программ, необходимых для реализации уровня взаимодействия приложений с информационными ресурсами;
5. Программы доступа к разрозненной информации (преобразование клиентского запроса в запрос на языке данных, получение результата от ресурса на «клиентском» языке);
6. Портал, обеспечивающий возможность взаимодействия задания программ, способов решения задач и отображения результатов.
Так как основная цель создания инфраструктуры является совместный доступ к данным и их активное использование, то система
предоставляет собой совокупность ресурсов (а именно готовых программ решения задач, библиотек методов) и информационных ресурсов (данные ДЗЗ), включает реестры метаинформации предоставленных ресурсов, средства программирования в конкретной grid-среде, стандартные интерфейсы для доступа к ресурсам.
Портал
\Vcb- брлуз с р
Сервер ирнлиначшй
И птв-рфекмг представлен ия
ИСПЛЛПА И1111.СЙ
среды_
И
Храм и л и ш.<-м ст л н и ф о рм а цн и
Исполняющая среда
А Д;1 ПТй I л
Адлпт^р
Ресурсы
Г р ид- сер в и с: ы
]
____
-
Рис.2.Основные компоненты информационной системы Данная архитектура подобна архитектуре среды предметных посредников. Такой подход предполагает использование специальных средств, которые взаимодействуют между приложением и ресурсом на основе определения прикладной области определенной задачи. Основными компонентами промежуточного слоя являются предметные посредники, существующие независимо от информационных ресурсов [5]. Уровень предметных посредников вводится как часть информационных систем, создаваемых для решения научных задач. Для каждой предметной области при решении некоторого класса задач каждый предметный посредник задает свою спецификацию, используя каноническую информационную модель для представления предметной области и унифицированного отображения разнообразных видов моделей информационных ресурсов [6].В данной работе данный подход реализуется через исполняющую среду и специальные средства - адаптеры.
Исполнительная среда обеспечивает обработку запросов пользователя, поступающих через портал, преобразовывает запросы пользователя в соответствующий программный запрос с помощью адаптера, получает результат и обратно передает пользователю обработанный запрос.
Хранилище метаинформации используется для хранения метаинформации исполняющей среды, используемой при преобразовании запросов и для сохранения промежуточных результатов запросов, возвращаемых ресурсами, и для выполнения остаточных запросов над этими данными.
Интерфейс представления исполняющей среды выполняет функцию удобного представления выводимой информации, включая сегментацию информационных объектов, их агрегирование и слияние.
Создание ШеЬ-интерфейса для работы с геопространственными данными позволит конечному пользователю значительно облегчить поиск и использование данных ДЗЗ в условиях распределенных информационных сред.
Тогда упрощенная схема grid-вычислений с использованием высокоуровневого интерфейса (среды §Ше) выглядит так (Рис. 3):
КОНИНЫ«
лвтсрнасмииый полъзоил т<?л ь
Польэао*-
»ПьСнИЙ етршфицт
Авгторпзацня и ¿ортификЗщи*
Зггрузка. риикцня. ¡срлнснна запроса
форл! ирра лние .ийлмия}
Выбор ресурсов Запуск ндоннн Мониторинг
3ЦДЛНИН
Сбор р*]упьт*гоа Выдача
Пространство грид-пол иго на
Низкоуровневые инферфейсы ресурсных сайтов
У¥сЬ интерфейс
Рис.3.Схема взаимодействия пользователя через Web-интерфейс
Описание компонентов архитектуры информационной среды для доступа и использования данных ДЗЗ
Система представляет собой адаптированное программное обеспечение для использования в grid-среде средств доступа к каталогам и реестрам метаданных. В настоящее время для проектирования и поддержки grid-систем используются различные пакеты промежуточного слоя - исполняющей среды, в частности GlobusToolkit 4.0, gLitе, АНЕеп, NorduGrid и ряд других. Применяется также специализированное программное обеспечение, необходимое для разных виртуальных организаций.
Пакет gLite является наиболее полным решением для GRID, включая как базовые низкоуровневые программы, так и ряд служб высокого уровня. gLite распространяется на условиях лицензии открытого кода. В нем интегрированы компоненты из лучших на настоящий момент проектов промежуточного программного обеспечения (ППО), к примеру Condor и GlobusToolkit, компоненты проекта LCG. gLite является одним из лучших базово-инструментальных средств, совместимых с такими планировщиками, как PBS, Condor и LSF. gLite разработан с учетом свойств интероперабельности и содержит базовые службы, облегчающие построение приложений GRID для любых прикладных областей.
Службы gLite соответствуют требованиям SOA (Service Oriented Architecture). Из этого следует, что при необходимости данный продукт можно легко связать с другими GRID-службами, а также, что будет существенно облегчен переход на новые стандарты GRID.
Для реализации архитектуры информационной среды для доступа и использования данных потребуется установка программного обеспечения gLite 3.2 в составе следующих компонентов:
• glite-BDII (Berkeley Database Information Index)
• glite-LFC_mysql (LCG File Catalogue)
• glite-SE_dpm_mysql (Storage Element)
• glite-TORQUE_client
• glite-UI (User Interface)
• glite-VOBOX (Virtual Organization)
• glite-WN (WorkerNode)
Рассматриваемые компоненты обладают возможностью организации целостной системы предоставления пользователям территориально распределенных информационных, аналитических и вычислительных ресурсов в режиме виртуальных организаций.
Реализация Web-интерфейса пользователя
Web-интерфейс позволит пользователю работать через браузер и осуществлять следующие действия:
• авторизовать пользователя для запуска комплекса и проводить его сертификацию в виртуальной организации;
• подготавливать задание (включая создание и редакцию начальных данных и конфигурационных файлов) в соответствие с требованиями пакета;
• запускать прикладной пакет в инфраструктуре grid-полигона (при необходимости - на произвольном или избранном grid-ресурсе);
• вести мониторинг выполнения задания (включая останов и перезапуск);
• по завершении - получить результаты запроса.
Доступ к вычислительным и информационным ресурсам grid-сети предоставляется в соответствии с правами, полученными пользователями
при регистрации в качестве членов ВО, а также происходит фиксация использования grid-ресурсов каждым зарегистрированным пользователем. Средства разграничения прав доступа пользователей к ресурсам и сервисам поддерживается с помощью технологии API библиотеки OpenSSL, прокси-сертификатов и атрибутных сертификатов VOMS.
В среде действует специальная система распределения прав доступа пользователей к данным, программным и вычислительным ресурсам: пользователи, не прошедшие регистрацию, имеют доступ к очень ограниченному подмножеству ресурсов. После прохождения регистрации пользователю назначается открытая политика доступа.
Запрос пользователя соответствует формату, интересуемых его данных, только должны быть загружены пользователем через Web-интерфейс в архиве типа gzip, т.е. преобразованы в запрос исполняющей среды.
-
Информационный грид
"script, mac tiata.lsp
д
"result.lsp output.lsp
data.tbz
I run.sh j
узел грищ,-сайта
result.tbz
инфраструктура грид
data.tbz
Браузер пользователя
multipart/Torm-dä ta =>
<-
rext/html
http сервер
resuit.tbz
конфигурация сервиса
грцд-адаптер
контейнер EveREST
Рис. 4. Архитектура исполняющей среды
Исполняющая среда разрабатываемой инфраструктуры для доступа и использования данных ДЗЗ состоит из конфигурационного файла сервиса для контейнера REST-сервисов EveREST, входящего в состав платформы EveREST, шаблона дескриптора задания и нескольких файлов-сценариев для подготовки исходных данных и обработки результатов работы grid-заданий (Рис.4).
Конфигурационный файл написан на языке JSON в соответствии с правилами, принятыми в EveREST и содержит описание интерфейса сервиса, вместе с параметрами реализации сервиса. Шаблон дескриптора задания представляет собой дескриптор grid-задания, в котором перед загрузкой в grid-сеть производится подстановка обозначенных специальным образом параметров вызова сервиса.
Назначение Web-интерфейса в информационной среде для доступа и использования данных ДЗЗ
Разработанный полигон инфраструктуры применим для доступа и использования геопространственных данных, получаемых с помощью зондирования Земли из Космоса.
Формирование и запуск счётных заданий в grid-сеть, контроль хода их выполнения и получение результатов вычислений осуществляется через Web-интерфейс пользователя, скрывающим от пользователя детали и сложности работы самой grid-сети, а непосредственный счёт на вычислительных ресурсах выполняется с использованием конкретного программного обеспечения, на которое направлен запрос. Данное ПО должно быть установлено на рабочих узлах grid-сайтов.Все операции в Web-интерфейсе выполняются в рамках модели безопасности GRID, построенной на цифровых прокси-сертификатах формата X.509, и технологии виртуальных организаций.
Взаимодействие между Web-интерфейсом и ресурсами происходит посредством следующих компонент:
• виртуального интерфейса пользователя (web-браузера);
• программного адаптера интерфейса grid;
• сервисов инфраструктуры grid-сети.
Заключение
Представленная архитектура формулировалась с целью соответствия требованиям универсальности, расширяемости, доступности в использовании. Были проанализированы существующие технологии распределенного хранения разрозненных данных, выявлены наиболее оптимальные файловые системы для использования в разрабатываемой информационной среде.
Изложенные положения были использованы при разработке прототипа архитектуры распределенной гетерогенной информационной среды для доступа и использования данных ДЗЗ с реализацией программного комплекса, который является специализированным интерфейсом пользователя российской grid-сети. Такое решение позволит пользователю в терминах прикладной области составить задание для решения научных задач над множеством неоднородных распределенных информационных ресурсов.
Литература
1. Серебряков В.Б. Региональный центр космического мониторинга // Пространственные данные. 2008. №1. С. 52-55
2. Форматы геоданных - [Электронный ресурс]. URL: http://www.geocad.ru/soft/formats
3. Классификация файловых систем. Открытые системы. 2006. - №06 -[Электронный ресурс]. URL:http://www.osp.ru/os/2006/06/2700700/
4. Лобанов А.К. Методы построения систем хранения данных. JetInfoOnline. 2003.
№7
5. Вовченко А.Е., Калиниченко Л.А., Ступников С.А. Семантический Грид, основанный на концепции предметных посредников. М.: Институт проблем информатики
РАН, 2011. С. 170-191.
6. Архитектура промежуточного слоя предметных посредников для решения задач над множеством интегрируемых неоднородных распределенных информационных ресурсов в гибридной грид-инфраструктуре виртуальных обсерваторий. Информатика и ее применения / Брюхов Д.О., Вовченко А. Е., Желенкова О.П. [и др.] 2008. Т. 2.Вып.1. С. 234.