СОЗДАНИЕ СРЕДЫ ИНТЕГРАЦИИ РАСПРЕДЕЛЕННЫХ ИСТОЧНИКОВ ПРОСТРАНСТВЕННЫХ ДАННЫХ
И ПРИЛОЖЕНИЙ
А.В. Вершинин, асп. факультета Управления и прикладной математики Тел.: (499)135- 54- 71; E-mail: [email protected] Московский физико-технический институт (государственный университет)
http//www.mipt.ru В.А. Серебряков, д. ф.-м. н., проф., зав. отделом Систем математического обеспечения
Тел.: (495) 135-52-80; E-mail: [email protected] Вычислительный центр им.А.А.Дородницына РАН http//www.ccas.ru В.М. Ряховский, д.г.-м.н., рук. отдела Геоинформационных технологий Тел.: (495) 692-05-86; E-mail: [email protected] Государственный геологический музей им. В.И. Вернадского
http//www.sgm.ru И.А. Дьяконов, асп. Тел.:(499)135- 54- 71; E-mail: [email protected] Вычислительный центр им.А.А.Дородницына РАН http//www.ccas.ru Динь ле Дат, к. ф.-м. н. Тел.:(499)135- 54- 71; E-mail: [email protected] А.В. Шкотин, н. с. отдела Систем математического обеспечения Тел.: (495) 135-54-71; E-mail: [email protected] Вычислительный центр им.А.А.Дородницына РАН http//www.ccas.ru Н.Ю. Шульга, н. с. отдела Сетевых технологий Тел.: (495) 938-18-75; E-mail: [email protected] Межведомственный суперкомпьютерный центр (МСЦ) РАН http://www.jscc.ru/cgi-bin/show.cgi?path=/home.html&type=1
We present the solution for the problem of distributed heterogeneous geospatial data sources integration based on Semantic Web technologies. The core of the solution is a (basic) metadata scheme implemented as OWL-ontology based on the standards ISO19115 and ISO19119, as well as Russian national profile GOST-R 52573-2006 and metadata schemes that underlie the world most famous SDI, to ensure semantic interoperability of systems involved in distributed interaction.
Введение
Эффективность использования геоинформационных систем (ГИС) в различных сферах трудовой деятельности человека определяется, прежде всего, тем фактом, что более 80% информации [1], с которой сталкивается человек в своей жизни, имеет территориальную привязку. Поэтому на сегодняшний день не вызывает сомнения необходимость разработки и внедрения многопользовательских многофункциональных Интернет-ГИС, которые, в свою очередь, должны решать задачи совершенствования
существующих и разработки новых подходов к сбору, хранению, обработке и распространению растущего объема пространственной информации и сервисов.
В последние несколько лет ГИС совершили значительное продвижение в направлениях организации распределенной работы, совместного использования ресурсов и пр. При этом ввиду интеграции большого количества независимых информационных систем существенной проблемой является различная трактовка структуры и семантики информации в разных системах.
Данные могут относиться к различным предметным областям, в рамках одной иметь разные выражение и интерпретацию. Инициатива Semantic Web направлена на решение таких проблем, в ее рамках предлагаются ключевые стандарты и спецификации в области описания семантики данных. В первую очередь предлагается понятие онтологии - явной формальной спецификации разделяемой концептуализации предметной области. На основе такого формального описания можно не только структурировать данные предметной области, но и делать логические выводы на основе связей между понятиями. В рамках работы над распределенной средой интеграции пространственных данных и приложений акцент делался на использование онтологий в качестве схемы метаданных пространственных данных и сервисов.
Метаданные необходимы для эффективного управления процессами создания, хранения, обновления и обработки пространственных данных и услуг, объемы которых в последние несколько лет достигли колоссальных размеров. Однако выработать в мировом масштабе единую спецификацию пространственных метаданных практически невозможно. Несмотря на рекомендации ISO/TC211, FGDC и OGC на использование стандартов пространственных метаданных [2, 3], ситуация на рынке пространственных данных и сервисов сложилась так, что почти в каждой стране создаются свои профили пространственных метаданных [4]. В итоге различные ГИС поддерживают и рекомендуют свои профили. В частности, с 1 января 2007 года в России был утвержден и введен в действие стандарт пространственных метаданных ГОСТ Р 52573-2006 «Географическая информация. Метаданные» [5], который является профилем ISO 19115. К сожалению, российский стандарт не имеет полной совместимости с исходным международным стандартом, поэтому его необходимо откорректировать, чтобы не создавать новых технических барьеров. В связи с этим разработка или адаптация спецификации метаданных, которая помогла бы описать формат и содержание данных для достижения интеро-
перабельности, является актуальной задачей нескольких инициативных групп, представляющих различные науки о Земле.
Наиболее эффективным способом обеспечения согласованного информационного обмена в таких условиях является обеспечение так называемой семантической интеро-перабельности систем на основе стека технологий Semantic Web: RDF, RDFS, OWL. Язык веб-онтологий OWL [6] предоставляет развитые возможности для описания предметных областей взаимодействующих систем, дающий машинно-ин-терпретируемые определения фундаментальных понятий в предметной области и отношениях между таковыми в онтологии.
В рамках данного исследования были проанализированы международные и российские спецификации пространственных метаданных и предложен простой, но в то же время достаточно полный профиль метаданных для пространственных данных и сервисов, ориентированный на максимальную совместимость, адаптируемость и расширяемость как для российских, так и для зарубежных поставщиков и потребителей пространственных ресурсов, что и привело к онтологическому подходу формирования метаданных.
Основной целью проводимых исследований является создание в рамках Единого научного информационного пространства РАН [7,8] распределенной геоинформационной среды, основанной на интеграции децентрализовано-развиваемых пространственных ресурсов ин-статутами, входящими в РАН, и запуск в работу онлайновых механизмов автоматического обмена пространственными метаданными между информационной системой РАН на базе системы ИСИР [9] и ЕНИП РАН. Следовательно, решение проблемы повышения качества программного обеспечения ГИС в рамках ЕНИП также обусловливает актуальность решаемой научной задачи.
Рис. 1. Архитектура распределенной геоинформационной среды
Пространственные метаданные
Основным принципом построения системы «ГеоМЕТА» является выделение единой (базовой) схемы метаданных, реализованной в виде OWL-онтологии на основе стандартов ISO 19115:2003 «Географическая информация. Метаданные» и ISO
19119:2005 «Географическая информация. Сервисы». Система полностью включает в себя российский стандарт ГОСТ Р 52573-2006 «Географическая информация. Метаданные». Совместимость с популярными профилями пространственных метаданных, такими как Dublin Core (DCMI), ANZLIC, UK GEMINI Gigateway Discovery Metadata Specification, AND Metadata Framework, Directory Interchange Format (DIF), Emerging Diseases in a Changing European Environment (EDEN), ESRI ArcCatalogue Profile, обеспечивает семантическую интероперабельность систем, участвующих в распределенном взаимодействии.
Цифровой стандарт геопространственных данных Federal Geographic Data Committee (FGDC) был разработан в 1994 году для описания всевозможных геопро-станственных данных. Однако стандарт, включающий 334 различных элемента, является очень сложным, при этом 119 элементов нужны только для того, чтобы включать в себя другие элементы, что затрудняет использование стандарта. В 2003 году ISO ут-
вердила международный стандарт ISO 19115. Этот стандарт определяет более 400 элементов метаданных, объединенных в так называемые пакеты. Описание структуры метаданных дано на языке UML, который принят как стандарт де-факто для моделирования в мире геоинформационных систем. OGС и ISO/TC 211 разработали структуры метаданных и поля для описания программных интерфейсов, анонсированные как «сервис» для внешнего использования. В ISO 19119 описана структура на языке UML для сервиса метаданных, призванная способствовать разработке развитых программных средств, использующих службы каталогов для выявления доступных услуг, которые в конечном результате можно было бы связать друг с другом для формирования новых сложных сервисов.
Однако достичь согласия по поводу одной единственной спецификации метаданных в мировом масштабе практически невозможно. Несмотря на рекомендации ISO/TC211, FGDC и OGC на использование стандартов пространственных метаданных, на рынке пространственных данных и сервисов сложилась такая ситуация, что почти в каждой стране создаются свои профили метаданных, которые наследует какие-то части из более известного крупного стандарта, т.к. большое количество элементов трудны для использования. В случае необходимости либо расши-
тированныи на
ряют этот стандарт, либо сужают для конкретных областей. В итоге разные ГИС и каталоги поддерживают и рекомендуют свои профили метаданных. В частности, с 1 января 2007 года в России был утвержден и введен в действие стандарт пространственных метаданных ГОСТ Р 52573-2006 «Географическая информация. Метаданные», который является профилем ISO 19115 и подготовлен
ФГУП «Госгис-центр» и соисполнителями.
Была поставлена задача разработать простой, но в то же время достаточно полный профиль метаданных для пространственных данных и сервисов, ориен-максимальную совместимость, адаптируемость и расширяемость как для российских, так и для зарубежных поставщиков и потребителей пространственных данных, что и привело к онтологическому подходу формирования метаданных. В результате анализа различных стандартов и профилей пространственных метаданных в качестве основы для разработки схемы метаданных были взяты стандарты ISO 19115 и полностью ГОСТ Р 52573 для описания пространственных данных. На основе наследования элемента MD_Identification из стандарта ISO 19119 введен элемент SV_ServiceIdentification, который агрегирует еще три: класса SV_OperationMetadata, SV_Parameter, SV_ Service rovider, - служащих для описания сервисов, ориентированных на спецификации сервисов OGC и веб-сервисы.
На практике 22 элементов ядра ISO 19115 оказывается недостаточно для описания данных. На основе исследования различных популярных профилей метаданных и схемы обмена метаданными между международными ИПД и ГИС-системами к ядру ISO 19115 были добавлены еще 14 элементов для данных и 12 элементов для описания сервисов. В итоге ядро ГеоМЕТА для пространственных данных и сервисов состоит из 48 элементов, а всего в профиле имеются 222 элемента.
Сравнивая разработанный профиль пространственных метаданных со стандартом метаданных FGDC и ISO 19115, можно отметить, что он прост, совместим с выше-
перечисленными стандартами, поддерживает двуязычный (русский, английский) сло-
ГеоМЕТА v.3.0:2007
-ТОСТ Р 52573-2006/ (22S элемента)
Рис. 2. Профиль пространственных метаданных системы «ГеоМЕТА»
варь терминов, достаточно полон и удобен для автоматизации вычислений, так как он основан на онтологиях предметной области, описанных с помощью OWL.
Поддержка русского словаря терминов является одним из нововведений работы. Схема нацелена на то, чтобы можно было осуществлять запросы, базирующиеся на онтологиях, в противоположность поиску по ключевым словам в FGDC или ISO 19115 файлов метаданных. Мы полагаем, что требование регистрации поставщиками пространственных ресурсов с помощью нашей системы и публикации файлов метаданных не представит для них большой трудности, если сравнивать с процессом создания относительно больших и сложных FGDC или ISO 19115 файлов метаданных, которые требуются для создания наборов данных.
Архитектура системы «ГеоМЕТА»
Система «ГеоМЕТА» представляет собой платформу для создания распределенной среды интеграции неоднородных источников пространственных данных и сервисов и предоставления к этой среде единой точки входа (веб-портала), которая позволит пользователям в сфере наук о Земле:
- легко находить специализированные данные и приложения;
- производить вычислительные эксперименты;
- визуализировать результаты деятельности.
Интерфейс системы представлен веб-порталом, поэтому для ГИС-части основным
методом доступа пользователя к информации является обычный доступ к вебстраницам портала через любой распространенный браузер. Ядро системы предоставляет следующие возможности:
• управление статическим содержанием;
• хранение объектов системы (представленных КОБ-тройками) в РСУБД;
• индексирование и полнотекстовый поиск;
• обеспечение безопасности системы.
Система состоит из двух частей, в совокупности обеспечивающих решение поставленных задач - части по работе с пространственными метаданными (ГИС-части) и части по работе с приложениями для обработки пространственных данных (Научно-вычислительного портала).
Созданная таким образом схема метаданных ГИС-части системы обеспечивает возможность осуществлять каталогизацию пространственных метаданных и предоставлять их в различных форматах. Как уже было сказано ранее, доступ к системе посредством стандартного браузера является основным (но не единственным) методом работы с системой.
Интерфейс административной подсистемы в части решения первых двух из перечисленных задач представлен набором веб-
форм. Формы ввода/редактирования метаданных разделены на три части в соответствии с критерием обязательности элемента:
• первая форма содержит лишь элементы метаданных, обязательные к заполнению;
• вторая форма содержит элементы метаданных, относящиеся к «расширенной» схеме - элементы, рекомендованные к заполнению, вдобавок к обязательным;
• третья форма содержит полный набор элементов нашего профиля пространственных метаданных.
Каждая из форм, в свою очередь, поделена на блоки в соответствии с принадлежностью элементов метаданных к пакетам, описанным в стандарте ISO 19115, что позволяет сделать ввод метаданных удобным и быстрым, несмотря на большой объем и количество различных элементов.
Автоматизированный сбор метаданных, осуществляемый административной подсистемой, основан на использовании стандартов WMS и WFS. В этих стандартах определяются формат и содержание ответа на специализированный запрос getCapabilities, что позволяет автоматизированным образом извлекать основные метаданные ресурсов, хранящихся на OGC-совместимом ГИС-сервере.
Рис. 3. Ввод метаданных в систему «ГеоМЕТА»
Подсистема пользовательского доступа, FGDC, ISO 19139 через веб-интерфейс и
в свою очередь, обеспечивает работу поль- выгрузку метаданных в XML в соответствии
зователей с каталогом: со стандартом ISO 19139;
• просмотр метаданных в форматах • доступ к каталогу по программному
интерфейсу ООС
• атрибутный поиск ресурсов;
• визуализацию ГИС-данных. Страницы просмотра метаданных также
разделены на три части в соответствии с обязательностью элементов, а каждая часть разделена на блоки, аналогично формам ввода/редактирования метаданных.
Рис. 4. Получение метаданных из системы «ГеоМЕТА»
Один из возможных типов ресурса, метаданные которого могут быть зарегистрированы в системе, может быть OGC/WMS источник. Для таких ресурсов предоставляется возможность визуализации предоставляемых источником пространственных данных с использованием встроенного GIS-клиента, построенного на базе решения с открытым кодом Mapbuilder.
Научно-вычислительный портал
Одной из важнейших задач развития информационных технологий становится интеграция приложений. Все возрастающая потребность в получении «обобщенного» взгляда на программные ресурсы различных систем привела к формированию механизмов интеграции распределенных приложений, которые ориентируются на эффективную организацию доступа к внешним гетерогенным сервисам посредством согласованных интерфейсов. Научно-вычислительный портал представляет собой программный комплекс, предназначенный для интеграции на основе архитектуры SOA и стандарта BPEL4WS [11].
Функциональность Научно-вычислительного портала в рамках системы «ГеоМЕТА» сужается на область ГИС-прило-жений и обеспечивает:
• их каталогизацию и поиск;
• возможность запуска, сохранение результатов обработки;
• создание потоков работ из существующих приложений.
Под вычислительным приложением здесь понимается абстрактная сущность, описывающая некоторый исполняемый программный код, решающий конкретную вычислительную задачу. Причем с технической стороны этот код должен быть оформлен в виде веб-сервиса. Это позволяет осуществлять единообразное взаимодействие НВП с любым ВП, невзирая на особенности реализации.
Запуск вычислительного приложения на исполнение обеспечивает динамический SOAP-клиент - по WSDL-описанию строится веб-форма, позволяющая ввести все необходимые параметры для запуска соответствующего веб-сервиса. Вызов сервиса производится асинхронно, что позволяет запускать вычисления любой длительности. При ответе от сервиса пользователю, запустившему вычисления, приходит оповещение о завершении выполнения.
Использование веб-сервисов, как «атомарной» единицы ВП, позволяет использовать технологии построения и выполнения рабочих процессов. В НВП для этой цели используется BPEL-редактор, позволяющий пользователю сконструировать рабочий
процесс любой сложности из зарегистрированных в системе ВП и сохранить такой конструкт как новый ВП.
Основой каталога вычислительных приложений, как уже упоминалось ранее, является стандартный UDDI-реестр со специализированными семантическими дополнениями. Основой для разработки таких дополнений стали онтологии сервисов OWL-S и предметные онтологии геоинформатики, такие как SWEET. Использование данных
Заключение
Представление карт в Интернете не является главной целью нашей работы. Во многих случаях традиционные или электронные ГИС-карты гораздо удобнее в использовании, однако Интернет-карты характеризуются рядом принципиальных достоинств, которые невозможно получить другими способами.
• Интернет-карты очень мобильны. Их легко преобразовывать в автоматическом режиме, накладывать на них оперативную информацию, поступающую, например, при дистанционном зондировании Земли. Это делает их идеальным средством для создания различных систем мониторинга.
• Мощные коммуникативные средства Интернета позволяют очень широко представлять картографическую информацию для публичных целей. Недаром наибольшее развитие эти системы получили в туристическом и транспортном бизнесе. Даже быстро меняющаяся транспортная ситуация в городах и туристических центрах не мешает разрабатывать
онтологий обеспечит возможность автоматизированного частичного или полного построения рабочих процессов по запросам пользователя.
Также в состав НВП входит такой компонент, как динамический 8 ОАР-клиент, позволяющий динамически построить удобную веб-форму для ввода параметров вычислительного приложения, запустить его на выполнение и отобразить результат.
достаточно адекватные актуальные информационные системы, осно-ванные на представлении карт и схем в Интернете.
• К картам можно подключать доста-точно сложные большие базы данных, причем это могут быть распределенные постоянно обновляемые базы данных.
• На базе технологий Интернет-карт возможно организовать мощную систему обработки пространственной информации, используя грид-технологии.
• Использование общепринятых стандартов позволит достичь интероперабель-ности как внутри среды, так и вовне - с внешними системами.
• Использование технологий Semantic Web предоставляет огромные возможности по автоматизации деятельности ученых, связанных с использованием пространственной информации.
В этих направлениях и предполагается развивать представленную распределенную среду.
Рис. 5. Редактор BPEL-процессов
Литература
1. Де Мерс М.Н. Географические информационные системы. Основы. - М: Изд. Data + , 1999. - 450 с.
2. ISO 19115:2003 - Geographic information. Metadata. https://committees.standards.org.au/COMMITTEES/IT-004/PRIVATE/I0028/ISO%2019115%20.pdf
3. ISO 19119:2005 - Geographic information. Services. http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=39890
4. Стандарты геоданных по всему миру. http://ncl.sbs.ohio-state.edu/ica/3_spatial.html
5. ГОСТ Р 52573-2006 - Географическая информация. Метаданные. http://protect.gost.ru/document.aspx?control=7&id=74833
6. W3C: OWL Web Ontology Language Semantics and Abstract Syntax. http://www.w3.org/TR/2004/REC-owl-semantics-20040210/ , 2004.
7. Бездушный А.А., Бездушный А.Н., Серебряков В.А., Филиппов В.И.. Интеграция метаданных Единого научного информационного пространства РАН. - М.: Вычислительный центр РАН., 2006.- 238 с.
8. Бездушный А.Н., Кулагин М.В., Серебряков В.А., Бездушный А.А., Нестеренко А.К., Сысоев Т.М. Предложения по наборам метаданных для научных информационных ресурсов // Вычислительные технологии. - 2005. - Т.10.- Вып.7. - С. 29-48.
9. Бездушный А. А., Бездушный А.Н., Нестеренко А.К., Серебряков В.А., Сысоев Т.М. Архитектура RDFS-системы. Практика использования открытых стандартов и технологий Semantic Web в системе ИСИР //Пятая Всеросс. научн. конф: «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL'2003, Санкт-Петербург, 2003. http://rcdl2003.spbu.ru/proceedings/J1.pdf
10. Вершинин А. В. Реализация распределенной Информационно-аналитической системы по наукам о Земле на основе технологий ГИС и грид // 49-я Научн. конф. МФТИ. - М.: МФТИ, 2006.
11. Нестеренко А.К., Данилина А.А., Сысоев Т.М., Бездушный А.Н., Серебряков В.А. Автоматизация процессов интеграции распределенных информационных ресурсов // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Тр. VIII Всеросс. научн. конф. /Ярославск. гос. ун. им. П.Г. Демидова. - Ярославль, 2006. - С. 279-290.
БАНК СЕЙСМОЛОГИЧЕСКИХ ДАННЫХ КАМЧАТКИ
Е.И. Гордеев, академик РАН, д.ф.-м.н., директор Тел.: (4152) 25-06-03; E-mail: [email protected] Институт вулканологии и сейсмологии ДВО РАН http://www.kscnet.ru/ivs В.Н. Чебров, к.т.н, директор Тел.: (4152)25-88-98; E-mail: [email protected] В.И. Левина, зав. лабораторией Сводной обработки Тел.: (4152)43-18-73; E-mail: [email protected] Г.М. Бахтиарова, зав. Сектором программного обеспечения ЛСО Тел.: (4152)43-18-74; E-mail: [email protected] С.Л. Сенюков, зав. лабораторией Исследований сейсмической и вулканической активности
Тел.: (4152)43-18-36; E-mail: [email protected] Е.А. Пантюхин, программист 1-й кат. Группы системного сопровождения Тел.: (4152)43-18-43; E-mail: [email protected] Камчатский филиал Геофизической службы РАН (г. Петропавловск-Камчатский)
http://www.emsd.ru
Kamchatsky Branch of Geophysical Survey (KB GS RAS) maintains the Seismological Data Base with the volume information of 3.5 Tb.
The seismological data information is widely used for performance of scientific and applied works, that includes studying physics of source earthquake, surveying regional seismicity and seismic zoning, studying of velocity and strain- stress status of the environment.
Введение ляется организация хранения данных на-
Одним из необходимых условий проведения успешных научных исследований яв-
блюдений и результатов их обработки в
Одним из необходимых условий прове-
форме баз данных, обеспечивающих доступ