Научная статья на тему 'Организация информационных ресурсов в распределенной информационно-вычислительной системе, ориентированной на решение задач молекулярной спектроскопии'

Организация информационных ресурсов в распределенной информационно-вычислительной системе, ориентированной на решение задач молекулярной спектроскопии Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
79
20
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Козодоев А. В., Привезенцев А. И., Фазлиев А. З.

The work describes data and metadata used in the ICS "Atmospheric Spectroscopy". Organization of metadata exchange in the distributed information system for molecular spectroscopy is discussed.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Организация информационных ресурсов в распределенной информационно-вычислительной системе, ориентированной на решение задач молекулярной спектроскопии»

ОРГАНИЗАЦИЯ ИНФОРМАЦИОННЫХ РЕСУРСОВ В РАСПРЕДЕЛЕННОЙ

_____и

ИНФОРМАЦИОННО-ВЫЧИСЛИТЕЛЬНОЙ СИСТЕМЕ, ОРИЕНТИРОВАННОЙ НА РЕШЕНИЕ ЗАДАЧ МОЛЕКУЛЯРНОЙ СПЕКТРОСКОПИИ

А. В. Козодоев Институт мониторинга климатических и экологических систем СО РАН, Томск, Россия Привезенцев А.И.

ГТЛ Л

Томский государственный университет систем управления и радиоэлектроники, Томск, Россия

А. З. Фазлиев Институт оптики атмосферы СО РАН, Томск, Россия e-mail: kav@iao.ru, remake@iao.ru, faz@iao.ru

The work describes data and metadata used in the ICS "Atmospheric Spectroscopy". Organization of metadata exchange in the distributed information system for molecular spectroscopy is discussed.

Введение

Молекулярная спектроскопия является одним из широко используемых во многих прикладных исследованиях разделов физики. Предметом изучения молекулярной спектроскопии являются спектральные свойства молекул. Детальное изучение спектральных свойств молекул не закончено до сих пор. Связано это с тем обстоятельством, что в расчетах физических характеристик атмосферы используются сотни тысяч линий, каждая из которых описывается десятком параметров. Работа с такими массивами данных требует, с одной стороны, предметной систематизации данных, а с другой — программных средств для их обработки. Систематизация спектральных данных проведена теоретиками несколько десятков лет назад. Массивы данных о спектрах молекул концентрируются в банках данных (БД), среди которых наиболее известны HITRAN [1] и GEISA [2]. Процесс наполнения БД далек от завершения. Современная техника измерения спектров позволяет получать данные с большей точностью и в тех диапазонах длин волн, в которых ранее измерения не проводились. Количество расчетных спектров растет еще более стремительно, например, за последние десять лет количество данных по молекуле воды увеличилось более чем в сто

© Институт вычислительных технологий Сибирского отделения Российской академии наук, 2005.

раз. Растет также число исследовательских групп. Все это указывает на необходимость использования современных информационных технологий для коллективной работы с информацией.

В России работы по созданию информационных ресурсов в области молекулярной спектроскопии ведутся в Институте оптики атмосферы СО РАН с начала 80-х годов [3]. Качественный скачок в создании информационных систем (ИС) произошел с появлением персональных компьютеров в начале 90-х годов, когда появились системы (например, [4]), работающие на клиентском месте. На следующем этапе, когда был создан доступный в Интернете информационный ресурс (http://spectra.iao.ru) [5], опирающийся на БД HI-TRAN и GEISA, Интернет-технологии позволили сделать значительный шаг в развитии информационно-вычислительных систем (ИВС) коллективного использования по молекулярной спектроскопии.

В последние три года произошло переосмысление принципов создания ИВС как в целом в информатике [6], так и в частности в молекулярной спектроскопии [7]. Стала явной необходимость создания информационных ресурсов, содержащих не только параметры спектральных линий, но и ряд других физических величин, связанных с молекулярной спектроскопией. Структура этих данных описана ниже. Более того, потребовалось расширение набора метаданных, используемого в БД HITRAN и GEISA. Стало очевидным, что для коллективной работы в ИВС необходимо предоставить пользователю возможность самостоятельного формирования структуры массивов спектральных данных и их наполнения конкретными значениями, проведения на их основе расчетов и сравнения результатов с наборами экспериментальных данных. Наша работа в этом направлении состоит, в первую очередь, в создании системы ввода данных произвольной структуры.

Стоит отметить, что современный подход к анализу структуры ИВС с доступом в сети Интернет выделяет три ее уровня: уровень данных и вычислений, информационный уровень и уровень знаний. Такой подход тесно связан с трактовкой информационного ресурса как связанных между собой данных и метаданных. Работа с метаданными относится к информационному уровню [6].

Данные — это критический ресурс, который необходимо сохранять, защищать и организовывать доступ к ним для всех пользователей и в любое время суток. Приемлемая и эффективная стратегия хранения данных основана на использовании распределенных архивов, управляемых теми, кто обладает предметным знанием о данных [8]. Следует отметить также, что в силу доступности сети Интернет значительный импульс получила коллективная работа с данными и знаниями. Одной из форм такой работы являются распределенные информационно-вычислительные системы (РИВС). В статье представлена организация обмена метаданными в РИВС "Молекулярная спектроскопия".

Построение современных ИВС предусматривает создание ресурса как самоописывающегося документа, т. е. документа, содержащего данные наряду с метаданными, формируемыми в процессе создания документа пользователем. В таких системах значительно возрастает роль метаданных, которые, с одной стороны, упрощают работу по внутреннему обмену данными в ИВС, с другой стороны, обмен метаданными в распределенных системах обладает большей текучестью, а значит, облегчает работу пользователя по поиску ресурсов в специализированной сети. Кроме того, метаданные, становясь доступными поисковым машинам, позволяют проводить семантический разбор информации в глобальной сети. Последнее обстоятельство важно в связи с тем, что большинство существующих в сети Интернет информационных систем являются документно-ориентированными и они слабо обеспечены метаданными. Так, в Web сейчас находятся петабайты информации, а

поиск информации крайне неэффективен или просто невозможен (как правило, доступен контекстный поиск). Результаты обработки пользовательских запросов поисковыми машинами характеризуются высоким уровнем информационного шума [9]. Более того, большинство ресурсов, а это информационные ресурсы "скрытого" Web (около 70% всех ресурсов), остается с точки зрения организации их структуры и семантики "черным ящиком". Пользователи сети Интернет обладают весьма ограниченными средствами доступа к таким ресурсам. Их структура и содержание им неизвестны, отсутствуют возможности навигационного доступа, доступа с помощью поисковых машин. Наиболее "закрыты" среди информационных ресурсов базы данных, интегрированные в сайты [9]. Появление в течение последних пяти лет ряда открытых стандартов W3C [10, 11] по описанию структур данных, метаданных и онтологий позволяет существенно изменить ситуацию в этом направлении. Выполненное в данной работе описание метаданных полностью опирается на эти стандарты.

1. Структура информационных ресурсов в молекулярной спектроскопии

Данные, относящиеся к молекулярной спектроскопии, можно разделить на три группы: фундаментальные характеристики молекул, параметры спектральных линий и значения спектральных функций.

Теоретическое изучение спектров основано на знании фундаментальных характеристик молекул. С их помощью рассчитываются параметры спектральных линий, применяемые для нахождения спектральных функций, например коэффициента поглощения.

Экспериментальное изучение параметров спектральных линий и спектральных функций всегда было задачей спектроскопии. Ясно, что даже одна и та же физическая измеренная и рассчитанная величина будет обладать разным набором метаданных. Например, для экспериментальных данных ключевыми являются разрешение и точность измерения величины, тогда как для расчетных важны происхождение исходных параметров, на основе которых проводится расчет, методы и физические модели, используемые в расчете.

Среди выделенных трех групп данных основной объем данных связан с параметрами спектральных линий молекул. Для атмосферных наук, в частности, наиболее важны спектральные данные о почти полусотне молекул. Отметим, что структура данных, присущая БД HITRAN и GEISA, ориентирована на решение прикладных задач, и набор физических величин в них соответствует области их применения — спектроскопии атмосферных газов.

1.1. Структуры данных

Анализ предметной области показывает, что в молекулярной спектроскопии существуют следующие смежные структуры данных.

1. Фундаментальные характеристики молекулы, определяющие энергию молекулы. В зависимости от способа описания ими могут быть либо параметры полного молекулярного гамильтониана (потенциальная энергия, дипольный момент), либо параметры эффективного гамильтониана (вращательные, центробежные и резонансные постоянные, параметры эффективного дипольного момента). К ним необходимо добавить квадрупольные, октупольные моменты молекул и другие параметры, характеризующие межмолекулярное взаимодействие в газах.

2. Параметры спектральных линий, распределенные по группам:

— параметры изолированной спектральной линии (интенсивность, центр линии, энергия нижнего уровня, статистический вес верхнего и нижнего состояний, момент перехода и т.д.);

— параметры идентификации (колебательная и колебательно-вращательная идентификация);

— параметры, обусловленные столкновениями (полуширина, сдвиг давлением, температурная зависимость полуширины и т. д.).

3. Спектральные функции, к которым относятся коэффициент поглощения, функция пропускания, сечение поглощения и т. д.

Существующая иерархия этих структур данных является структурой типа матрешки. Фундаментальные характеристики молекул необходимы для расчета данных более высокого порядка, а именно параметров спектральных линий, а они, в свою очередь, для расчета спектральных функций. Очевидно, что при формировании самоописывающегося документа структура метаданных также обладает структурой типа матрешки. Ниже детально описаны только параметры спектральных линий.

1.2. Параметры спектральных линий 1.2.1. Физические величины и их атрибуты

За основу набора физических величин, используемого в качестве параметров спектральной линии, нами взят набор из банка данных ШТИЛ^ Мы расширили его, дополнив полуширинами, обусловленными столкновениями с рядом молекул (Лг, N6, Н20 и т.д.), а также ввели ряд атрибутов у таких величин, как центр линии, интенсивность и полуширина. К числу этих атрибутов относятся способ получения физической величины (экспериментальный, расчетный или синтетический), ее шкала значений (абсолютная или относительная) и величина ошибки (класс ошибки или абсолютная величина). Подход, используемый в БД Н1ТИЛ^ не предусматривает явного задания этих атрибутов, но, например, неявно информацию о способе получения физической величины можно извлечь из библиографии, размещенной в нем. Полный список параметров спектральных линий и их атрибутов представлен ниже.

Параметры спектральной линии изолированной молекулы:

— центр линии (экспериментальный, расчетный или синтетический);

— интенсивность (экспериментальная, расчетная или синтетическая, абсолютная или относительная);

— энергия нижнего уровня;

— статистический вес нижнего уровня;

— идентификация.

Параметры спектральной линии неизолированной молекулы (газ):

— сдвиг давлением;

— температурная зависимость полуширины;

— полуширина, обусловленная самоуширением, уширением другими веществами или их смесями (экспериментальная, расчетная или синтетическая).

Сопутствующие данные:

— библиографическая ссылка для каждой линии;

— точность (класс ошибки или абсолютная ее величина) для центра линии, интенсивности и уширения.

1.2.2. Идентификация

Отдельно следует выделить идентификацию спектральной линии. Этот параметр представляет собой набор символов, уникально идентифицирующих каждую спектральную линию данной молекулы или изотопомера. По своему происхождению спектральная линия связана с переходом молекулы из одного состояния в другое. Состояние молекулы характеризуется уровнем энергии, который, в свою очередь, можно связать с колебательными и колебательно-вращательными движениями атомов в молекуле. Каждый уровень энергии идентифицируется двумя наборами символов, один из которых определяет тип колебаний атомов в молекуле, а другой — тип вращательного движения атомов в молекуле. В силу того, что спектральная линия связана с двумя состояниями молекулы, для ее идентификации используются четыре группы квантовых чисел: квантовые числа верхнего и нижнего колебательных состояний и квантовые числа верхнего и нижнего вращательных состояний. Число квантовых чисел, необходимое для идентификации колебательного и вращательного уровней, зависит от группы симметрии молекулы. Отметим, что в зависимости от физических условий молекула может менять симметрию. В нашей работе для идентификации колебательного или вращательного уровней молекулы могут быть использованы до двенадцати параметров, каждый из которых содержит до двух символов (колебания) или до трех символов (вращения). В таблице приведены квантовые числа

Рис. 1. Интерфейс для работы с описанием молекул, необходимым при обработке ввода идентифицированных линий молекулы.

Пример параметров идентификации для молекул различных групп симметрии

Группа симметрии Идентификация колебательных Идентификация вращательных

состояний состояний

С2У у; у2 у3 л' Ка кс

ОооЬ у; у2 г2 у3 г' БГ У 8уш

С^ооу VI Вг У

СзУ у; У'2 1'2 У'з 1'3 У'4 1'4 Г ■У Ка кс

для нескольких групп симметрии, используемые для идентификации уровней молекул. В настоящее время в ИВС включены молекулы тринадцати групп симметрии.

На рис. 1 показана таблица, в которой для каждой молекулы, спектр которой содержится в ИВС, определены спектроскопическая модель, класс, группа симметрии и квантовые числа для ее колебательного и вращательного состояний. На основании этой таблицы при вводе пользователем идентифицированных уровней молекулы осуществляется проверка корректности ввода данных. Подробнее процедура ввода данных пользователем описана ниже.

1.2.3. Подсистема ввода данных. Параметры спектральных линий

Ввод данных пользователем осуществляется в несколько этапов (рис. 2). На первом этапе создается описание данных, включающее ряд стандартных метаданных для описания ресурсов и термодинамические условия, при которых получен массив чисел, вводимый пользователем. На втором этапе пользователь формирует структуру данных для ввода. Обязательными элементами этой структуры являются центры линий и их интенсивности. На третьем этапе пользователь указывает значения атрибутов, выбранных им для ввода физических величин. Входные данные пользователь организует в виде набора колонок в файле. Описание последовательности колонок в файле он определяет на втором этапе ввода данных. После загрузки файла на сервер он преобразуется в ХМЬ-документ, данные которого проверяются на соответствие значений ограничениям ХМЬ-схемы. Корректный документ подлежит дальнейшей обработке и размещению в БД. Ресурс, введенный поль-

Рис. 2. Общая схема загрузки данных.

зователем, доступен только пользователю.

В настоящее время операции с метаданными для БД и со XML-схемой не связаны между собой. Схема создается вручную, а для создания перечня параметров спектральных линий и их атрибутов создан web-интерфейс.

Подсистема ввода данных имеет ряд ограничений. Во-первых, за один раз можно ввести данные только по одной молекуле. Во-вторых, поддерживаются только два типа структуры данных в файле: "колоночный" файл, в котором строка разбита на колонки строго фиксированной ширины и нет разделителей между ними, и CSV, в котором ширина колонки не фиксирована и требуются разделители между колонками. В-третьих, порядок квантовых чисел при вводе данных об идентификации молекул жестко фиксирован. После загрузки данные становятся доступными для выполнения с ними любых операций в ИВС.

2. Метаданные в молекулярной спектроскопии

Как отмечено выше, большая часть имеющихся в Интернете информационных систем является документно-ориентированной. В научной вычислительной системе результаты вычислений можно также представлять в виде документов, содержащих метаданные. Выбор набора метаданных определяется задачами, требующими их формирования. Например, для описания документа как абстрактного информационного ресурса ограничиваются форматом Dublin Core (DC) [12], для описания структуры документа используют формат PRISM [13] и т.д. Эти уровни абстракции достаточно далеко от предметной области.

В настоящее время описание метаданных для молекулярной спектроскопии отсутствует. Ниже мы кратко остановимся на описании подхода, использованного нами при формировании таких метаданных на примере метаданных для спектральной функции.

Основой ИВС являются данные и вычисления. Операции с данными проводятся в рамках физической и математической модели предметной области. Ключевым моментом для молекулярной спектроскопии является существование двух способов получения данных: экспериментальный и расчетный. Для каждого из этих способов сформированы метаданные. Метаданные для экспериментальных данных включают описание устройств, условий эксперимента и т. д. Метаданные для расчетных данных тесно связаны с метаданными, используемыми при описании физической и математической моделей молекулярной спектроскопии. Опуская обсуждение вопроса о полноте метаданных предметной области, заметим, что в нашей работе каждый документ обеспечивается двумя типами метаданных: форматным (DC) и предметным. Далее, для краткости, используется термин "аннотация" для обозначения набора нескольких типов метаданных, связанных с документом. Основное назначение аннотации — это создание возможностей для машинного семантического разбора информационных ресурсов научной ИВС.

2.1. Формирование и отображение метаданных

Рассмотрим поэтапную организацию работы с метаданными в распределенной системе "Молекулярная спектроскопия" на примере расчета коэффициента поглощения: от создания документа и его метаданных до механизма обмена метаданными.

Физическая и математическая модели, используемые для расчета коэффициента поглощения, определяют следующие функции для программной реализации:

— ввод и регистрацию данных по коэффициенту поглощения;

— обеспечение средств для расчета коэффициента поглощения с возможностью сравнения полученных результатов с результатами других источников;

— хранение информационных ресурсов в формате XML, а их аннотаций — в виде RDF-описаний в общем реестре;

— обмен аннотациями по коэффициенту поглощения в РИВС "Молекулярная спектроскопия".

В РИВС "Молекулярная спектроскопия" созданы следующие модули работы с информационными ресурсами по коэффициенту поглощения:

— модуль формирования данных и метаданных по коэффициенту поглощения;

— модуль расчета коэффициента поглощения;

— модуль сравнения рассчитанных данных с результатами других источников;

— модуль отображения данных;

— модуль отображения метаданных;

— модуль поддержки обновлений аннотаций в РИВС;

— сборщик "мусора" в реестре аннотаций и БД;

— модуль обмена аннотациями в РИВС.

Структура информационного ресурса, содержащего экспериментальные данные по коэффициенту поглощения, представлена на рис. 3.

Работа с метаданными по коэффициенту поглощения для экспериментальных данных состоит из двух этапов. Первый этап включает в себя формирование метаданных на основе опубликованного описания эксперимента. Второй этап состоит в формировании метаданных для результатов научного эксперимента. Запись аннотации в виде RDF-документа проводится на втором этапе. Проверка корректности вводимых данных выполняется по типовой схеме: данные пользователя преобразуются в XML-документ, и при разборе используется соответствующая XML-схема. После разбора данные заносятся в БД.

При формировании RDF-документа по схеме Dublin Core используются данные о пользователе и ряд технических данных, имеющихся в РИВС. Метаданные для ресурса (DC) и метаданные для коэффициента поглощения формируют аннотацию ресурса. Аннотации ресурсов собраны в РИВС в реестре аннотаций.

Рис. 3. Метаданные для описания экспериментальных данных по коэффициенту поглощения.

В РИВС метаданные для коэффициента поглощения, измеренного в эксперименте, формируются вручную, т. е. через формы вносятся пользователем или администратором. Метаданные для коэффициента поглощения, рассчитанного в РИВС, формируются автоматически при работе пользователя в диалоговой системе. На рис. 4 показан ряд форм, используемых в диалоговой системе. К числу метаданных для рассчитанного коэффици-

q Выберите вещество < Ввбрлко: СО, > Г Выбр-ать и»гол

g Задайте параметры

Показать | [ïû рмдои ci [э Всего 3? > | » 1

N Выбор Вещество Название

1 С MjO Вод«

г а со2 углекислый Г«* (ДМ^МД гГЛ«р0Д«>

э с SOj Д«гокис» с»ры

с 0» 0>Он

S Гг N20 3«кис* 4>0Т4

6 Гг со угарней г*j (оксид |т«род«)

7 г СИ, Н«г«и

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

в Гг Ог №УТ«К|«иьпррой

9 г мо Окис» «01«

10 с NOj М&Т0КИС® 4>0Т*

11 1 г МНЭ Хитчк

12 г MN0) АТОГМ«« КИСЛОТ*

13 г 0« fig^KpVT

14 с HF Фтористооодороди»|> кислот«

15 с HCI хлооистыА оодород

1« Гг не« ЬрОниСТОООДОРОДм«« КИСЛОТ«

17 Гг HI Йоди«« кислот«

Спектральный диапазон (cm'1) |Э40С - 13500

Температура («К) |зоо

Давление h

Интенсивность Значения | больше |1е-34

Показать 1120 рядов от Г Всего 1 Настройки [

N Выбор Название Число линии в заданном Число линии в

диапазоне полосам

1 г HITRAN 42S 2042

(tort)

Величина обрывания контура (cm*1): |100

Тип контура: | Контур Лорентца jJ

Г Фактор разбиения: 1

fi число разбиений: [»С

О Загрузить файл: Browse 1

I" Сохранить результат

Рис. 4. Расчет коэффициента поглощения: а — выбор вещества; б — задание спектрального интервала и термодинамических параметров; в — выбор источника данных для параметров спектральных линий; г — задание количества точек расчета, типа контура спектральной линии и величины обрезания контура.

(J Аннотация

DublinCore XML

Вещество Термодинамические условия

Поглощающий газ С02 Температура (°К) 613

Уширяющий газ Аг Давление (atm) 0.0000011-59

Массив данных Давление уширяющего газа (atm) 0.0000011-48

Частоты перехода (число значений) (сгтГ1) 7 Спектральные параметры

Разрешение (cm-1) 0

Коэффициент поглощения (число значений) (Ат'2 ст"1, ехр) 7 Длина пути (m) 4.4

Ошибки No Интервал частот (cm"1) 2400-2450

Литература

Авторы Boissoles J., Menoux V., LeDoucen R., Boulet С,, Robert D

Название статьи Collisionally induced population transfer effect in infrared absorption spectra, III. Temperature dependence of absorption in the Ar-broadened wing of C02 nu3 band

Журнал, год издания, том, страницы J.Chem.Phys. 93, No.4, 2217-2221 (1990)

Комментарий Полное давление, up to 60 bar Давление поглощающего газа 20% C02 + 80% Ar

Рис. 5. Представление аннотации для коэффициента поглощения.

ента поглощения относятся спектральный диапазон, температура, давление, ограничение на интенсивность линии, тип контура, величина обрывания контура, способ разбиения спектрального интервала при расчете и т. д.

Результат расчета коэффициента поглощения может быть представлен в виде Ыш1-страницы, содержащей его табличное или графическое представление, а также ссылки на аннотацию для этого информационного ресурса. На рис. 5 показано табличное представление аннотации для коэффициента поглощения, измеренного в эксперименте. При отображении аннотации формируются ссылки на метаданные по схеме БС и ХМЬ-документ, содержащий данные эксперимента.

2.2. Работа с метаданными в распределенной ИВС

В РИВС в зависимости от способа обмена данными выделяют два типа узлов: базовые узлы и узлы-поставщики. Между базовыми узлами происходит обмен ресурсами, а между узлами-поставщиками и базовыми узлами — обмен аннотациями ресурсов. Базовые узлы этой системы расположены в Томске, Санкт-Петербурге, Нижнем Новгороде и Москве. В настоящее время функционируют два базовых узла с адресами http://saga.atmos.iao.ru/ и http://saga.molsp.phys.spbu.ru/. Создание узлов-поставщиков ориентировано на организации, являющиеся собственниками информационных ресурсов в области молекулярной спектроскопии, например кафедры вузов. Они обеспечиваются типовым программным обеспечением для поддержки узла-поставщика.

Для работы с аннотациями в РИВС используются реестры аннотаций, которые по сути являются хранилищем web-контента. На практике для структурирования такого хранилища используются XML-стандарты агрегирования данных RSS и Atom [14, 15]. В нашей работе используется типовой для RDF контейнер Bag.

На рис. 6, а схематически представлена структура реестра аннотаций в РИВС "Молекулярная спектроскопия". Сводный реестр аннотаций узла в распределенной системе

а ОЬщий реестр сервера Ю=3

Реестр Current Реестр Remotel -|S Реестр Remote2

Аннотация 1 Аннотация 11 Аннотация 21 Аннотация 22

Аннотация 2 Аннотация 12

Аннотация 3 Аннотация 13

Аннотация 4 Аннотация 14 Аннотация 23

q Актуализация реестра аннотаций узла Ю=3

в Обмен аннотациями документов

Реестр Общий

Реестр Curren U2Ü t

Реестр Remote U1 2

Реестр Update 2

Аннотация 11

Аннотация 12

Аннотация 13

Аннотация 14

-\1

U2

U1

Реестр Current Реестр Update 1 -pi Реестр Update 2

Аннотация 1 Аннотация 1 Аннотация 1

Аннотация 2 Аннотация 2 Аннотация 2

Аннотация 3 Аннотация 3 Аннотация 3

Аннотация 4 Аннотация 4 Аннотация 4

Реестр Общий

Реестр Curren U1J t

Реестр Remote U2 1

К

Реестр Update 1

Аннотация 21

Аннотация 22

Аннотация 23

Рис. 6. Реестр аннотаций (Current, Remote) в РИВС (а); реестры аннотаций, актуализирующиеся при работе с документом (Update) (б); обмен аннотациями документов между двумя узлами РИВС (в).

состоит из реестра аннотаций данного узла (Current) и реестров аннотаций удаленных узлов (Remote) распределенной системы. Для администратора узла они различаются правами доступа. Для реестра аннотаций данного узла возможна полноценная работа с XML-документами и их аннотациями (загрузка, редактирование). Для реестров удаленных узлов возможен только просмотр XML-документов и их аннотаций.

Модуль поддержки обновлений аннотаций документов в РИВС используется для формирования на текущем узле реестров обновлений (Update N) для всех удаленных базовых узлов РИВС. Эти реестры обновлений содержат актуализированные аннотации данного узла (рис. 6, б).

Модуль обмена аннотациями необходим для синхронизации содержания реестров базовых узлов в РИВС. Синхронизация происходит путем обмена содержимым реестров обновлений. Обмен содержимым реестров обновлений происходит по pull технологии, т. е. по запросу с удаленного базового узла ему передается предназначенный для него реестр обновлений (рис. 6, в).

Программное обеспечение для формирования данных и аннотаций написано на PHP с использованием типовых модулей для работы с MySQL и XML, а также RAP (RDF API for PHP). При создании модулей работы с реестром аннотаций применялась технология сервлетов, использующая API Jena и JDOM [16-18]. Генерация HTML-страниц из XML-документов осуществляется с помощью XSLT-преобразований. Для обмена аннотациями используется технология Web-services, а именно подсистема SOAP на Java-Axis [19].

Заключение

Описана структура информационных ресурсов создаваемой распределенной информационно-вычислительной системы "Молекулярная спектроскопия". Предложена структура данных для молекулярной спектроскопии, на примере параметров спектральных линий показан механизм ввода данных пользователя в РИВС, описаны метаданные для коэффициента поглощения и процедура обмена метаданными.

Авторы благодарят чл.-корр. РАН С.Д. Творогова, А.Д. Быкова и Б.А. Воронина за консультации и помощь при определении структуры данных в молекулярной спектроскопии и Н.А. Лаврентьева за реализацию программ для расчета коэффициентов поглощения газов.

Список литературы

[1] HITRAN, http://www.hitran.com.

[2] jacqüinet-husson n., Arie e. et al. The 1997 spectroscopic GEISA databank // JQSRT. 1999. Vol. 62. P. 205-254. (http://www.ara.polytechnique.fr).

[3] Войцеховская О.К., Млкушкин Ю.С., Попков А.И. и др. Структура и принципы реализации подсистемы формирования банка параметров спектральных данных // Тез. докл. 6-го Всесоюз. симп. по молекулярной спектроскопии высокого и сверхвысокого разрешения. Томск, 1982. Ч. 2. С. 42-44.

[4] goloyko v.f., Nikitin a.v., Chürsin a.a., Tyüterey Vl.G. Information system AIRSENTRY for modeling atmospheric IR-spectra and radiation transmission in the atmosphere // Proc. 2nd Intern. Workshop. ADBIS'95. M., 1995. Vol. 2. P. 12-14.

[5] Бавиков Ю.Л., Барв А., Головко В.Ф., Тютерев В.Г. Интернет-коллекции по молекулярной спектроскопии // Тр. 3-й Всерос. конф. по электронным библиотекам. Петрозаводск, 2001. С. 183-187.

[6] De Roüre D., Jennings N., Shadbolt N. A Future e-Science Infrastructure, Report commissioned for EPSRC/DTI Core e-Science Programme, 2001. 78 p.

[7] Родимова О.Б., Творогов С.Д., Фазлиев А.З. Онтология по молекулярной спектроскопии атмосферных газов // Тр 5-й Всерос. конф. "Электронные библиотеки: перспективные методы и технологии, электронные коллекции". СПб., 29-31 октября 2003. С. 211-215.

[8] Preserving Scientific Data On Our Physical Universe, National Academy Press, Washington, D.C., 1995.

[9] Когаловский М.Р. Перспективные технологии информационных систем. М.: ДМК Пресс; Компания АйТи, 2003. 288 с.

[10] RDF/XML Syntax Specification (Revised), W3C Recommendation 10 February 2004. http://www.w3.org/TR/2004/REC-rdf-syntax-grammar-20040210

[11] OWL Web Ontology Language Semantics and Abstract Syntax, W3C Recommendation 10 February 2004. http://www.w3.org/TR/2004/REC-owl-semantics-20040210/

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

[12] The Dublin Core Metadata Initiative. http://dublincore.org/

[13] Publishing Requirements for Industry Standard Metadata. http://www.prismstandard.org/

[14] RSS Specification. http://blogs.law.harvard.edu/tech/rss

[15] The Atom Project. http://www.intertwingly.net/wiki/pie/FrontPage

[16] Мак-Лахлин Б. Java и XML. СПб.: Символ-Плюс, 2002. 544 с.

[17] Хавивуллин И.Ш. Разработка Web-служб средствами Java. СПб.: БХВ-Петербург, 2003. 400 с.

[18] Холл М. Сервлеты и Java Server Pages. СПб.: Питер, 2001. 496 с.

[19] The Apache Software Foundation. http://ws.apache.org/axis/

Поступила в редакцию 18 марта 2005 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.