Научная статья на тему 'Модель виртуальной среды для обмена результатами научных исследований'

Модель виртуальной среды для обмена результатами научных исследований Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
70
10
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Гуськов А. Е.

Бул жумыста гылыми зерттеу нәтижелерін нэтижелермен алмасу үшін виртуалъді ортаны қуру бойынша бір мәмілгге келу жолдары қарастырылган.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Гуськов А. Е.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The given article suggests concept considerations for creation a virtual environment for changing by science investigation outcomes. The main aim of the workis to define the main principals of virtual environment function and future work consists of workup details of the function and interjection of its parts.

Текст научной работы на тему «Модель виртуальной среды для обмена результатами научных исследований»

УДК 004.738.52

I МОДЕЛЬ ВИРТУАЛЬНОЙ СРЕДЫ ДЛЯ ОБМЕНА РЕЗУЛЬТАТАМИ НАУЧНЫХ ИССЛЕДОВАНИЙ

А.Е. Гуськов

Институт вычислительных технологий СО РАН, Новосибирск

1. Введшие

Немаловажную роль в научной деятельности играет возможность использования результатов других исследователей. В связи с этим существует целый ряд проблем, таких как поиск данных, их адаптация для собствашой исследовательской среды, настройка канала получшия актуальных данных.

Поиск является наиболее востребованной функцией в информационном обществе; на сегодняшний день разработано большее число всевозможных инструментов, реализующих функции поиска в разнообразных условиях и с различными критериями. Отметим, однако, что фундамаггальная, с точки зршия поиска, проблема Интернета - отсутствие стандартных механизмов классификации, каталогизации и систематизации ресурсов - не позволяет осуществлять поиск достаточно эффективно Один из возможных вариантов - создание «подсети» Интернет, ресурсы которей удовлетворяют определгнным правилам, допускающим их автоматизированную аналитическую обработку.

После получошя нужного ресурса возникает проблема его использования в собственной среде. Идеальней является ситуация, когда формат содержимого ресурса совпадает с форматом, который использует исследователь - например, когда формат определяется стандартом представления предметных данных определенной направлж-ности. Такими стандартами, например, являются: SEGY - геофизические данные, FITS - астрономические данные, SDF - химические данные. Однако если формат ресурса не согласован с требуемым форматом, исследователю придется создавать или искать средства преобразования форматов. В общем же случае решить эту задачу пока возможным не представляется. Тем ж менее, одной из целей работы, в рамках которей написана эта статья - предложить механизм конвертации (преобразования) ресурсов из одного формата другей, причем достаточно общий, чтобы быть применимым к определенному классу ресурсов.

Следующий логический шаг - автоматизация функции получения данных из внешних источников. Несмотря на свой сервисный характер, данная функция содержит несколько композитов, требующих отдельной технологической проработки. Так, необходимо определить механизмы обнаружения фактов обновления или появления новых ресурсов, определить процедуру получения ресурсов с учетом требуемого формата.

Основной целью исследования является разработка модели виртуальной среды, предназначат ей для комплексного решения задачи распространения наукоемких ресурсов среди заинтересованных групп исследователей в соответствии с их требованиями к способу представления ресурсов.

Заметим, что существующие решения поставлашой задачи жестко ориштированы на конкретную предметную область и соответствующие ей модели данных. Другой класс альтернативных решений имеет характерного представителя - Microsoft Share-Point. Данный продукт предоставляет средства обмена документами и ориентирован на корпоративный электронный документооборот. Здесь основной единицей манипуляции является файл, причем его содержимое системой никак не анализируется. Кроме того, SharePoint имеет средства поддержки Web Services - технологии обмена слабоструктурированными данными в формате XML. Отметим также, что SharePoint нг предоставляет дополнительных средств, позволяющих реализовать полноценный автоматизированный обм® разнородными данными.

Прежде чем перейти к постановке задачи, нэобходимо уточнить объект исследования. К результатам научных исследований, в первую очередь относятся:

Данные, полученные в результате научных исследований, физических или натурных экспериментов и представленные в виде электронных коллекций, документов, изобра-жашй, многомерных массивов и т.д.

Модели, описывающие принципиальные компоненты, специфику и ограничения предметной области с необходимой степшью детализации. Модели являются, своего рода «каркасом» предметной области, которому соответствуют данные и в рамках которого функционируют алгоритмы.

Алгоритмы, разработанные для решения определенного класса задач в соответствии с определенней моделью, т.е. входом и выходом алгоритма являются данные, соответствующие этой модели, а его функционирование происходит в рамках ограничений модели с учетом ее специфики.

Первоочередным объектом данного исследования на текущий момаят являются Данные по причине больших возможностей для их формализации и аналитической обработки. Данные могут быть представлены в виде электронных коллекций, изображений, многомерных массивов и пр., в дальнейшем целостная и самодостаточная единица данных, обладающая уникальным идентификатором, будет называться ресурсом. Выделяются следующие базовые категории данных (ресурсов):

Табличные данные - ресурсы, описывающие многомерные массивы однородных элементов.

Бинарные данные - ресурсы, содержание которых представляет собой двоичный код и для просмотра которых используется специализированное программное обеспечоше (например, изображения, звукозаписи, видеозаписи).

Слабоструктурированные данные - ресурсы, содержание которых представляет собой упорядоченную последовательность элементов (структуру) с априори заданной семантикой (форматом). Заметим, что табличным и бинарным данным может сопутствовать структурное описание, определяющее их специфику (метаданные).

Каждая категория расслаивается на типы ресурсов, причем каждый тип может иметь содержать несколько подтипов ресурсов. Например, категория «Бинарные данные» может содержать тип «Изображали», который в свою очередь содержит подтип «Фотографии».

Отметим, что между предложенными базовыми категориями ресурсов нет четких границ. Так, бинарные ресурсы в ряде случаев можно рассматривать как табличные данные (например, растровые изображения), и как слабоструктурированные данные (например, векторные изображшия). Кроме того, любые ресурсы должны сопровождаться дополнительными сведшиями для его систематизации и классификации (метаданны-

ми), которые следует относить к слабоструктурированным данным. Согласно этому и другим соображениям первоочередной интерес для исследования представляют именно слабоструктурированные данные.

2. Постановка задачи

Прежде всего, дадим основные определения.

Наукоемкий ресурс является идентифицируемой электронной сущностью и содержит опубликованные данные, имеющих научную ценность. Каждый наукоемкий ресурс принадлежит одному из источников.

Источник представляет собой внешнюю информационную систему, которая содержит наукоемкие ресурсы.

Объекты виртуальной среды являются центральной сущностью виртуальной среды. Объекты содержит сведения о сущностях предметной области. Каждому объекту может соответствовать несколько ресурсов из различных источников. Поскольку несколько ресурсов из разных источников могут содержать противоречивые данные об одном объекте, то ресурс следует считать опубликованной версией объекта, а несколько версий одного объекта - смежными ресурсами. Объекты должен относиться к определенной категории.

Категории объектов виртуальной среды используются для определения формата соответствующих ресурсов, методов их обработки и отображения. Существуют три базовых категории, каждая из которых может содержать несколько подкатегорий:

• Элементы коллекции (докумопы);

• Персоны;

• Организации;

• Публикации.

• Массивы данных;

• Медиа-объекты

• Звукозапись;

• Видеозапись;

• Изображение.

Каталог содержит все объекты одной и той же категории.

Поясним эти определения на примере. Допустим, существует две базы данных с web-доступом: БД сотрудников Организации и БД авторов Журнала. Обе БД для виртуальной среды будут являться источниками, web-ресурсы со сведениями о сотрудниках или авторах - наукоемкими ресурсами. Каждому ресурсу соответствует объект виртуальной среды из категории «Персоны», соответственно все объекты, соответствующие этим ресурсам, будут являться элементами каталога «Персоны». Если сотрудник Организации одновременно является автором Журнала, то обоим этим ресурсам будет соответствовать один и тот же объект.

В соответствии с вышеизложенными соображениями, модель виртуальной среды для обмена результатами научных исследований должна обеспечивать следующую функциональность.

Публикация наукоемких ресурсов пользователями должна включать процедуры регистрации, аннотирования и определение формата. Регистрация состоит из указания источника и способа доступа к его ресурсам (базовый URL, аутентификационные параметры и пр.), местонахождение ресурса (URL). Аннотирование состоит из указания описательных метаданных ресурса для целей его систематизации - полей DublinCore [ 1 ].

Определение формата заключается в указании способа извлечшия содержимого ресурса для его последующей аналитической обработки или изменшия формата.

Отметим, что все перечисленные действия целесообразно выполнять не для каждого ресурса в отдельности, а группой для всех ресурсов одной категории одного источника. Для этого целесообразно создать функцию подключения нового источника, для которой пользователем будет выполюю определяие формата ресурсов этого источника, и которая автоматически выполнит регистрацию и аннотирования для всех его ресурсов.

Аналитическая обработка ресурсов должна включать автоматизированные функции аннотирования, функцию определения смежных ресурсов, функции определения релевантных объектов. Автоматизированная функция аннотирования осуществляет выборку метаданных ресурса и записывает их в соответствующий каталог виртуальной среды. Функция определения смежных ресурсов согласно определенным критериям осуществляет поиск среди ресурсов тех, которые соответствуют идентичным объектам. Функция определашя релевантных объектов осуществляет поиск объектов, которые логически связаны друг с другом, например, персона является автором публикации или сотрудником организации.

Доступ к опубликованным ресурсам должен включать в себя функции отображения каталогов объектов и связанных с ними ресурсов, поиск объектов и ресурсов по каталогу. Особый интерес представляет функция конвертации ресурсов, которая используется при запросе пользователем ресурса в указанном формате. Определим конвертацию как изменение формата ресурса с максимальным сохраншием его структуры и семантики. В общей постановке задача разработки алгоритма конвертации является некорректной и требует предметного уточнения.

Для автоматизированного функционирования среды необходимы функция мониторинга ресурсов и актуализации их метаописаний, функция уведомления пользователей о появлении новых ресурсов и обновлвши существующих, функция диспетчеризации. Функция мониторинга выполняет проверку появления новых ресурсов в источнике, а также проверку состояния ресурса, в частности, определяет его доступность и факт обновления. Если обновлшие ресурса имело место, то функция актуализации модифицирует сведения о ресурсе, хранимые в виртуальной среде. При этом некоторым пользователям может быть отослано уведомление о появлении новых ресурсов или обновлгнии существующих. Взаимодействие этих функций, а также отправку новых или обновленных ресурсов заинтересованным пользователям обеспечивает функция диспетчеризации.

Виртуальная среда должна обладать следующими характеристиками:

Распределенность ресурсов. Ресурсы пользователей могут располагаться на географически удалшных серверах.

Программная разнородность ресурсов. Ресурсы пользователей имеют различную программную природу, т.е. они могут хранится в различных СУБД и формироваться с помощью разных алгоритмов и их реализаций на различных язык программирования.

Несогласованные схемы данных и форматы ресурсов. Ресурсы разных пользователей могут иметь различные форматы и описывать данные в »согласованных между собой схемах.

Расширяемая модель данных среды. Необходимо обеспечить возможность периодического внесщия новых поддерживаемых схем данных, описывающих наукоемкие ресурсы.

Интероперабельность среды и открытость используемых стандартов. Основной функцией среды является взаимодействие с внешними системами.

Адаптируемость к требованиям пользователей. Возможность предоставить пользователю ресурсы в соответствии с его требования.

3. Принципиальная схема функционирования

Рассмотрэше требований и характеристик виртуальной среды прежде всего указывают на необходимость разработки технологического решения, которое позволит совместить разнородные модели данных и взаимодействовать с источниками по единой унифицированной схеме. На текущий момент существуют 3 наиболее известные технологии подобной унификации:

• Протокол 239.50;

• Протокол Х.500;

• ССЖВА.

Для подробной проработки автором исследования был выбран протокол 239.50, который предлагает следующие возможности. Абстрагированная модель схемы данных позволяет осуществлять обмен данными без привязки к конкретной схеме. Абстрагированная модель поиска дает возможность осуществлять поиск в разнородных базах данных. При этом в рамках существующих реализаций протокола 239.50 [2] (например, программное обеспечшие 2ооРАИК [3]) предусмотраш механизмы преобразования данных из предметных схем в абстрактную схему протокола 239.50. Следовательно^ программное обеспечоме на основе протокола 239.50 позволяет организовать стандартизованный доступ к разнородным распределенным базам данных.

Таким образом, представляется целесообразным рассмотреть следующую принципиальную схему функционирования виртуальной среды (рис.1).

I Источник 1___

(^еуреГС) |

_"П_Сёрвёр139"50 j " """23950~

I Источник 2

^Сервер Z39 50 Z3950 ~

Виртуальная среда

Сервер Z39 50

Модуль анализа ресурсов

Реестр (БД) виртуальной среды

Источник 1

Ресурс 11

Ресурс 1.2

Ресурс 1.3

Шяввшшш рфсурсш

Каталог

Объект 1

L-• Объект 2

Объект 3 яддддддд

Источник 2

ресурс 2.1

Ресурс 2 2

М» мвлииы* ресурсе

Модуль '-»f конвертации ресурсов

Модуль отображения содержимого каталога

Модуль управления структурой каталогов

(HTTP j^TP | Пользователь I | Администратор |

Рисунок 1 - Принципиальная схема функционирования виртуальной среды

Виртуальная среда состоит реестра объектов и ресурсов (базы данных), основного сервера Z39.50, »скольких функциональных модулей, а также web-интерфейса с публичным и административным разделами для доступа к различным функциям среды. Для каждого источника устанавливается отдельный сервер Z39.50, который осуществляет преобразование данных из схемы источника в абстрактную схему данных. Каждый модуль виртуальной среды соответствует одному из указанных выше требований, и реализуют следующие функции:

Модули управления структурой каталогов ресурсов:

• Создание нового каталога;

• Модификация структуры каталога;

• Добавление нового источника.

• Модули аналитической обработки ресурсов.

• Загрузка метаданных ресурса в каталог из источника (аннотирование);

• Обновление метаданных ресурса в каталоге из источника

• Поиск смежных ресурсов;

• Поиск релевантных объектов.

Модули отображжия содержимого каталогов:

• Поиск и просмотр объектов;

• Просмотр метаданных ресурса;

• Загрузка ресурса из источника.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

• Модули конвертации ресурсов.

• Модули диспетчеризации:

• Мониторинг ресурсов;

• Актуализация сведений о ресурсах;

• Оповещение пользователей;

• Автоматизированная отправка конвертированных ресурсов.

Таким образом, жизненный цикл сведений о ресурсе в виртуальной среде выглядит следующим образом.

Администратор регистрирует новый источник данных (модули управления структурой каталогов).

Производиться обработка источника данных, осуществляется поиск всех ресурсов, и для каждого из них выполняются следующие действия (модули аналитической обработки ресурсов):

• Загрузка содержимого ресурса по протоколу 239.50 в абстрактней схеме данных;

• Регистрация ресурса;

• Аннотирование ресурса;

• Определение смежных ресурсов из других источников:

• если смежных ресурсов не найдено^ то создается новый объект, для которого этот ресурс становится версией;

• если найдены смежные ресурсы, то все они становятся версиями одного и того же объекта;

• Определение новых релевантных объектов для этого ресурса - модуль пытается определить, с какими другими объектами связан этот ресурс.

Пользователь осуществляет поиск по каталогу и просмотр сведший о ресурсах через пользовательский интерфейс (модули отображения содержимого каталогов).

Пользователь запрашивает ресурс в одном из доступных форматов; по его запросу ресурс загружается по протоколу 239.50 в абстрактней схеме данных и преобразовывается его в указанную схему данных (модули конвертации ресурсов).

Периодически виртуальная среда производит мониторинг состояния ресурсов и может произвести обновление или удаление сведший по факту наступления соответствующих событий (Модули диспетчеризации)

4.0 некоторых технических решшиях

Прежде чем приступить к реализации предложенной модели, шобходимо уточнить множество технических вопросов и их решений, оказывающих непосредственное влияние на функциональность виртуальной среды. Рассмотрим несколько наиболее важных из них.

Одной из основных определяющих составляющих для функциональности любой информационной системы является ее модель предметной области (логическая схема БД). На рисунке 2 представлены основные сущности взаимосвязи логической схемы БД для виртуальной среды.

V Код «ашюгв

V Капа

{Маяв

»»к»

VuRl

Сошттгпми об »ami

'«• У ил гммога овы *Ш(ГК) м УИД обито

■ у ИД noe'»wneti обжг» (FK) т*т oBwe i» <f К)

V вид соототсшм V 1ГОК >—«

УИД махим <гк>1

1 1

llaywb.

AT

» УИД ресурс.

>ит.р«лрс« > УИД овыаа (FK) • MlKMUfK)

1УИД

э

Макиювьапы

■» г ИЛ мвдтобьап» (FK) i

Пером 1 Оргашауа

* УЧИ гарем (Г К) m у|Ц«рг«ми1(ГК)

Vt»». VMM V OTOLIBO <Эдг» PHUMI WrtW« ve-mil s iüii! >>>>>>

т

Tl T

_1 „„.„„i.J

1

• уедпувмм» fK)

■ пиикОматиСПО)

Рисунок 2 - Логическая схема БД виртуальной среды

Для каждого нового каталога необходимо описание его абстрактной схемы данных. На текущий момент оптимальным способом для этого представляется непосредственное кодирование этого описания квалифицированным программистом. Впоследствии выполнение данной операции можно будет организовать через специальный раздел административного интерфейса. При этом для аннотирования ресурса ш>бходимо указать поля в абстрактной схеме данных, которые подлежат каталогизации.

Для определения смежных ресурсов следует производить сравнение сведений о ресурсах в абстрактной схеме данных. Критерием смежности является полное совпадение всех сведений или частичное совпадения для специально указанных полей (т.н уникальный ключ).

Механизм определения релевантных объектов является более сложным, чем нахождение смежных ресурсов. Его идея состоит в том, что фактически ресурс может описывать сведения не только об одном объекте, но и о нескольких. Например, ресурс, описывающий публикацию, также содержит сведения и об авторах. Таким образом, при описании абстрактной схемы для ресурсов, необходимо определить его «соответствие» не одному, а нескольким объектам виртуальной среды. При анализе таких ресурсов, например, публикаций, может быть осуществлю поиск «связанных» с вей персон объектов и при нахождении такой связи возможно установить соответствие типа «является автором» между объектом «Персона» и объектом «Публикация».

Как уже упоминалось, наиболее сложной задачей является разработка моделей и средств конвертации ресурсов в формат данных, запрошагаый пользователем. Очевидно^ что в общей постановке задача быть решена не может, и необходимо предложить набор частных решений для наиболее востребованных случаев. Так, по мниию автора, в рамках первой итерации разработки виртуальной среды может быть реализован следующий меха-

низм. В качестве выходного формата представления данных в абстрактной схеме Z39.50 использовать язык XML. Посредством языка XSLT данные из базового XML-формата могут быть преобразованы в любой другой формат XML-семейства. Такое решение, с одной стороны, является не трудоемким, а с другой - в силу распространяй ости языка XML потенциально позволяет покрыть большое число вариантов использования.

Литература

1. Dublin Core Metadata Initiative (DCMI). http://www.dublincore.orp

2. ANSI/NISO Z39.50-1995: Information Retrieval (Z39.50): Application Service Definition and Protocol Specification / Z39.50 Maintenance Agency Official Text for Z39.50-1995. -July 1995.

3. Жижимов O.JL, Мазов H.A. Принципы построения распределенных систем на основе протокола Z39.50. - ОИГГМ СО РАН, Новосибирск: Изд-во ИВТ СО РАН, 2004. -361 е.: ил, табл

Туйшдеме

Бул жумыста гылыми зерттеу нэтижелер1н нэтижелермен алмасу ушш eupmyanbdi ортаны цуру бойынша 6ip мэмшге келу жолдары кррастырылган.

Resume

The given article suggests concept considerations for creation a virtual environmentfor changing by science investigation outcomes. The main aim of the work is to define the main principals of virtual environmentjunction andfuture work consists of workup details ofthe function and interjection of its parts.

i Надоели баннеры? Вы всегда можете отключить рекламу.