Научная статья на тему 'Метаописания и каталогизация научно-информационных ресурсов РАН'

Метаописания и каталогизация научно-информационных ресурсов РАН Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
149
51
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Сотников А. Н., Еркимбаев А. О., Жижченко А. Б., Зицерман В. Ю., Кобзев Г. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Метаописания и каталогизация научно-информационных ресурсов РАН»

УДК 004.62:65

МЕТАОПИСАНИЯ И КАТАЛОГИЗАЦИЯ НАУЧНО-ИНФОРМАЦИОННЫХ РЕСУРСОВ РАН

(Работа выполнена в рамках программы фундаментальных исследований Президиума РАН «Проблемы создания научной распределенной информационно-вычислительной среды на основе развития GRID-технологий и современных телекоммуникационных сетей на 2011 год»)

А.О. Еркимбаев, к.т.н.

(Объединенный институт высоких температур РАН (ОИВТ РАН), г. Москва);

A.Б. Жижченко, д.ф.-м.н. (Межведомственный суперкомпьютерный центр РАН (МСЦ РАН), г. Москва); В.Ю. Зицерман, к.ф.-м.н.; Г.А. Кобзев, д.ф.-м.н. (ОИВТРАН, г. Москва);

B.А. Серебряков, д.ф.-м..н. (Вычислительный центр им. Дородницына РАН (ВЦ РАН), г. Москва); А.Н. Сотников, д.ф.-м.н. (МСЦРАН, г. Москва, ASotnikov@jscc.ru);

Л.Н. Шиолашвили (ВЦ РАН, г. Москва)

Значительная часть научных знаний оформляется в виде электронных ресурсов - баз данных и знаний, электронных справочников и прочего. Работа с электронными ресурсами, включая их адаптацию к предметной области, систематизацию и накопление данных, стала занимать равноправное с теорией и экспериментом положение. Возникли такие дисциплины, как био- и геоинформатика, предмет изучения которых полностью сводится к представлению сложноорганизованных данных. Однако по мере распространения баз данных и аналогичных средств стали нарастать глубокие проблемы, обусловленные неразвитостью интероперабельности. Автономность функционирования ресурсов, многообразие форматов и структур данных, отсутствие стандартов представления - далеко не все факторы, затрудняющие обмен данными. В мировой и отечественной практике в последние годы наметились подходы к возможному разрешению указанных проблем с помощью версий XML-языка, позволяющих стандартизовать систему метаданных и словари понятий в пределах некоторой области знаний, например, версии CML для представления химических данных, MatML - для материаловедения, ThermoML - для термодинамики. Острая необходимость в детальной разработке принципов и технологических решений для интеграции многочисленных ресурсов РАН обусловила формирование обширной программы работ по созданию так называемого Data Centre. Предполагается, что реализация этого проекта позволит преодолеть разрозненность и ограниченную доступность компьютерных фондов в виде БД, электронных изданий, информационно--вычислительных средств, поддерживаемых различными институтами РАН. В данной работе в качестве первого этапа интеграции предложена система паспортизации ресурсов, адекватно отражающая предметную область, типологию ресурса, условия доступа и др. Разработан портал, на котором имеется обширный набор метаданных для каждого из зарегистрированных ресурсов.

Ключевые слова: информационные ресурсы, интеграция данных, метаданные, метаописание, портал, онтология, XML.

METADESCRIPTIONS AND CATALOGUING OF SCIENTIFIC INFORMATION RESOURCES OF THE RAS Erkimbaev A.O., Ph.D. (Joint Institute for High Temperatures of RAS, Moscow); Zizchenko A.B., Ph.D. (Joint Supercomputer Center of RAS, Moscow); Zitserman V.Yu., Ph.D.; Kobzev G.A., Ph.D. (Joint Institute for High Temperatures of RAS, Moscow); Serebryakov V.A., Ph.D. (Dorodnicyn Computing Centre of RAS, Moscow);SotnikovA.N., Ph.D. (JointSupercomputer Center of RAS, Moscow, ASotnikov@jscc.ru); Shiolashvili L.N. (Dorodnicyn Computing Centre of RAS, Moscow)

Abstract. A large part of scientific knowledge is formalized in the form of electronic resources - data and knowledge bases, electronic reference books, etc. Work with electronic resources, including their adaptation to the subject area, systemati-zation and accumulation of data, achieved an equal status with theory and experiment. There appeared such subjects as bio-and geoinformatics, which subject of study is submission of complex data. However, with the spreading of databases and similar means deep problems arose caused by lack of interoperability. Autonomy of resources functioning, diversity of data formats and structures, lack of data presentation standards - not all the reasons complicating the data exchange. In the global and domestic practice in recent years there have been selected approaches to possible resolving problems using versions of XML language, for standardizing of metadata system and terms dictionaries within a certain area of expertise, such as CML versions for submission of chemical data, MatML - for material science, ThermoML - for thermodynamics. An insistent in elaborating principles and technologies for integration of many RAS resources led to the formation of an extensive program on creation of so-called Data Centre. It is expected that this project will help to overcome the fragmentation and limited availability of digital resources in the form of databases, electronic publications, data-processing tools, supported by various institutes of the Russian Academy of Sciences. In this work as the first phase of the integration is offered the system of resources certification, adequately reflecting the subject area, resource types, access conditions, etc. A portal is developed on which there is an extensive set of metadata for each registered resource.

Keywords: information resources, data integration, metadata, metadescription, portal, ontology, XML.

В современной науке значительная часть накопленных знаний оформляется в виде электронных ресурсов: баз данных и знаний, электронных

справочников и др. По множеству показателей (физический объем, простота обновления, интеграция с аналитическими средствами) они намно-

го превосходят печатные формы в виде справочников, энциклопедий, многотомных руководств и проч. Постепенно работа с информационными ресурсами (ИР), включая их адаптацию к предметной области, систематизацию и накопление данных, во многих сферах стала не менее значимой, чем теория и эксперимент. Возникли даже специальные дисциплины, такие как био- или геоинформатика, предмет которых полностью сводится к представлению сложноорганизованных данных.

Однако по мере распространения ИР как в научных организациях, так и среди широкой общественности (образовательный процесс, запросы промышленности и бизнеса) стали нарастать достаточно глубокие проблемы, обесценивающие их потенциал, в основе которых лежит неразвитость интероперабельности, то есть возможности свободного переноса ИР и их содержимого между разными средами. Разрозненность и автономность функционирования ресурсов, безграничное множество форматов и структур данных, отсутствие или неприменение de facto стандартов представления и поддержки ИР - далеко не полный список факторов, затрудняющих доступ и исключающих возможность обмена данными. В мире ИР отсутствует устойчивая система каталогизации, аналогичная сложившейся за века в библиотечном деле и книгоиздании. Проблемой для пользователя становится даже не извлечение необходимой информации, а просто получение сведений о существовании необходимого ресурса, его потенциальных возможностях, условиях доступа и т.п.

Указанные проблемы в известной степени присущи ИР любого назначения, хотя каждая область науки и ее внутренние проблемы накладывают свой отпечаток в силу собственных понятийных аппаратов, специфичных данных, требующих определенных форматов представления. Даже в пределах одной или родственных предметных областей (например термодинамика и теплофизика) приходится считаться с многообразием принятых в разных коллективах способов описания, определений констант и функций, единиц измерения и проч.

В мировой и отечественной практике в последние годы наметились подходы к возможному разрешению указанных проблем путем интеграции неоднородных ИР с помощью версий XML-языка, позволяющих стандартизовать используемую систему метаданных и словари понятий в пределах некоторой области знаний. Примером подобных решений, неоднократно обсуждаемых в литературе, может быть использование версии CML для представления химических данных, MatML - в материаловедении, ThermoML - в термодинамике [1-3]. Необходимость детальной разработки принципов и технологических решений для интеграции многочисленных ресурсов РАН обусловила формирование обширной программы

работ по созданию Data Centre. Предполагается, что реализация этого проекта позволит преодолеть разрозненность и ограниченность доступа к компьютерным фондам в виде БД, электронных изданий, информационно-вычислительных средств, поддерживаемых различными институтами РАН. В самом общем виде под интеграцией ИР понимается их соединение путем унифицированного представления, включая и возможность извлечения интересующей пользователя информации по запросу. Тем самым интеграция освобождает пользователя от необходимости самостоятельно отбирать источники с нужной ему информацией и обращаться к каждому источнику отдельно.

Метаданные научно-информационных ресурсов. Чрезвычайные сложности объединения ресурсов при многообразии форматов и структур данных оправдывают в качестве первого шага интеграцию верхнего уровня путем создания специализированного портала, в задачу которого входит поддержка унифицированной системы метао-писаний самих ресурсов, адекватно передающих особенность предметной области при различной типологии ресурса. Ранее, руководствуясь этими же соображениями, авторы работ [4, 5] предложили концепцию и технологию хранения наиболее общих данных о структуре научной организации РАН, персональном составе, публикациях, проектах и другой справочной информации. Подобная система (ЕНИП - Единое научное информационное пространство РАН) позволила структурировать множество разнородных данных верхнего уровня, обеспечивая стандартизованное описание, общее для всех отраслей науки. В данной работе сходная концепция положена в основу каталогизации и метаописания ИР. Предполагается, что на портале будут приведены детализированные сведения о ресурсах самой широкой типологии: БД, информационно-вычислительные системы, электронные издания, электронные библиотеки или коллекции, WEB-порталы и т.п. Критериями выделения этой категории научных ресурсов являются их преимущественно информационная направленность (генерация, хранение и распространение данных), происхождение в результате исследовательской деятельности института РАН, электронная форма представления. Понятие ИР расширяет перечень обязательных ресурсов, представляющих, согласно проекту ЕНИП [5], профиль научного института: организация, персоны, подразделения, проекты, публикации.

Под метаописанием ИР понимается унифицированное описание, задачи которого следующие: краткое информирование о его содержании, структуре данных и технических характеристиках; обеспечение возможности поиска по множеству критериев; предоставление сведений об условиях доступа, правах пользователя, ценах на услуги и продукты и т.п. В перспективе такое метаописа-

ние должно обеспечить переход к более глубокой интеграции ИР путем объединения их метаданных в пределах узких предметных областей. Ключевым моментом является выбор метаданных, описывающих содержимое ресурса в виде набора именованных значений, в том числе указывающих на связи с другими ресурсами. Метаданные формализуют и автоматизируют анализ содержимого, используются при построении поисковых индексов, обеспечивая точность и эффективность поиска разнородной информации. При этом должен быть достигнут компромисс между достаточной структуризацией для охвата множества предметных областей и ограничениями на объем метаданных, связанными с процессом их подготовки при аттестации ресурса. Эффективным способом разрешения компромисса может быть использование Дублинского ядра (БоиЫт Соге, DC) - по многим оценкам, наиболее успешного стандарта метаопи-сания разнородных ресурсов. Хотя исходно проект DC предназначался для более точной, чем это делают поисковые машины, идентификации WEB-ресурсов, его семантика организована так, что может представить практически все виды электронных документов. Принятый из 15 базовых элементов набор дает поверхностную характеристику ресурса, включая содержание, вид и объем, авторство, условия распространения и проч. В дополнение к этому набору имеются инструменты для детализации различных характеристик ресурсов, в том числе и содержания, чтобы адаптировать описание к особенностям предметной области. Существенным моментом при использовании DC является подключение контролируемых словарей понятий с тщательно подобранными терминами. Это значительно улучшает автоматическую обработку, исключая нечеткость описаний, сделанных в стиле, присущем человеку. В качестве словарей могут использоваться общедоступные национальные и международные классификаторы (типа УДК), а также специально разработанные для определенной предметной области, детализирующие содержание ресурса названия и свойства объектов в соответствии с принятыми терминологическими стандартами.

Наряду с международным стандартом DC при разработке метаописания ресурсов РАН использован отечественный стандарт более узкого назна-

чения - ГОСТ 7.70-2003 «Описание баз данных и машиночитаемых информационных массивов». На основе указанных выше стандартов разработан набор метаданных для произвольного научно-информационного ресурса РАН. На рисунке 1 приведена UML-диаграмма схемы описания ИР РАН, где указаны отношения класс-подкласс: UML-связь генерализации - сплошными линиями, а ассоциации между классами - пунктирными линиями. Предлагаемый перечень метаданных (полей) и их характеристики приведены в таблице 1. Каждое из метаданных имеет четыре базовые характеристики: опционность, повторяемость, контролируемость и возможность использования при поиске. Поле считается опционным, если его заполнение необязательно и соответствующее решение принимается лицом, ответственным за поддержание ресурса, в противном случае поле обязательно для заполнения (mandatory). Рекомендуемое число метаданных для описания ресурса составляет 28, всего 14 из которых обязательны для заполнения. Повторяемость поля означает, что при его заполнении возможно задание нескольких реквизитов, каждый из которых при характеристике системы имеет одинаковый статус, а контролируемость - что поле заполняется не произвольно, а согласно записи в определенном словаре или классификаторе; возможно также применение жестких нотаций, например, для обозначения языка, дат и т.п. Последний из признаков (поиск) определяет возможность использования метаданных при поиске. В таблице 1 к таковым относятся метаданные под номерами 1-3 («название системы», «альтернативное название системы», «организация-держатель ресурса»), 5, 6, 8 («ключевые слова», «предметная область», «детализация предметной области») и 19 («создатель/разработчик»).

Рис. 1. UML-диаграмма схемы описания ИР РАН

Таблица 1

Предлагаемый перечень метаданных (полей) и их характеристики

Примечание. Сокращения «Опц.», «Повт.», «Контр.» означают, соответственно, опционность, повторяемость и контролируемость поля. В колонке «Опц.» обязательные поля обозначены символом М, опционные (факультативные) - символом О; в других колонках символом Y отмечено наличие требуемого свойства, символом N - его отсутствие.

Контролируемые словари и классификаторы. Контролируемый словарь в самом общем понимании - это набор терминов некоторой предметной области и правил их использования для описания информации. Наиболее простая, но часто используемая форма контролируемого словаря - плоский словарь. Чаще всего плоские словари применяются для группировки некоторого набора ключевых терминов и/или наиболее употребляемых фраз с добавлением их расшифровок, определений, описаний.

Классификатор (рубрикатор) представляет собой набор терминов (рубрик) и связей между ними, образующих древовидную структуру. Классификаторы используются для тематической или иной классификации ресурсов с целью упрощения их поиска.

Заполнение контролируемых полей производится в строгом соответствии с принятым набором классификаторов или нотаций. Для первичного выделения предметной области на портале предложен классификатор РФФИ, который включает все области знаний, относящиеся к естественным и техническим наукам. Строго контролируются и такие атрибуты ресурса, как язык, даты создания и модификации, права доступа и локализация. Контролируемая запись метаданных исключает произвол при аттестации ресурса в отличие, например, от варианта с использованием ключевых слов.

Наиболее сложный и ответственный момент -контролируемое назначение метаданных, определяющих предметную область и типологию ресурса в условиях почти неограниченного числа вариантов и возможностей при интеграции академических ресурсов. Для решения этой задачи предложено использовать по два классификатора для обеих характеристик ресурса - предметная область и типология. Так, для выбора предметной области в качестве первого предложен классификатор РФФИ, перекрывающий все области знаний, относящиеся к естественным и техническим наукам (поле 6 в таблице 1).

Пример из таблицы 2 показывает возможности классификатора при сужении предметной области в процессе перехода между уровнями классификатора.

Таблица 2

Пример использования классификатора РФФИ для выделения предметной области

Верхний уровень классификатора 03. Химия и науки о материалах

Промежуточный уровень Динамика и структура атом-но-молекулярных систем

Элемент третьего уровня 03.450. Строение молекул и молекулярная спектроскопия

Как видно из таблицы 1, поле 6 обязательно для заполнения и является поисковым, но при этом дает лишь первую (относительно грубую)

Номера метаданных Название (русское) Название (англ.) Опц. Повт. Контр. Поиск.

1 Название системы Title M N N Y

2 Альтернативное название системы Alternative title O N N Y

3 Организация-держатель ресурса Owner M N N Y

4 Описание системы Description M N N N

5 Ключевые слова Keywords M Y N Y

6 Предметная область Subject M Y Y Y

7 Классификатор для детализации предметной области Classifiers O N Y N

8 Детализация предметной области Specification O Y Y Y

9 Тип информационной системы по рубрикатору Type M Y Y N

10 Детализация типа информационной системы Type_det O N Y N

11 Пространственные границы ресурса Spatial O N N N

12 Временные границы ресурса Temporal O N N N

13 Язык Language M Y Y N

14 Объем Capacity O N N

15 Количество документов Amount O N N

16 Ресурс-источник isPartOf O N N N

17 Родственный ресурс hasPart O Y N N

18 Версия системы (название или номер) Version O N N N

19 Создатель/разработчик Creator M Y N Y

20 Администратор системы Manager M Y N N

21 Контактная информация Contact M N N N

22 Сетевой адрес URL O Y Y N

23 Дата создания Created M N N N

24 Дата последней модификации Modified O N N N

25 Период обновления Update period M N Y N

26 Дата последней модификации метаописания Meta_mo-dified O N Y N

27 Права доступа Availability M N Y N

28 Локализация Location M N Y N

характеристику предметной области. В качестве второго классификатора для детализации предметной области можно выбрать любой из отечественных или международных классификаторов, принятых в различных областях знаний, например, PACS, Chemical Abstracts, Medical Subject Headings и т.п. Создатели DC рекомендовали также при характеристике содержания использовать классификаторы общего назначения - классическую классификацию Дьюи или классификацию библиотеки конгресса США. Соответственно в России для этих целей можно применить классификаторы УДК, ГРНТИ, классификатор специальностей ВАК.

Разработанный для описания ИР РАН специальный портал устроен так, что позволяет его администраторам вводить по мере необходимости любой из классификаторов, определяемых предметной областью и/или сложившейся практикой

систематизации. Выбор конкретного классификатора из введенных в систему задается в поле 7, после чего в поле 8 указываются коды, детализирующие конкретную сферу знаний. Например, при использовании PACS можно включить на равных основаниях элементы верхнего уровня (рис. 2а), а также промежуточного и нижнего уровней (рис. 2б и 2в).

Принципиальная возможность двухступенчатой характеризации предметной области (поля 6-8 в таблице 1) не означает, что ее детализация является обязательной. Поля 7, 8 рассматриваются как опционные, что позволяет в принципе ограничиться классификатором РФФИ. В то же время для достаточно специализированных ресурсов (скажем, БД по транспортным свойствам жидких металлов) для точного отнесения не обойтись без дополнительного классификатора типа PACS. Заметим, кстати, что PACS, будучи основной схемой для физических наук, одновременно охватывает множество смежных областей (гео- и биофизика, физическая химия, материалы и т.п. ), что позволяет использовать его для широкого спектра естественнонаучных и инженерных дисциплин.

Метаданные в позициях 9 и 10 из таблицы 1 предназначены для выделения типа ИР. Как и для характеристики предметной области, здесь предложено использовать два рубрикатора. Обязательным является указание кодов в соответствии с рубрикацией РФФИ (табл. 3). Опционное расширение использует словарь (табл. 4), позволяющий детализировать тип БД с точки зрения содержания (библиография, полные тексты, графика и т.п.), дополняя перечень РФФИ.

Таблица 3

Рубрикатор ИР, предусмотренный РФФИ

+ 00-General + 10-The Physics of Elementary Particles Field + 20-Nuclear Physics + 30-Atomic and Molecular Physics + 40-Electromagnetism, Optics, Acoustics, Heat Transfer, Classical Mechanics, and Fluid Dynan + 50-Physics of Gases, Plasmas, and Electric Discharges + 60-Condensed Matter: Structural, Mechanical and Thermal Properties + 70-Condensed Matter: Electronic Structure, Electrical, Magnetic, and Optical Properties + 80-Interdisciplinary Physics and Related Areas of Science and Technology + 90-Geophysics, Astronomy, and Astrophysics

а)

- 60-Condensed Matter: structural, Mechanical and Thermal Properties 61. Structure of solid and liquids; crystallography 62. Mechanical and acoustical properties of condensed matter 63. Lattice dynamic 64. Equations of state, phase equilibria, and phase transitions 65. Thermal properties of condensed matter 66. Nonelectronic transport properties of condensed matter 67. Quantum fluids and solids 68. Surface and interface; thin films and nanosystems (structure and nonelectronic properties)

б)

66. Nonelectronic transport properties of condensed matter 66.10.-x Diffusion and ionic conduction in liquids 66.10.C- Diffusion and thermal diffusion (for osmosis in biological systems, see 82.39. Wj in Physical chemistry; for cellular transport, see 87.16.dp and 87.16. Uv in biological Physics) 66.10.cd Thermal diffusion and diffusive energy transport 66.10.cg Mass diffusion, including self-diffusion, tracer diffusion, etc. 66.10.Ed Ionic conduction 66.20.-d Viscosity of liquids; diffusive momentum transport 66.20.Cy Theory an modeling of viscosity and rheological properties, including computer simulation

в) Примечание. Для иллюстрации приведена лишь часть эле ментов. -

Рис. 2. Элементы а) верхнего уровня PACS; б) промежуточного уровня, относящиеся к рубрике 60; в) нижнего уровня, относящиеся к рубрике 66

07-306 Проблемно-ориентированные системы

07-326 Сервисно-ориентированные системы

07-341 Геоинформационные системы

07-346 Мультимедийные информационные системы

07-351 Проблемно-ориентированные базы данных

07-921 Системы компьютерной поддержки научных исследований

07-941 Извлечение знаний, базы данных и базы знаний

07-976 Проблемно-ориентированные системы, основанные на знаниях

BIBL Библиографическая БД

FACT Фактографическая БД

FULLTXT Полнотекстовая БД

GRAPH Графическая БД

EBOOK Электронная книга

ELIBR Электронная библиотека/коллекция

Таблица 4 Словарь для детализации типов ИР

Онтология. При построении портала использована онтология, разработанная ранее в рамках проекта ЕНИП [4] и написанная на языке OWL. Основные классы онтологии: ИР, персона, организация, словарь «период обновления», словарь «язык», словарь «права доступа», словарь «местонахождение ИР», словарь «тип ИР», классификатор РФФИ, классификатор PACS. ИР, персона и организация являются подклассами класса ресурс (Resource) онтологии ЕНИП.

Свойства двух базовых классов в онтологии ЕНИП, персона (Person) и организация (Organiza-

tion) подробно рассмотрены в [4]. Приведем некоторые сведения для класса ИР (ИогтайопЯе-source), описывающего произвольный научно-информационный ресурс РАН (табл. 5). Свойства класса в основном соответствуют предложенным в таблице 1 полям для идентификации и определения свойств ИР.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Используемые здесь словари «период обновления», «язык», «права доступа», «местонахождение ИР», «тип ИР» являются наследниками класса «контролируемый словарь» ^осаЬи1агуТегт) онтологии ЕНИП. Для описания плоских контроли-

Таблица 5

Свойства класса ИР

Название Тип значений

Название системы (systemTitle) Строка типа InformResourceString (многоязычная строка) [1..1]

Альтернативное название системы (altemativeTitle) Строка типа InformResourceString (многоязычная строка) [0..1]

Тип информационной системы по словарю (istype) Значение этого атрибута является экземпляром класса InformationSystemType [0..*]

Пространственные границы ресурса (spatial) Строка типа isir:TextInfo (многоязычная строка) [0..1]

Временные границы ресурса (temporal) Строка типа isir:TextInfo (многоязычная строка) [0..1]

Язык информационного ресурса (informSystem-Language) Значение этого атрибута является экземпляром класса isir:Language [0..*]

Объем (capacity) Строка типа isir:TextInfo (многоязычная строка) [0..1]

Количество документов (amount) Строка типа isir:TextInfo (многоязычная строка) [0..1]

Версия системы (название или номер) (version) Строка типа isir:TextInfo (многоязычная строка) [0..1]

Полный почтовый адрес (address) Значение этого атрибута является экземпляром класса isir:Address [0..1]

Телефон (phone) Значение этого атрибута является экземпляром класса isir:Telephone [0..1]

Контактный адрес электронной почты (email) Значение этого атрибута является экземпляром класса isir:TextInfo [0..1]

Сетевой адрес URL (www) Значение этого атрибута является экземпляром класса isir:TextInfo [0..*]

Период обновления по словарю (updatePeriod) Значение этого атрибута является экземпляром класса UpdatePeriod [0..1]

Дата последней модификации метаописания (dataMetadataModified) Строка (xsd:date) ISO [0..1]

Права доступа по словарю (rightAccess) Значение этого атрибута является экземпляром класса RightAccess [0..1]

Местонахождение информационного ресурса (location) Значение этого атрибута является экземпляром класса Location [0..1]

Ключевые слова (keywords) Строка типа isir:TextInfo (многоязычная строка) [0..*]

Описание системы (description) Значение этого атрибута является экземпляром класса aux:File [0..1]

Предметная область по классификатору РФФИ № Значение этого атрибута является экземпляром класса RFFITerm [0..*]

Классификатор для детализации предметной области по классификатору PACS (pacs) Значение этого атрибута является экземпляром класса PACS [0..*]

Организация-держатель ресурса (owner) Значение этого атрибута является экземпляром класса isir:Organization [0..1]

Создатель/разработчик (creator) Значение этого атрибута является экземпляром классов isir:Person [0..*] и isir:Organization [0..*]

Администратор системы (manager) Значение этого атрибута является экземпляром класса isir:Person [0..*]

Ресурс-источник (isPartOf) Значение этого атрибута является экземпляром класса InformationResource [0..1]

Родственный ресурс (hasPart) Значение этого атрибута является экземпляром класса InformationResource [0..*]

руемых словарей, предназначенных для группировки некоторого набора терминов, используется УосаЪи1агуТегш, являющийся абстрактным базовым классом. Каждый конкретный контролируемый словарь представляется подклассом, а элементами словаря считаются все экземпляры этого подкласса. В конкретный словарь могут быть введены дополнительные свойства элементов словаря, помимо вводимых базовым классом свойств (табл. 6).

Таблица 6

Дополнительные свойства элементов словаря

Классы контролируемых словарей: Language -словарь «язык», InformationSystemType - словарь «тип информационного ресурса»; Location - словарь «местонахождение информационного ресурса»; RightAccess - словарь «права доступа»; UpdatePeriod - словарь «период обновления».

Для описания иерархических классификаторов используется класс ClassifierTerm, являющийся абстрактным базовым классом. Каждый конкретный классификатор представляется подклассом, а его рубриками считаются все экземпляры этого подкласса. Используемые для описания ИР классификаторы РФФИ и PACS являются наследниками класса ClassifierTerm. Корневыми рубриками считаются те, для которых не указана вышестоящая рубрика. В конкретном словаре могут быть введены дополнительные свойства элементов классификатора, помимо вводимых базовым классом свойств (табл. 7).

Таблица 7

Дополнительные свойства элементов классификатора

Примечание. Подклассами классификатора являются PACS и RFFITerm.

Практическая работа с порталом. Портал расположен на серверах ОИВТ РАН (http://thermo-physics.ru/datacenter) и Data Centre (www.ras.ru/da-tacenter). Задачами администраторов портала являются паспортизация ресурсов и открытое предоставление сведений научному сообществу.

Включение сведений о ресурсах осуществляется по заявкам, направленным авторами ИР по E-mail администратору портала. В принципе объем сведений должен соответствовать полям, приведенным в таблице 1, и наиболее полно отражать предметную область, тип ресурса, возможности доступа и проч. Само заполнение полей на этапе пробной эксплуатации портала администрация берет на себя. Пользователь, пославший заявку, может внести исправления и дополнения в представленные сведения.

На главной странице портала в «Каталоге» можно просмотреть список ИР, зарегистрированных на портале, поле «Рубрикатор» соответствует классификатору РФФИ. Здесь же можно перейти к более детальному классификатору, в качестве которого выбран классификатор PACS. Данный выбор классификаторов позволяет включить достаточно широкий (хотя и неисчерпывающий) перечень областей знаний. В частности, классификатор PACS наряду с физикой охватывает множество смежных областей (физическая химия, материаловедение и т.п.), что позволяет использовать его для широкого спектра ИР, разработанных в РАН. В то же время структура портала дает возможность без существенной перестройки ввести другие классификаторы для более адекватной передачи специфики различных областей знания.

Литература

1. Murray-Rust P., Rzepa H.S., Wright M., Zara S.A Universal approach to Web-based Chemistry using XML and CML. ChemComm, 2000, pp. 1471-1472.

2. Kaufman J.G., Begley E.F. MatML. A Data Interchange Markup Laguage // Advanced Materials & Processes. Nov. 2003, pp. 35-36.

3. Еркимбаев А.О., Зицерман В.Ю., Кобзев Г.А., Фокин Л.Р. Логическая структура физико-химических данных. Проблемы стандартизации и обмена численными данными // Журнал физической химии. 2008. Т. 82. № 1. С. 20-31.

4. Бездушный А.А., Бездушный А.Н., Нестеренко А.К., Серебряков В.А., Сысоев Т.М. Возможности технологий ИСИР в поддержке Единого Научного Информационного Пространства РАН // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: сб. докл. 6-й Всеросс. конф. Пущино, 2004. C. 254-262.

5. Бездушный А.А., Бездушный А.Н., Серебряков В.А., Филиппов В.И. Интеграция метаданных единого научного информационного пространства РАН // Науч. изд. ВЦ им. А.А. Дородницына РАН, 2006.

References

1. Murray-Rust P., Rzepa H.S., Wright M., Zara S., ChemComm, 2000, pp. 1471-1472.

2. Kaufman J.G., Begley E.F., Advanced Materials & Processes, Nov. 2003, pp. 35-36.

3. Erkimbaev A.O., Zitserman V.U., Kobzev G.A., Fokin L.R., Jurn. fizicheskoj khimii, 2008, Vol. 82, no. 1, pp. 20-31.

4. Bezdushny A.A., Bezdushny A.N., Nesterenko A.K., Sere-bryakov V.A., Sysoev T.M., Sbornik dokladov 6 Vseros. konf. (Proc. of the 6th All-Russian conference), Pushchino, 2004, pp. 254-262.

5. Bezdushny A.A., Bezdushny A.N., Serebryakov V.A.,

Filippov V.I., Nauch. izd. Vychislitel'nogo tsentra im. A.A. Dorod-nicyna RAN, 2006.

Название Тип значений

Наименование (pcv:label) Строка (xsd:string) ISO [1..1]

Сокращенное название (core:acronym) Строка (xsd:string) на разл. языках [0..*], одно значение на язык

Определение (pcv:definition) Строка (xsd:string) ISO [0..1]

Код (pcv:code) Строка (xsd:string) ISO [0..1]

Приоритет (core:order) Целое число (xsd:int) [0..1]

Название Тип значений

Более широкий термин (pcv:broaderTerm) Термин классификатора (aux:ClassifierTerm) [0..1]

Более узкий термин (pcv:narrowerTerm) Термин классификатора (aux:ClassifierTerm) [0..*]

i Надоели баннеры? Вы всегда можете отключить рекламу.