Научная статья на тему 'Использование тезауруса в научно-образовательной информационной системе'

Использование тезауруса в научно-образовательной информационной системе Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1537
222
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНФОРМАЦИОННАЯ СИСТЕМА / INFORMATION SYSTEM / ЭЛЕКТРОННАЯ БИБЛИОТЕКА / ELECTRONIC LIBRARY / СЛОВАРЬ-СПРАВОЧНИК / DICTIONARY / БАЗА ДАННЫХ / DATABASE / ИНФОРМАЦИОННО-ПОИСКОВЫЙ ТЕЗАУРУС / INFORMATION RETRIEVAL THESAURUS / МЕТАДАННЫЕ / METADATA / Z39.50 / СХЕМЫ ДАННЫХ / SKOS / ZTHES / MARC / MODS / VDEX / DIRECTORY / DATA SCHEMA / MODS. REFERENCES

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Федотов Анатолий Михайлович, Идрисова Индира Адилькереевна, Самбетбаева Мадина Аралбаевна, Федотова Ольга Анатольевна

Дается обзор стандартов для представления тезаурусов и возможных применений тезаурусов в научнообразовательных информационных системах. Сравниваются различные подходы к описанию схемы данных тезаурусов на основе объектной модели, а также анализ этих подходов. Подробно рассмотрены схемы дан-ных SKOS и Zthes и сделан выбор схемы Zthes для реализации. Особое внимание уделяется работе со словарями ключевыхтерминов, которые используютсядля систематизациииклассификации информационных ресурсов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Федотов Анатолий Михайлович, Идрисова Индира Адилькереевна, Самбетбаева Мадина Аралбаевна, Федотова Ольга Анатольевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

USING THE THESAURUS IN THE SCIENTIFIC AND EDUCATIONAL INFORMATION SYSTEM

The article contains a review of the standards for the presentation of thesauruses and possible applications of thesauri in the scientific and educational information systems. To compare different approaches to the description of the data schema thesauri based object model, and analysis of these approaches. Considered in detail the data schema SKOS and Zthes and make a choice for the implementation of the scheme Zthes. Particular attention is paid to work with dictionaries of key terms that are used to organize and classify information resources.

Текст научной работы на тему «Использование тезауруса в научно-образовательной информационной системе»

УДК 004.912 + 811.512.122-322

А. М. Федотов 1 2, И. А. Идрисова 2, М. А. Самбетбаева 3, О. А. Федотова 4

1 Институт вычислительных технологий СО РАН пр. Акад. Лаврентьева, 6, Новосибирск, 630090, Россия

2 Новосибирский государственный университет ул. Пирогова, 2, Новосибирск, 630090, Россия

3 Евразийский национальный университет им. Л. Н. Гумилева ул. К. Мунайтпасова, 5, Астана, 010000, Республика Казахстан

4 Государственная публичная научная библиотека СО РАН ул. Восход, 15, Новосибирск, 630200, Россия

[email protected]

ИСПОЛЬЗОВАНИЕ ТЕЗАУРУСА В НАУЧНО-ОБРАЗОВАТЕЛЬНОЙ ИНФОРМАЦИОННОЙ СИСТЕМЕ

Дается обзор стандартов для представления тезаурусов и возможных применений тезаурусов в научно-образовательных информационных системах. Сравниваются различные подходы к описанию схемы данных тезаурусов на основе объектной модели, а также анализ этих подходов. Подробно рассмотрены схемы данных SKOS и Zthes и сделан выбор схемы Zthes для реализации. Особое внимание уделяется работе со словарями ключевых терминов, которые используются для систематизации и классификации информационных ресурсов.

Ключевые слова: информационная система, электронная библиотека, словарь-справочник, база данных, информационно-поисковый тезаурус, метаданные, Z39.50, схемы данных, SKOS, Zthes, MARC, MODS, VDEX.

Введение

Развитие информационных технологий в целом, а также технологий в области передачи и обработки информации в частности привело к появлению принципиально новых возможностей организации практически всех этапов научно-образовательного процесса, что, в свою очередь, обусловило качественный рост информационных потребностей ученых и преподавателей. Современный студент, вооруженный компьютером, повседневно использующий возможности сети Интернет, не может быть удовлетворен традиционным режимом учебного процесса и обычными форматами учебных материалов, как то: учебники, книги или плоские текстовые файлы. Учебные материалы могут быть сегодня предоставлены учащемуся во множестве цифровых форматов, они должны быть поддержаны различными поисковыми и классификационными сервисами. Систематизация и классификация имеющихся информационных ресурсов в соответствии с потребностями пользователя является одной из важнейших задач поддержки как научной, так и образовательной деятельности [1; 2].

В процессе научной, а особенно образовательной деятельности много времени и сил отнимает работа с литературными источниками, разного рода материалами и документами: поиск необходимых документов, систематизация и классификация документов в соответствии

Федотов А. М., Идрисова И. А., Самбетбаева М. А., Федотова О. А. Использование тезауруса в научно-образовательной информационной системе // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2015. Т. 13, вып. 2. С. 86-102.

ISSN 1818-7900. Вестник НГУ. Серия: Информационные технологии. 2015. Том 13, выпуск 2 © А. М. Федотов, И. А. Идрисова, М. А. Самбетбаева, О. А. Федотова, 2015

с поставленной задачей. Для удовлетворения информационных потребностей современных пользователей необходима поддержка сложных функций поиска и классификации информации, а также просмотр ресурсов по категориям (рубрикам) и словарям-классификаторам. Наиболее важной задачей является задача систематизации ресурсов, для решения которой необходимо четко определить состав логико-семантических категорий (фасетов) и ключевых терминов (понятий), покрывающих избранную достаточно узкую предметную область, интересующую пользователя. Как правило, предметная область ограничивается изучаемым учебным курсом или конкретной темой курса.

В настоящее время существуют достаточно мощные информационные системы, которые в той или иной степени удовлетворяют информационные потребности пользователей [3]. Однако основными недостатками большинства систем являются ограниченность возможностей проведения аналитической работы с ресурсами и обеспечения интеграции ресурсов как внутри каждой из систем, так и с внешними системами (часто не учитываются международные стандарты и рекомендации, низкая интероперабельность) [4]. Это крайне неудобно в сфере научно-образовательной деятельности, одна из главных задач состоит в том, что необходимо установить связи между конкретными научными фактами (например, «что означает термин кибернетика» или «кто автор данной статьи») и сущностями информационной системы (персоны, факты, документы, публикации и т. п.).

Стандартным подходом к систематизации информации является классификация документов с помощью таксономий. Таксономия - это предметная классификация, которая группирует термины в виде управляемого словаря (тезауруса) и упорядочивает их (словари) в виде иерархических структур. Для описания какой-либо предметной области обычно используется определенный набор ключевых терминов, каждый из которых обозначает или описывает какое-либо понятие из данной предметной области [5]. Основу классификации составляет выделение понятий (ключевых терминов), установление парадигматических отношений (например, типа родитель - потомок) между ними и сопоставление анализируемого документа выделенным понятиям.

Самое неприятное в обеспечении образовательных информационных систем заключается в том, что технологии классификации и систематизации информации, выработанные библиотеками на протяжении последних ста лет не работают [6], вследствие тематической близости классифицируемых документов. Например, к наиболее удобным для классификации ресурсов по математике или информатике - словари УДК 1 и М8С2000 2 или тезаурус ЮНЕСКО 3, как правило, относят все ресурсы отобранные для конкретного учебного курса к одной категории.

В монографии [7], изданной ВИНИТИ в еще 1976 г. и содержащей подробный обзор теоретических проблем информационного поиска, на основе выделения двух типов информационных потребностей - потребности в сведениях об источниках необходимой научной информации и потребности в самой необходимой научной информации - говорится, что для удовлетворения информационных потребностей первого предназначены информационные системы, получившие название документальных, второго типа - фактографических. В настоящее время наиболее востребованным средством информационного обеспечения научной деятельности становятся информационные системы, сочетающие возможности информационных систем обоих типов и позволяющие удовлетворять информационные потребности квалифицированного пользователя в соответствии со схемой «документ - факт - классификация» [4; 8]. В таких информационных системах в качестве составного компонента выступают рассуждающая система, формализующая правила логического вывода и работу с фактами и понятиями, характеризующими конкретный документ.

1 Универсальная десятичная классификация (УДК), поддерживаемая Международной федерацией по документации (МФД - Federation Internationale de Documentation - FID) и Консорциумом УДК (UDC Consortium, http://www.udcc.org/), русская версия УДК поддерживается ВИНИТИ РАН.

2 Mathematics Subject Classification (http://www.ams.org/msc/) - Классификатор математических сущностей, поддерживаемый Американским математическим обществом (AMS).

3 http://databases.unesco.org/thesru/

Тезаурусы в информационном поиске

Согласно определению международной организации по стандартизации (ISO), тезаурус является словарем, управляемым языком индексации, формально организованным для того, чтобы установить явные априорные отношения между понятиями [9, 10]. Это определение устанавливает лексические единицы и семантические отношения между этими единицами в качестве элементов, составляющих тезаурус. Тезаурусные отношения (род - вид, часть -целое, комплекс - элемент, причина - следствие) налагаются на структуру таксономии, т. е. идентифицируются основные таксономии предметной области.

Исторически тезаурусы создавались для ручного индексирования документов и при их создании не принимались во внимание вопросы, связанные с автоматической индексацией. Трудность построения тезауруса, соответствующего всему тематическому многообразию индексируемой информации, является основной причиной его непопулярности в современных информационных системах. Но, как мы уже отмечали, эффективность информационно-поисковых систем для поддержки научно-образовательной деятельности напрямую зависит от использования специализированных тезаурусов.

Один из первых в истории и наиболее известных на сегодня тезаурусов (идеографических словарей) составлен британским лексикографом Питером Марком Роже (Peter Mark Roget) и опубликован в 1852 г. Оригинальное название тезауруса Роже (Roget's Thesaurus) Thesaurus of English Words and Phrases (Тезаурус английских слов и фраз).

В связи с вычислительными машинами впервые тезаурус был использован М. Мастерман в 1954 г. в области машинного перевода [11]. При помощи тезаурусов устанавливалось соответствие между языком запросов пользователя и документами в информационной системе. Ю. А. Шрейдер [12] предлагал рассматривать тезаурус как систему знаний, отраженных языком, тогда тезаурус становится интересным сам по себе, а не только как вспомогательный инструмент.

Среди универсальных автоматизированных тезаурусов следует отметить интеллектуальный компьютерный тезаурус WORDNET 4 (словарный состав английского языка), аналогичный RussNet 5 для русского языка и уже упомянутый многоязычный тезаурус ЮНЕСКО.

Среди специализированных тезаурусов, реализованных уже на машинных носителях с программной поддержкой для пользователей, можно отметить: EuroVOC 6 - большой поисковый тезаурус, используемый для индексации документов Европейского Союза; тезаурусы и контролируемые словари Исследовательской службы Библиотеки Конгресса США 7; тезаурусы Американского общества индексирования ASI 8; известный тезаурус AGROVOC 9, охватывающий терминологию сельского и лесного хозяйства; компьютеризированный тезаурус медицинской терминологии SNOMED 10 и др.

Среди российских специализированных тезаурусов следует отметить тезаурус Центральной научной сельскохозяйственной библиотеки в области сельского хозяйства 11. Тезаурус построен как расширение словаря-классификатора ГРНТИ 12 и по формату описания терминов совместим с AGROVOC.

Тезаурусы в описании информации

Информационно-поисковый тезаурус (в соответствии с определениями стандартов) - это нормативный (контролируемый) словарь ключевых терминов на естественном языке с явно указанными семантическими отношениями между терминами, предназначенный для описа-

4 https://wordnet.princeton.edu/

5 http://project.phil.pu.ru/RussNet/

6 EuroVOC - официальные публикации Европейского Союза: http://europa.eu/eurovoc/

7 http://www.loc.gov/

8 ASI - American Society for Indexing: http://www.asindexing.org/

9 AGROVOC - Продовольственная и сельскохозяйственная организация Организации Объединенных Наций (ФАО): http: // www.fao.org/agrovoc/

10 http://www.ihtsdo.org/

11 http://www.cnshb.ru/

12 ГРНТИ - Государственный рубрикатор научно-технической информации: http://grnti.ru/

ния содержания документов и поисковых запросов [13; 14]. Тезаурус предназначен для описания конкретной предметной области, каждый термин которой обозначает или описывает какое-либо понятие из данной предметной области.

Термины, составляющие тезаурус, подразделяются на дескрипторы (авторизованные термины) и недескрипторы (аскрипторы). Дескрипторы однозначно соответствуют понятиям предметной области. Отношения между дескрипторами обычно разделяются на два типа: иерархические и ассоциативные. Иерархические отношения обычно рассматриваются как несимметричные и транзитивные.

В соответсвии с ГОСТ 7.25-2001 [15] иерархические отношения обладают свойствами транзитивности и антисимметричности, которые могут быть использованы при избыточном индексировании в интересах повышения эффективности информационного поиска.

Применяемые в информационно-поисковых тезаурусах иерархические отношения могут дифференцироваться на отдельные виды. Основным иерархическим отношением, используемым в информационно-поисковых тезаурусах, является родовидовое отношение (родитель - потомок, шире - уже, выше - ниже). Родовидовая связь устанавливается между двумя дескрипторами, если объем понятия нижестоящего дескриптора входит в объем понятия вышестоящего дескриптора. Также в качестве иерархического отношения в информационно-поисковых тезаурусах может устанавливаться отношение часть - целое. Отношение ассоциации является неиерархическим и ассоциативным. Основное назначение установления ассоциативных отношений между дескрипторами информационно-поискового тезауруса -указание на дополнительные дескрипторы, полезные при индексировании или поиске [17].

Отметим, что описанная в национальных и международных стандартах модель информационно-поискового тезауруса предназначена для его использования в процессе ручного, экспертного анализа документов [13-16].

Главной целью разработки традиционных информационно-поисковых тезаурусов является использование их единиц (дескрипторов) для описания основных тем документов в процессе ручного индексирования. Поэтому важно, чтобы набор дескрипторов информационно-поискового тезауруса позволял описывать тематику документов предметной области. При этом сам процесс индексирования по такому тезаурусу базируется на лингвистических, грамматических знаниях, а также знаниях о предметной области, которые имеются у профессиональных индексаторов текстов. Индексатор сначала должен прочитать текст, понять его и затем изложить содержание текста, пользуясь дескрипторами, указанными в информационно-поисковом тезаурусе. Индексатор должен хорошо понимать всю терминологию, использованную в тексте, - для описания основной темы текста ему понадобится значительно меньшее количество терминов [5; 17].

Стандарты представления тезауруса

На представления тезауруса разработаны ряд международных (180), национальных и корпоративных стандартов и рекомендаций (рис. 1 отражает их эволюцию).

Рис. 1. Эволюция стандартов и рекомендаций представления тезауруса

Стандарт под названием «Руководство для определения и разработки многоязычного тезауруса», ISO 5964:1985 [9] определяет использование разных языков с применением данных, указывая на главные вопросы, касающиеся семантической эквивалентности.

Стандарт ISO 2788:1986 [10] для одноязычных тезаурусов («Руководство для определения и разработки одноязычного тезауруса»), впервые опубликованный в 1974 г., был пересмотрен и опубликован в 1986 г. Этот стандарт международного уровня оставался актуальным в течение 25 лет до появления стандарта ISO 25964-1 [13] в 2011 г.

Стандарт ISO 13250 13 определяет тематически карты (ТМ). Информация представлена в формате xml с пояснениями к обозначениям xmt. В стандарте в формате xmt указаны ключевые элементы и понятия (темы, ассоциации, происхождение, опубликованные темы и область применения). Также стандарт ТМ обычно включает формат электронного взаимообмена тезаурусов, хотя его не выделяют отдельно для них, так как он является одним из его приложений.

Американский национальный институт стандартов (ANSI) провел пересмотр стандартов, касающихся тезауруса, под влиянием Руководства по созданию, формату и управлению одноязычных контролируемых словарей. В нем предлагалось руководство для создания тезауруса с акцентом на формат и управление одноязычных словарей. Рекомендации стандарта ANSI/NISO Z39.19:2005 [18] включали критерии поддержания систем организации данных при помощи автоматического управления тезаурусом. Этот стандарт был направлен на представление содержания различных KOS 14 таких, как синонимы, таксономия, тезаурус и другие типы контролируемых словарей.

Стандарт Z39.19 предполагает, что контролируемые словари обычно используются для описания содержания и определения понятий, а также для представления метаданных, ассоциируемых с содержанием объектов (NISO Z39.19:2005:12). В отличие от других стандартов, используемых до этого момента, новый стандарт подразумевал также использование информатизированных источников в схемах метаданных, таких как Dublin Core, и стандартных сетевых протоколов доступа, таких как протокол Z39.50 [19].

International Fédération of Library Associations and Institutions (IFLA) опубликовала свой доклад по руководству многоязычным тезаурусом [20] в 2009 г. целью дополнения стандарта ISO 5964:1985. Он также дополнял условия стандарта NISO Z39.19:2005. Основные положения, изложенные в этом докладе, касаются способа создания тезауруса в асимметричной форме и связи между разными контролируемыми словарями. Под асимметричным тезаурусом подразумевается многоязычный тезаурус, в котором количество описаний идентификаторов в каждом языке и способ организации идентификаторов необязательно одно и то же и относятся к разным языкам.

Британский стандарт BS8723 (Структурированные словари для поиска информации) публиковались между 2005 и 2008 г. Он состоит из пяти частей, в котором последняя, известная также как DD8723-5 посвящена протоколам и формату взаимообмена для взаимодействия. Она направлена на структурированные словари в целом, характеризуя и сравнивая разные типы KOS, такие как классификация схем, таксономия, схемы оглавления материала, тезаурус, списки авторов и онтология.

Разные части этого британского стандарта были аннулированы после публикации ISO 25964:2011 [13] под названием Информация и документация. Тезаурус и взаимодействие с другими словарями. Тезаурус для поиска информации.

Стандарт ISO 25964-2:2013 [14] «Информация и документация - Тезаурусы и совместимость с другими словарями - Часть 2: Взаимодействие с другими словарями» является продолжением опубликованного в 2011 г. стандарта ISO 25964-1:2011 «Информация и документация - Тезаурусы и совместимость с другими словарями - Часть 1: Тезаурусы для информационного поиска».

Новый стандарт применим в отношении тезаурусов и других типов словарей, которые обычно используются для поиска информации. В нём описываются, сравниваются и проти-

13 Cm.: ISO/IEC13250:2003. Information technology. SGML applications - Topic maps; ISO/IEC 13250-2:2006. Information technology - Topic Maps. Part 2: Data model; ISO/IEC 13250-3:2013. Information technology - Topic Maps. Part 3: XML syntax.

14 KOS - Knowledge Organization System.

вопоставляются элементы и возможности этих словарей, имеющие значение тогда, когда возникает необходимость во взаимодействии (интероперабельности). Стандарт содержит рекомендации по установлению и поддержанию взаимного соответствия между несколькими тезаурусами или между тезаурусами и словарями других типов.

В основу обоих частей стандарта ISO 25964 лег опубликованный в 2005-2007 гг. в четырех частях британский стандарт BS 8723 «Структурированные словари, используемые для поиска информации. Руководство» (Structured vocabularies for information retrieval. Guide).

В табл. 1 дан сравнительный анализ международных стандартов и ГОСТ'ов.

Стандарт ISO 25964:2011 возник вследствие пересмотра стандартов ISO 2788 и ISO 5964, которые спустя 25 лет не соответствали современным требованиям процессов индексации, а также применению сетевых протоколов доступа. Наиболее значительными дополнениями были американский стандарт NISO Z39.19:2005 и британский BS5723-1-5:2005-2008. NISO обобщал стандарт для «контролируемых словарей». Британский стандарт устанавливал связь между тезаурусом и тем, что не является тезаурусом с контролируемым словарем. Наиболее существенное отличие состоит в переходе от терминологической структуризации к концептуальному представлению, в котором эквиваленты лежат между понятиями, а не между словами.

Произошел переход, вследствие устаревания формата, от бумажного к электронному варианту и увеличилась функциональность. Объединение разных ресурсов подразумевает развитие механизмов мапинга (создания карт) или построения, которое позволит международную взаимосвязь.

Впервые в стандарте ISO 25964-1:2011 представлены модели (схемы) данных для сетевого взаимодействия. В основу схем данных положены модель данных протокола Z39.50 (схема данных Zthes) и рекомендации SKOS 15 (схема данных SKOS), базирующейся на RDF-модели представления понятий.

Схема данных Zthes

Исходя из общей идеологии Z39.50, доступ к любой базе данных должен осуществляться через единую стандартную схему данных, на которую должны быть корректно отображены все частные структуры. Схема получила название Zthes.

Zthes предназначена для работы с использованием протокола Z39.50. Заметим, что данная схема предполагает использование весьма ограниченного набора типов отношений между терминами. Это сделано преднамеренно для большей совместимости.

Между терминами, в соответствии с рекомендациями стандарта, устанавливаются следующие типы связей:

• BT - связь с родительским термином, т. е. с термином более широкого смысла;

• NT - связь с дочерним термином, т. е. с термином более узкого смысла. Связь BT-^NT является взаимно обратной;

• USE - связь с термином, который используется вместо этого;

• UF - взаимно обратная связь USE, USE^UF;

• RT - связь, определяющая связанный термин;

• LE - связь между лингвистически эквивалентными терминами.

Связи ВТ и NT, а также USE и UF, взаимно обратны. Связи RT, а также LE симметричны.

Кроме того, тип термина определяется в соответствии с рекомендациями стандарта. В схеме Zthes выделяются следующие типы терминов:

• TT - термин верхнего уровня, т. е. термин, не имеющий связанных терминов более широкого класса (терминов с типом связей ВТ);

• NT - не термин верхнего уровня, т. е. дескриптор, имеющий связи типа ВТ;

• ND - неосновной термин;

• NL - фиктивный термин, т. е. термин, не используемый для индексации документов, но включенный в иерархию, чтобы указать логический базис раздела классов.

В табл. 2 приведены описание основных элементов схемы Zthes.

15 Simple Knowledge Organization System (SKOS) - рекомендации W3C, часть концепции Semantic Web.

Таблица 1

Сравнительный анализ стандартов

Стандарты представления тезауруса Название стандарта Область применения Состав, структура и основные требования к построению тезауруса Отличие от предыдущего

ISO 5964:1985 Стандарт под названием «Руководство для определения и разработки многоязычного тезауруса» Распространяется на многоязычные информационно-поисковые тезаурусы Стандарт определяет основные типы происхождения использования разных языков с применением данных, указывая основные вопросы, касающиеся семантической эквивалентности

ГОСТ 7.24-2007 «Система стандартов по информации, библиотечному и издательскому делу. Тезаурус информационно-поисковый многоязычный. Состав, структура и основные требования к построению» Распространяется на многоязычные информационно-поисковые тезаурусы Обязательными составными частями МИПТ являются вводная часть и алфавитные лексико-семантические указатели, включающие средства для указания эквивалентности дескрипторов одноязычных версий. Допускается в состав тезауруса вводить систематические, пермутационные, иерархические и другие указатели и списки специальных категорий лексических единиц, а также приложения, содержащие дополнительные сведения о разработке и использовании МИПТ

ISO 2788:1986 «Руководство для определения и разработки одноязычного тезауруса» Распространяется на одноязычные информационно-поисковые тезаурусы Определяет тезаурус как набор терминов, связанных между собою соответствующими отношениями -

ГОСТ 7.25-2001 ГОСТ 7.25-2001 «Система стандартов по информации, библиотечному и издательскому делу. Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления» Распространяется на одноязычные информационно-поисковые тезаурусы В состав ИПТ входят вводная часть, основная часть (лексико-семантический указатель) и дополнительные части (систематический, пермутационный, иерархический и другие указатели и списки специальных категорий ЛЕ)

ISO 13250:2000/2003 Стандарт ISO 13250 определяет тематические карты (ТМ) Тематические карты - это мета-модель для определения категорий, объединения и использования при помощи семантических связей в документах и разделах независимо Информация представлена в формате хт1 с пояснениями к обозначениям х1т (Перер; Мур, 2001). В стандарте в формате Хт указаны

Продолжение табл. 1

Стандарты представления тезауруса Название стандарта Область применения Состав, структура и основные требования к построению тезауруса Отличие от предыдущего

от содержания. Тематические карты ставят своей целью индексацию содержания документа в целом, а также позволяют реализовать многофункциональную индексацию для аналогичного типа веб-документов ключевые элементы и понятия (темы, ассоциации, происхождение, опубликованные темы и область применения). Также стандарт ТМ обычно включает формат электронного взаимообмена тезаурусов, хотя его не выделяют отдельно для них, так как он является одним из его приложений

ANSI/NISO Z39.19:2005 739.19:2005 включали критерии поддержания систем организации данных при помощи автоматических управляющих тезаурусом Направлен на представление содержания различных KOS: синонимов, таксономий, тезаурусов и других типов контролируемых словарей. Был задуман для применения к одноязычным тезаурусам (NISO Z39.19:2005, пункт 2.4) МБО (Организация национальных стандартов информации) подразумевает, что контролируемые словари обычно используются для описания содержания по определению понятия для представления метаданных, ассоциируемых с содержанием предметов (МБО 739.19:2005:12) В отличие от других стандартов ISO, используемых до этого момента, новый стандарт подразумевает также применение информатизированных источников в качестве демонстрации применения схем метаданных, таких как Dublin Core

IFLA 2009 Распространяется на многоязычные информационно-поисковые тезаурусы Создание тезауруса в асимметричной форме и связь между разными контролируемыми словарями. Под асимметричным тезаурусом подразумевается многоязычный тезаурус, в котором количество описаний идентификаторов в каждом языке и способ организации идентификаторов необязательно такие же и относятся к разным языкам IFLA опубликован по руководству многоязычных тезаурусов в 2009 г. с целью дополнить стандарт ISO 5964:1985. Он также дополнял другие условия, направленные на возглавление материала и стандарт NISO Z39.19:2005 (IFLA, 2009)

ISO 25964-1:2011 «Информация и документация -Тезаурусы и совместимость с другими Предназначен для использования в приложениях для информа- Содержит рекомендации по разработке и поддержанию тезаурусов Содержит также модель данных и описывает

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Окончание табл. 1

Стандарты представления тезауруса Название стандарта Область применения Состав, структура и основные требования к построению тезауруса Отличие от предыдущего

словарями - Часть 1: Тезаурусы для информационного поиска» ционного поиска. Применим в отношении словарей, используемых для поиска и извлечения информации из информационных ресурсов всех видов, независимо от вида носителей (текст, звук, фотографии и видеозаписи, физические или мультимедийные объекты), включая базы знаний и порталы, библиографические базы данных, текстовые, музейные и мультимедийные коллекции и содержащиеся в них объекты. Применим в отношении одно-и многоязычных тезаурусов рекомендуемый формат для импорта и экспорта данных тезауруса

ISO 25964-2:2013 «Информация и документация -Тезаурусы и совместимость с другими словарями - Часть 2: Взаимодействие с другими словарями» (Information and documentation - Thesauri and interoperability with other vocabularies -Part 2: Interoperability with other vocabularies) Направлен на структурированные словари в целом, характеризуя и сравнивая разные типы KOS: классификацию схем, таксономию, схемы оглавления материала, тезаурус, списки авторов и онтологию. Программное обеспечение приобретает другие функции: управление словарем, способы формализации, необходимые для составления карт между словарями, а также протоколы и форматы взаимообмена Применим в отношении тезаурусов и других типов словарей, которые обычно используются для поиска информации. В нем описываются, сравниваются и противопоставляются элементы и возможности этих словарей, имеющие значение тогда, когда возникает необходимость во взаимодействии (ин-тероперабельности). Стандарт содержит рекомендации по установлению и поддержанию взаимного соответствия между несколькими тезаурусами или между тезаурусами и словарями других типов

Таблица 2 Схема данных Zthes

Поле Описание

1. Element thes

1.1 dc:title Наименование тезауруса

1.2 dc:creator Лицо, несущее первичную ответственность за создание тезауруса

1.3 dc:subject Предметное содержание тезауруса

1.4 dc:description Описание содержания тезауруса

1.5 dc:publisher Лицо, ответственное за предоставление тезауруса пользователям

1.6 dc:contributor Лицо, ответственное за вклад в содержание тезауруса

1.7 dc:date Дата создания тезауруса

1.8 dc:type Природа или жанр содержания тезауруса

1.9 dc:format Физическое или форматное представление тезауруса

1.10 dc:identifier Идентификатор тезауруса, ссылка однозначная в пределах данного контекста

1.11 dc:source Ссылка на тезаурус, послуживший источником данных

1.12 dc:language Язык тезауруса

1.13 dc:relation Ссылка на связанный (родственный) тезаурус

1.14 dc:coverage Локализация и границы применимости тезауруса

1.15 dc:rights Сведения о правах на использование и управление тезауруса

2. Element term

2.1 termId Строка символов, уникально идентифицирующих термин в тезаурусе

2.2 termUpdate Обновления записи

2.3 termName Термин в том виде, в котором он может быть отображен пользователю либо использован для поиска

2.4 termQualifier Квалификатор - дополнительная строка, которая в сочетании с термином является уникальной в тезаурусе

2.5 termType Тип термина, выбираемый из контролируемого списка значений, приведенного ниже: 1) ТТ - термин верхнего уровня, т. е. термин, не имеющий связанных терминов более широкого класса (терминов с типом связей ВТ); 2) КТ - не термин верхнего уровня, т. е. дескриптор, имеющий связи типа ВТ; 3) N0 - (аскриптор) непредпочтительный термин. 4) КЬ - псевдотермин, введенный в тезаурус в качестве логической основы для последующих делений (фиктивный термин, т. е. термин, не используемый для индексации документов, но включенный в иерархию, чтобы указать логический базис раздела классов

2.6 termLanguage Язык термина

2.7 termVocabulary Указание откуда взята лексика термина, если тезаурус содержит несколько словарей

2.8 termCategory Определяет термин как принадлежащий особому актуальному подмножеству (микротезаурус)

2.9 termStatus Статус термина, который может быть активным, деактивирован-ным или удаленным. Только активные термины могут быть использованы для поиска

2.10 termApproval Указание того, является ли термин одобренным для включения в тезаурус (ждет разрешения или не будет рассмотрен для включения в него)

Окончание табл. 2

Поле Описание

2.11 termSortkey Ключ сортировки для термина

2.12 termCreatedDate Дата, на котором была создана запись

2.13 termCreatedBy Имя пользователя, создавшего запись

2.14 termModifiedDate Дата последнего изменения записи

2.15 termModifiedBy Имя пользователя, который последним изменил запись

2.16 termNote Примечание, уточняющее смысл и область применения термина

3. Element postings Запись, с указанием частоты, с которой термин встречается в целевой базе данных

3.1 sourceDb База данных, в которой находится термин

3.2 element fieldName Имя поля в базе данных, в котором записан термин

3.3 element hitCount Число встречаемости термина в базе данных

4. Element relation Ссылки на связанные термины в соответствии с нижеприведенной схемой связей

4.1 relationType Тип связей, выбираемый из контролируемого списка значений: КТ' - связанный термин имеет более узкое значение чем текущий (связь с дочерним термином, т. е. с термином более узкого смысла); 'ВТ' - связанный термин имеет более широкое значение чем текущий (связь с родительским термином, т. е. с термином более широкого смысла); '^Е' - связанный термин является дескриптором по отношению к текущему (связь с термином, который используется вместо этого); 'ИБ' - связанный термин является аскриптором по отношению к текущему; 'ЯТ' - связанный термин является ассоциативным по отношению к текущему; ЪЕ' - связанный термин является лингвистически эквивалентным по отношению к текущему, т. е. представляет то же понятие, но на другом языке. Связи типа КТ и ВТ являются взаимно обратными. Это касается связей типа ^Е и ИБ, ЯТ, ЬЕ. Другими словами, если запись Т1 имеет связь типа КТ с записью Т2, то запись Т2 обязательно имеет связь типа ВТ с записью Т1, и наоборот. Связи типа ЯТ и ЬЕ используются в обеих связанных записях

Схема данных SKOS

SKOS (Simple Knowledge Organization System, простая система огранизации знаний) -подмножество языка RDF, используется для создания модели, выражающей базовую структуру и содержимое концептуальных схем, таких как тезаурусы, классификационные схемы, списки именованных объектов, таксономий и других подобных типов словарей. Как приложение RDF SKOS позволяет публиковать термины в веб-среде, связывать их с информационными элементами, а также включать их в другие концептуальные схемы.

SCOS также предоставляет легковесный язык концептуального моделирования и может быть использован в комбинации с более формальными языками, например OWL.

Основные элементы SKOS:

• понятие (concept, концепт) определяет ключевой термин, понятие, идею, сущность, объект предметной области;

• семантическое отношение соотносит два понятия друг с другом. SKOS определяет 2 типа семантических онтоошений: иерархические (broader / narrower, BT / NT, шире / уже) и неиерархические (related, RT, ассоциирован).

Понятие, как правило, содержит одину из меток (лейблов) в своем определении:

• prefLabel - предпочитаемый лейбл. Может быть только один на каждом языке;

• altLabel - альтернативный лейбл. Может быть использован наряду с предпочитаемым, для задания синонима;

• hiddenLabel - скрытый лейбл. Используется для задания доступной информации для обработки, но скрытой от вывода, например, для ошибочного варианта лейбла.

В целом иерархические отношения напоминают отношения subClass в OWL, но они не обладают, в отличие от своего аналога в OWL, свойством транзитивности. Также не обладает транзитивностью и ассоциативное свойство, хотя SKOS определяет его как симметричное. Для определения транзитивных свойств следует использовать конструкции skos:broaderTran-sitive и skos:narrowerTransitive, которые являются предками нетранзитивных аналогов.

Кроме основных элементов, в SKOS определены различные описательные элементы:

• описание (ScopeNote) - информация о значении концепта, если он является ограничением чего-либо (ex:microwaveFrequencies skos:scopeNote);

• определение (Defenition) - полное определение концепта;

• пример (Example) - включает пример сущности, описываемой концептом;

• запись редактора (EditorialNote) - служебный комментарий автора словаря, тезауруса, описательной схемы;

• запись изменения (ChangeNote) - служебная запись об изменении данного концепта или его атрибутов.

SKOS позволяет также определять схемы концептов (Concept Scheme), которые являются воплощением некоего словаря или классификацонной схемы, в которые можно включать концепты. Концепты входят в схему с помощью конструкции skos:inScheme property в объявлении концепта. Один концепт может быть в различных схемах. Для указания корневого концепта в словаре используется конструкция skos:hasTopConcept в определении схемы.

SKOS позволяет также связывать концепты из различных схем, используя следующие конструкции в определении концепта:

• exactMatch - концепт может быть заменен концептом, связанным с ним данным отношением;

• closeMatch - определение концепта очень похоже на определение концепта, связанного с ним данным отношением;

• broadMatch - аналогия отношения broader в отношении концепта из другой схемы;

• narrowMatch - аналогия отношения narrower в отношении концепта из другой схемы;

• relatedMatch - аналогия отношения related в отношении концепта из другой схемы.

Принципиально схема данных SKOS эквивалентна схеме данных Zthes, за исключением

элемента postings, который не представлен в схеме данных SKOS.

Другие схемы

Существуют другие схемы данных для представления тезаурусов и контролируемых словарей, но все они беднее по описанию свойств и не соответствуют стандарту. Можно отметить следующие схемы: MARC, VDEX и MODS.

MARC - Machine-Readable Cataloging, «машиночитаемая каталогизация» - формат машиночитаемой каталогизационной записи 16. Может быть использован только для представления контролируемых словарей без семантических связей. MARC-формат определяет структуру и семантику библиографической информации, прежде всего это стандарт структуры данных, а не стандарт содержания. Содержание записи регламентируется правилами ка-

16 RUSMARC [Электронный ресурс]: Российский коммуникативный формат // Российская библиотечная ассоциация [web-сайт]. URL: http://www.rba.ru:8101/rusmarc/

талогизации, системой предметизации и т. д. В то же время есть ряд вопросов, трактовка которых в формате и в правилах каталогизации различается.

VDEX 17 - Vocabulary Definition Exchange - модель словаря для информационного обмена. Формат IMS VDEX - стандартное представление лексикографических ресурсов, независимое от приложения, в котором они применяются, создает условия для их переносимости и совместного использования разными системами.

MODS 18 - Metadata Object Description Standard. Схема MODS, разработанная Библиотекой Конгресса США в 2002 г., представляет собой сокращенную, более «дружественную» для пользователя версию MARC - подмножество ключевых элементов данных MARC переведено в легко понимаемый XML-формат. Вместо трехзначных меток полей, абстрактных идентификаторов подполей используются понятные для пользователя вербальные метки (например, «title» вместо «245»). Большая часть элементов данных фиксированной длины игнорируется. Определены новые элементы данных, например: «name», который включает и личное имя, и наименование организации, может использоваться и в поле автора, и как часть предметной рубрики. Хотя схема MODS создана на основе MARC21 и намного детальнее, чем DC, в ней гораздо меньше правил, чем в MARC. Как и в DC, нет обязательных полей, все поля могут повторяться. Записи MODS часто используются в базах данных, которые включают смесь библиотечной каталогизации и библиографических данных, полученных из других источников.

Реализация тезауруса

Данный анализ был проведен с целью выбора подхода к реализации тезауруса по информатике для поддержки курсов 19 «Современные проблемы информатики» и «Вычислительные системы». В качестве платформы реализации тезауруса была использована «Система управления электронными библиотеками», разработанная в ИВТ СО РАН [21; 22].

Для реализации тезауруса была выбрана схема данных Zthes, как самая продвинутая из стандартных схем. Ее главное преимущество состоит в том, что она соответствует модели сетевого протокола Z39.50, что позволяет не только работать с собственным локальным тезаурусом, а подключать при необходимости тезаурусы, расположенные в сети [23].

В схему данных Zthes были добавлены три элемента:

• termNormName - нормальная форма термина (единственное число, именительный падеж и т. п.);

• termLinklD - алгоритмически вычисляемый уникальный идентификатор, характеризующий термин;

• termScopeNote - краткая текстовая характеристика термина, используемая для идентификации текстов.

Контролируемый словарь типа связей (relationType) был расширен признаком 'SYN' -полный синоним, куда заносится понятийный эквивалент термина, получаемый, как правило, из различий в его написании (например, вычислительные системы = выч. системы).

Созданные компоненты реализации тезауруса позволяют просматривать, редактировать и добавлять термины тезауруса в систему через web-формы, а также импортировать и экспортировать термины в виде XML-, RDF-, DTD-файлов. Преобразование данных в схемы данных SKOS, MARC, MODS и представление терминов в браузере производится с помощью XSLT-преобразования.

На рис. 2 отражено представление термина через Web-интерфейс, на рис. 3 - результат поиска того же термина по протоколу Z39.50.

17 http://www.imsglobal.org/vdex/

18 http://www.loc.gov/standards/mods/

19 http://fedotov.nsu.ru/inforteh/

Новосибирский Государственный Университет

БД "Электронная библиотека "

A.M. Федотов

Словарь терминов в коллекции: Thesaurus of Information Technology (zthes cat)

Система обработки данных [ru]

Система обработки данных (компьютерная система, компьютеризованная система) - один или большее число компьютеров, периферийного оборудования и программных средств, которые выполняют обработку данных. Прим.: Система обработки данных может также выполнять операции обработки информации (стандарт ISO IEC 2382-1 ).

(NT) Система обработки данных (add ) [ru]

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Головные термины:

[ВТ] Компьютер [ш! [ВТ] Обработка данных [m] [ВТ] Периферийное оборудование [ru] [ВТ] Программное средство Аскрипторы

[UF] Автоматизированная обработка данных |ш] Ключевые термины, связанные с термином [RT] Обработка информации [ru] ГРТ] Гтггтрмя пЯпяплте-п информации [m]

Рис. 2. Web-представление термина

Распределенная система интеграции данных ZooSPACE

1ИП1ЛТ 74Q (;п . HTTP <7-П\1\1 7^nPARk"\

Искать Систем ? в поле 4 - Заглавие • набор Default • с

1 Количество записей Поиск SRU Поиск Z39.50 1

Запись: 4 из 24 Представление: Источник - Формат: XML ' Схема: F

<?xml version="1.0" encoding="UTF-8"?> <Zthes xmlns:dc="http://purl.org/dc/elements/1.l/"> <thes>

<dc:tit 1е>Тезаурус по информатикес/dc :title>

<dc:creator>Федотов A.M.</dc:creator>

<dc:rights>HBT CO PAH</dc:rights>

<dc : lariguage>ru</dc : language>

<dc : language>kz</dc : language>

<dc : ideritifier>http: //db4.sbras.ru: 210/th_compsci</dc: ideritifier> <thesNote>Te3aypyc по информатике создан в рамках работ по . . .</thesNote> </thes> <term> <termID>1255</termID>

<termQualifier>D84EEBA6</termQualifier> <termName>CMCTena обработки flaHHbix</ternMame> <terml_ariguage>ru</termLanguage>

<termNote> (компьютерная система, компьютеризованная система) - один или бс периферийного оборудования и программных средств, которые выполняют обработку

ТС г\ гтсл

Рис. 3. Поиск термина по протоколу Z39.50

Выводы

На основе анализа стандартов и различных подходов к реализации тезаурусов принято решение об использовании схемы данных Zthes создания тезауруса по информатике. В настоящий момент тезаурус содержит 1 841 термин и постоянно пополняется. Использование тезауруса в электронных библиотеках наиболее эффективно при постоянной модернизации тезауруса, его интеграции в базу данных и соответствующем уровне тематической специализации. Пока основное использование тезауруса составляет навигация по ресурсам библиотеки и классификация или рубрикации.

Список литературы

1. Федотов А. М., Федотова О. А. Модель информационной системы для поддержки научно-образовательной деятельности // Вычислительные и информационные технологии в науке, технике и образовании ВИТ-2013: Материалы Междунар. конф. Усть-Каменогорск, 2013. Т. 2: Вычислительные технологии: Восточно-Казахстанский государственный технический университет. С. 249-265.

2. Федотов А. М., Барахнин В. Б., Жижимов О. Л., Федотова О. А. Модель информационной системы для поддержки научно-педагогической деятельности // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2014. Т. 12, № 1. С. 89-101.

3. Барахнин В. Б., Федотов А. М. Исследование информационных потребностей научного сообщества для построения информационной модели описания его деятельности // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2008. Т. 6, № 3. С. 48-59.

4. Шокин Ю. И., Федотов А. М., Барахнин В. Б. Проблемы поиска информации. Новосибирск: Наука, 2010.

5. Лукашевич Н. В. Тезаурусы в задачах информационного поиска. М.: Изд-во МГУ, 2011.

6. Salton G. Dynamic information and library processing. N. J.: Prentice Hall, 1975.

7. Михайлов А. И., Черный А. И., Гиляревский Р. С. Научные коммуникации и информатика. М.: Наука, 1976.

8. Жижимов О. Л., Федотов А. М., Федотова О. А. Построение типовой модели информационной системы для работы с документами по научному наследию // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2012. Т. 10, № 2. С. 5-14.

9. ISO 5964:1985. Guidelines for the establishment and development of multilingual thesauri. Geneva: International Organization for Standardization, 1985.

10. ISO 2788:1986. Guidelines for the establishment and development of monolingual thesauri. 2nd ed. Geneva: International Organization for Standardization, 1986.

11. Masterman M. Semantic message detection for machine translation, using an interlingua // Proc. International Conf. on Machine Translation, 1961. P. 438-475.

12. Шрейдер Ю. А. О количественных характеристиках семантической информации // НТИ. Сер. 2. 1963. № 10. С. 35-39.

13. ISO 25964-1:2011 Information and documentation - Thesauri and interoperability with other vocabularies - Part 1: Thesauri for information retrieval, 2011.

14. ISO 25964-2:2013 Information and documentation - Thesauri and interoperability with other vocabularies - Part 2: Interoperability with other vocabularies, 2013.

15. ГОСТ 7.25-2001. Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления (Система стандартов по информации, библиотечному и издательскому делу) / Межгосударственный совет по стандартизации, метрологии и сертификации. М.: Стандартинформ, 2002.

16. ГОСТ 7.24-2007. Тезаурус информационно-поисковый многоязычный. Состав, структура и основные требования к построению: межгосударственный стандарт (Система стандартов по информации, библиотечному и издательскому делу) / Межгосударственный совет по стандартизации, метрологии и сертификации. М.: Стандартинформ, 2007.

17. Соловьев В. Д., Добров Б. В., Иванов В. В., Лукашевич Н. В. Онтологии и тезаурусы: Учеб. пособие. Казань; Москва, 2006.

18. ANSI/NISO. Z39.19: 2005 Guidelines for the construction, format and management of monolingual controlled vocabularies. NISO Press: Bethesda, MD, 2005.

19. ANSI/NISO Z39.50-2003. Information Retrieval (Z39.50): Application Service Definition and Protocol Specification. NISO Press, Bethesda, Maryland, U.S.A. November 2002.

20. IFLA. Guidelines for multilingual thesauri. (IFLA professional (IFLA professional reports: 115). IFLA, 2009. URL: http://www.ifap.ru/library/book411.pdf

21. Шокин Ю. И., Федотов А. М., Жижимов О. Л., Федотова О. А. Система управления электронными библиотеками // XV Российская конференция с международным участием «Распределенные информационные и вычислительные ресурсы» DICR-2014: Новосибирск, 2-5 декабря 2014 г.: Программа. Тезисы докладов. Авторский указатель участников / Институт вычислительных технологий СО РАН. Новосибирск, 2014.

22. Шокин Ю. И., Федотов А. М., Жижимов О. Л., Федотова О. А. Система управления электронными библиотеками в ИРИС СО РАН // Инфраструктура научных информационных ресурсов и систем: Сб. науч. ст. / Под ред. Е. Б. Кудашева, В. А. Серебрякова. М., 2014. Т. 1. С.11-39.

23. Жижимов О. Л., Федотов А. М., Шокин Ю. И. Технологическая платформа массовой интеграции гетерогенных данных // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2013. Т. 11, № 1. С. 24-41.

Материал поступил в редколлегию 08.06.2015

A. M. Fedotov 1 2, I. A. Idrisova 2, M. A. Sambetbayeva 3, O. A. Fedotova 4

1 Institute of Computational Technologies SB RAS 6Acad. Lavrentjev Ave., Novosibirsk, 630090, Russian Federation

2 Novosibirsk State University 2 Pirogov Str., Novosibirsk, 630090, Russian Federation

3 L. N. Gumilyov Eurasian National University 5 Munaytpasova, Astana, 010000, Kazakhstan

4 State Public Scientific Technological Library SB RAS 15 VoskhodStr., Novosibirsk, 630200, Russian Federation

[email protected]

USING THE THESAURUS IN THE SCIENTIFIC AND EDUCATIONAL INFORMATION SYSTEM

The article contains a review of the standards for the presentation of thesauruses and possible applications of thesauri in the scientific and educational information systems. To compare different approaches to the description of the data schema thesauri based object model, and analysis of these approaches. Considered in detail the data schema SKOS and Zthes and make a choice for the implementation of the scheme Zthes. Particular attention is paid to work with dictionaries of key terms that are used to organize and classify information resources.

Keywords: information system, electronic library, dictionary, directory, database, information retrieval thesaurus, metadata, Z39.50, data schema, SKOS, Zthes, MARC, VDEX, MODS.

References

1. Fedotov A. M., Fedotova O. A. A model of information system to support scientific and educational activities. Computational and Informational Technologies in Science, Engineering and Education CIT 2013: Proceedings of the International Conference. Ust'-Kamenogorsk, 2013, vol. 2: Computing technology: East Kazakhstan State Technical University, p. 249-265.

2. Fedotov A. M., Zhizhimov O. L., Fedotova O. A., Barakhnin V. B. A model of information system to support scientific and educational activities. Vestnik of Novosibirsk State University. Series: Information Technologies, 2014, vol. 12, № 1, p. 89-101.

3. Barakhnin V. B., Fedotov A. M. Studying the information needs of scientific community for constructing the information model of its activity. Vestnik of Novosibirsk State University. Series: Information Technologies, 2008, vol. 6, № 3, p. 48-59.

4. Shokin Yu. I., Fedotov A. M., Barakhnin V. B. Problems of information retrieval. Novosibirsk, Nauka, 2010.

5. Lukashevich N. V. Thesaurus in the problems of information retrieval. Moscow, Moscow State University Press, 2011, 512 p.

6. Salton G. Dynamic information and library processing. N. J.: Prentice Hall, 1975.

7. Mikhailov A. I., Chernyi A. I., Gilyarevskyi R. S. Scientific communications and informatics. Moscow, Nauka, 1976.

8. Zhizhimov O. L., Fedotov A. M., Fedotova O. A. Building a generic model of information system for working with documents on the scientific heritage. Vestnik of Novosibirsk State University. Series: Information Technologies, 2012, vol. 10, № 2, p. 5-14.

9. ISO 5964:1985. Guidelines for the establishment and development of multilingual thesauri. Geneva: International Organization for Standardization, 1985.

10. ISO 2788:1986. Guidelines for the establishment and development of monolingual thesauri. 2nd ed. Geneva: International Organization for Standardization, 1986.

11. Masterman M. Semantic message detection for machine translation, using an interlingua. Proc. International Conf. on Machine Translation, 1961, p. 438-475.

12. Schrader Yu. A. On the quantitative characteristics of semantic information. NTI. Ser. 2, 1963, no. 10, p. 35-39.

13. ISO 25964-1:2011 Information and documentation - Thesauri and interoperability with other vocabularies - Part 1: Thesauri for information retrieval, 2011.

14. ISO 25964-2:2013 Information and documentation - Thesauri and interoperability with other vocabularies - Part 2: Interoperability with other vocabularies, 2013.

15. GOST 7.25-2001. Thesaurus monolingual information retrieval. Rules for the development, structure, composition and form of presentation (System of standards on information, librarianship and publishing) / Interstate Council for Standardization, Metrology and Certification. Moscow, Standartinform, 2002.

16. GOST 7.24-2007. Thesaurus multilingual information retrieval. Composition, structure and basic requirements for construction: an interstate standard (System of standards on information, li-brarianship and publishing) / Interstate Council for Standardization, Metrology and Certification. Moscow, Standartinform, 2007.

17. Solovyev V. D., Dobrov B. V., Ivanov V. V., Lukashevich N. V. Ontologies and thesauri: Textbook. Kazan, Moscow, 2006.

18. ANSI/NISO. Z39.19: 2005 Guidelines for the construction, format and management of monolingual controlled vocabularies. NISO Press: Bethesda, MD, 2005.

19. ANSI/NISO Z39.50-2003. Information Retrieval (Z39.50): Application Service Definition and Protocol Specification. NISO Press, Bethesda, Maryland, U.S.A. November 2002.

20. IFLA. Guidelines for multilingual thesauri. (IFLA professional (IFLA professional reports: 115). IFLA, 2009. URL: http://www.ifap.ru/library/book411.pdf

21. Shokin Yu. I., Fedotov A. M., Zhizhimov O. L., Fedotova O. A. The control system of electronic libraries. XV Russian conference with international participation «Distributed information and computational resources» DICR-2014: Novosibirsk, December 2-5, 2014: program. Abstracts. Authors participants, Novosibirsk, 2014.

22. Shokin Yu. I., Fedotov A. M., Zhizhimov O. L., Fedotova O. A. The control system of digital libraries in IRIS SB RAS. Infrastructure scientific information resources and systems: Collection of scientific articles of the Fourth All-Russian Symposium. E. B. Kudasheva, V. A. Serebrya-kov (eds.). Moscow, 2014, vol. 1, p. 11-39.

23. Zhizhimov O. L., Fedotov A. M., Shokin Yu. I. Technology platform for the mass integration of heterogeneous data. Vestnik of Novosibirsk State University. Series: Information Technologies, 2013, vol. 11, № 1, p. 24-41.

i Надоели баннеры? Вы всегда можете отключить рекламу.