Научная статья на тему 'ИНТЕГРАЦИЯ ИНФОРМАЦИОННЫХ СИСТЕМ НАУЧНОЙ КОММУНИКАЦИИ: ЛОГИКО-ЛИНГВИСТИЧЕСКИЕ АСПЕКТЫ'

ИНТЕГРАЦИЯ ИНФОРМАЦИОННЫХ СИСТЕМ НАУЧНОЙ КОММУНИКАЦИИ: ЛОГИКО-ЛИНГВИСТИЧЕСКИЕ АСПЕКТЫ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
84
12
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
интеграция информационных систем / библиотечные / архивные и музейные системы / проблемы и тенденции / архитектура / платформа Libmeta / метаданные / логическая структура интегрального портала / лингвистические средства информационного поиска / онтологии / integration of information systems / library / archival and museum systems / problems and trends / architecture / the Libmeta platform / metadata / logical structure of the integrated portal / linguistic means of information retrieval / ontology

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Антопольский Александр Борисович

в статье обсуждаются причины и проблемы интеграции библиотечных, архивных и музейных информационных систем, в том числе социально экономические проблемы. Обсуждаются тенденции изменения инфосферы в этой области. Рассматриваются типы архитектуры интегрированных систем. Приводится описание информационной платформы LibMeta, предназначенной для интеграции метаданных библиотечных, архивных и музейных информационных систем. В качестве примера подхода к этим проблемам описывается логико-лингвистическая структура портала по культуре, предложенная автором. Приводится обзор современного состояния различных лингвистических средств информационного поискаметаданные, классификации, тезаурусы. Особое внимание уделяется онтологиям.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

INTEGRATION OF INFORMATION SYSTEMS OF SCIENTIFIC COMMUNICATION: LOGIC AND LINGUISTIC ASPECTS

the causes and problems of integration of library, archive and museum information systems, including social and economic issues are discussed in the article. Trends in the change of the infosphere in this area are discussed. The types of architecture of integrated systems are considered. Description of the information platform LibMeta, designed to integrate the metadata of library, archival and museum information systems is presented. The logical and linguistic structure of the portal on culture, proposed by the author as an example of the approach to these problems, is described. A review of the current state of various linguistic information retrieval tools is given – metadata, classifications, thesauri. Ontologies are given special attention.

Текст научной работы на тему «ИНТЕГРАЦИЯ ИНФОРМАЦИОННЫХ СИСТЕМ НАУЧНОЙ КОММУНИКАЦИИ: ЛОГИКО-ЛИНГВИСТИЧЕСКИЕ АСПЕКТЫ»

УДК 004.032

А.Б. Антопольский, A.B. Antopolsky

ИНТЕГРАЦИЯ ИНФОРМАЦИОННЫХ СИСТЕМ НАУЧНОЙ

КОММУНИКАЦИИ: ЛОГИКО-ЛИНГВИСТИЧЕСКИЕ АСПЕКТЫ

INTEGRATION OF INFORMATION SYSTEMS OF SCIENTIFIC COMMUNICATION: LOGIC AND LINGUISTIC ASPECTS

Аннотация: в статье обсуждаются причины и проблемы интеграции библиотечных, архивных и музейных информационных систем, в том числе социально экономические проблемы. Обсуждаются тенденции изменения инфосферы в этой области. Рассматриваются типы архитектуры интегрированных систем. Приводится описание информационной платформы LibMeta, предназначенной для интеграции метаданных библиотечных, архивных и музейных информационных систем. В качестве примера подхода к этим проблемам описывается логико-лингвистическая структура портала по культуре, предложенная автором. Приводится обзор современного состояния различных лингвистических средств информационного поиска - метаданные, классификации, тезаурусы. Особое внимание уделяется онтологиям.

Ключевые слова: интеграция информационных систем; библиотечные, архивные и музейные системы; проблемы и тенденции; архитектура; платформа Libmeta; метаданные; логическая структура интегрального портала; лингвистические средства информационного поиска; онтологии.

Abstract: the causes and problems of integration of library, archive and museum information systems, including social and economic issues are discussed in the article. Trends in the change of the infosphere in this area are discussed. The types of architecture of integrated systems are considered. Description of the information platform LibMeta, designed to integrate the metadata of library, archival and museum information systems is presented. The logical and linguistic structure of the portal on culture, proposed by the author as an example of the approach to these problems, is described. A review of the current state of various linguistic information retrieval tools is given - metadata, classifications, thesauri. Ontologies are given special attention.

Keywords: integration of information systems; library, archival and museum systems; problems and trends; architecture; the Libmeta platform; metadata; logical structure of the integrated portal; linguistic means of information retrieval; ontology.

Процессы, происходящие в информационном пространстве научной коммуникации (инфосфере) в последние 20 лет, можно охарактеризовать как разнонаправленные. С одной стороны, налицо стремление создать информационные ресурсы и сервисы, нацеленные на точное удовлетворение информационных потребностей все более сужающейся группы потребителей, в пределе - конкретного лица. Этот процесс обычно именуется персонализацией

информационных сервисов и, по мнению авторов DELOS - известного европейского проекта в области электронных библиотек, является одним из магистральных направлений развития инфосферы. С другой стороны, в каждой отрасли деятельности возникает огромное количество информационных ресурсов и сервисов, и доля внимания потребителей, относящаяся к каждому ресурсу в отдельности, постоянно сокращается. Одновременно возрастает роль междисциплинарных исследований и направлений деятельности. Это ведет к пониманию необходимости интеграционных сервисов, которые бы ориентировали потребителя в растущем количестве и многообразии информационных ресурсов и сервисов и ограничивали бы рост непроизводительных расходов из-за дублирования информационных процессов.

На эти процессы оказывает сильное влияние информационная инфраструктура. С одной стороны, возрастает роль дигитализации (электронизации) процессов коммуникации, быстро развивается Интернет как единая транспортная и инфраструктурная система коммуникаций. С другой стороны, значительную долю информационной инфраструктуры продолжают составлять традиционные секторы информационной индустрии - библиотечные, архивные, издательские организации, музеи, не до конца исчезнувшие органы научно-технической информации, государственные и коммерческие информационные службы и многие другие. Организации и люди, относящиеся к традиционным секторам научных коммуникаций, обладают значительной инерцией в своем менталитете и в своих представлениях о задачах и функциях и систем научной коммуникации, ее эффективных способах. Эти секторы стремятся при переносе своей деятельности в Интернет сохранить ее организационные и методические основы. Это, как правило, плохо получается, что особенно очевидно в библиотечной и издательской сферах.

Одновременно в условиях рыночной экономики идет бурный рост числа коммерческих организаций, активно ищущих новые ниши на информационном рынке. Возникают интеграторы, коммерческие электронные библиотеки, различного рода энциклопедические, словарные и справочные службы, работающие в самых разных секторах инфосферы. В качестве примера можно привести рост числа служб и сервисов самой крупной отечественной информационной компании - Яндекс. За 20 лет число сервисов Яндекса увеличилось от одного (поиска в Рунете) до 55. При этом некоторые сервисы (например, Словари), исчезли, а другие (Метрика) существенно поменяли содержание. Налицо существенная динамика информационных сервисов. Общее же число коммерческих компаний, которые пытаются строить свой бизнес на обработке информации в Рунете, невероятно велико - наверное, исчисляется десятками тысяч.

Наряду с этими двумя секторами информационной индустрии, которые можно назвать традиционным и коммерческим, в инфосфере возник и быстро

развивается третий сектор, который обычно называют некоммерческим. Деятельность организаций и лиц этого сектора отличается, прежде всего, мотивацией: не стремлением к прибыли (как у коммерческих организаций) и не установившимися представлениями о своих социальных функциях (как у организаций традиционных секторов), а новыми, обычно альтруистическими, идеями об информационных потребностях людей в формирующемся информационном обществе. Самый яркий и известный пример деятельности в некоммерческом секторе - это, конечно, «Википедия». Менее известно, что в области электронных библиотек число их создателей и владельцев, относящихся к третьему сектору, превышает 60 %.

Потребность современного человека в коммуникации, с одной стороны, и предложение современных информационных технологий, с другой, породило такое заметное явление современной инфосферы, как социальные сети, число участников которых сопоставимо с числом пользователей Интернета во всем мире. Нужно заметить, что в этом явлении довольно успешно сочетаются общественные некоммерческие интересы людей, пользующихся социальными сетями, и коммерческие интересы их создателей и владельцев, умеющих моне-тизировать активность участников социальных сетей.

Таким образом, основную тенденцию развития инфосферы можно характеризовать как бурный рост числа и разнообразия каналов коммуникации и информационных сервисов как универсальных, так и нишевых. Это в полной мере относится и к научной инфосфере. К процессам, характеризующим инфосферу, в том числе научную, можно отнести также: продолжающийся рост числа пользователей Интернета, достигающий в развитых странах и регионах своего насыщения при числе пользователей в 75-80 % от числа жителей; быстрый рост количества и качества информационных технологий, обслуживающих инфосферу; движение за открытую науку, охватившее уже заметную долю научных коммуникаций.

Понятно, что в этих условиях стали весьма актуальными интеграционные идеи, направленные на обеспечение возможности поиска и обработки информационных объектов (документов, данных, изображений и др.), представленных в разнородных системах и ресурсах - библиотечных, архивных, музейных, массовых, новостных и образовательных, государственных и коммерческих, индивидуальных и коллективных. Укажем также, что идея интеграции библиотечных, архивных и музейных информационных систем проникла и в правительственные документы, где она получила название «единого российского электронного пространства знаний» [Основы, 2014].

Рассмотрим некоторые идеи и методы, предлагаемые в мире и в России.

Главная причина тенденции на интеграцию заключается в том, что основные владельцы научной и культурной информации, а это прежде всего библиотеки, музеи и архивы (иногда их также называют «институты памяти»), находятся в сфере информатизации под влиянием противоречивых стимулов.

С одной стороны, эти учреждения активно заинтересованы в выходе в Интернет, представлении своей информации в цифровой форме, в увеличении доступа пользователей к своим ресурсам и вообще в расширении спектра электронных услуг. Данная тенденция поддерживается государством: в рамках программы «электронного правительства» для государственных и муниципальных институтов памяти установлен обязательный набор «электронных услуг», который должен постоянно расширяться. В результате число электронных коллекций по научному и культурному достоянию, создаваемых институтами памяти, быстро растет и уже исчисляется тысячами.

С другой стороны, подавляющее большинство научных учреждений не обладает финансовыми, технологическими и, особенно, кадровыми ресурсами для создания современных высокоразвитых электронных библиотек. При этом попытки государственного централизованного управления созданием электронных коллекций в институтах памяти терпят провалы. Достаточно вспомнить историю с электронным каталогом Государственного музейного фонда, работу по которому не могут как следует организовать уже 12 лет.

С третьей стороны, в институтах памяти весьма развито психологически оправданное стремление сохранить контроль над цифровыми ресурсами, создаваемыми на основе фондов этих институтов. Это касается правовых и коммерческих аспектов, но в наибольшей степени определяется соображениями престижа и продвижения собственного бренда.

Отвечая описанным тенденциям, специалисты по информационным технологиям активно развивают интегрированные информационные системы. Известны следующие основные типы архитектуры интегрированных систем:

1) централизованное хранение и документов и метаданных. Примеры: Всемирная цифровая библиотека [Всемирная], Президентская библиотека им. Б.Н. Ельцина [Президентская]; Электронная библиотека «Научное наследие России» [Наследие];

2) распределенное хранение документов и централизованное хранение метаданных. Примеры: БиКОРБАМА [Европеана]; открытые архивы, создаваемые в рамках Инициативы открытых архивов и использующие протокол ОА1-РМН (Соционет [Соционет] и др.);

3) распределенное хранение и документов и метаданных. Примеры: АРБИКОН [Арбикон] и другие корпоративные системы, использующие протокол 7.39.50.

В настоящей статье будут описаны те интеграционные проекты, в которых автор принимал непосредственное участие Подробный обзор других подходов и идей интеграции ресурсов научного, образовательного и культурного назначения можно найти в работе Д.Н. Грибкова [Грибков, 2010].

Примером развитой и универсальной информационно-технологической среды для проектов интеграции электронных коллекции научной и культурной информации, прежде всего создаваемых в академической среде, по мнению автора, является портал «ЦЬМе1а» созданный коллективом специалистов Вычислительного центра РАН. Автор принимал участие в разработке концепции применения технологии данного портала к реализации второй очереди электронной библиотеки «Научное наследие России». В настоящей работе приводится краткое описание этого портала по материалам статьи [Антополь-ский, 2012].

Основные возможности LibMeta. Портал «ЦЬше1а» - это стандартизированная и децентрализованная среда управления информацией электронных фондов, разработанная для интеграции ресурсов институтов памяти (библиотек, архивов и музеев), содержащих объекты научного наследия и связанными с ними метаданными из различных источников, облегчающая обмен информацией и ее совместное использование посредством интернета.

Такой подход к управлению информацией электронных фондов институтов памяти имеет целью предоставить широкому сообществу пользователей средства для простого и своевременного доступа к имеющимся данным, обеспечить навигацию пользователя и сквозной поиск объектов научного и, шире, культурного наследия в фондах различных институтов памяти.

Основной профиль метаданных включает в себя большое количество различных схем описания: базовая схема описания персоны; базовая схема организационных единиц; общая схема описания должностей; базовая схема проектов; базовая схема описания библиографической информации; схема мероприятий. Помимо базовых схем, существуют также и расширенные, в которых производится уточнение введенных классов и их атрибутов. В контексте этой работы наибольшую значимость представляют схемы описания персон, публикаций и организаций.

Основные типы ресурсов. Система поддерживает следующие типы ресурсов: основные - Предметы (музейные), Единица описания (архивы); дополнительные -Организация, Персона, Публикация, Проект, различные рубрикаторы и классификаторы. Требование стандартизации метаданных физических музейных предметов и их мультимедийных (фото, видео, аудио) представлений привело к созданию дополнительных прикладных профилей поддержки музейной деятельности.

В отличие от публикаций, описания музейных объектов могут значительно отличаться в различных музеях, и здесь невозможно обеспечить всеобъемлющий набор необходимых свойств. В связи с этим реализуется возможность определения дополнительных свойств в виде связей с двумя вспомогательными объектами: Дополнительные свойства и Значения дополнительных

свойств. Также добавлен классы: Медиа-объект (предназначен для описания медиа-объекта как единого целого, состоящего из частей данных с различной функциональной нагрузкой); Часть медиа-объекта (позволяет в пределах одного медиа-объекта иметь несколько частей с различной функциональной нагрузкой).

В ЦЬМе1а также поддерживаются Коллекции, которые позволяют хранить классические ресурсы (архивные, музейные) и иметь любые вложенные наборы объектов (выставочные, выездные, по хранению, и пр.).

Единица описания, в контексте архивного дела, обладает атрибутами, общими для описаний различных уровней. Для каждого уровня описаны классы, унаследованные от Единицы описания: Фонд, Опись, Дело, Документ.

Ресурс Организация включает организации РАН, научные центры и другие организации. Данные об их сотрудниках сопоставлены ресурсу Персона. Ресурс Проект поддерживает сведения о проектах, выполненных или ведущихся в РАН и других ведомствах. Ресурс Публикация представляет данные о публикациях и неопубликованных научных документах.

Другим примером подхода к интеграции разнородного информационного пространства может служить концепция регионального интернет-портала «Культура региона», разработанного автором в рамках проекта, выполненного под руководством Н.В. Борисова [Отчет, 2012]. Далее в сокращенном виде излагается эта концепция.

Цели создания портала: интеграция, систематизация и представление пользователю в доступ электронных информационных ресурсов по культуре и традициям региона; координация и стимулирование деятельности по переводу в цифровую форму объектов культурного наследия региона; популяризация культурного наследия региона среди подрастающего поколения, пропаганда идей и смыслов культуры; объединение интересов людей, организаций, общественных структур вокруг культурных ценностей с использованием технологий социальных сетей, формирование на этой основе культурой идентичности с учетом необходимости воспитания толерантности и уважения к национальным культурам и ценностям.

Задачи и сервисы портала:

- мониторинг информационного пространства культуры региона, выявление существующих в данной сфере информационных ресурсов;

- разработка рекомендаций по оценке качества электронных объектов культурного наследия;

- формирование реестров и каталогов релевантных информационных объектов;

- создание и организация ведения специализированных наборов метаданных и классификаторов;

- организация подготовки стандартизированных описаний выявленных информационных объектов и связанных с ними объектов и явлений сферы культуры и традиций;

- создание и ведение хранилища метаданных по широкому кругу объектов культурного наследия, включая каталог Музейного фонда по музеям региона, путеводители по архивам, и другим институтам памяти;

- организация оцифровки нишевых категорий объектов культурного наследия, методическая и правовая помощь владельцам ресурсов;

- организация электронного средства массовой информации в области культурного наследия региона, включая новостную ленту, создание и совершенствование многоуровневого дружественного поискового интерфейса для навигации, поиска и визуализации разнообразных (текстовых, в том числе многоязычных, гипертекстовых, мультимедийных и т.д.) информационных объектов;

- предоставление пользователям широкого набора интерактивных сервисов, таких как форумы, блоги, рекомендательные сервисы, возможность размещения пользователями своего контента;

- организация образовательных, дидактических и игровых сервисов;

- статистические и исследовательские сервисы, анализирующие информационное пространство в сфере культуры, состав и интересы пользователей портала.

Принципы построения и общая архитектура портала. Достижение обозначенных выше целей невозможно представить себе как однократную разработку локализованного, пусть даже и очень крупного, хранилища данных. Основная сложность при этом связана даже не с объемом интегрируемой информации, хотя эти объемы могут быть достаточно велики, а с ее видовым, технологическим, семантическим разнообразием, часто не стандартизованными и даже противоречивыми описаниями объектов культурного наследия. Более реалистичной выглядит стратегия поблочного строительства Портала с постепенным наращиванием объемов и разнообразия интегрируемых информационных ресурсов во взаимодействии с расширяющимся множеством фондодержателей и генераторов информационных ресурсов в рассматриваемой сфере. При этом, однако, наращивание разнообразных содержательных и функциональных блоков должно осуществляться на основе достаточно жесткой единой, хотя и разветвленной, семантической структуры охватываемого Порталом информационного и предметного поля. Можно сказать, что Портал следует «выращивать» вокруг стержневой семантической структуры в виде специализированной системы метаданных и поддерживающей ее системы классификаторов.

Таким образом, основные принципы построения Портала можно сформулировать как принцип поблочного роста системы и принцип сочетания един-

ства и согласованного и контролируемого развития семантической структуры системы с многообразием и вариативностью интегрируемых информационных ресурсов.

К другим принципам построения и функционирования Портала следует отнести: технологичность и простоту использования основных сервисов широкими кругами пользователей, включая любителей-исследователей и собирателей объектов культурного наследия; легитимность информационных ресурсов, интегрируемых Порталом.

Без соблюдения этих принципов невозможно организовать информационное обеспечение пропаганды и популяризации культурного наследия и традиций региона на объективном и научно обоснованном уровне.

В то же время, в соответствии с принципом семантического единства системы, с учетом многообразия типов ресурсов и субъектов, участвующих в информационном наполнении системы, основным архитектурным решением следует считать распределенное хранение документов и централизованное хранение метаданных.

Основная структура портала. Структура портала состоит из нескольких фасетов, которые позволяют организовать навигацию в пространстве портала по разным основаниям. Фасеты перечислены ниже. Некоторые из фасетов могут иметь рубрикаторы, но не более 3 уровней глубины.

Виды ресурсов по основным категориям: Книги; Журналы; Отдельные тексты, включая новостные сообщения; Телевизионные каналы и передачи; Радиоканалы и передачи; Архивные неопубликованные документы; Мультимедийные электронные издания; Графические изображения (фото, картины, графика); Аудиозаписи; Фильмы; 3-Б объекты; Ресурсы Интернет (каталог ссылок).

Тематический рубрикатор портала: Литература, Музыка, Кино, Театры, Фотография, Музеи, Изобразительные искусства, Танец, Афиша, Нематериальное культурное наследие, Природно-культурное наследие, Персоны, Организации, География, Хронограф, Словарь.

Дополнительный список разделов портала: О портале, Основные сервисы, Поиск партнеров и сбор информации, Поиск на портале (навигация, лексический, атрибутный), Мониторинг ресурсов, Статистика, Долговременное хранение данных, Методическое сопровождение, Рекомендательный сервис, Лингвистическое обеспечение и метаданные, Версия портала на английском языке, Новости, Контактные данные.

Логическая структура ресурсов портала. Основной единицей информации, размещаемой на портале, является информационный объект. Каждый объект относится к одной из сущностей. Список сущностей следующий: Тексты, Физические объекты (включая архитектурные памятники), Мультимедиа (изображение, звук, видео и пр.), Персоны, Организации, Территории, Собы-

тия, Словарные статьи, Собрания всего вышеперечисленного (коллекции, базы данных, фонды).

Каждый объект состоит из метаописания объекта и тела объекта. Метао-писание включает реквизиты: обязательные для всех сущностей; обязательные для определенной сущности; факультативные, в том числе приписанные владельцем ресурса.

Обязательными для всех сущностей являются: идентификатор, вид ресурса (согласно словарю видов), название на естественном языке (вкл. имя персоны), указание тематики на основе единого рубрикатора. Список обязательных реквизитов для всех сущностей должен быть разработан на этапе технического проектирования.

В качестве инструмента для описания и формального представления логической структуры портала предлагается использовать Ontology Web Language (OWL).

Как видно из приведенных примеров, центральной проблемой проектирования интеграционных проектов являются логико-лингвистические аспекты, связанные с «картиной мира» проектировщиков и пользователей информационных систем, в частности - библиотечных, архивных и музейных.

Важной особенностью логико-лингвистического обеспечения современных интегрированных информационных систем является то, что оно должно объединять не столько различные тематические или отраслевые компоненты, сколько функционально и структурно различные типы информационных ресурсов и процессов. Именно по этому пути идут лидеры в области современных информационных систем - универсальные поисковые системы Яндекс, Google и др. Так, в известной интегрированной информационной системе Европеана в единую логику поиска включены ресурсы библиотек, музеев, архивов, фонотек и других хранилищ информационных ресурсов разных типов, существенно различающиеся по логико-лингвистическим моделям. Другим примером могут служить образовательные порталы, где интегрируются разные структурные виды информационных ресурсов: текстовые, графические, аудиовизуальные, интерактивные и др.

Прежде чем попытаться сформулировать основные подходы к построению логико-лингвистической модели инфосферы, кратко охарактеризуем состояние логико-лингвистического обеспечения действующих АИС.

Языковые средства документальных информационных систем, традиционно называемые информационно-поисковыми языками, многократно описаны в литературе [Антопольский, 2003, и др.]. Именно на этих языках до конца ХХ в. строилось лингвистическое обеспечение АИС, в том числе Межотраслевой информационной автоматизированной системы (МИАС) - одного из первых крупных проектов интеграции инфосферы. Структура лингвистического

обеспечения МИАС достаточно подробно описана в недавней монографии: [Инфосфера, 2016]. Было выделено несколько типов языковых средств, которые в последние годы существенно модифицировались. Охарактеризуем кратко современное состояние различных типов языков и языковых средств.

Системы метаданных, включая язык библиографических данных, унаследованный от традиционной библиографии, сохраняет значение в информационных системах, ориентированных на обычные изданные документы. Однако при наличии в информационной системе нетрадиционных документов (например, аудиовизуальных или графических) он сильно модифицируется. В современных условиях этот язык включается в систему метаданных интегрированных АИС. Различные системы метаданных активно развивались, для разных типов данных разработано несколько десятков стандартов. Обзоров систем метаданных, в том числе используемых в библиотечных, архивных и музейных информационных системах, известно много [Антопольский, 2003; Антополь-ский, 2004, и др.]. Если говорить о системах метаданных, реализованных в сфере общественных и гуманитарных наук, то в настоящее время используется несколько десятков таких систем - как стандартных, так и уникальных. В основном они имеют источником библиотечные, архивные и музейные традиции, но не только. Например, популярные системы метаданных DCME, VCard, CERIF происходят из других источников.

По замыслу основных игроков Всемирной паутины, представленных в Консорциуме WWW, объединяющей структурой метаданных на семантическом уровне должна была стать система метаданных Dublin Core (Дублинское ядро). Однако в массовом порядке этого не произошло. Большинство генераторов информационных ресурсов продолжает и сейчас использовать традиционные системы метаданных. Только в библиотечной среде получен заметный результат, выразившийся в разработке системы MODS, представляющей способ перехода от традиционных библиотечных форматов семейства MARC к системе Dublin Core.

Один из вариантов инструментального подхода к интеграции метаданных, в том числе библиографических, - система Либмета, описан выше.

Классификационные языки, которые отражают основную понятийную структуру предметной области, продолжают оставаться центральными языками большинства современных информационных систем. В интегрированных информационных системах этот класс языков обычно используется как элемент пользовательского интерфейса информационной системы, особенно для задач навигации. Подробное описание состояния с классификационными языками в современных АИС представлено в работе: [Гиляревский, 2008].

Класс вербальных (дескрипторных) языков, когда-то основной для документальных информационных систем, развивается в двух противоположных

направлениях: с одной стороны, в современных поисковых системах доминирует поиск по лексике естественного языка с использованием более или менее развитых средств автоматического лингвистического или статистического анализа, с другой - понятийные структуры тезаурусного типа мигрируют в направлении онтологий, сливаясь в этом пространстве с классификационными языками и с системами метаданных.

Информационно-поисковые языки фактографического типа практически слились с логико-лингвистическими средствами систем управления баз данных, которые в интегрированных информационных системах включаются в общую логико-лингвистическую модель на основе онтологии.

Следует также учесть, что помимо собственно языковых средств, предоставляемых пользователю и используемых для поиска информации, в современных АИС важное место занимают лингвистические процессоры, обеспечивающие обработку вводимых документов и данных, и выполнение разнообразных функций: конвертирование данных и метаданных в единые форматы, автоматическая классификация или рубрицирование, индексирование, лексикография, экстракция, перевод, поиск дублированной информации (включая антиплагиат), автоматическая обработка устной речи, распознавание образов, географическая привязка, сбор статистики использования ресурсов и др. Эти процессоры также требуют определенных средств представления данных и далеко не всегда являются взаимозаменимыми.

Наверное, самое полное и современное использование лингвистических процессоров в российской инфосфере общественных и гуманитарных наук реализовано в системе автоматической обработки текста (АЛОТ) в рамках Университетской информационной системы РОССИЯ [УИС РОССИЯ].

Понятно, что реализация в АИС тех или иных технологических процессов определяет выбор применяемых логико-лингвистических моделей и языковых средств.

Центральным элементом лингвистического обеспечения документальных информационных систем (основной формы информационных систем в общественных и гуманитарных науках) были, безусловно, тезаурусы, прежде всего информационно-поисковые. Здесь мы кратко рассмотрим тезаурусы по общественным и гуманитарным наукам, созданные в России. Комплекс тезаурусов, разработанный в ИНИОН РАН, описан в работе: [Мдивани, 2004].

Наиболее развитым в данной сфере является Общественно-политический тезаурус [Добров, 2001], который используется в рамках УИС РОССИЯ для таких процессов автоматической обработки текстов, как автоматическое концептуальное индексирование, автоматическая рубрикация текстов, автоматическое аннотирование текстов. Все эти применения тезауруса базируются на тематическом представлении текста, моделирующем тематическую структуру документа

на базе узлов близких по смыслу терминов. Данный тезаурус включает св. 60 000 терминов и св. 100 000 отношений, эксплицирующих систему понятий группы социальных наук: экономика, политология, социология, право и др.

Большой интерес представляет двуязычный русско-английский Тезаурус по педагогике, разработанный в Научно-педагогической библиотеке им. К.Д. Ушинского [Маркарова, 2008], включающий св. 7000 терминов. Важной его особенностью является гармонизация с лексикой ведущих библиотечно-би-блиографических классификаций (ББК, ГРНТИ, Десятичной классификации Дьюи), что позволит существенно сократить затраты для формирования онтологии по соответствующей тематике.

Впрочем, термин тезаурус используется иногда просто как синоним для формализованного словаря того или иного типа (например: [Тезаурус; Баранов]. Такие словари, иногда называемые идеократическими, семантическими, идеографическими, равно как и классические толковые, терминологические и энциклопедические словари могут быть использованы при создании лингвистического обеспечения интегрированной инфосферы по социально-гуманитарным наукам.

Перейдем к изложению принципов формирования такого обеспечения. В научном информационном пространстве, значительная часть которого формируется в Интернет, в основном в Web, генерируются многочисленные информационные ресурсы, различающиеся по самым разным параметрам. Это - ресурсы различной структуры данных, различной тематики, посвященные объектам разной природы, использующие различный программный инструментарий. Они существенно разрозненны, недостаточно структурированы и систематизированы. При создании их описаний недостаточное внимание уделяется вопросам интероперабельности, слабо применяются соглашения по стандартизации электронного представления информационных ресурсов, средства, поддерживающие интеграцию информационных ресурсов, повышение качества поиска. В результате пользователь не может получить полную и достоверную информацию о ресурсах, представляющих для него интерес.

Очевидно, что каждая область науки оперирует своими специфичными данными и имеет потребность в собственных форматах их представления, что обусловлено требованиями функциональности соответствующих систем обработки информации. Этим объясняется малая степень интеграции научных данных по сравнению с образовательными, библиотечными и другими типами ресурсов. Тем не менее, необходимость обеспечения активных научных коммуникаций, прежде всего на междисциплинарном уровне, требует решения задачи интеграции научных ресурсов, начиная с верхнего уровня.

В сложившейся в Интернете ситуации сведения о ресурсах представлены в основном в виде слабоструктурированной информации, с которой оперируют поисковые системы, осуществляющие полнотекстовый поиск. Пользователь в

этих условиях получает огромное количество шума, среди него трудно выбрать релевантную информацию.

Для обеспечения взаимодействия существующих разнородных научных систем на информационном уровне необходимо выработать стандарты научно-информационного сообщества на интерфейсы взаимодействия и профили метаданных, что позволило бы реализовать инструментальные средства, обеспечивающие интеграцию данных в единую среду. Стандарты должны включать: типовые интерфейсы взаимодействия (форматы данных, протоколы обмена) отдельных информационных источников; профили метаданных, предоставляемые этими источниками; онтологии, объединяющие понятия рубрикаторов, тезаурусов, словарей метаданных, классификаторов и справочников ресурсов.

Центральным понятием логико-лингвистического обеспечения современных интегрированных информационных систем, стало понятие онтологии: онтология - система, которая состоит из множества понятий, их определений и аксиом, необходимых для ограничения интерпретации и использования понятий. Рассмотрим это понятие подробней, опираясь в основном на обобщающую работу: [Добров, 2013]. В частности, в ней говорится: «В проектировании онто-логий условно можно выделить два направления, до некоторого времени развивавшихся отдельно. Первое связано с представлением онтологии как формальной системы, основанной на математически точных аксиомах. Второе направление развивалось в рамках компьютерной лингвистики и когнитивной науки. Там онтология понималась как система абстрактных понятий, существующих только в сознании человека, которая может быть выражена на естественном языке (или средствами какой-то другой системы символов). При этом обычно не делается предположений о точности или непротиворечивости такой системы.

Таким образом, существует два альтернативных подхода к созданию и исследованию онтологий. Первый (формальный) основан на логике (предикатов первого порядка, дескриптивной, модальной и т.п.). Второй (лингвистический) основан на изучении естественного языка (в частности, семантики) и построении онтологий на больших текстовых массивах, так называемых корпусах.

В настоящее время данные подходы тесно взаимодействуют. Идет поиск связей, позволяющих комбинировать соответствующие методы. Поэтому иногда бывает сложно отделить лексические онтологии с элементами формальных аксиоматик от логических систем с включениями лингвистических знаний».

Авторы процитированной работы выделяют три основания классификации онтологий:

- по степени формальности. По этому основанию разделяются системы представления понятий по степени формализации - от строгой формализованной системы, основанной на аксиоматике, до обычного словаря или словника, предназначенного для восприятия человеком;

- по цели создания. В рамках этой классификации выделяют онтологии: верхнего уровня, предметной области, прикладная. Они существенно различаются методологией и техникой создания.

- по наполнению, содержимому. По этому основанию онтологии: делятся на общие (такие как онтологии верхнего уровня), ориентированные на предметы, ориентированные на задачи (функции); предназначенные для автоматической обработки текста (в частности, лексические онтологии).

Процедура сопоставления понятий онтологий и языковых выражений является одной из центральных проблем теории и практики создания онтологий.

В монографии Б.В. Доброва и др. приводится детальный обзор наиболее масштабных проектов онтологий верхнего уровня.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Для того чтобы реализовывать различные онтологии, необходимо разработать языки их представления, имеющие достаточную выразительную мощность. Распространение онтологического подхода к представлению знаний привело к появлению разнообразных языков представления онтологии и инструментальных средств, предназначенных для их редактирования и анализа. Существуют традиционные языки спецификации онтологий: Ontolingua; CycL; основанные на дескриптивных логиках (такие, как LOOM) и на фреймах (OKBC, OCML, F-Logic). Более поздние языки основаны на Web-стандартах (XOL, SHOE, UPML). Специально для обмена онтологиями через Web были созданы языки RDF, RDFS, DAML+OIL, OWL. Последний язык объединил лучшие черты предшественников, получил наибольшее распространение при проектировании онтологий в пространстве Web, с 2004 г. рекомендован W3C.

Важным инструментальным средством для работы с онтологиями являются языки запросов к хранилищам онтологий. Наиболее популярными среди языков запросов к RDF-хранилищам на сегодняшний день являются RDQL и SPARQL.

При создании онтологий (как и при проектировании программного обеспечения или написании электронного документа) целесообразно пользоваться инструментальными программными средствами, созданными специально для проектирования, редактирования и анализа онтологий, - редакторами онтологий. Базовый набор функций обычно включает создание, редактирование, удаление понятий, отношений, аксиом и прочих структурных элементов. Количество редакторов онтологий уже перевалило за 100. В монографии Б.В. Доброва и его коллег описаны следующие основные редакторы онтоло-гий: Ontolingua (кроме собственно редактора онтологий система содержит: сетевой компонент Webster, предназначенный для определения концептов; сервер, обеспечивающий доступ к онтологиям Ontolingua по протоколу Open Knowledge Base Connectivity, OKBC); Chimaera (инструментарий для анализа и объединения онтологий); Protege (свободно распространяемая Java-программа,

предназначенная для построения - создания, редактирования и просмотра -онтологий той или иной прикладной области; включает редактор онтологий, позволяющий проектировать онтологии, разворачивая иерархическую структуру абстрактных и конкретных классов и слотов; данный инструмент поддерживает использование языка OWL и позволяет генерировать HTML-документы, отображающие структуру онтологий); DOE (Differential Ontology Editor - простой редактор, позволяющий пользователю создавать онтологии); OntoEdit (инструментальное средство, обеспечивающее просмотр, проверку и модификацию онтологии; поддерживает языки представления онтологии OIL и RDFS); OilEd (автономный графический редактор онтологий, разработанный в рамках проекта On-To-Knowledge; свободно распространяется по общедоступной лицензии GPL); WebOnto (представляет собой Java-апплет; разработан для просмотра, создания и редактирования онтологий; для моделирования онтологий он использует язык Operational Conceptual Modeling Language, OCML).

ODE, WebODE (Ontological Design Environment - взаимодействует с пользователями на концептуальном уровне, обеспечивает их набором таблиц для заполнения концептов, атрибутов, отношений; автоматически генерирует код на языках LOOM, Ontolingua и F-Logic; получил развитие в редакторе онтоло-гий WebODE).

Таким образом, создание онтологий и инструментальных средств для них стало достаточно развитой научно-практической деятельностью, развиваемой на стыке классической информатики, компьютерной лингвистики и искусственного интеллекта. Одной из базовых функций онтологических моделей является интеграция разнородных информационных ресурсов, которая в перспективе должна стать магистральным направлением для создания интегрированной инфосферы социальных и гуманитраных наук. Если говорить об общем направлении развития информационного пространства научных коммуникаций, то очевидно, что таким направлением является Семантическая сеть (Semantic web); в его рамках предлагаются решения для интеграции логико-лингвистических моделей большинства известных в настоящее время информационных систем научных коммуникаций.

Проблема заключается в переходе к решениям, предлагаемым в рамках концепции Семантической сети от логико-лингвистических средств представления данных, используемых в реальных действующих информационных системах. Проблема перехода носит не столько программно-технологический, сколько ментальный характер: разработчики и пользователи, привыкшие к определенным сервисам, не считают правильным их менять ради потенциальных выгод, получаемых от интеграции. К тому же переход обычно требует значительных затрат. Поэтому развитие интегрированных систем и в России, и в мире идет значительно медленнее, чем того можно было ожидать.

Библиография

Антопольский А.Б. Лингвистическое обеспечение электронных библиотек. М.: Инфор-мрегистр, 2003. 302 с.

Антопольский А.Б. Информационные ресурсы России. М.: Изд-во «Либерея», 2004.

424 с.

Антопольский А.Б., Майстрович Т.В. Электронные библиотеки: принципы создания М.: Изд-во «Либерея», 2007. 288 с.

Антопольский А.Б., Атаева О.М., Серебряков В.А. Среда интеграции данных научных библиотек, архивов и музеев «ЫЬМе1а» // Информационные ресурсы России. 2012. № 5. С. 8-12.

Арбикон. Электронный ресурс: http://arbicon.ru.

Баранов О.С. Русский тезаурус. Электронный ресурс: http://www.thesaurus1.narod.ru/

Всемирная цифровая библиотека. Электронный ресурс: https://www.wdl.org/ru/

Гиляревский Р.С., Шапкин А.В., Белоозеров В.Н. Рубрикатор как инструмент информационной навигации. СПб.: Профессия, 2008. 352 с.

Грибков Д.Н. Интеграция региональных электронных ресурсов культурно-образовательной сферы в информационное пространство. Орел: ОГИИК, 2010. 195 с.

Добров Б.В., Иванов В.В., Лукашевич Н.В., Соловьев В.Д. Онтологии и тезаурусы. Модели, инструменты, приложения: Учебное пособие // Интернет-университет информационных технологий, Бином. Лаборатория знаний, 2013. См. также электронный ресурс: http://www. intuit.ru/studies/courses/9/270/inf.

Добров Б.В., Лукашевич Н.В. Тезаурус и автоматическое концептуальное индексирование в университетской информационной системе РОССИЯ // Третья Всероссийская конференция по Электронным Библиотекам «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». Петрозаводск, 2001. С. 78-82.

Европеана. Электронный ресурс: http://www.europeana.eu/portal/ruf

Инфосфера ОПК; теория, история, перспективы: Коллективная монография / Антопольский А.Б. и др. М.: МАКС Пресс. 2016. 328 с.

Маркарова Т.С. Тезаурус по педагогике как репрезентатор отраслевой терминосисте-мы и как один из способов представления образовательной информации // Лингвистическое обеспечение информационных ресурсов библиотек, музеев, архивов и других учреждений культуры. СПб., 2008. С. 79-88.

Мдивани Р.Р. О разработке серии тезаурусов по социальным и гуманитарным наукам // НТИ. Сер. 2: Информ. процессы и системы. М.: ВИНИТИ, 2004. № 7. С. 1-9.

Наследие. Электронная библиотека «Научное наследие России». Электронный ресурс: http://e-heritage.ru/index.html.

Основы государственной культурной политики. Указ президента Российской Федерации № 808 от 24декабря 2014 г. Электронный ресурс: http://mkrf.ru/upload/mkrf/mkdocs2016/ OSNOVI-PRINT.NEW.indd.pdf

Отчет о НИР по исполнению Государственного контракта № 900-01-41/06-12 от 23 мая 2012 г. по теме: «Создание культурной среды региона на основе модернизации учреждений культуры и внедрения информационно-коммуникационных технологий» / НИУ ИТМО. СПб., 2012.

Президентская библиотека им. Б.Н. Ельцина. Электронный ресурс: http://www.prlib.ru/ Pages/default.aspx.

Соционет. Электронный ресурс: http://socionet.ru.

Тезаурус русской деловой лексики. Электронный ресурс: https://slovar.cc/rus/tezaurus-del.html

УИС Россия. Электронный ресурс: http://uisrussia.msu.ru.

i Надоели баннеры? Вы всегда можете отключить рекламу.