Концепция интеграции библиографических данных методами Semantic Web

Трахтенгерц Михаил Самойлович

КОНЦЕПЦИЯ ИНТЕГРАЦИИ БИБЛИОГРАФИЧЕСКИХ ДАННЫХ

МЕТОДАМИ SEMANTIC WEB

Трахтенгерц Михаил Самойлович

канд. тех. наук, вед. научный сотрудник Объединенного института высоких

температур РАН, г. Москва E-mail: trachtengerts@mtu-net. ru

THE CUNCEPTION OF BIBLIOGRAPHIC DATA INTEGRATION BY

SEMANTIC WEB APPROACH

Trachtengerts Michael

candidate of Science, Leading Researcher of Joint Institute for High Temperatures,

Russian Academy of Sciences, Moscow, Russian Federation

АННОТАЦИЯ

Развитие науки сопровождается накоплением большим объемом новых данных. До настоящего времени основным способом доведения этой информации до исследователей было создание банков данных (БД) по отраслям знаний. Теперь актуальной становится задача поиска нужных сведений в пределах совокупности БД. Показано, что методы Semantic WEB (специальный формат RDF, идентификатор URI, универсальный стандарт для сетевого обмена онтологической информацией Web Ontology Language — OWL) эффективны при интеграции тематических научных БД.

ABSTRACT

Development of science is connected with appearance of large volumes of new data. The main way to supply this information to researchers until now there was a creation of the databanks (DB) in different branches of knowledge. Now we see the necessity to mine knowledge and needed data within sets of DB. I show here that Semantic WEB methods (the specific RDF format, the URI identifier, the universal standard for exchange of ontological information — Web Ontology Language, OWL) are effective at integration of thematic scientific DB.

Ключевые слова: интеграция БД; научные БД; поиск данных; RDF; URI; OWL.

Keywords: Semantic WEB; DB integration; RDF; URI; OWL; knowledge

mining.

Работа выполнена при поддержке гранта РФФИ — проект № 13-0700218.

По мере развития науки все в больших масштабах происходит накопление получаемых фактических данных и теоретических представлений. Своевременный и необременительный доступ к ним ученых в значительной мере определяет темпы дальнейшего развития научного знания. В настоящее время этот вызов находит свой ответ со стороны науки преимущественно в виде создания информационно-поисковых систем и банков данных, накапливающих информацию в конкретных научных областях, систематизирующих ее и предоставляющих нужные потребителю сведения автоматизированными методами на основании формализованных запросов. Релевантность, т. е. соответствие документа-кандидата на включение в список ответа на запрос, определяется чаще всего по перечню ключевых слов и/или по подходящему фрагменту, извлекаемого из полного текста документа. Запрос к таким системам представляет собой отрывки текста, например, последовательность букв, семантика которых известна человеку, задающему запрос, но не автоматизированной системе. Эти тексты могут быть связаны между собой логическими (И, ИЛИ, НЕ) и другими отношениями, отсеивающими нежелательные по каким-то причинам документы. Современные базы данных (БД) уменьшают возникающий информационный шум различными приемами, например, вводя в записи идентифицирующие теги (автора, названий статьи, журнала и т. д.). Тем не менее, полнота информации, выдаваемой БД по запросам ученых, далеко не достаточна. Существует много объективных причин для пропуска нужных данных, в том числе синонимия, использование устаревающей или, наоборот, недавно введенной терминологии и др.

По мере того, как все больше БД предоставляют свои услуги через

Интернет, возникает проблема адекватного понимания содержащейся в них информации. Попытки добиться унификации в системе тегов приводят к некоторому улучшению, но не решают ее полностью. Браузеры и специализированные поисковые машины, осуществляющие поиск данных научного значения непосредственно в Интернете, не обеспечивают необходимого уровня семантического анализа документов и «заваливают» пользователя подборками в тысячи и десятки тысяч документов, предоставляя ему самостоятельную работу по выбору из них достаточно адекватных.

Перспектива качественного скачка в поиске информации появилась 2001 году, когда Тим Бернерс-Ли, Дж. Хендлер и О. Лассила [5] выдвинули принципиально новую концепцию интернета для данных — Semantic WEB. Отметим, что Бернерс-Ли был одним из создателей известной всем сейчас версии Интернета. В новое понятие они вложили представление о будущей сети, когда в содержание страниц будет вноситься определенная структура, которая позволит программным агентам (браузерам и специализированным поисковикам) понимать их смысл и выполнять предписания пользователей. Взаимодействуя в сети, агенты должны будут иметь для каждого ресурса формальное представление значения.

Для однозначной спецификации значений представленных в публикуемых документах, авторы [5] предлагают использовать методы, применяемые в онтологиях. Онтология, рассматриваемая ими как подлинное ядро Semantic Web, — это система понятий предметной области, которая представлена как набор принятых в научной или другой среде и понятных специалистам сущностей, соединенных различными отношениями. Именно онтология представляет знания в виде формальной структуры, доступной для компьютерной обработки. В 2004 году World Wide Web Consortium (W3C) предложил универсальный стандарт для сетевого обмена онтологической информацией — Web Ontology Language (OWL). С помощью OWL эксперты предметной области и разработчики приложений могут создавать, модифицировать и соединять различные онтологии, поддерживая в Интернет

присутствие своей области.

Хотя задуманная идея Semantic Web относится к ресурсам любой тематики (бизнес, искусство, политика и т. п.), именно естественнонаучные дисциплины образуют наиболее подходящую «площадку» для отработки новых концепций. Понятийный багаж таких дисциплин как физика, химия, астрономия и др. уже исходно достаточно формализован, чтобы лечь в основу онтологического описания. Тем самым, открывается принципиальная возможность интеграции научных данных за счет спецификации содержимого разнородных источников. Среди других возможностей Semantic WEB — автоматизация обработки текстов, высокоточный информационный поиск, средства логического вывода и проч. В нашей статье [1] были рассмотрены уже реализованные примеры интеграции данных по физическим свойствам материалов с использованием новой концепции, что говорит о ее большом потенциале. В то же время, несмотря на отдельные успехи, нельзя сказать, что идея Semantic WEB нашла широкое применение. По-видимому, это объясняется как непривычностью предлагаемого похода, так и необходимостью проведения дополнительных работ по ее внедрению.

В 2006 году Тим Бернерс-Ли [4] выдвигает идею, являющуюся порождением и развитием концепции Semantic Web, которая смещает главный акцент на публикацию, так называемых, «открытых связанных данных». Другой источник этой идеи — возникшее примерно в те же годы движение за «открытые данные», прежде всего, в области политики, административного управления, финансов и др. [7]. Среди организаций, практикующих открытую публикацию своих данных правительства ряда стран, Всемирный банк, ООН, «Товарищество в области возобновляемых источников энергии» (REEEP) и многие др. (подробный обзор см. [3]). Естественно, что высказанные выше идеи о путях улучшения поиска необходимых данных через Интернет применимы только для данных, предоставляемых в общее пользование.

Данные по этой концепции считаются открытыми, если они не только доступны обществу, но и при соблюдении ряда других принципов: полнота

данных, свобода распространения без каких-либо ограничений в виде авторских прав, патентов и прочих механизмов контроля. При этом само освобождение от ограничений обеспечивается посредством публичных лицензий, например выдаваемых бесприбыльной организацией Creative Commons, целью которой является легальное распространение и использование знаний и результатов творчества. Естественно, это может затронуть интересы обладателей интеллектуальной собственности, которые не будут следовать этим правилам.

Предполагается, что потенциал систем открытых данных в полной мере проявится, когда они будут конвертированы в систему «связанных открытых данных». Связанность означает, что будет разработана возможность перехода от одного документа к другому, у которых система поиска обнаруживает общие сущности, зафиксированные в онтологиях. Это обеспечивает семантическую устойчивость процесса поиска. Она осуществляется путем представления документов в специальном формате RDF, который позволяет идентифицировать элементы, которые содержит документ. В этой схеме для всех объектов используются URI идентификаторы, позволяющие выделять их посредством браузера как индивидуальные данные. При полном развитии системы данные будут связаны с другими данными, образуя единый контекст, доступный пользователю.

Опишем некоторые новые понятия. Формат RDF не отменяет и не заменяет чтения документов, помещенных в Интернет, по протоколу HTTP. Он является дополнительным слоем описания смыслового содержания документа, с новых позиций развивающий уровень метаданных в XML и других подобных языках. Его принципом является то, что каждая присутствующая в документе сущность сопровождается семантической триадой, которая называется триплетом.

«субъект — предикат — объект»,

Субъектом в триплете может быть адрес документа в Интернет (традиционная ссылка), предикатом — запись указания на понятие,

связывающее сущность и свойство, объектом — текст этого имени (автора, организации, свойства и т. п.). Таким образом описываются все присутствующие в документе сущности. В целом они могут составить довольно сложный граф. В рассматриваемой системе традиционная ссылка URL заменяется совместимым с ней более точным адресом URI (Uniform Resource Identifiers), который показывает местоположение в документе самой сущности. Это позволяет выйти на интересующий потребителя объект без вызова полной интернет-страницы.

С другой стороны, триплетная структура формата RDF при использовании в ней URI позволяет системе автоматически построить граф, связывающий источники (субъекты) с совпадающими предикатами и объектами. В этом случае специалист может легко переходить по этому графу от одного документа, релевантного его запросу, к другим, минуя процесс новых запросов.

Естественно, что при таком процессе доступа к данным, размещаемых во множестве документов различного типа, мы сталкиваемся со статусами этих документов, выходя за пределы форматов записи их самих. Содержание документов может быть полностью закрыто для широкой публики, открыто с ограничениями и быть открытым для всех. Понятие «открытость» здесь используется в смысле, упомянутом выше. Рассматриваемая концепция реализуема в поле открытых данных, а при связывании их средствами URI образуется система, называемая в настоящее время как «связанные открытые данные» (LOD — Linked Open Data).

Первоначальный импульс общедоступности данных в сети Интернет был дан в начале 2000 годов общественностью, боровшейся за доступ к правительственным и другим государственным, а также к юридическим документам, важных для жизни множества людей. В США это привело к созданию в 2009 году «Меморандума о прозрачном и открытом правительстве». К настоящему времени уже созданы методические основы и программно -системные комплексы, позволяющие реализовать эти идеи. В научно-технической информации идеи и методы LOD также обещают существенное

продвижение в качестве обеспечения данными ученых. Это относится как к работе с самими БД, так и возможности их интеграции в различных рамках — институтах, отрасли, в целом по стране и на международном уровне. В научной среде получили распространение БД двух типов — библиографические и БД, содержащие численные и другие данные о научных фактах (фактографические).

Возникло отдельное направление работ, ориентированных на применение стандартов Semantic Web к миру библиотек и библиографических сервисов [6, 8]. Большие хранилища связанных данных могли бы обеспечить истинную интеграцию библиотечных ресурсов, включая все функции отбора, каталогизации, авторского контроля, разработки таксономий и поиска. Если все библиографические ресурсы будут представлены в RDF формате, при поиске можно использовать общий контролируемый словарь, заметно повышая полноту и релевантность, так называемого, федеративного поиска, то есть с охватом множества БД.

Здесь мы рассмотрим аспекты применения подхода LOD на примере библиографической БД ТЕРМАЛЬ по теплофизическим свойствам веществ, которая длительное время функционирует в ОИВТ РАН [2]. БД ТЕРМАЛЬ представляет собой фонд записей о документах, содержащих сведения об экспериментальных и теоретических исследованиях теплофизических свойствах веществ в различных состояниях, которые находят применение в большинстве отраслей промышленности и науки. Известно, что свойства используемых в промышленных установках веществ и материалов определяют и ограничивают их технические возможности. Как и в других библиографических системах, информационная запись в БД ТЕРМАЛЬ состоит из полей и подполей, содержание которых (авторы, название статьи, название журнала и др.) указывается их тегами (метками). Помимо традиционных для библиографических систем полей в ТЕРМАЛЬ имеются и другие, в которых отражена ее тематическая специфика. Это поля, соответствующие наименованиям веществ, химическим формулам, названиям более общих

классов веществ, свойств, типов свойств, фазовых состояний веществ, параметров состояния и т. д. Типовой запрос пользователя БД ТЕРМАЛЬ состоит в указании вещества и присущего ему свойства, данные о которых представлены в выдаваемых по запросу публикациях.

Специфика теплофизических исследований состоит в том, что изучается часто не одно вещество, а некоторая их группа, составленная по существенному признаку, например, щелочные металлы, гомологические ряды углеводородов и тому подобные. Причем у некоторых веществ могут быть исследованы одни свойства, а у других иные. При внесении описания такой статьи в БД в соответствии с тегами в поля веществ и свойств попадают их полные перечни, и связь «вещество-свойство», очевидная из текста статьи, теряется. Это служит причиной возникновения большого информационного шума при исполнении типового запроса, который иногда затруднительно отфильтровать даже опытному исследователю без обращения к первоисточнику.

Использование триплетов при поиске в подобной базе данных в виде связей «Вещество-Имеет-Свойство» позволило бы исключить подобный источник информационного шума.

Кроме того, поскольку в рамках одной БД снимается вопрос об открытости этих данных, появляется возможность реализовать концепцию связанных данных (LOD) с помощью уже имеющихся программных средств.

В таблице представлена в качестве примера запись в виде RDF триплетов простого факта «Вода замерзает при 0 градусов С». Она имитирует гипотетический вариант записи после интеграции БД ТЕРМАЛЬ в соответствующую среду. Здесь в первой строке указано положение исходного документа, его номер 10435 в БД. Содержание дальнейших записей очевидно. В последней строке показано, как запись в явной форме может быть заменена обращениями к позициям некоторой конкретной онтологии в области термодинамики, что обеспечивает правильное понимание и использование терминов.

Таблица 1.

Запись RDF триплетов

субъект предикат объект

thermal: 10435 содержит H2O

H2O свойство температура замерзания

Температура замерзания значение 0

Температура замерзания единица измерения градус С

<http: //td. org/freezing point> <http: //td .org/unit> <http://td.org/Celsius>

Накопление опыта внедрения концепции LOD на уровне локальных тематических БД с разработкой соответствующих онтологий и других семантических методов является необходимым шагом на пути информационной интеграции более высокого уровня.

Список литературы:

1. Еркимбаев А.О., Зицерман В.Ю., Кобзев Г.А. и др. Интеграция баз данных по свойствам вещества. Подходы и технологии. // Научно-техническая информация. Сер. 2. Информационные процессы и системы. Всесоюзный институт научной и технической информации РАН. — 2012. — № 8. — С. 1—8.

2. Трахтенгерц М.С. Свидетельство о государственной регистрации базы данных ТЕРМАЛЬ. // № 2009620063. Зарегистрировано в Реестре баз данных 28 января 2009 г.

3. Bauer F., Kaltenböck M. Linked Open Data: The Essentials. A Quick Start Guide for Decision Makers. // Published by: edition mono/monochrom, Vienna, Austria, 2012. ISBN: 978-3-902796-05-9, [Электронный ресурс] — Режим доступа. — URL: www.semantic-web.at/LOD-TheEssentials.pdf (дата обращения: 15.05.2013).

4. Berners-Lee T. Design Issues: Linked Data. [Электронный ресурс] — Режим доступа. — URL: http://www.w3.org/DesignIssues/LinkedData.html. (дата обращения: 15.05.2013).

5. Berners-Lee T., Hendler J., Lassila O. The Semantic Web // Scientific

American. — 2001. — Vol. 284. — № 5. — P. 35—43.

6. Byrne G., Goddard L. The Strongest Link: Libraries and Linked Data. // D-Lib Magazine. — 2010. — Vol. 16. — № 11/12. doi:10.1045/november2010-byrne . [сайт]. [Электронный ресурс] — Режим доступа. — URL: http: //www. dlib. org/dlib/november 10/byrne/11 byrne. html (дата обращения: 15.05.2013).

7. Open Data — An Introduction "Today we find ourselves in the midst of an open data revolution". [Электронный ресурс] — Режим доступа. — URL: http: //okfn. org/opendata/ (дата обращения: 15.05.2013).

8. Xin R.S., Hassanzadeh O., Fritz C., and oth. Publishing bibliographic data on the Semantic Web using BibBase. — Semantic Web. — 2013. — № 4. — P. 15—22.

Концепция интеграции библиографических данных методами Semantic Web Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Трахтенгерц Михаил Самойлович

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Трахтенгерц Михаил Самойлович

THE CUNCEPTION OF BIBLIOGRAPHIC DATA INTEGRATION BY SEMANTIC WEB APPROACH

Текст научной работы на тему «Концепция интеграции библиографических данных методами Semantic Web»