Научная статья на тему 'СОВРЕМЕННЫЕ ПРОБЛЕМЫ ХРАНЕНИЯ И ПОИСКА НЕСТРУКТУРИРОВАННЫХ ДАННЫХ В WEB'

СОВРЕМЕННЫЕ ПРОБЛЕМЫ ХРАНЕНИЯ И ПОИСКА НЕСТРУКТУРИРОВАННЫХ ДАННЫХ В WEB Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
106
26
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕСТРУКТУРИРОВАННЫЕ ДАННЫЕ В WEB / СВЯЗАННЫЕ ДАННЫЕ / ПЕРСОНИФИКАЦИЯ ДАННЫХ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Артамонова Елена Валерьевна

В работе описаны современные технологии, а также подняты актуальные проблемы сохранения и поиска неструктурированных данных в Web, в том числе, приводится краткое описание технологии связывания данных и рассматривается проблема формирования, персонифицированного "информационного портрета" на основе Webданных из различных источников.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CONTEMPORARY ISSUES OF STORAGE AND RETRIEVAL OF UNSTRUCTURED DATA IN THE WEB

This article describes the latest technologies, as well as topical issues of preservation and retrieval of unstructured data across the Web, including a brief description of the data binding technology and the problem of the generation of personified "information portrait" containing Web-based data from various sources.

Текст научной работы на тему «СОВРЕМЕННЫЕ ПРОБЛЕМЫ ХРАНЕНИЯ И ПОИСКА НЕСТРУКТУРИРОВАННЫХ ДАННЫХ В WEB»

СОВРЕМЕННЫЕ ПРОБЛЕМЫ ХРАНЕНИЯ И ПОИСКА НЕСТРУКТУРИРОВАННЫХ ДАННЫХ В WEB

Артамонова Елена Валерьевна

аспирант, Федеральное государственное бюджетное учреждение науки Институт систем информатики им. А.П. Ершова Сибирского отделения Российской академии наук, г. Новосибирск

CONTEMPORARY ISSUES OF STORAGE AND RETRIEVAL OF UNSTRUCTURED DATA IN THE WEB

Artamonova Elena, postgraduate course, A.P. Ershov Institute of Informatics Systems, Siberian Branch of the Russian

Academy of Sciences, Novosibirsk

АННОТАЦИЯ

В работе описаны современные технологии, а также подняты актуальные проблемы сохранения и поиска неструктурированных данных в Web, в том числе, приводится краткое описание технологии связывания данных и рассматривается проблема формирования, персонифицированного "информационного портрета" на основе Web-данных из различных источников.

ABSTRACT

This article describes the latest technologies, as well as topical issues of preservation and retrieval of unstructured data across the Web, including a brief description of the data binding technology and the problem of the generation of personified "information portrait" containing Web-based data from various sources.

Ключевые слова: Неструктурированные данные в Web; Resource Description Framework; RDF; Linked data; связанные данные; персонификация данных.

Keywords: Unstructured Web-data; Resource Description Framework; RDF, Linked data; data personification.

Введение

В настоящее время способы обработки и хранения данных во Всемирной паутине достигли достаточно высокого уровня. В числе прочего, появились Linked Data технологии, позволяющие связывать между собой не структурированные данные, находящиеся в разных источниках, данных, и по запросу формировать информационный портрет.

В работе кратко описаны этапы развития технологии размещения данных во Всемирной паутине вплоть до настоящего времени, а также перспективы их дальнейшего развития и ряд прикладных задач по этой теме (см. I, II). Отдельный интерес представляет проблема формирования информационного "портрета" по запросу над Linked Data (см. III).

Глава I. Общие вопросы поиска и обработки информации в Web

В настоящее время высокого уровня достигли технологии управления Web-документами: документы индексируются поисковыми системами, структура связей между ними анализируется, после чего они доступны с помощью Web-browsers. Но до сих пор подобные принципы не были в полном объеме применены к данным.

В сети Интернет, сформулировав запрос к поисковой системе, пользователь получает список релевантных тем, но, однако, здесь существует ряд несовершенств: содержимое ресурсов может быть случайным (например, содержать омонимы), дублировать другие ресурсы, либо опровергать их. Кроме того, данные, найденные в разных источниках, могут быть представлены в разных форматах, что затрудняет их сопоставление. Далее, если данные не имеют схожей жесткой структуры, то они наверняка имеют и различный синтаксис, что затрудняет их обработку.

Данные в сети хранятся в XML или CVS форматах, либо в HTML-таблицах (но в этом случае они теряют большую часть своей структуры и семантики). Важно, что HTML использует нетипизированные ссылки, что не позволяет

связывать типизированными ссылками сущности, находящиеся в разных документах.

В общем, существует целый класс лингвистических и технических проблем, решение которых вывело бы Интернет-технологии на принципиально новый уровень. Качественный скачок в развитии Web произошел благодаря появлению Resource Description Framework и Linked Data (см. II).

Глава II. Resource Description Framework и Linked

Data

В последнее десятилетие активное развитие получили концепции Resource Description Framework и опирающихся на нее Linked Data.

Cреда описания ресурса (Resource Description Framework или RDF) представляет собой модель для представления данных, и в особенности - метаданных. RDF представляет утверждения о ресурсах в виде, пригодном для машинной обработки. Утверждение, высказываемое о ресурсе, называется триплетом вида "субъект — предикат — объект". Ресурсом в RDF может быть любая сущность — как информационная (изображение, веб-сайт и проч.), так и неинформационная (человек, город или некое абстрактное понятие). Для обозначения субъектов, отношений и объектов в RDF используются URI. Множество RDF-утверждений образует ориентированный граф, в котором вершинами являются субъекты и объекты, а рёбра отображают отношения. Это позволяет строить сложные запросы и работать с данными из разных источников, в том числе, неструктурированными. Для того, чтобы источник данных стал частью глобальной сети данных, должны быть установлены RDF-ссылки на соответствующие объекты в других источниках данных, которые создаются, опираясь на сходство объектов в каждом из наборов, данных. Существуют различные среды генерации RDF-ссылок (напр. Silk [16], LinQL).

RDF модель является, в то же время, весьма полезным инструментом в ряде современных исследований -

например, использующих возможности и преимущества RDF в части моделирования и анализа систем [3].

В Институте Систем Информатики СО РАН в настоящее время проводятся исследования, опирающиеся на RDF-модель и имеющие целью разработку исторической фактографии и электронных архивов. Предложен новый подход, позволяющий значительно сократить время поиска информации, поскольку он основан на сквозной записи информации.

В качестве промежуточного результата представлена новая инструментальная система Polar, предназначенная для создания специализированных баз данных, а также систем управления базами данных. В основе системы лежит развитие теоретических разработок 1980-х гг., при этом библиотека Polar позволяет описывать информацию на основе концепции RDF.

Также в работе представлены специализированные алгоритмы индексирования триплетов, которые позволяют строить "простые портреты", причем быстрее, чем аналогичные "портреты", созданные при использовании специализированной для работы с RDF системы Open Link Virtuoso.

В настоящее время работы над Polar продолжаются, и развитие предложенного метода представляется весьма перспективным.

Linked Data, согласно стандартному определению, является совокупностью коллекций взаимосвязанных наборов, данных во Всемирной паутине, базирующихся на RDF модели представления данных с применением HTTP протокола.

Linked Data опираются на документы, содержащие данные в RDF формате, используемом для создания типизированных утверждений (предикатов) и, далее, связывания с их помощью любых пар объектов и субъектов. Технически, Linked data можно воспринимать, как использование Интернета для создания типизированных связей между данными, относящимися к самым различным источникам.

Linked Data должны быть машиночитаемы, что необходимо для связи с другими наборами данных.

В построении Linked data применяются две основные технологии - URI (единые идентификаторы ресурсов) и HTTP как протокол передачи гипертекста.

Ввиду перспективности Linked Data, как технологии, способной со временем расширить возможности работы с информацией, хранящейся в Интернет, в настоящее время активно ведется разработка и внедрение средств для публикации Linked Data [9].

Сообразно принципам Linked Data, публикование набора данных в Web в качестве Linked Data, включает следующие этапы:

1. Назначение URI для всех объектов, включенных в набор данных.

2. Обеспечение разыменования всех URI в RDF представлении по протоколу HTTP.

3. Установление RDF-ссылок для других источников данных в Интернете, что позволит перемещаться между наборами данных.

4. Добавление метаданных.

Существующие в настоящее время средства публикования Linked Data либо обслуживают содержимое RDF хранилищ (например, Linked Data on the Web), либо обес-

печивают просмотры источников данных, которые не являются официально созданными RDF источниками, либо нужны для обеспечения SPARQL запроса доступа к обслуживаемым наборам данных и публикования RDF выводов. Все инструменты поддерживают разыменования URI в описаниях RDF, в качестве самых известных из них можно перечислить D2R сервер, Virtuoso Universal Server, Talis Platform, Pubby сервер, OAI2LOD сервер, SIOC экспортеры, Triplify инструментарий, а также сервисы SparqPlug и Vapour.

Ввиду неуклонного роста популярности Linked Data, многие разработчики предпринимают усилия по созданию и совершенствованию приложений, использующих эту сеть данных. В целом все приложения этого направления можно разбить на 3 категории:

Браузеры Linked Data, с помощью которых можно просматривать данные в одном источнике данных, после чего по ссылкам переместиться в другие, связанные, источники.

Поисковые устройства и индексирование данных т.е. сервисы или приложения, с которых начинается навигационный процесс, инициированный в browsers.

Проблемно-ориентированные приложения - специализированные web-services для "притирки" данных, полученных из разных Linked data источников (напр. Revyu, DBpedia Mobile, Talis Aspire, BBC Programmes and Music, DERI Pipes. [4]).

Дальнейшее развитие концепции Linked Data привело к появлению некоторого числа достаточно успешных проектов, ставящих своей целью выборку структурированных данных из Web of data по запросу пользователя.

Linking Open Data (LOD) - наиболее наглядный пример применения важнейших принципов Linked Data [14]. LOD находит подходящие наборы данных с открытыми лицензиями, конвертирует их в RDF формат с соблюдением правил Linked Data и публикует их в Интернет. LOD, в числе прочего, позволяет работать с реляционными БД и API, но, чтобы использовать их в качестве наборов данных, необходимо сначала сгенерировать вокруг каждого из таких объектов некую обертку.

DBPedia - проект, предназначенный для извлечения структурированных данных из существующей базы данных, создавалась с целью получения в структурированном виде данных, хранящихся в базе проекта Википе-дия (Wikipedia).

Глава III. Проблема полноты информационного "портрета" по запросу над связанными данными

Рассмотрим проблему полноты данных, возвращаемых по запросу над Linked Data. Ее можно разбить на 2 основных задачи - получение интересующих нас сторонних данных и экстракция данных, то есть формирование из полученного набора данных некоего логически связанного резюме (краткого конспекта).

Извлечение может быть обеспечено, например, DBPedia.

В качестве собственно сторонних данных логично использовать LOD, и далее возникает ряд проблем:

Проблема соответствия запроса и его информационного "портрета". Когда исходных данных много, возникает проблема, в каких терминах сформулировать запрос и как организовать выборку именно тех данных, которые нужны в данном случае (информационный "портрет").

Интуитивно понятно, что точность формулирования запроса определяет уровень соответствия между ожиданиями пользователя и полученными в результате данными. Если запрос достаточно простой, и мы точно знаем и можем описать нашу "точку интереса", то и выборка данных может быть представлена лишь несколькими триплетами, содержащими похожую информацию. Тогда информационный портрет можно графически представить в виде шара, в центре которого размещена наша "точка интереса", а вокруг - связана с ней одним предикатом дополнительная информация.

Проблема верификации данных. Поскольку LOD размещены в облачных вычислениях, проблема размещения данных большого объема считается априори решенной. Далее, когда в рассматриваемой базе содержится не более 100000 триплетов, все их можно проверить за обозримое время. Кроме того, мы условно можем полагать их статическими. В случае же, когда количество триплетов превосходит 50 млрд, проверить их простым перебором уже не представляется возможным. Соответственно, необходимо разработать быстрый и надежный способ верификации данных.

Проблема полноты набора данных. В рассматриваемом информационном поле (например, в DBPedia) триплеты для части данных могут отсутствовать. Соответственно, при формировании "портрета" необходим способ добавления таким данных в набор данных.

Персонификация. В нашем случае "персонификация" есть взаимосвязь между особенностями личности (зафиксированными в личной анкете, заполненной авторизованным пользователем), и результатом, предоставленным этому пользователю по его запросу. Представляется интересной задача, позволяющая решить проблему формирования полного информационного портрета по запросу, составленному пользователем, с учетом условий, накладываемых персонификацией. Заключение

В последнее время перед научным сообществом встал ряд вопросов оптимальной организации информационного пространства Всемирной паутины.

В настоящий момент, формирующийся по запросу в Web список источников данных имеет ряд несовершенств, но появившиеся сравнительно недавно Linked Data обеспечивают, в определенном смысле, наиболее передовые на сегодняшний день способы размещения и подключения структурированных данных в Web, позволяющие связывать данные, аналогично тому, как классический HTML позволяет связывать документы.

В перспективе представляется интересным рассмотреть проблему формирования полного информационного Linked Data "портрета", формируемого по запросу пользователя, с точки зрения возможности персонификации запрашиваемых данных.

Литература

2. Батура Т.В.; Мурзин Ф.А. "Машинно-ориентированные логистические методы отображения семантики текста на естественном языке" Новосибирск: Изд. НГТУ, 2008 - 247с.

3. Марчук А.Г. "PolarDB - система создания специализированных NoSQL баз данных и СУБД" // Моделирование и анализ информационных систем. Т. 21, № 6 (2014), с.169-175.

4. Платонов Ю.Г., Артамонова Е.В. "Метод Business Community и "облачные" вычисления (Cloud computing)" // Фундаментальные исследования. - 2013. -№4 (часть5). - стр.1089-10-93; URL: http://www.rae.ru/fs/?section=content&op =show_article&article_id=10000577 (дата обращения: 02.04.2015).

5. Тидуэлл, Д. "XSLT", 2nd Edition. — СПб: Символ-Плюс, 2009. — 960 с.

6. Beckett, Dave. "RDF/XML Syntax Specification (Revised) - W3C Recommendation 10 February 2004" [Электронный ресурс]. - Режим доступа: http:// www.w3.org/TR/2004/REC-rdf-syntax-grammar-20040210/ (дата обращения: 01.04.2015).

7. Berners-Lee, Tim; Bizer, Christian; Heath, Tom "Linked Data - The Story So Far" // Integrated Computer-Aided Engineering, New York, 2012, №19 (1): p.93-109.

8. Berners-Lee, Tim "Notation 3 Resources" [Электронный ресурс]. - Режим доступа: http://www. w3.org/DesignIssues/N3Resources (дата обращения: 01.04.2015).

9. Bizer, Chris; Cyganiak, Richard; Heath, Tom "How to publish Linked Data on the Web" [Электронный ресурс]. - Режим доступа: http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/ (дата обращения: 02.04.2015).

10. Carroll, Jeremy "Dublin Core, the Primer and the Model Theory" [Электронный ресурс]. - Режим доступа: http://lists.w3.org/Archives/Public/w3c-rdf-core-wg/ 2002May/0040.html (дата обращения: 02.04.2015).

11. Cyganiak, Richard; Bizer, Chris "Pubby - A Linked Data Frontend for SPARQL Endpoints" [Электронный ресурс]. - Режим доступа: http://www4.wiwiss.fu-berlin.de/pubby/ (дата обращения: 02.04.2015).

12. Decentralized Information Group "How to use the Tabulator" [Электронный ресурс]. - Режим доступа: http://dig.csail.mit.edu/2005/ajar/ajaw/Help.html (дата обращения: 03.04.2015).

13. Gandon, Fabien; Schreiber, Guus "RDF 1.1 XML Syntax - W3C Recommendation 25 February 2014" [Электронный ресурс]. - Режим доступа: http:// www.w3.org/TR/rdf-syntax-grammar/ (дата обращения: 01.04.2015).

14. Raimond, Yves; Sutton, Christopher; Sandler, Mark "Automatic Interlinking of Music Datasets on the Semantic Web", Proceeding of the Linked Data on the Web Workshop (LDOW2008), Beijing, China, April, 2008 [Электронный ресурс]. - Режим доступа: http://events.linkeddata.org/ldow2008/papers/18-raimond-sutton-automatic-interlinking.pdf (дата обращения: 01.04.2015).

15. The Linking Open Data cloud diagram Официальный сайт [Электронный ресурс]. - Режим доступа: http:// http://lod-cloud.net// (дата обращения: 12.04.2015).

16. Volz, Julius; Bizer, Christian; Gaedke, Martin; Kobilarov, Georgi "Silk - A Link Discovery Framework for the Web of Data" [Электронный ресурс]. - Режим доступа: http://events.linkeddata.org /ldow2009/ papers/ldow2009_paper13.pdf (дата обращения: 02.04.2015).

i Надоели баннеры? Вы всегда можете отключить рекламу.