Научная статья на тему 'Использование семантического Веба в качестве модели информационного пространства сети Интернет'

Использование семантического Веба в качестве модели информационного пространства сети Интернет Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
476
135
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бiлоконь В. А., Дудар З. В.

В данной статье сделан обзор структуры семантического Веба, рассмотрены основные компоненты модели. Рассмотрена структура семантического описания документов с помощью RDF. В результате работы сформулированы основные задачи, стоящие перед развитием семантического Веба и его использование для семантического поиска в рамках специализированной области

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Использование семантического Веба в качестве модели информационного пространства сети Интернет»

УДК 004.62

В данной статье сделан обзор структуры семантического Веба, рассмотрены основные компоненты модели. Рассмотрена структура семантического описания документов с помощью RDF. В результате работы сформулированы основные задачи, стоящие перед развитием семантического Веба и его использование для семантического поиска в рамках специализированной области

ИСПОЛЬЗОВАНИЕ СЕМАНТИЧЕСКОГО ВЕБА В КАЧЕСТВЕ

МОДЕЛИ ИНФОРМАЦИОННОГО ПРОСТРАНСТВА СЕТИ

ИНТЕРНЕТ

В.А. Белоконь

Аспирант*

Контактный тел.:+38 (050) 74-74-554 Email: vasyl.bilokon@gmail.com

З.В. Дударь

Профессор, и.о. заведующего кафедрой* *Кафедра ПО ЭВМ

Харьковский национальний университет радиоелектроники Контактный тел.: +38 (057) 702-14-46 Email: zoya_dudar@yandex.ru

1. Введение

Семантический Веб - это будущее мировой информационной среды сети Интернет. Главное отличие семантического Веба от текущего глобального информационного пространства заключается в том, что компьютеры смогут обрабатывать и понимать информацию не только как данные, но и как знания. Единицей обмена информации на сегодняшний день является HTML страница, которая полностью ориентирована для удобства пользователя (человека). Компьютер в свою очередь исполняет роль хранения, пересылки и отображения данных:

• ресурсы (HTML страницы, картинки, видео) хранятся на сервере;

• по запросу пользователя ресурсы пересылаются на его персональный компьютер;

• ресурсы отображаются в удобном для пользователя виде.

Идея семантического Веба была предложена в 1998г. Тимом Бернерсом-Ли (Tim Berners-Lee), который является изобретателем WWW, URI, HTTP и HTML.

Семантический Веб является связанной сетью информационных узлов, которые соединены друг с дру-

гом так, чтобы информация могла обрабатываться компьютером.

Можно рассматривать семантический Веб как эффективный способ представления данных в WWW, или как глобально связанную базу данных. Данный подход предлагает реализацию полной системы по автоматизированному созданию и хранению семантического ядра контента, расположенного во всемирной сети Интернет.

«Семантический Веб - это расширения текущего Интернета, в котором информация предоставляется с определенным значением, которое лучше позволит компьютерам и людям работать вместе. Идея заключается в том, чтобы иметь данные в сети Интернет, определенные и связанные между собой, чтобы их можно было использовать для эффективной автоматизации, исследования, интеграции и повторного использования в разных приложениях.

Эти данные могут быть общедоступными и обрабатываемыми автоматическими средствами так же, как и людьми» [1].

Профессор Джон Сова говорил, что семантический Веб является много-дисциплинарной темой, которая объединяет теории и методы трех областей:

• логика - формальные структуры и правила логического вывода;

• онтологии - описание типов сущностей, которые относятся к предметной области;

• теория моделей.

Веб, который мы все чаще всего подразумеваем под словом "Интернет", в свою очередь представляет собой сеть сайтов, использующих гиперссылки для переходов между страницами. Стоит сказать, что само существование Веба невозможно без существования инфраструктуры Интернета.

Интернет базируется на языке разметки документов HTML. Страницы описывают форму представления информации в Веб-обозреватели, а язык тяжело поддается автоматическому анализу. Автоматизировать даже такие простые задачи, как поиск людей, проектов, программ в Интернете невозможно [3]. Следующий этап развития Интернет представляет собой переход на новый уровень представления данных, уровень знаний и автоматизированной обработки.

Технология семантического Веба разрешит компьютеру интерпретировать информацию, представленную в Интернете, наравне с людьми, для чего разработана графовая модель описания ресурсов RDF (Resource Description Framework).

Семантический Веб в общем виде это:

• интероперабельность данных между программными приложениями и организациями;

• набор интероперабельных стандартов для обмена знаниями;

• архитектура для взаимосвязанных сообществ и словарей.

2. Структура семантического Веба

Структуру семантического Веба можно рассмотреть в виде трех уровней: [2]

• базис, который состоит из уникальной глобальной идентификации ресурса, метаданных для декларирования фактов о ресурсах, и общего языка для выражения метаданных и знаний, который реализован с помощью онтологий для общедоступного понимания и общего словаря метаданных и правил для добавления новых метаданных и знаний;

• базовый сервис, например логический вывод и запросы к метаданным и онтологиям, разъяснение таких выводов, управление доверием (trust), агенты, поисковые системы, серверы онтологий;

• сервисы приложений, например сервис агентства путешествий.

Технологии, которые задействованы в разработке семантического Веба:

• семантический поиск;

• вопросно-ответные системы;

• агенты;

• объединение знаний (интеграция баз данных);

• всепроникающие вычисления (ubiquitous / pervasive computing) [2].

Логический план построения семантического Веба был предложен Тим Бернерс-Ли [4]:

• синтаксис для представления знаний, который использует ссылку на онтологии (RDF);

• язык описания онтологий (OWL);

• язык описания веб-сервисов (WSDL, OWL-S);

• инструменты чтения/разработки документов семантического Веба (Jena, Haystack, Protege);

• язык запросов к знаниям, которые записаны в RDF (SPARQL);

• логический вывод знаний;

• семантическая поисковая система (например, SHOE).

Таким образом базовую модель семантического Веба можно представить в виде многослойной структуры, каждый последующий уровень которой отвечает за более тонкие механизмы представления и обработки данных и знаний. Данная структура получила название «пирог Бернерса-Ли» и она изображена на рис.1 [2].

Фундаментальными основами семантического Веба являются:

• графовая модель представления слабо структурированных данных (OEM, Lore);

• формальная логика (логика первого порядка, базы знаний, фреймы);

• архитектура WWW (URI/IRI, Unicode, XML, HTTP);

• криптография с открытым ключом.

Пользовательский интерфейс

Доверие

Доказательство

Логика

Запросы SPARQL Онтологии Правила RIF

RDF схема

Ядро RDF - обмен данными

и „

аь вс ои рп

■e g

âc

XML схема

Пространство имен

URI

Unicode

Рисунок 1. Уровни семантического Веба

3. XML - расширяемый язык разметки

Язык XML (extensible Markup Language) [5] является простым, очень мощным и гибким текстовым форматом для описания разнородных документов произвольной структуры.

Функции XML языка: [2]

• представление синтаксиса для других языков разметки;

• семантическая разметка Web-страниц. XML-представление может использоваться на Web-стра-нице вместе с таблицей стилей XSL, что определяет корректный вывод на экран разных элементов;

• единый формат обмена данных. XML-представ-ление может передаваться между двумя применениями как объект данных.

Язык XML позволяет каждому создавать свой собственный формат документов, а после - создавать

документы в этом формате. Также документы могут содержать разметку, которая уточняет содержание контента документа. Разметка документа позволяет сделать его более "читаемым" для компьютера.

4. Общая схема описания ресурсов RDF

Стандарт RDF (Resource Description Framework) был предложен для описания предметной области ресурсов [6], принятый консорциумом W3C. Изначально RDF был предназначен для полного описания XML-ресурсов.

RDF является моделью описания метаданных, использующий синтаксис языка XML. Хотя модель данных языка XML является графом с обозначенными вершинами и не обозначенными дугами (т.е. без связей), модель данных RDF является графом с обозначенными как вершинами, так и дугами, который разрешает определять связи между сущностями [2].

Стандарт RDF включает две основные части - собственно способ описания ресурсов, а также способ задачи схем, по которым ресурс описывается.

Первая часть RDF [7] определяет простую модель для описания объекта, который рассматривается в качестве ресурса, как связей между ресурсами в терминах поименованных свойств и значений.

Вторая (RDF Schema - RDFS) служит для задачи структуры предметной области и аналогична диаграмме классов в UML.

На RDF можно описывать как структуру ресурса, так и связанную с ним предметную область. RDF описывает ресурсы в виде ориентированного размеченного графа - каждый ресурс может иметь свойства, которые в свою очередь также могут быть ресурсами или их коллекциями.

Базовый строительный блок в RDF - это «объект, атрибут, значение», который часто записывают в виде A(O,V), т.е. «объект O имеет атрибут A со значением V». Такую связь можно также представить как ребро с меткой A, которое объединяет два узла, O и V:

[O] - A -> [V]. Такая нотация довольно полезна, поскольку RDF разрешает менять местами объекты и значения.

Таким образом, каждый объект может играть роль значения, которое в графическом представлении отвечает цепочке из двух ребер с метками.

Главная цель RDF - предложить базовую модель данных «объект, атрибут, значение» для метаданных. Кроме этой семантики, которая описана в стандарте лишь неформально, RDF не содержит каких-либо четких правил, ориентированных на моделирование данных.

Также как XML Schema используется для определения словаря, RDF Schema разрешает разработчикам определять конкретный словарь для данных RDF (такой, как author) и указывать виды объектов, к которым могут применяться эти атрибуты. Другими словами, механизм RDF Schema предоставляет базовую систему типов для моделей RDF.

Таким образом, RDF предоставляет возможность формулировать утверждения в виде, пригодном для обработки компьютером и это является основой семантического Веба.

5. Схема RDF - простое моделирование данных.

Первым блоком семантического Веба над описанным выше синтаксисом является простая модель типизации данных.

Схема и онтология - это средства для описания содержания и связи между термами.

На основе RDF 23 января 2003 был предложен рабочий проект RDF Vocabulary Description Language 1.0: RDF Schema [8]. Схема RDF была разработана как простая модель типизации данных для RDF. Как указывается в документе, RDF является языком общего применения для представления информации в Интернет. Данная спецификация описывает как использовать RDF для описания RDF-словарей.

Она определяет базовый словарь, предназначенный для этих целей и принятые соглашения, которые могут быть использованы при создании приложений семантического Веба для поддержки более сложных словарей RDF-описаний. Язык описания словаря RDF определяет классы и свойства, которые могут быть использованы для описания других классов и свойств, а также производить некоторые более сложные вещи, такие, как создание диапазонов и областей для свойств [2].

Три наиболее важных понятия, которые дает нам RDF и схема RDF - это "Ресурс" (rdfs:Resource), "Класс" (rdfs:Class) и "Свойство" (rdfs:Property). Эти понятия являются "классами" в том понимании, что этим классам могут принадлежать термины.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Как уже было указано, RDF Schema определяется в терминах базовой информационной модели RDF - структуры графа, который описывает ресурсы и свойства.

Все словари RDF используют некоторую базовую структуру: они описывают классы ресурсов и типы связей между ресурсами. Эта общность разрешает использовать разнородные словари, созданные для машинной обработки, и отвечает требованиям по созданию метаданных, в которых утверждения могут быть получены из множества разнородных децентрализованных словарей, созданных различными сообществами по разным принципам и разными методами.

Описание с помощью RDF не ограничивается только описанием документов Интернет. Этот стандарт довольно универсальный и гибкий для того, чтобы описывать большинство типов структурированных данных.

На пример, в RDF естественно вы раж аются диаграммы сущность-связь, которые широко применяемы для проектирования баз данных. Описание семантики ресурса на RDF может быть как «внешним», когда описывается ресурс в целом, так и «внутренним», когда описывается внутренняя структура ресурса - будь-то база данных, XML-документ, или целый сайт.

Важной особенностью стандарта RDF, как и лежащего в его основе XML, является расширяемость. На RDF можно задать структуру описания источника, используя и расширяя встроенные понятия RDF-схем, такие как классы, свойства, типы, коллекции. Модель схемы RDF включает наследование; наследоваться могут как классы, так и свойства.

Таким образом, RDF целиком подходит на роль универсального языка описания семантики ресурсов и взаимосвязей между ними.

Однако, как утверждают сами авторы стандарта, RDF имеет и ряд отсутствующих свойств, которые они указывают как следующие:

• невозможность указания мощности множества значений свойства, например, что «Человек имеет только одного биологического отца»;

• невозможность указания того, что представленное свойство (например, hasAncestor - имеет предка, прототип) является транзитивным, например, что «если A hasAncestor B, и B hasAncestor C, тогда A hasAncestor C»;

• невозможность указания того, что два разных класса, определенных в разных схемах, фактически представляют одно и то же понятие;

• невозможность указания того, что два разных экземпляра (instances), определенные раздельно, фактически представляют один и самый субъект;

• невозможность определения новых классов в терминах операций (например, объединение и пересечение) над другими классами.

6. Практическая реализация семантического Веба

Технология семантического Веба позволяет решать следующие задачи: [2]

• независимость данных от приложений;

• семантическая интеграция данных;

• создание основы для повсеместного использование компьютерных агентов (сервисов).

Формирование семантического Веба станет возможным только при условии обеспечения более высокого уровня интероперабельности. Однако уже сейчас сделано много практических шагов по реализации данного проекта.

На базе поисковой системы Google недавно был представлен новый проект, который предоставил свои ресурсы для запросов агентам на выполнение поисковых функций и проверки правописания. Также представляет интерес новый проект по автоматическому созданию RDF-описаний и хранилища метаданных, создаваемый на базе Open Directory, поисковым механизмом Google.

Кроме того, необходимо также отметить и проект консорциума W3C SWAD-Europe, который занимается проблемой связи хранилищ семантических данных с используемыми реляционными системами баз данных, особенно лицензированных как Free Software / Open Source (FS/OS).

В настоящее время необходимо констатировать, что общий объем мета-информации достиг очень больших размеров и растет с каждым годом. Интерес к использованию данной информации также постоянно повышается.

На март 2007 года из анализа запросов поисковой системы Google видно, что обычными рядовыми пользователями были сделаны миллионы запросов к типу „RDF filetype:rdf" и только десятки тысяч к онтологи-ям "ontology filetype:owl".

Такие цифры говорят о популяризации идей семантического Веба и дают возможность реально начинать

использовать в полной мере мета-информацию в прикладной сфере.

В настоящее время существуют системы [9]:

• библиотеки для интерпретации стека языков RDF для всех популярных языков программирования (Jena, Redland, RDFLib);

• редакторы онтологий (Protege);

• системы рассуждений над онтологиями (Racer, KAON, FACT);

• семантические хранилища (Sesame, Kowari, YARS);

• семантические обозреватели (Simile, Piggy Bank, Gnowsis, Haystack);

• поисковики семантических данных (Swoogle);

• конверторы из разных форматов представления данных в/из RDF/XML (Aperture, RDFizers, D2R);

• прикладные программы (Bibster, FOAF Explorer).

Минимальный набор критериев, определяющих

понятие «приложение семантического Веба», представлен ниже.

Во-первых, приложение должно использовать информационные источники, которые:

• географически распределены;

• имеют различных владельцев, что предполагает отсутствие контроля за их развитием;

• являются гетерогенными (синтаксически, структурно, и семантически);

• содержат данные реального мира, т.е. источники должны быть больше, чем игрушечные примеры.

Во-вторых, приложение должно воспринимать открытый мир; это значит, что оно знает, что информация никогда не бывает полной и постоянно меняется.

В-третьих, приложение должно использовать некоторое формальное описание значения данных.

Также есть важные качества для приложения семантического Веба.

Приложение должно использовать источники данных в других целях или по-другому, чем первоначально было намечено. Также оно должно использовать контент мультимедийных документов. Пользователи должны быть в состоянии получить доступ к приложению на множестве языков или с других, отличных от PC, устройств.

Приложение должно использовать как статические, так и динамические знания, например, комбинация статических онтологий и динамических технологических процессов. Наконец, приложение должно быть масштабируемым (в терминах количества используемых данных и совместно работающих распределенных компонент).

В настоящее время становиться актуальной задача создания приложений второго поколения. Второе поколение приложений семантического Веба должны использовать весь огромный запас уже накопленной семантики.

Такие приложения второго поколения должны быть способны использовать:

• множество онтологий;

• быть открытыми для семантических ресурсов;

• быть открытыми для работы с пользователем (user interaction).

В идеале они также должны уметь использовать не только данные семантического Веба, но и другие форматы данных, такие как фолксономии и т.п., следо-

вательно должны иметь мощные механизмы по автоматическому извлечению информации.

7. Заключение

Семантический Веб обещает вполне ощутимые преимущества, дополнительные сервисы. Навигация в сети Интернет станет более осмысленной, а поиск информации - более точным. Пользователи смогут сами создавать страницы семантического Веба, давать собственные определения и вводить новые правила вывода, используя стандартное программное обеспечение [2].

В данной статье была рассмотрена структура семантического Веба, его основные составляющие компоненты. На основе проведенных исследований были сформулированы цели и задачи семантического Веба. Модель семантического Веба будет использована в работе по разработке семантических методов поиска информации применительно к специализированной области информационно-образовательных ресурсов:

• индексация и поиск информации;

• разработка и поддержка метаданных;

• разработка и поддержка методов аннотирования;

• представление Интернет в виде большой, интероперабельной базы данных;

• организация машинной добычи данных (data mining);

• обнаружение (discovery) и предоставление Веб-ориентированных сервисов;

• исследования в области интеллектуальных программных агентов.

В исследовательской работе семантический поиск на образовательных ресурсах является ключевым моментом, задачей которого является реализация поиска не только по ключевым словам, но и по семанти-

ке контента. В результате исследовательской работы должен быть обеспечен доступ не только к статичным информационным документам, но и к сервисам, которые предоставляют полезные услуги, а также использованы онтологии вместе с семантическими методами поиска информации.

Литература

1. W3C, The Semantic Web Home Page. - http://www.w3.or-

g/2001/sw/

2. "Поиск знаний в Internet. Профессиональная работа", Ландэ Д.В. - Санкт-Петербург, 2005.

3. Презентация доклада «Семантический Веб: текущее со-

стояние исследований и перспективные направления», Уланов Д., ИСП РАН, 03.02.2006. - http://dulanov.word-press.com/2006/02/02/prezentatsiya_o_proekte_semanti-cheskii_veb/

4. The Semantic Web Roadmap, Tim Berners-Lee, 1998. - ht-

tp://www.w3.org/DesignIssues/Semantic.html

5. Extensible Markup Language (XML) 1.0, W3C Recommen-

dation 10.02.1998. -http://www.w3.org/TR/1998/REC-xml-19980210

6. RDF/XML Syntax Specification (Revised), W3C Working

Draft 25 March 2002. - http://www.w3.org/TR/rdf-synt-ax-grammar/

7. RDF syntax, W3C Recommendation. - http://www.w3.org/

TR/PR-rdf-syntax

8. RDF Vocabulary Description Language 1.0: RDF Schema,

W3C Working Draft 23 January 2003. - http://www. w3.org/TR/2003/WD-rdf-schema-20030123/

9. SWAD-Europe Deliverable 10.2: Mapping Semantic Web

Data with RDBMSes - http://www.w3.org/2001/sw/Eur-ope/reports/scalable_rdbms_mapping_report/

i Надоели баннеры? Вы всегда можете отключить рекламу.