Научная статья на тему 'Лексические онтологии WordNet в технологиях Semantic wеb'

Лексические онтологии WordNet в технологиях Semantic wеb Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
329
108
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Лексические онтологии WordNet в технологиях Semantic wеb»

ваемой в [5]. Автором предлагается периодическое проведение экспертизы программного кода для повышения эффективности процесса поиска и устранения ошибок. При этом для выявления причин отклонения производительности и определения необходимых корректирующих или предупредительных действий предлагаются правила анализа экспертизы, проводится анализ количества обнаруженных ошибок, и, если их число отклоняется от нормального значения, в соответствии с вероятной причиной выполняется определенный набор действий.

Предлагаемая в статье онтология применяется для хранения протоколов инспекции. Перед использованием подсистемы производится предварительное заполнение базы знаний объектами классов, участвующих в описании протоколов (в частности, следует внести информацию о работниках организации, описать используемую модель жизненного цикла и виды деятельности, внести типы ошибок, шкалу уровней серьезности ошибок). Далее в базу знаний из протоколов инспекции вносится информация об обнаруженных ошибках. Для каждого описания ошибки создаются экземпляры, принадлежащие соответствующим классам, устанавливаются связи между ними, вносится информация о связанных с ошибками зада-

чах. Изменения, сделанные в ходе работы над программным кодом, отслеживаются с помощью среды разработки и репозитория программного кода, и в базу знаний вносится информация о взаимосвязи элементов программного кода и исправленных ошибок. Всю сохраненную информацию можно взять для описанного выше финального анализа результатов инспекции.

Предложенная онтология может использоваться для представления знаний о процессе поиска и устранения ошибок, а также для интеграции с различными реализациями систем отслеживания и устранения ошибок.

Литература

1. Рогальчук В.В., Хомоненко А.Д. Метод обратной трассировки и оценивание его влияния на стоимость разработки программного обеспечения // Научно-технические ведомости СПбГПУ. СПб, 2008. № 4 (62). С. 146-151. (Информатика. Телекоммуникации. Управление).

2. Grubb P., Takang A.A. Software maintenance: concepts and practice (2nd edition). Singapore: World Scientific Publishing, 2003. 369 p.

3. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. СПб: Питер, 2001. 384 с.

4. Calero C., Ruiz F., Piattini M. Ontologies for Software Engineering and Software Technology. Springer-Verlag Berlin Heidelberg. 2006. 339 p.

5. Джалота П. Управление программным проектом на практике. М.: Изд-во «ЛОРИ», 2005. 223 с.

ЛЕКСИЧЕСКИЕ ОНТОЛОГИИ WORDNET В ТЕХНОЛОГИЯХ SEMANTIC WЕB

Яблонский С.А., к.т.н.; Сухоногое А.М.

(Петербургский государственный университет путей сообщения, [email protected])

В статье дается обзор технологий Semantic Web и определяется место в них лексических онтологий WordNet. Особое внимание уделяется лексической онтологиии WordNet для русского языка (Russian WordNet), разрабатываемой авторами статьи. Описаны структура онтологии, ее состав и возможные сферы применения. Разработка новых методик работы с подобными базами знаний с целью организации веб-добычи семантических данных является одной из приоритетных научных задач.

Ключевые слова: Semantic Web, лексические онтологии, WordNet, Russian WordNet.

В настоящее время исследователями все больше осознается необходимость перехода от документов, читаемых компьютером, к документам, понимаемым компьютером, что является одним из важнейших путей развития World Wide Web. Такой переход становится возможным на основе технологий Semantic Web (W3C Semantic Web Activity - http://www.w3.org/2001/sw/Activity).

Проект Semantic Web (SW) предложил Тим Бернерс-Ли (Tim Berners-Lee) - один из основоположников WWW и нынешний председатель WWW-консорциума (W3C). Концепция SW заключается в организации такого представления информации в сети, чтобы допускалась не только ее визуализация, как это происходит сейчас, но и эффективная

автоматическая обработка. Для этого необходимо решить целый ряд задач [1]. Выделяются следующие этапы развития WWW-сети.

1. Web 1.0 - объединение в сети информации и постоянное ее пополнение.

2. Web 2.0 - объединение в социальные сети людей - Social Web.

3. Web 3.0 - объединение в сети знаний.

4. Web 4.0 - объединение в сети людей и компьютеров для общения и получения знаний наравне друг с другом.

Первые два этапа уже пройдены, третий и четвертый - перспектива.

Базовая модель SW, по Тиму Бернерс-Ли, включает следующие компоненты: URI/IRI - уни-

версальный идентификатор ресурсов; расширяемый язык разметки (XML); общая схема описания ресурсов RDF; метаданные и схема RDF Schema (RDFS); онтологии и языки их описания (OWL: OWL Lite, OWL DL, OWL Full); метаданные и схема OWL Schema (OWLS); язык запросов SPAROL к RDF-хранилищам; агенты/сервисы WSDL и схемы WSDLS и пр.

Для RDF-данных разработаны форматы се-риализации данных и обеспечивается интеропера-бельность приложений. Консорциум W3C предложил и использует стандарты по форматам XML, Namespace (пространства имен), RDF и RDFS (RDF-схем), которые позволяют специфицировать словари используемых терминов. Разрабатываются соответствующие спецификации для существующих и новых приложений (http://www.w3. org/RDF/). Результаты исследований уже используются в коммерческих целях [1].

В сети сформированы огромные ресурсы в виде RDF/OWL-баз знаний. Общий объем мета-информации достиг критической массы и неуклонно растет. На сентябрь 2006 г. пространство имен OWL было использовано в 113 000 документов Semantic Web (это 8 % от общего объема), пространство имен RDFS - в 677 000 документов (47 %). В августе 2007 г. в сети насчитывалось более 2 биллионов RDF-троек.

В области представления знаний в виде онто-логий консорциум W3C предложил стандарт на спецификацию онтологий - язык Web Ontology Language (OWL) (http://www.w3.org/2004/OWL/). OWL основан на RDF/RDF Schema и дополнительном словаре для представления свойств и классов. При разработке онтологий используется широкий спектр структур, представляющих знания о той или иной предметной области: глоссарий, простая таксономия, тезаурус (таксономия с терминами), понятийная структура с произвольным набором отношений, полностью аксиоматизированная теория.

Онтологии различаются по ряду параметров. Выделяют различные основания для их классификации. Онтологии различают в зависимости от набора элементов, содержащихся в них, а также типов вводимых отношений. Классификация онто-логий возможна по количеству и качеству понятий, в них включаемых.

Онтологии верхнего уровня (top-ontology) обычно насчитывают примерно 100-3000 концептов. В них включены наиболее абстрактные категории, обладающие свойством универсальности, которые представляют базовое разбиение действительности на категории. Как правило, они строятся теоретиками и философами. Зачастую концепты даже не лексикализуются. Преимуществом таких онтологий является возможность их использования во многих областях и во многих языках. Для данного рода онтологий характерен ограни-

ченный набор обобщенных отношений, которые можно отнести к базовым (родовидовые отношения, отношения часть-целое и ассоциативные отношения). В этих онтологиях на верхнем уровне разбиения такие понятия, как сущность, явление, объект, процесс, роль, являются типичными.

К другому типу относятся онтологии среднего уровня (mid-level ontology - Suggested Upper Merged Ontology (SUMO) - http://www.ontology-portal.org/), в которых элементов обычно значительно больше (500-10000 концептов). Они представляют мир в целом, являясь в общем случае не-аксиоматизированной областью. Сложность заключается в том, что для данного вида онтологий требуется выводить слишком большое количество аксиом. Обычно эта проблема решается с помощью методов автоматизированного вывода аксиом из уже существующих онтологий. Построением онтологий среднего уровня чаще всего занимаются когнитологи и лингвисты.

Онтологии нижнего уровня, или так называемые онтологии предметной области (domain ontologies), наиболее обширны - обычно насчитывают около 2000-20000 концептов. Они описывают конкретные предметные области с их спецификой. При этом круг решаемых задач и вопросов, на которые отвечает онтология, ограничен выбранной областью. Для данного типа онтологий характерно наличие отношений, специфичных для конкретной области. Для них также возможно построение большого количества аксиом и правил. В большинстве случаев этот тип онтологий строится экспертами области знания или при их содействии. В связи с большой спецификой каждой предметной онтологии ее повторное использование зачастую возможно только в рамках самой предметной области. Примеры таких онтологий: UNSPSC (United Nations Standard Products and Services Codes) - http://www.unspsc.org/; NAICS (North American Industry Classification System) -http://www. census.gov/epcd/www/naics.html; SCTG (Standard Classification of Transported Goods) -http://www. statcan. ca/english/Subjects/Standard/sctg/ sctg-menu.htm; E-cl@ss - http://www.eclass.de/; RosettaNet- http://www.rosettanet.org.

Особый тип онтологий - лексические (или лингвистические). Их отличительное свойство -использование в одном ресурсе (лексикализован-ных) понятий (слов) вместе с их языковыми свойствами. Основным источником понятий в онтоло-гиях данного типа являются значения языковых единиц. Их также отличает набор отношений, обычно свойственный языковым элементам: синонимия, гипонимия, меронимия и ряд других. К лингвистическим онтологиям относятся WordNet - http://wordnet.princeton.edu/; MikroKosmos -http://crl.nmsu. edu/Research/Projects/mikro/index. html; Sensus - http://www.isi.edu/natural-language/ projects/ONTOLOGIES.html и др. Круг задач, ре-

шаемых такими онтологиями, тесно взаимосвязан с обработкой естественного языка. Главной характеристикой лингвистических онтологий является то, что их единицы связаны со значениями языковых выражений (слов, именных групп и т.п.), что важно, когда речь идет о создании новых онтоло-гий и лексикализации существующих. Существуют отображения большинства известных онтоло-гий (SUMO, ОрепСус и др.) на WordNet.

Важное направление исследований - использование онтологий верхнего или среднего уровня для разработки онтологий в конкретных предметных областях. В качестве такой общей онтологии при разработке предметно-ориентированных онтологий часто используется лингвистическая онтология WordNet.

Работа над WordNet [2] ведется в Принстон-ском университете (США) с начала 80-х годов. Сейчас доступна версия 3.0, выпущенная в декабре 2006 г. (http://wordnet.prmceton.edu/wordnet/ download/). Существующая версия WordNet (PWN) охватывает общеупотребительную лексику современного английского (american) языка (табл. 1).

Основой WordNet являются синсеты - множества слов-синонимов, обозначающие один и тот же концепт в заданном контексте. Для синсета явно указываются часть речи и толкование. Каждое слово, входящее в состав синсета, дополнительно может иметь ряд атрибутов, например, признак доминантности, пометы типа «идиома», «близкое значение» и т.д. Для каждого синсета может быть приведен пример его употребления в заданном контексте - определяется набор речений и фразеологизмов, определяются толкования.

Таблица 1

Статистика WordNet 3.0

Части речи Число уникальных строк Синсеты Всего пар значений

Существительные 117,798 82,115 146,312

Глаголы 11,529 13,767 25,047

Прилагательные 21,479 18,156 30,002

Наречия 4,481 3,621 5,580

Общее число 155,287 117,659 206,941

Основные отношения между синсетами зависят от части речи [2]. Пример некоторых отношений WordNet приводится на рисунке 1.

{conveyance;transport}

{vehicle} meronvms

1 {motor vehicle; automotive vehicle} - {car mirror} =* {armrest}

hvperonvm {car; auto; automobile; machine; motorcar} {car door} — —*■ {doorlock}

I hvponym ► {bumper} ^ {car window} ^ {hinge; flexible joint}

{cruiser; squad car; patrol car; {cab; taxi; hack; taxicab} police car; prowl car}

Рис. 1

Пример связи между отношением, концептом и словом в WordNet приведен на рисунке 2, а общая иерархия концептов WordNet на рисунке 3.

Concepts

Vocabulary of a language

type-of

part-ó

rec: 12345

- financial institute rec: 54321

- side of a river rec: 9876

- small string Instrument rec: 65438

- musician playing violin rec:42654

- musician

rec:35576 1

«—

- string of Instrument rec:29551 _2_[

- underwear rec:25876

* - string Instrument

bank

fiddle violin fiddler violist

string

Рис. 2

В период с марта 1996 г. по сентябрь 1999 г. при финансировании Европейской комиссии был создан многоязычный вариант WordNet -EuroWordNet. Эта лексическая система объединила в себе WordNet-словари английского, датского, испанского, итальянского, немецкого, французского, чешского и эстонского языков, а за основу был взят Принстонский WordNet версии 1.5.

В 2004 г. завершилась работа над проектом BаlkаNet, объединяющим греческий, болгарский, турецкий, чешский, французский, румынский и сербский языки. WordNet является единственной многоязычной лексической онтологией, охватывающей свыше 50 языков.

EuroWordNet и BalkaNet являются закрытыми платными лексическими ресурсами в отличие от свободно распространяемого WordNet.

В настоящее время известно о нескольких реализациях подобных WordNet лексических БД для русского языка.

• Проект Ни.\.\Хе1 разрабатывается с 1999 г. на филологическом факультете СПбГУ (http://pro-ject.phiI.pu.ru/RussNet/index_ru.shttiiI).

• Проект тезауруса Ни7Ъе.\. используемого в университетской информационной системе «РОССИЯ» МГУ (УИС «РОССИЯ») (http://uis-

russia. msu. ru/is4/servlet/is4. wwwmain); закрытый коммерческий ресурс.

• Russian WordNet (http://www.pgups.ru/Web-WN/wordnet. uix).

Методика и принципы построения словаря проекта RussNet ориентированы на длительный процесс разработки ресурса группой лингвистов без какой-либо автоматизации процесса построения и связи с исходным WordNet.

Проект RuThes невозможно оценить из-за его закрытости.

Проект Russian WordNet (RWN) [3] ставит задачу создания русской версии WordNet, сопоставимой по числу лексических единиц с английской версией, на основе широкого привлечения различных лингвистических ресурсов и автоматизации разработки.

Для построения RWN используются лингвистические ресурсы компании «Руссикон» (www.russicon.ru) и словари, свободно распространяемые в Интернете. Коллектив разработчиков RWN в 2003 г. выиграл конкурс издательства Oxford Press на лучший исследовательский проект по использованию словарей Oxford Press. Благодаря этому издательство Oxford Press предоставило для создания русской версии WordNet XML версии следующих словарей: Oxford Russian Dictionary; New Oxford Dictionary of English, 2nd Edition; New Oxford Thesaurus of English.

Эти ресурсы используются для автоматизации процесса построения русско-английского WordNet.

Разработка RWN предполагает решение следующих задач (рис. 4).

• Построение русской версии WordNet, достаточно полно (100-120 тыс. лексических единиц) описывающей лексику русского языка и сопоставимой по числу лексических единиц с английской версией. Для этого используются морфологический анализатор, лексические ресурсы [4, 5], словари, свободно распространяемые в Интернете, и ряд печатных изданий.

• Интеграция с другими лексическими системами на основе использования технологии SJV.

• Автоматизированное построение межъязыкового индекса, определяющего соответствие между синсетами PWN и RWN, на основе использования электронных версий словарей издательства Oxford Press, ряда доступных в Интернете англорусских и русско-английских словарей, WordNetDomains.

На сегодняшний день RWN включает: 55397 существительных, образующих 71729 синсетов; 34400 глаголов, образующих 44998 синсетов; 25315 прилагательных, образующих 33571 синсет; 10071 наречие, образующее 9716 синсетов.

В состав RWN входит грамматический словарь парадигм всех лемм словника RWN. Также опреде-

Этап 1 - создание Russian WordNel

Грамматический словарь «Руссикон»

Этап 2 - создание English-Russian WordNel

Рис. 4

Таблица 2

Свойство Домен Диапазон

(Property) (Domen) (Range)

synsetContainsWordSense Synset WordSense

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

word WordSense Word

lexicalForm Word xsd:string

synsetId Synset xsd:string

tagCount Synset xsd:integer

frame VerbWordSense xsd:string

gloss Synset xsd:string

hyponymOf Synset Synset

entails Synset Synset

similarTo Synset Synset

memberMeronymOf Synset Synset

substanceMeronymOf Synset Synset

partMeronymOf Synset Synset

classifiedByTopic Synset Synset

classifiedByUsage Synset Synset

classifiedByRegion Synset Synset

causes Synset Synset

sameVerbGroupAs Synset Synset

attribute Synset Synset

adjectivePertainsTo Synset Synset

adverbPertainsTo Synset Synset

derivationallyRelated WordSense WordSense

antonymOf WordSense WordSense

seeAlso WordSense WordSense

participleOf WordSense WordSense

classifiedBy Synset Synset

meronymOf Synset Synset

ляются словообразовательные отношения между леммами RWN. Толкование и примеры употребления лексем в реализации RWN привязываются не только к синсетам, но и к отдельным лексемам. В настоящее время RWN находится в процессе тестирования, проверки и редактирования.

Для проекта RWN разработаны методы и программные средства, позволяющие значительно сократить время разработки. Так, разработаны редактор TenDrow [3] для редактирования WordNet и пакет специальных утилит построения WordNet и /¿/-индекса.

Редактор TenDrow предназначен для создания и редактирования широкого класса тезаурусов и близких к ним структур, он позволяет

• работать с СУБД 0racle9i/10g/llg и Interbase/Firebird;

• осуществлять обмен данными между БД и OWL -представлением WordNet (экспорт/импорт данных);

• поддерживать форматы лексических файлов Princeton WordNet 2.0 и VisDicI.3.36 (для загрузки в БД).

В рамках технологии SW консорциум W3C разрабатывает стандарт RDF/OWL-представления WordNet. Первая рабочая версия стандартного представления RDF/OWL для WordNet 2.0 была принята W3C Working Group (http://www.w3.org/ TRwordnet-rdf/) в 2006 г. RDF/OWL -модель PWN основывается на трех основных классах свойств: Synset, WordSense и Word. Первые два делятся на четыре подмножества лексических типов - noun, verb, adjective и adverb, а последний состоит из одного подмножества Collocation.

Описание основных свойств RDF/OWL -представления WordNet приведено в таблице 2.

Графическая интерпретация RDF/OWL-представления WordNet приведена на рисунке 5.

RDF/OWL-представление WordNet было взято за основу для RDF/OWL-представления RWN и может использоваться как один из компонентов технологии W3C/SemanticWeb совместно с PWN в системах управления корпоративными знаниями, в поисковых системах, в технологиях SW, в различных системах обработки текстовой информации, в автоматизированных системах обучения.

Литература

1. Хорошевский В.Ф. Пространства знаний в сети Интернет и Semantic Web // Искусственный интеллект и принятие решений. 2008. № 1.

2. Fellbaum C. WordNet: an Electronic Lexical Database. MIT Press, Cambridge. MA. 1998.

3. Balkova V., Suhonogov A., Yablonsky S. Russian WordNet. From UML-notation to Internet/Intranet Database Implementation. In: Proceedings of the Second International WordNet Conference, GWC 2004. Brno, Czech Republic, 2004, pp. 31-38.

4. Yablonsky S.A. Russicon Slavonic Language Resources and Software. RWN. In: A. Rubio, N. Gallardo, R. Castro & A. Tejada (eds.) Proceedings First International Conference on Language Resources & Evaluation. Granada, Spain, 1998, pp. 1141-1147.

5. Yablonsky S.A. Russian Morphology: Resources and Java Software Applications. In: Proceedings EACL03 Workshop Morphological Processing of Slavic Languages. Budapest, Hungary, 2003.

Петербургский государственный университет путей сообщения

www.pgups.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.