Научная статья на тему 'ИССЛЕДОВАНИЕ И РАЗРАБОТКА МЕТОДА АВТОМАТИЧЕСКОГО ФОРМИРОВАНИЯ ОНТОЛОГИИ НА ОСНОВЕ WIKIDATA'

ИССЛЕДОВАНИЕ И РАЗРАБОТКА МЕТОДА АВТОМАТИЧЕСКОГО ФОРМИРОВАНИЯ ОНТОЛОГИИ НА ОСНОВЕ WIKIDATA Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
98
30
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОНТОЛОГИЯ / ПРЕДМЕТНАЯ ОБЛАСТЬ / WIKIDATA / АНАЛИЗ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ / СОЦИАЛЬНЫЕ СЕТИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Пирогова Н.Д., Филиппов А.А.

Представлен подход к автоматическому формированию онтологии предметной области на основе информации, извлекаемой из базы знаний Википедии (Wikidata). Метод основан на извлечении терминов из Wikidata согласно настраиваемым параметрам алгоритма, получении онтологии и определении на её основе предметной области поста социальной сети

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Пирогова Н.Д., Филиппов А.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

RESEARCH AND DEVELOPMENT OF A METHOD OF AUTOMATIC FORMATION OF ONTOLOGY BASED ON WIKIDATA

An approach to the automatic formation of a domain ontology based on information retrieved from the Wikipedia knowledge base (Wikidata) is presented. The method is based on extracting terms from Wikidata according to customizable parameters of the algorithm, obtaining an ontology and defining the subject area of a social network post based on it.

Текст научной работы на тему «ИССЛЕДОВАНИЕ И РАЗРАБОТКА МЕТОДА АВТОМАТИЧЕСКОГО ФОРМИРОВАНИЯ ОНТОЛОГИИ НА ОСНОВЕ WIKIDATA»

УДК 004.82

Н. Д. ПИРОГОВА, А. А.ФИЛИППОВ

ИССЛЕДОВАНИЕ И РАЗРАБОТКА МЕТОДА АВТОМАТИЧЕСКОГО ФОРМИРОВАНИЯ ОНТОЛОГИИ НА ОСНОВЕ WIKIDATA

Представлен подход к автоматическому формированию онтологии предметной области на основе информации, извлекаемой из базы знаний Википедии (Wikidata). Метод основан на извлечении терминов из Wikidata согласно настраиваемым параметрам алгоритма, получении онтологии и определении на её основе предметной области поста социальной сети

Ключевые слова: онтология, предметная область, Wikidata, анализ текстов на естественном языке, социальные сети.

Введение

В настоящее время наблюдается определенная недостаточность технологий и инструментальных средств для автоматизированного построения и сопровождения онтологий предметной области. Этот факторограничивает масштабы использования онтологических технологий в современных информационных системах и сдерживает темп их внедрения. Разработка онто-логий предметных областей является довольно сложным и трудоемким процессом. Соответственно, задача разработки соответствующих методов и инструментов сохраняет свою актуальность. Представляется перспективным направление исследований, связанных с разработкой средств автоматизации формирования онтологии на основе базы знаний Википедии — Wikidata. Использование Wikidata в качестве источника знаний обуславливается тем, что Wikidata динамически обновляется всем сообществом пользователей Википедии, имеет четко определённую и простую для понимания структуру и обеспечивает обработку информации на семантическом уровне. Применение автоматически сформированной на основе Wikidata онтологии позволит определить предметную область текста, содержащего как русские, так и английские слова.

1. Решение задачи на основе аналогов

Существует несколько методов решения поставленной проблемы. Первый рассматриваемый аналог — автоматическое построение онтологии по коллекции текстовых документов. Данных подход был описан Е. С. Мозжериной [1]. В статье обосновывается подход к автоматизации процесса построения онтологии по коллекции текстовых документов, относящихся к

© Пирогова Н. Д., Филиппов А. А., 2021

одной тематике, на основании статистических методов анализа естественно-языковых текстов. В рамках данной статьи рассматривается предлагаемый подход для первых двух этапов построения онтологии: выделение классов и отношений между ними.

Второй рассматриваемый аналог — подход на основе лексико-синтаксических шаблонов. Данный подход был предложен в [2] и относится к группе методов автоматического построения онтологий, использующих лингвистические средства. Сторонники подхода утверждают, что для построения онтологий следует активно использовать все уровни анализа естественного языка: морфологию, синтаксис и семантику.

Третий подход был предложен в [3] и относится к группе методов автоматического построения онтологий, в основе которых лежат подходы из области искусственного интеллекта. Для создания методов автоматического построения онтологий автор разрабатывает модель генерации системы продукций (на основе применения генетического программирования), модель генерации преобразователей (на основе генетического и автоматного программирования), модель генерации систем логического вывода (также на основе генетического и автоматного программирования) и модель аппарата активации продукций (на основе применения автоматного программирования).

Рассмотренные ранее подходы не используют многоязычные онтологии как объект исследования. Также они исключают возможность динамического обновления онтологии в соответствии с изучаемой предметной областью. Поход с использованием в качестве источника данных Wikidata позволяет быстро сформировать онтологии по нескольким предметным областям.

2. Предлагаемая реализация метода по решению задачи

Данные в Wikidata структурированы: каждый предмет, по которому структурировали данные, называется сущностью, и у каждой сущности есть страница. На данный момент система различает два типа сущностей: элементы и свойства. В привычных терминах семантических технологий элементы представляют индивидуальности и классы, а свойства Wikidata напоминают свойства RDF.Например, страницу элемента для английского писателя Дугласа Адамса можно увидеть по адресу

https://www.wikidata.org/wiki/Q42. Заголовок этой страницы - «Q42», а не «Дуглас Адамс», поскольку Wikidata — многоязычный сайт. Следовательно, элементы идентифицируются не меткой на определённом языке, а непрозрачным идентификатором элемента, который назначается автоматически при создании элемента и не может быть изменён позже. Страница каждого элемента содержит следующие основные час-ти:лейбл (например, «Дуглас Адамс»),краткое описание (например, «английский писатель и юморист»),список псевдонимов (например, «Дуглас Ноэль Адамс»),список утверждений,список ссылок на сайт (ссылки на страницы об объекте в Википедии и других проектах).

На странице элемента показан простой пример оператора, который очень похож на тройку RDF с субъектом Дугласа Адамса (Q42), свойством «instanceof» и значением «human». Свойства, такие как элементы, описаны на страницах и используют непрозрачные идентификаторы, начинающиеся с «Р». Например, «instanceof» на самом деле Р31. У свойств есть термины (ярлыки и т. д.), но нет утверждений или ссылок на сайты. Кроме того, свойства Wikidata также имеют тип данных, который определяет, какие значения они принимают. Типы данных определяют структуру значений, принимаемых свойствами. Одно значение свойства может соответствовать одному ресурсу RDF (как для элемента типа) или одному литералу RDF (как для строки типа); или это может быть сложное значение, которое требует описания нескольких элементов, таких как время, координаты земного шара и количество [4].

В рассматриваемом подходе формирования онтологии предполагается использование двух типов сущностей — понятия и термины. Понятие — это корневой элемент, наименование предметной области на естественном языке, термины — это экземпляры понятия, лейблы элементов и свойств, которые возможно было получить в рамках исследуемой предметной области. Был

разработан алгоритм формирования онтологии на основе Wikidata, который на основе понятия и настраиваемых параметров формирует запрос к WikidataQueryService на языке SPARQL [5]. Полученный результат записывается в виде онтологии в формате OWL.Функция, при помощи которой получится выделить подмножество объектов из Wikidata для автоматического построения онтологии, представлена в виде разработанного алгоритма на рисунке 1.

На основе вышеперечисленных параметров и наименования предметной области на естественном языке (понятие) формируется запрос к WikidataQueryService на языке SPARQL, после обработки которого создаётся массив свойств понятия. Если отдельно взятое свойство не хранится в словаре «стоп-свойств», то объекты, принадлежащие свойству, добавляются в очередь и устанавливается так называемый «флаг» как символ начала новый итерации. Свойства и объекты записываются в онтологию как экземпляры класса онтологии (наименования предметной области).

Когда для каждого объекта в очереди будут выгружены все свойства либо начнётся новая итерация, т. е. «флаг» достигнут, и алгоритм продолжает работать с новыми терминами, либо текущее количество итераций достигнет введённого количества «проходов». В результате работы алгоритма будет получена онтология в формате OWL.

Разработанный метод автоматического формирования онтологии возможно применить при лингвистическом анализе текстовых документов, а именно, для определения предметной области данных текстов. Формально задача определения предметной области сводится к классификации множества текстовых фрагментов: D = (di, d2, ..., dn}. Фрагмент онтологии для определения предметной области имеет следующий вид: G= (C, Rc, I ,Ri), где C = ( Сь С2, ..., Cn} — множество предметных областей; RC — множество отношений, определяющих иерархию предметных областей;1 = ( I1, I2, ..., In } — множество терминов предметных областей. Указанное множество терминов определяет словарь, который состоит из лексем, включающих слова и словосочетания, характеризующие предметную область^ — множество отношений, определяющее связи между предметными областями и их терминами.

В качестве классификатора выступает множество предметных областей С, зафиксированное в виде онтологии. Задачей является нахождение наиболее вероятной предметной области из множества областей C для текстового фрагмента di.

ЫЭ-IHJKD

j

] Создание очереди из объектов (например, музыка)

S

И н 1*4И ал из ал^ш параметров

Глубина < К? Нет Конец N

1 V )

: Дэ

1

!

i i

К = К+1 Нет ^ч^ объекты?

i №

i Получение свойств обьасга

_1_

г списке? * р = р+1

\

Выгрузка объектов для

N объектов в очередь, установка "флага", запись- свойств м

1 ооъвггав в фаил

Нет Да

1 \ /

Рис. 3. Блок-схема разработанного алгоритма

Предложенный метод классификации текстовых фрагментов основан на предположении, что тексты, относящиеся к одной предметной области, содержат одинаковые термины (слова или словосочетания) [6]. Наличие или отсутствие таких терминов в текстовом фрагменте сигнализирует о его принадлежности или непринадлежности к той или иной предметной области.

Метрика для расчёта степени соответствия текстового фрагмента предметной области имеет вид:

= count (ic) Vai = го и (1)

Vai count (id)'Vai r°-"1J' (1)

где count (Ic) — количество совпавших терминов в тексте и онтологии; count (Id) - количество терминов в тексте. В результате для каждого текстового фрагмента формируется множество степеней его соответствия множеству предмет-

ных областей С. Для вычисления итогового значения степени принадлежности текстового фрагмента di предметной области все полученные значения по предметным областям приводятся к общему знаменателю, чтобы в сумме давали 100%.

Для определения степени принадлежности текстового фрагмента к некоторой предметной области необходимо:

1. Выполнить разделение текста на слова с последующей лемматизацией каждого слова.

2. Используя выражение (1), определить степень соответствия текстового фрагмента каждой предметной области. Более подробно данный метод описан в статье [6].

3. Используя приведение к общему знаменателю, определить значения степени принадлежности текстового фрагмента предметной области.

Таблица 1

Результаты экспериментов над разработанным методом

1 2 3 4 5 Время работы Количество терминов в онтологии

Музыка 0 20 20 2 24 мин 13 090

Спорт 0 200 200 2 56 мин 39 431

Таблица 2

Тип эксперимента №1

Понятие Количество терминов в словаре «стоп-свойств» Количество свойств Количество объектов Количество итераций

Музыка 0 200 200 6

Спорт 0 200 200 6

Политика 0 200 200 6

Искусство 0 200 200 6

Медицина 0 200 200 6

Таблица 3

Результаты экспериментов

Пустой словарь Словарь с значениями Пустой словарь Словарь с значениями

текст на тему «Политика» текст на тему «Спорт»

Музыка 19% Музыка 24% Музыка 19% Музыка 23%

Спорт 18% Спорт 18% Спорт 24% Спорт 24%

Политика 25% Политика 28% Политика 17% Политика 21%

Искусство 18% Искусство 10% Искусство 20% Искусство 15%

Медицина 20% Медицина 20% Медицина 19% Медицина 17%

текст на тему «Музыка»

Музыка 26% Музыка 29%

Спорт 14% Спорт 16%

Политика 18% Политика 19%

Искусство 23% Искусство 20%

Медицина 19% Медицина 16%

Данные по экспериментам формирования онтологии описанным методом и их результаты представлены в таблице 1.

Также был проведен эксперимент на работу алгоритма определения степени принадлежности текста к предметной области. Значения настраиваемых параметров представлены в таблице 2.

В качестве текстовых фрагментов были выбраны текст до 1000 знаков по трем темам «Политика», «Музыка», «Спорт». Значения принадлежности текстов к предметным областям таковы в таблице 3.

Заключение

В данной работе была поставлена задача исследования и разработки метода автоматического формирования онтологии. Представленный метод позволяет формировать онтологию исследуемой предметной области и определять сте-

пень принадлежности текстовых фрагментов к исследуемым предметным областям.

В процессе формирования онтологии в OWL записываются объекты и свойства из Wikidata, соответствующие введенному понятию и параметрам. Как результат — двухуровневая онтология с множеством терминов. Термины онтологии — словарь для определения степени принадлежности текстовых документов к предметным областям.

Предполагается, что полученный в результате данной работы алгоритм должен повысить точность и уменьшить время формирования онтологии и определения предметных областей с учетом специфики представления данных и нечеткости конструкций естественного языка.

СПИСОК ЛИТЕРАТУРЫ

1. Мозжерина Е. С. Автоматическое построение онтологии по коллекции текстовых документов //Труды 13-й Всерос. науч. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». - Воронеж, 2011. - С. 293-298.

2. Рабчевский Е. А. Автоматическое построение онтологий на основе лексико-синтаксических шаблонов для информационного поиска // Труды 11-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL'2009. - Петрозаводск, 2009. - С. 69-77.

3. Найханова Л. В. Методы и модели автоматического построения онтологий на основе генетического и автоматного программирования: Автореф. дис.... докт. техн. наук. - Красноярск, 2008. - 36 с.

4. Erxleben F., Günther M., Krötzsch M., Mendez J., Vrandecic D. (2014) Introducing Wikidata to the Linked Data Web. In: Mika P. et al. (eds) The Semantic Web - ISWC 2014. ISWC 2014. Lecture Notes in Computer Science, vol 8796. Springer, Cham.URL: https://doi.org/10.1007/978-3-319-11964-9_4 (дата обращения: 01.05.2021).

5. WikidataQueryService [Электронный ресурс] // URL: https://query.wikidata.org/ (дата обращения: 01.05.2021).

6. Разработка программного комплекса для интеллектуального анализа социальных медиа / Павлыгин Э. Д., Подлобошников А. Г., Савинов Р. А. и др. // Автоматизация процессов управления. - 2019. - №2. - С. 23-36.

REFERENCES

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1. Mozzherina E. S. Avtomaticheskoe postroenie ontologii po kollekcii tekstovyh dokumentov [Automatic construction of an ontology based on a collection of text documents]. Trudy 13-j Vseros. nauch. konf. «Elektronnye biblioteki: perspektivnye metody i tekhnologii, elektronnye kollekcii» [Proceedings of the 13th All-Russian Scientific Conference «Electronic libraries: promising methods and technologies, electronic collections»]. Voronezh, 2011, pp. 293-298.

2. Rabchevsky E. A. Avtomaticheskoe postroenie ontologij na osnove leksiko-sintaksicheskih shablonov dlya informacionnogo poiska [Automatic

construction of ontologies based on lexical and syntactic templates for information search] Trudy 11-j Vserossijskoj nauchnoj konferencii «Elektronnye biblioteki: perspektivnye metody i tekhnologii, elektronnye kollekcii» - RCDL'2009 [Proceedings of the 11th All-Russian Scientific Conference "Electronic Libraries: promising methods and technologies, electronic collections - RCDL' 2009]. Petrozavodsk, 2009, pp. 69-77.

3. Naikhanova L. V. Metody i modeli avtomaticheskogo postroeniya ontologij na osnove geneticheskogo i avtomatnogo programmirovaniya: Avtoref. dis.... dokt. tekhn. nauk [Methods and models of automatic construction of ontologies based on

genetic and automatic programming: Abstract.....

doct. technical sciences]. Krasnoyarsk, 2008, 36 p.

4. Erxleben F., Günther M., Krötzsch M., Mendez J., Vrandecic D. (2014) Introducing Wikidata to the Linked Data Web. In: Mika P. et al. (eds) The Semantic Web - ISWC 2014. ISWC 2014. Lecture Notes in Computer Science, vol 8796. Springer, Com. URL: https://doi.org/10.1007/978-3-319-11964-9_4 (accessed: 01.05.2021).

5. WikidataQueryService [Electronic resource] / / URL: https://query.wikidata.org/ (accessed: 01.05.2021).

6. Razrabotka programmnogo kompleksa dlya intellektual'nogo analiza social'nyh media [Development of a software package for intellectual analysis of social media. Pavlygin E. D., Podloboshnikov A. G., Savinov R. A., etc.]. Avtomatizaciya processov upravleniya [Automation of management processes]. 2019, No. 2, pp. 23-36

Пирогова Наталья Дмитриевна, студент группы ИСЭмд-21, факультет информационных систем и технологий, Ульяновский государственный технический университет. Филиппов Алексей Александрович, доцент кафедры «Информационные системы», факультет информационных систем и технологий, Ульяновский государственный технический университет.

Поступила 15.09.2021 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.