Научная статья на тему 'Формальная модель семантического поиска в электронной библиотеке'

Формальная модель семантического поиска в электронной библиотеке Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
139
59
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СЕМАНТИЧЕСКИЙ ПОИСК / ПОИСК ИНФОРМАЦИИ / ОНТОЛОГИИ / SEMANTIC SEARCH / INFORMATION RETRIEVAL / ONTOLOGY

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Дударь З. В., Белоконь В. А., Хильский В. Г.

В данной статье представлена формальная модель семантического поиска в специализированной электронной библиотеке. Представлена схема построения онтологии. Сформулированы леммы для функций интерпретации термов и концепций

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

FORMAL MODEL OF SEMANTIC SEARCH IN THE ELECTRONIC LIBRARY

This article presents a formal model of semantic search in a specialized electronic library. A scheme for constructing an ontology is presented. The lemmas for the functions of interpretation of terms and concepts are formed

Текст научной работы на тему «Формальная модель семантического поиска в электронной библиотеке»

7. Хохлова, М.В. Экспериментальная проверка методов выделения коллокаций [Текст] / М. В. Хохлова // Инструментарий русистики: корпусные подходы. — Slavica НеЫ^е^а: 2008. — № 34. — С. 343-357.

8. Захаров, В. П. Анализ эффективности статистических методов выявления коллокаций в текстах на русском языке [Текст] / В.П. Захаров, М.В. Хохлова // Труды международной конференции «Диалог-2006». — 2006. — С. 137-143.

9. Ахманова, О. С. Словарь лингвистических терминов [Текст] / О. С. Ахманова. — 2-е изд. — М.: Советская энциклопедия, 1969 — 607 с.

10. Браславский, П. Сравнение пяти методов извлечения терминов произвольной длины [Текст] / П. Браславский, Е. Соколов. // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 4-8 июня 2008). — Вып. 7 (14). — М.: РГГУ, 2008. — С. 67-74.

11. О программе mystem [Электронный ресурс] / Режим доступа : \wwwZ URL: http://company.yandex.ru/technology/mystem/

— 10.06.2011 г. — Загл. с экрана.

12. Энциклопедический Словарь Конституционного Права [Текст] / под ред. Р. А. Мандрик — Новосибирск, 2010. — 666 с., 61145

-----------------□ □-------------------

В даній статті надана формальна модель семантичного пошуку в спеціалізованій електронній бібліотеці. Надана схема побудови онтології. Сформульовано леми для функцій інтерпретації термів і концепцій

Ключові слова: семантичний

пошук, пошук інформації, онтології

□-----------------------------□

В данной статье представлена формальная модель семантического поиска в специализированной электронной библиотеке. Представлена схема построения онтологии. Сформулированы леммы для функций интерпретации термов и концепций Ключевые слова: семантический поиск, поиск информации, онтологии

□-----------------------------□

This article presents a formal model of semantic search in a specialized electronic library. A scheme for constructing an ontology is presented. The lemmas for the functions of interpretation of terms and concepts are formed

Key words: semantic search,

information retrieval, ontology -----------------□ □-------------------

УДК 519.767.6

ФОРМАЛЬНАЯ МОДЕЛЬ СЕМАНТИЧЕСКОГО ПОИСКА В ЭЛЕКТРОННОЙ БИБЛИОТЕКЕ

З.В. Дударь

Кандидат технических наук, профессор, директор Центра Центр последипломного образования* Контактный тел.: (057) 702-18-05, 702-14-46 E-mail: fpo@kture.kharkov.ua

В.А. Белоконь

Аспирант**

Контактный тел.: (057) 702-18-05, 702-14-46 E-mail: fpo@kture.kharkov.ua

В.Г. Хильский

Магистрант

Контактный тел. (0625) 27-62-20, 063-243-84-33

E-mail: xv1975@mail.ru **Кафедра программного обеспечения ЭВМ *Харьковский национальный университет радиоэлектроники пр. Ленина, 14, г. Харьков, Украина, 61166

Введение

Развитие индустрии систем электронного документооборота, сопровождающееся ростом массивов обрабатываемых полнотекстовых документов, требует новых средств организации доступа к информации, многие из которых следует отнести к разряду систем искусственного интеллекта - систем обработки знаний. Основной задачей, возникающей при работе с полнотекстовыми базами данных, является задача поиска документов по их содержанию. Однако, став-

шие традиционными средства контекстного поиска по вхождению слов в документ, представленные, в частности, поисковыми машинами в интернет, зачастую не обеспечивают адекватного выбора информации по запросу пользователя.

Первые информационно-поисковые системы (ИПС) появились более тридцати лет назад и с тех произошли существенные изменения, как в поисковых алгоритмах, так и в техническом оснащении. В настоящее время в поисковых системах используется релевантная модель оценки соответствия исследуе-

Е

мого документа поисковому запросу.Одно из перспективных направлений развития информационно-поисковых систем - построение моделей «семантического», т.е. «смыслового» поиска - поиска ресурсов, наиболее релевантных запросу, а не просто содержащие слова из запроса [1]. В 1999-2002 годах, как зарубежными, так и российскими учеными было предложено использовать в модели семантического поиска онтологии предметных областей [2-4]. Последние несколько лет в работах [5-9] рассматриваются различные методы для автоматического формирования онтологий, для чего используется лексический и синтаксический анализ документов.

Однако вопрос автоматического построения онтологий остается актуальным, так как релевантность полученных онтологий достаточно низкая.

Целью статьи является построение новой расширенной модели онтологии предметной области, в которой определены формальные функции интерпретации концепций и терминов; построение математической модели семантического поиска использующей расширенные функции интерпретации онтологии предметной области; разработка нового метода автоматического построения онтологии на основе информационных библиографических коллекций, распределенных в сети Интернет.

2. Формальные модели онтологий

Классическая модель онтологии [10] определяется как множество

О =<с, Я, Е >,

где С - конечное множество понятий предметной области;

Я - конечное множество отношений между понятиями;

F - конечное множество функций интерпретации.

К заданным множествам предъявляются следующие требования:

С - непустое и конечное множество;

Я и Е - конечные множества.

Свойства онтологии:

1. если R = 0 и F = 0, то онтология трансформируется в простой словарь. Например, набор терминов, используемый в той или иной предметной области, без объяснений значений данных терминов. Простым словарем является любой орфографический словарь;

2. если R = 0 и F Ф 0, то онтология преобразуется в пассивный словарь (тезаурус). Например, толковый словарь — интерпретирование, уточнение, объяснение значения одних терминов на основе других, имеющихся в словаре;

3. если R Ф 0 и F = 0, то онтология является простой таксономией.

Таксономия - иерархически выстроенная система целей и результатов от простой к сложной системе. Математически таксономией является древообразная структура классификаций определенного набора объектов. Например, используемые в библиографии классификационные системы, которые задают отношения иерархии между понятиями. При этом не приводится интерпретации понятий.

Для решения конкретных задач в дальнейшем были введены и более сложные модели онтологий.

В работе [11] модель концептуализации предметной области определяется как множество О =< U, R, F, L >,

где U - множество классов;

R - множество отношений;

F - множество функций;

L - множество констант.

Основное отличие от классической модели - множество понятий разделено на два разных множества: U (названное авторами классами) и L (константы). Это дало возможность уточнять понятия предметной области терминами из словаря, не являющимися сущностями, но семантически связанными с ними.

В работе [12] вводится ещё одна модель онтологии:

О =< L, С, F, H, Root >,

где L - словарь (набор терминов);

С - набор понятий (концепций);

F - функция интерпретации F(L) ^ C. Отношение набора терминов к набору понятий, к которым они относятся;

H - таксономия. Концепции связаны направленным, нециклическим, рефлексивным отношением Н;

Root - главная концепция.

Множество отношений R, на которое не было наложено никаких ограничений, заменяется на строго ограниченное множество Н, допускающее только иерархические связи между концепциями. Это ограничение влечет за собой появление параметра Root, который обеспечивает онтологическому дереву хоть один «корень».

Данная модель может быть с успехом применена для классификации документов, но для задачи семантического поиска необходимо определение функции интерпретации концепций Fc(C) ^ L, необходимой для операции расширения запроса семантически связанными терминами, определенными для данной концепции.

3. Модель онтологии, специализированной для задач полнотекстового поиска

Формально определим онтологию как кортеж

О =< Ц, С, Fi, Fc, ^ >, где Ц - словарь терминов предметной области,

Ц = {^^ х£)}1=1,п;

wi - термин, возможно более одного слова;

XI - вес термина в словаре;

С - набор понятий (концепций), С= {сЩ=1,п; Fi(L)^C - функция интерпретации терминов, сопоставляет набору терминов из словаря подмножество концепций;

Fc - функция интерпретации концепций, Fc(Ci)^ Ц, сопоставляет концепции набор терминов из словаря; ^ - отношения иерархии между концепциями.

4. Функция интерпретации терминов

В качестве функции интерпретации определим вероятностную функцию. Введем следующие обозначения:

э

и - поисковый запрос, состоящий из одного или нескольких слов;

w с L -один термин из словаря.

Запрос и представим в виде множества терминов из словаря Ц, построенных на основе слов из запроса и:

Назовем априорной вероятностью вероятность события А - выбор концепции из множества С для запроса и.

Определим пространство гипотез. Событием В определим как термин w с L присутствует в запросе и.

Применим формулу полной вероятности [57]

Р(А) =Х Р(А|В, )Р(В),

Р(Л, |Б) = хр(В1А‘)' Р(А‘) . 11 X Р(В|Л) ■ Р(Л)

(2)

І=1,г

Из чего следует

Р(Л1|Б) = ^р(ВА‘) . ( 1 Е Р(БЛ)

(3)

.1=1,г

Р(А) = £

хІ тип^"№ | L)

Е хІ Е count(w’,L)

І=1,т і-еп

(4)

Функция интерпретации терминов принимает вид:

Ц(и) =

сі | Р(сі | и) = тах X

х» count(w | L)

X х» X

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

І=1,т »еп

Определение. Назовем запрос и корректным, если существует хотя бы одно ^ такое что wейпwеL .

Лемма 1. Для любого корректного непустого запроса и множество Fi(u) не пусто, т.е. будет найдена хотя бы одна концепция, соответствующая запросу.

Доказательство: и =1^}"^ , существует je[1,n], где

и. е L , следовательно, для wj выполняются сле-

тои^^-1^)

дующие два условия:

: Е х^ >0 и Е соип^^) > 0

ск еС

(1)

где Р(А | В^ - вероятность того, что будет выбрана концепция а, если термин wi входит в запрос и.

Введем разбиение априорного события А как выбор одной из концепций а из множества С и, применив формулу Байеса, получим

В нашей модели онтологии свойства концепции (родительская и подчиненные концепции, количество терминов, относящихся к концепции, и другие) никак не влияют на вероятность ее выбора. Вероятность выбора концепции зависит только от терминов, следовательно, вероятности выбора концепций равны, т.е.

X р(в|а) ■ Р(А) = Р(л,) ■ X Р(в|А).

j=1,m j=1,m

Оценим P(B|Ai) - вероятность того, что если будет выбрана концепция с;, то в ней будут термины из запроса и. Эта величина известна из модели нашей онтологии и имеет значение х\ - вес данного термина в словаре.

Оценим вероятность Р(В^, т.е. вероятность того, что термин w присутствует в запросе и: р(В ) = соип1(лу | - отношение количества вхож

1 X соип1^’, Ь)

^ еп

дений термина w к общей сумме вхождений всех терминов из запроса в словарь.

Итоговая формула выглядит следующим образом

И по определению функции интерпретации (5), есть хоть одно с;, для которого выполняется Р(а | и) > 0.

5. Функция интерпретации концепций

Определим функцию интерпретации как множество терминов, относящихся к данной концепции с весом большим, чем средний вес всех терминов для данной концепции. Функцию интерпретации концепций определим как

Ж; | ХІ, > . , ] = 1, к

где Ц; - множество всех терминов из Ц, соответствующие концепции с;.

Лемма 2. Для любой концепции аеС, множество Fc(ci) не пусто, т.е. найдется хотя бы один термин, уточняющий данную концепцию.

Доказательство: исходя из неравенства о средних, ,, , ч X + ...х,

Мах(х4,...хк) > —--- , из чего следует, что существует

к

хотя бы одно xj, которое больше либо равно среднему арифметическому. Т.е. множество Fc(ci) состоит хотя бы из одного элемента.

6. Математическая модель поисковой системы

Существует два варианта обработки поискового запроса:

1. и = с; - поисковый запрос совпадает с названием какой-либо концепции в онтологииwi

2. wi с L,wi ей - поисковый запрос или его часть совпадает с подмножеством словаря онтологии.

В первом случае, расширяем поисковый запрос, применяя функцию интерпретации концепций, т.е. дополняя запрос терминами из найденной концепции

и = и и ^ (с,).

Во втором случае, применяем функцию интерпретации терминов, получая множество наиболее релевантных концепций. К полученным концепциям применяем функцию интерпретации терминов, дополняя запрос терминами, уточняющими данную концепцию. Расширяем запрос, применяя функцию интерпрета-

,і = 1. (5) ции и = и и

и (рс (р. (и)) и С,

. В результате алгоритм

т

X

ж

Е

расширения запроса сводится к заданию наиболее релевантных прямой и обратных функций интерпретации.

Теорема. Если и - корректно, то и \ и ^ 0, т.е. и дополняется не пустым множеством.

Доказательство: рассмотрим случай, когда и = С1 По лемме 2 множество Fс(сі) не пусто и следовательно множество и \ и также не пусто.

Рассмотрим случай, когда wi с L,wi ей . По лемме

1 и 2 множество Fc(Fi(u)) ^ 0 и, следовательно, множество и \ и Ф О.

7. Математическая модель библиографических баз данных

Существует два варианта обработки поискового запроса:

1. и = с; - поисковый запрос совпадает с названием какой-либо концепции в онтологии

2. wi с L,wi ей - поисковый запрос или его часть совпадает с подмножеством словаря онтологии.

В первом случае, расширяем поисковый запрос, применяя функцию интерпретации концепций, т.е. дополняя запрос терминами из найденной концепции

и = и и ^ (с,) .

Во втором случае, применяем функцию интерпретации терминов, получая множество наиболее релевантных концепций. К полученным концепциям применяем функцию интерпретации терминов, дополняя запрос терминами, уточняющими данную концепцию. Расширяем запрос, применяя функцию интерпрета-

ции и = и и

и (рс (р. (и)) и с,

. В результате алгоритм

расширения запроса сводится к заданию наиболее релевантных прямой и обратных функций интерпретации.

Теорема. Если и - корректно, то и \ и ^ 0, т.е. и дополняется не пустым множеством.

Доказательство: рассмотрим случай, когда и = С;. По лемме 2 множество Fс(с ^ не пусто и следовательно множество и \ и также не пусто.

Рассмотрим случай, когда wi с Ц, wi е и. По лемме

1 и 2 множество Fc(Fi(u)) ^ 0 и, следовательно, множество и \ и Ф О.

8. Метод построения онтологии

Для преобразования кортежа G в кортеж О (онтологию), нам необходимо построить отображение Яс:

С ^ С, где Ц={^ь Х;)^_1,п.

Определим отношение Rbc, выбрав множество библиографических записей, соответствующих конкретной концепции:

КьА(Ь(,,т )>с,) = и ЕП.

(1,ш)

отношений Яьс по всем библиографическим записям, получим

м к

(С, ) = и ЯЬс (ЬС,т)>С,) =и Ч

т=1 к=1

Так как термины в разных записях могут повторяться, то введем коэффициент повторения

Х‘к = С,™)| Ч,т) £ ЬС,т))

Чем больше экспертов определили данный термин для соответствующего кода УДК, тем выше его вес х;.

Итак, мы получили отображение

Ка(с! ) = {(Ч, )}к=1>К_

То есть Яс: С ® Ц, что соответствует функции интерпретации концепций в нашей модели онтологии. Сам метод можно представить в виде схемы на рис. 1.

Данное отношение означает, что для каждой библиографической записи и отнесенной к ней концепции существует свой набор терминов. Свернув множество

Рис. 1. Схема функции интерпретации концепций в модели онтологии

Выводы

В данной статье была рассмотрена формальная модель онтологии специализированной для полнотекстового поиска. На основе проведенных исследований были получены леммы для функций интерпретации термов и концепций.

К основным результатам следует отнести следующее:

разработана математическая модель семантического поиска, использующая онтологию предметной области, доказано существование непустого решения

- семантической интерпретации запроса пользователя к ИПС;

разработана математическая модель онтологии, ориентированной на задачи информационного поиска, определены и математически обоснованы формальные функции интерпретации концепций и терминов;

предложен метод для автоматического создания онтологии на основе распределенных информационных библиографических коллекций, имеющихся в сети Интернет.

П = 1

50^

Литература

1. Ushold M. Ontologies: Principles, Methods and Applications [Текст] / М. Ushold, М. Gruninger // Knowledge Engineering Red view. - 1996. - V. 11, № 2. - Р. 115-121.

2. Heflin J. Applying Ontology to the Web: A Case Study [Текст] / J. Heflin, J. Hendler, S. Luke // In Proc. IWANN. - 1999. - №

2. - Р. 715-724.

3. Лукашевич Н. Тезаурус русского языка для автоматической обработки больших текстовых коллекций [Текст] / Н. Лукашев вич, Б. Добров // Компьютерная лингвистика и интеллектуальные технологии: Труды Международного семинара «Диалог 2002». - 2002. - Т. 2. - С. 338-346.

4. Гаврилова Т. А. Базы знаний интеллектуальных систем. Учебник для вузов [Текст] / Т.А. Гаврилова, В.Ф. Хорошевский. -СПб.: Питер, 2000. - 384 с.

5. Jones K. A Statistical Interpretation of Term Specificity and Its Application in Retrieval [Текст] / K. Jones // Journal of Documentation. - 1972. - V. 28. - P. 11-21.

6. Браславский П. Сравнение пяти методов извлечения терминов произвольной длины [Текст] / П. Браславский, E. Соколов // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог». - 2008. - № 7 (14). - С. 67-75.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

7. Ермаков А. Автоматизация онтологического инжиниринга в системах извлечения знаний из текста [Текст] / А. Ермаков // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог». - 2008. - № 7 (14). - С. 154-159.

8. Лукашевич Н. Отбор словосочетаний для словаря системы автоматической обработки текстов [Текст] / Н. Лукашевич, Б. Добров, Д. Чуйко // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог». - 2008. - № 7 (14). - С. 339-345.

9. Сидорова Е. Подход к извлечению фактов из текста на основе онтологии [Текст] / Е. Сидорова, И. Кононенко // Компьюе

терная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог

2009». - 2009. - № 8 (15). - С. 451-458.

10. Gruber T. Ontolingua: A Mechanism to Support Portable Ontologies [Текст] / T. Gruber // Technical Report KSL-91-66 Stanford, Stanford University, Knowledge Systems Laboratory. - 1992. - P. 61-69.

11. Weiss S. Model-Based Method for Computer-Aided Medical Decision Making [Текст] / S. Weiss, C. Kulikovski, S. Amarel, A. Safir // Reading in Medical Artificial Intelligence. - 1984, the First Decade. - Р. 160-189.

12. Hotho A. Ontology-based Text Clustering [Текст] / A. Hotho, A. Maedche, S. Staab // In: Proc. of the Workshop «Text Learning:

Beyond Supervision» at IJCAI 2001. - 2001, August 6. - Р. 225-230.

13. Боровков А. А. Теория вероятностей [Текст] / А. А. Боровков. - M.: Эдиториал УРСС, 1999. - 472 с.

Е

i Надоели баннеры? Вы всегда можете отключить рекламу.