Научная статья на тему 'Метод информационного поиска на основе динамической расширяемой базы знаний'

Метод информационного поиска на основе динамической расширяемой базы знаний Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
296
71
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНФОРМАЦИОННЫЙ ПОИСК / БАЗА ЗНАНИЙ / СЕМАНТИКА / INFORMATION RETRIEVAL / KNOWLEDGE BASE / SEMANTICS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Диковицкий Владимир Витальевич

В работе представлен метод поиска, позволяющий повысить релевантность за счет автоматизированного исключения заведомо неперспективных результатов. Использование базы знаний информационной системы позволяет учесть контексты используемых ограничений, а автоматизация данного процесса снимает необходимость в выработке и вводе ограничений пользователем.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Диковицкий Владимир Витальевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

INFORMATION RETRIEVAL METHOD BASED ON DYNAMICAL KNOWLEDGE BASE

In this paper presents an Information retrieval method, which increases the relevance through automated exception unpromising results. Using a knowledge base of information system allows counting context of the query restrictions. Automation of this process eliminates to need users to enter restrictions.

Текст научной работы на тему «Метод информационного поиска на основе динамической расширяемой базы знаний»

УДК 004.9, 004.58

В.В. Диковицкий

Институт информатики и математического моделирования Кольского НЦ РАН,

Кольский филиал ПетрГУ

МЕТОД ИНФОРМАЦИОННОГО ПОИСКА НА ОСНОВЕ ДИНАМИЧЕСКОЙ РАСШИРЯЕМОЙ БАЗЫ ЗНАНИЙ*

Аннотация

В работе представлен метод поиска, позволяющий повысить релевантность за счет автоматизированного исключения заведомо неперспективных результатов. Использование базы знаний информационной системы позволяет учесть контексты используемых ограничений, а автоматизация данного процесса снимает необходимость в выработке и вводе ограничений пользователем. Ключевые слова:

информационный поиск, база знаний, семантика.

V.V. Dikovitsky

INFORMATION RETRIEVAL METHOD BASED ON DYNAMICAL KNOWLEDGE BASE

Abstract

In this paper presents an Information retrieval method, which increases the relevance through automated exception unpromising results. Using a knowledge base of information system allows counting context of the query restrictions. Automation of this process eliminates to need users to enter restrictions.

Keywords:

information retrieval, knowledge base, semantics.

Введение

Рост объема информации, циркулирующей в современных информационных системах, обуславливает необходимость совершенствования методов информационного поиска. В работе представлен метод информационного поиска, позволяющий повысить его точность [1] за счет исключения нерелевантных запросу результатов. Ограничение результатов поиска реализуется существующими поисковыми системами с помощью языка запросов [5]. Однако использование языка запросов вызывает трудности для пользователя в силу необходимости выработки и ручного ввода ограничений при формировании запроса. Так же от мощности и семантики множества ограничений зависит точность поиска - пользователь, не обладающий знаниями всех контекстов используемых ограничений, исключает заведомо перспективные результаты. И наоборот, отсутствие ограничений вынуждает пользователя просматривать множество нерелевантных документов. Использование базы знаний (БЗ) информационной системы позволяет учесть контексты используемых ограничений, а автоматизация данного процесса снимает необходимость в выработке и вводе ограничений непосредственно пользователем.

Работа выполнена в рамках проекта № 2.8 программы фундаментальных исследований ОНИТ РАН «Интеллектуальные информационные технологии, системный анализ и автоматизация».

Метод информационного поиска

В процессе формулировки запроса существуют несколько трудностей для пользователя. Первая из них - сформировать свою информационную потребность в виде запроса, при этом в отношении пользователя запрос должен быть кратким. Со стороны информационной системы запрос должен содержать ключевые слова требуемого документа в случае статистических методов поиска и наиболее полное и точное семантическое описание в случае семантического поиска. Исключения составляют фактографические системы, где ответом может быть число, слово или предложение, а также системы, оперирующие синтаксической ролью слов запроса, в таких системах пользователю предлагается сформулировать и ввести свой запрос на естественном языке. В случае избытка результатов поиска, а также в случаях, когда информационная потребность не может быть четко сформулирована целесообразно сокращать множество результатов путем исключения заведомо ненужных. Данный подход используется традиционными поисковыми системами, однако механизм его работы весьма несовершенен - отсекаются из рассмотрения документы, содержащие любую словоформу слова запроса, перед которым есть специальный символ. При этом могут исключаться из рассмотрения результаты, содержащие слово вовсе не в контексте запроса. Таким образом, точность поиска коррелирует с мощностью множества исключающих слов и их семантикой в контексте текущего запроса. Семантическая составляющая позволяет учесть контекст запроса и не допустить исключения из рассмотрения результатов, в которых ограничения содержатся в другом контексте.

Второй важный аспект - необходимость ввода пользователем множества ограничений для каждого запроса. Для пользователя это весьма трудоемкая задача, требующая знания возможных контекстов слов запроса и терминологии предметных областей. Использование машинопонимаемых знаний в виде семантической сети, содержащей отношения объектов предметной области и ограничения, разделяющие предметные области, позволяет автоматизировать процесс формирования расширенного запроса пользователя. Ограничения представляется возможным хранить в виде отношений над концептами семантической сети, составляющей базу знаний информационной системы.

Метод поиска включает 3 составляющих: Способ представления

документа, способ представления запроса и функцию соответствия между ними. Документ представлен фрагментом базы знаний и множеством ключевых слов в индексной базе, выделенных семантическим анализатором на этапе индексации (рис. 1).

Запрос представлен в виде набора ключевых слов. Запрос и контекст запроса в базе знаний составляют информационную потребность пользователя.

Процесс поиска документов, соответствующих запросу состоит из следующих этапов:

1. Формирование запроса в терминах базы знаний:

1.1. Формирование множества (2' (1), содержащего концепты БЗ, с символьными именами, соответствующими термам запроса О:

где Т - множество концептов базы знаний, Ь - множество отношений над концептами, Ж - множество весов отношений, Q - множество термов, содержащихся в запросе.

База знаний Индексная база

<Т,1-,\Л/>

Рис. 1. Представление документов

1.2. Расширение запроса с учетом весов отношений, ограничивающих

контекст запроса:

а = (Т, Ь) и Г, V/ е ТЧЦ &Ь:Т1&ТлТ1.&Т\Т^Т1., (2)

где Т' - концепты БЗ, связанные с концептами множества Т отношениями БЗ Ь.

2. Получение набора документов, соответствующего модифицированному запросу (рис. 2).

Рис. 2. Модифицированный запрос

3. Ранжирование набора документов с учетом весов отношений. В результате ранжирования документы сортируются в порядке убывания оценки Я

(3):

*= £( ^ (Т, т)), (3)

<Т1 ,Г,>є (П)

где (т,, Т]) - вес отношений между концептами БЗ Ті и Т], присутствующих в

документе В.

Заключение

Метод поиска с использованием динамической расширяемой базы знаний был реализован в рамках мультипредметного веб-ресурса RU-ARCTIC (http://www.ru-arctic.net/). Интерфейс формы поиска помимо строки ввода запроса, содержит поле визуализации фрагмента БЗ, соответствующего запросу (рис. 3).

Рис. З.Форма поиска ресурса RU-ARCTIC

Интерфейс является интерактивным, взаимодействие с пользователем осуществляется путем включения в запрос или исключением из него вершин отображаемого фрагмента БЗ. При выборе вершины изменяется поисковый запрос в строке ввода запроса, отображаются связанные с ней вершины. Действия пользователя инициируют итеративную коррекцию запроса и изменение весов отношений БЗ, на основании которых производится верификация БЗ. Базу знаний ресурса RU-ARCTIC составляет русскоязычный тезаурус WordNet, расширяемый результатами работы семантического анализатора над коллекцией документов ресурса. Поле визуализации фрагмента БЗ отображает семантику части документов, соответствующей запросу, в едином семантическом пространстве, а итеративная коррекция запроса вследствие действий пользователя позволяет осуществить интуитивно-понятную навигацию в информационном пространстве множества документов информационной системы.

ЛИТЕРАТУРА

1. Baeza-Yates, R. Modern Information Retrieval / R. Baeza-Yates, B. Ribeiro-Neto // Addison-Wesley, 1999. - ISBN 0-201-39829-X.

2. Manning, C. Introduction to Information Retrieval / C. Manning, P. Raghavan, H. Schutze // Cambridge University Press, 2008. -ISBN 0-521-86571-9.

3. Гаврилова, Т.А. Базы знаний интеллектуальных систем /Т.А. Гаврилова, В.Ф. Хорошевский. - СПб. : Изд-во «Питер», 2001. - 382 с.

4. Когаловский, М.Р. Перспективные технологии информационных систем / М.Р. Когаловский. -М.: Компания АйТи, 2003. - 288 с.

5. Лифшиц, Ю. Модели информационного поиска.

- Режим доступа: http://yury.name/internet/03ianote.pdf

6. Осипов, Г.С. Семантический поиск в сети интернет средствами поисковой машины Exactus /Г.С. Осипов, И.А. Тихомиров, И.В. Смирнов. - Режим доступа:: http://www.raai.org/cai-08/files/cai-08 exhibition 31.doc

Сведения об авторе

Диковицкий Владимир Витальевич - младший научный сотрудник, е-mail: dikovitsky @iimm. kolasc.net.ru Vladimir V. Dikovitsky - junior researcher

i Надоели баннеры? Вы всегда можете отключить рекламу.