УДК 004.9, 004.58
В.В. Диковицкий
Институт информатики и математического моделирования Кольского НЦ РАН,
Кольский филиал ПетрГУ
МЕТОД ИНФОРМАЦИОННОГО ПОИСКА НА ОСНОВЕ ДИНАМИЧЕСКОЙ РАСШИРЯЕМОЙ БАЗЫ ЗНАНИЙ*
Аннотация
В работе представлен метод поиска, позволяющий повысить релевантность за счет автоматизированного исключения заведомо неперспективных результатов. Использование базы знаний информационной системы позволяет учесть контексты используемых ограничений, а автоматизация данного процесса снимает необходимость в выработке и вводе ограничений пользователем. Ключевые слова:
информационный поиск, база знаний, семантика.
V.V. Dikovitsky
INFORMATION RETRIEVAL METHOD BASED ON DYNAMICAL KNOWLEDGE BASE
Abstract
In this paper presents an Information retrieval method, which increases the relevance through automated exception unpromising results. Using a knowledge base of information system allows counting context of the query restrictions. Automation of this process eliminates to need users to enter restrictions.
Keywords:
information retrieval, knowledge base, semantics.
Введение
Рост объема информации, циркулирующей в современных информационных системах, обуславливает необходимость совершенствования методов информационного поиска. В работе представлен метод информационного поиска, позволяющий повысить его точность [1] за счет исключения нерелевантных запросу результатов. Ограничение результатов поиска реализуется существующими поисковыми системами с помощью языка запросов [5]. Однако использование языка запросов вызывает трудности для пользователя в силу необходимости выработки и ручного ввода ограничений при формировании запроса. Так же от мощности и семантики множества ограничений зависит точность поиска - пользователь, не обладающий знаниями всех контекстов используемых ограничений, исключает заведомо перспективные результаты. И наоборот, отсутствие ограничений вынуждает пользователя просматривать множество нерелевантных документов. Использование базы знаний (БЗ) информационной системы позволяет учесть контексты используемых ограничений, а автоматизация данного процесса снимает необходимость в выработке и вводе ограничений непосредственно пользователем.
Работа выполнена в рамках проекта № 2.8 программы фундаментальных исследований ОНИТ РАН «Интеллектуальные информационные технологии, системный анализ и автоматизация».
Метод информационного поиска
В процессе формулировки запроса существуют несколько трудностей для пользователя. Первая из них - сформировать свою информационную потребность в виде запроса, при этом в отношении пользователя запрос должен быть кратким. Со стороны информационной системы запрос должен содержать ключевые слова требуемого документа в случае статистических методов поиска и наиболее полное и точное семантическое описание в случае семантического поиска. Исключения составляют фактографические системы, где ответом может быть число, слово или предложение, а также системы, оперирующие синтаксической ролью слов запроса, в таких системах пользователю предлагается сформулировать и ввести свой запрос на естественном языке. В случае избытка результатов поиска, а также в случаях, когда информационная потребность не может быть четко сформулирована целесообразно сокращать множество результатов путем исключения заведомо ненужных. Данный подход используется традиционными поисковыми системами, однако механизм его работы весьма несовершенен - отсекаются из рассмотрения документы, содержащие любую словоформу слова запроса, перед которым есть специальный символ. При этом могут исключаться из рассмотрения результаты, содержащие слово вовсе не в контексте запроса. Таким образом, точность поиска коррелирует с мощностью множества исключающих слов и их семантикой в контексте текущего запроса. Семантическая составляющая позволяет учесть контекст запроса и не допустить исключения из рассмотрения результатов, в которых ограничения содержатся в другом контексте.
Второй важный аспект - необходимость ввода пользователем множества ограничений для каждого запроса. Для пользователя это весьма трудоемкая задача, требующая знания возможных контекстов слов запроса и терминологии предметных областей. Использование машинопонимаемых знаний в виде семантической сети, содержащей отношения объектов предметной области и ограничения, разделяющие предметные области, позволяет автоматизировать процесс формирования расширенного запроса пользователя. Ограничения представляется возможным хранить в виде отношений над концептами семантической сети, составляющей базу знаний информационной системы.
Метод поиска включает 3 составляющих: Способ представления
документа, способ представления запроса и функцию соответствия между ними. Документ представлен фрагментом базы знаний и множеством ключевых слов в индексной базе, выделенных семантическим анализатором на этапе индексации (рис. 1).
Запрос представлен в виде набора ключевых слов. Запрос и контекст запроса в базе знаний составляют информационную потребность пользователя.
Процесс поиска документов, соответствующих запросу состоит из следующих этапов:
1. Формирование запроса в терминах базы знаний:
1.1. Формирование множества (2' (1), содержащего концепты БЗ, с символьными именами, соответствующими термам запроса О:
где Т - множество концептов базы знаний, Ь - множество отношений над концептами, Ж - множество весов отношений, Q - множество термов, содержащихся в запросе.
База знаний Индексная база
<Т,1-,\Л/>
Рис. 1. Представление документов
1.2. Расширение запроса с учетом весов отношений, ограничивающих
контекст запроса:
а = (Т, Ь) и Г, V/ е ТЧЦ &Ь:Т1&ТлТ1.&Т\Т^Т1., (2)
где Т' - концепты БЗ, связанные с концептами множества Т отношениями БЗ Ь.
2. Получение набора документов, соответствующего модифицированному запросу (рис. 2).
Рис. 2. Модифицированный запрос
3. Ранжирование набора документов с учетом весов отношений. В результате ранжирования документы сортируются в порядке убывания оценки Я
(3):
*= £( ^ (Т, т)), (3)
<Т1 ,Г,>є (П)
где (т,, Т]) - вес отношений между концептами БЗ Ті и Т], присутствующих в
документе В.
Заключение
Метод поиска с использованием динамической расширяемой базы знаний был реализован в рамках мультипредметного веб-ресурса RU-ARCTIC (http://www.ru-arctic.net/). Интерфейс формы поиска помимо строки ввода запроса, содержит поле визуализации фрагмента БЗ, соответствующего запросу (рис. 3).
Рис. З.Форма поиска ресурса RU-ARCTIC
Интерфейс является интерактивным, взаимодействие с пользователем осуществляется путем включения в запрос или исключением из него вершин отображаемого фрагмента БЗ. При выборе вершины изменяется поисковый запрос в строке ввода запроса, отображаются связанные с ней вершины. Действия пользователя инициируют итеративную коррекцию запроса и изменение весов отношений БЗ, на основании которых производится верификация БЗ. Базу знаний ресурса RU-ARCTIC составляет русскоязычный тезаурус WordNet, расширяемый результатами работы семантического анализатора над коллекцией документов ресурса. Поле визуализации фрагмента БЗ отображает семантику части документов, соответствующей запросу, в едином семантическом пространстве, а итеративная коррекция запроса вследствие действий пользователя позволяет осуществить интуитивно-понятную навигацию в информационном пространстве множества документов информационной системы.
ЛИТЕРАТУРА
1. Baeza-Yates, R. Modern Information Retrieval / R. Baeza-Yates, B. Ribeiro-Neto // Addison-Wesley, 1999. - ISBN 0-201-39829-X.
2. Manning, C. Introduction to Information Retrieval / C. Manning, P. Raghavan, H. Schutze // Cambridge University Press, 2008. -ISBN 0-521-86571-9.
3. Гаврилова, Т.А. Базы знаний интеллектуальных систем /Т.А. Гаврилова, В.Ф. Хорошевский. - СПб. : Изд-во «Питер», 2001. - 382 с.
4. Когаловский, М.Р. Перспективные технологии информационных систем / М.Р. Когаловский. -М.: Компания АйТи, 2003. - 288 с.
5. Лифшиц, Ю. Модели информационного поиска.
- Режим доступа: http://yury.name/internet/03ianote.pdf
6. Осипов, Г.С. Семантический поиск в сети интернет средствами поисковой машины Exactus /Г.С. Осипов, И.А. Тихомиров, И.В. Смирнов. - Режим доступа:: http://www.raai.org/cai-08/files/cai-08 exhibition 31.doc
Сведения об авторе
Диковицкий Владимир Витальевич - младший научный сотрудник, е-mail: dikovitsky @iimm. kolasc.net.ru Vladimir V. Dikovitsky - junior researcher