Научная статья на тему 'Задачи интерактивной обработки поисковых запросов в теоретико-множественной постановке'

Задачи интерактивной обработки поисковых запросов в теоретико-множественной постановке Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
167
35
Читать
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бодров Д. А., Кожитов С. Л., Поляков В. Н.

В работе представлено теоретико-множественное описание основных интерактивных механизмов обработки запросов в рамках проекта «1/1нтеллектуальная поисковая машина»: фокусировка и расширение полноты. Новизна подхода заключается в том, что впервые рассматривается систематизация интерактивных методов разрешения многозначности в человеко-машинном комплексе «пользователь поисковая система». Инженерная реализация методов выполнена в нотации языка SQL Результаты исследований найдут применение в поисковых модулях систем документооборота предприятия, в библиотечных системах, в сети Интернет.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
Предварительный просмотр
i Надоели баннеры? Вы всегда можете отключить рекламу.

The Tasks of Interactive Processing of Search Queries in the Set Theory Formalization

In the paper description in the set theory of main mechanisms of query processing is fullfiled. Focusing and widening of fullnes are described as query processing. The methods are used in the project of Intelligent Search Engine. Newness of the approach consists that there is the first systematization of interactive methods of word sense disambiguation in man-machine complex «user-search engine». Engineer realization of the methods was done in SQL. This results can be used in the search modules of documents workflow systems of ERR, in bibliotic systems, in network Internet.

Текст научной работы на тему «Задачи интерактивной обработки поисковых запросов в теоретико-множественной постановке»

ИНФОРМАТИКА

УДК 81.32

ЗАДАЧИ ИНТЕРАКТИВНОЙ ОБРАБОТКИ ПОИСКОВЫХ ЗАПРОСОВ В ТЕОРЕТИКО-МНОЖЕСТВЕННОЙ ПОСТАНОВКЕ

Д.А. Бодров, С.Л. Кожитов, В.Н. Поляков

Московский государственный институт стали и сплавов (Технологический университет),

Кафедра АСУ

E-mail: polyakovvn@misis.ru

В работе представлено теоретико-множественное описание основных интерактивных механизмов обработки запросов в рамках проекта «Интеллектуальная поисковая машина»: фокусировка и расширение полноты. Новизна подхода заключается в том, что впервые рассматривается систематизация интерактивных методов разрешения многозначности в человеко-машинном комплексе «пользователь -- поисковая система». Инженерная реализация методов выполнена в нотации языка SQL.

Результаты исследований найдут применение в поисковых модулях систем документооборота предприятия, в библиотечных системах, в сети Интернет.

The Tasks of Interactive Processing of Search Queries in the Set Theory Formalization

D.A. Bodrov, S.L. Kozhitov, V.N. Polykov

In the paper description in the set theory of main mechanisms of query processing is fullfiled. Focusing and widening of fullnes are described as query processing. The methods are used in the project of Intelligent Search Engine. Newness of the approach consists that there is the first systematization of interactive methods of word sense disambiguation in man-machine complex «user-search engine». Engineer realization of the methods was done in SQL. This results can be used in the search modules of documents workflow systems of ERP, in bibliotic systems, in network Internet.

ВВЕДЕНИЕ

Рост объемов информации в сети Интернет и возможности доступа к библиотечным ресурсам средствами коммуникаций поставили проблему качественного поиска чрезвычайно остро. Несмотря на обилие поисковых систем в Интернете, современные технологии не предоставляют достаточно средств для организации эффективного поиска. Поэтому результат поиска по-прежнему больше зависит от уровня подготовленности самого пользователя, нежели от поисковой системы, что достаточно ярко иллюстрируют исследования (табл. 1) [1].

Из результатов исследования видно, что пользователи поисковых систем Интернета и открытых библиотечных ресурсов гораздо менее точно формулируют свои информационные потребности (используют 1-2 коротких запроса) и практически не используют возможностей языка запроса поисковой системы. Это можно объяснить недостаточно высокой подготовкой и опытностью пользователей, в отличие от пользователей, работающих с традиционными поисковыми системами. Можно предположить, что релевантность поиска неопытными пользователями в сети Интернет будет невысокой, так как невысокими будут полнота и точность поиска. Однако для пользователей библиотечных ресурсов это не вполне верно, так как им для поиска доступны и специальные поля, такие как автор, название, ключевые слова. Что в результате может привести к достаточно высокой релевантности даже с использованием

© Д.А. Бодров, С.Л. Кожитов, В.Н. Поляков, 2007

ДА. Бодров и др. Задачи интерактивной обработки поисковых запросов

коротких запросов и без использования расширенных возможностей поиска. Проблема улучшения качества работы поисковых систем тесно связана с фундаментальными задачами обработки естественного языка, которыми занимается компьютерная лингвистика. Так, например, хорошо известно, что неполнота поиска тесно связана с обработкой синонимии в различных ее аспектах, включая не только лексическую синонимию (помидор — томат), но и синонимические перифразы (обучение — образовательный процесс), аббревиатуры (высшее учебное заведение — вуз), использование терминов с расширительным толкованием (гипоним — гипероним: студент — учащийся). Другая актуальная проблема улучшения качества поисковых систем, проблема информационного шума, тесно связана с такими явлениями языка, как омонимия и полисемия1. Полисемия обычно трактуется как разновидность более широкого явления, многозначности в языке, на лексическом уровне. Проблеме лексической многозначности посвящено сравнительно много исследований в области компьютерной лингвистики. Наиболее полный обзор подходов и алгоритмов, сопровождаемый историческим экскурсом, представлен в работе [2]. В работе [3] приведена альтернативная классификация методов разрешения многозначности, основанная на видах используемой информации. В работе [4] представлен концептуальный проект информационной поисковой системы, построенный на систематических принципах разрешения многозначности, переформулирования запросов с целью расширения результатов поиска или снижения информационного шума. Традиционно разрешение лексической многозначности проводится на этапе индексирования текста, когда составляется индекс, содержащий ссылки не только на слово, но и его значение. Система значений в этом случае представляется в виде специализированной семантической сети по типу лексических онтологий [6,7]. В работе [5] впервые был поставлен вопрос систематизации на научной основе интерактивных методов переформулирования запросов в интерфейсном модуле поисковой системы. В настоящей работе представлена логико-математическая интерпретация базовых операций по фокусировке запросов, их расширению и переформулированию с целью улучшения поиска. Инженерная реализация методов выполнена в нотации языка SQL.

Сравнение типичных поисковых сессий в разных категориях

Характеристика Поиск в Интернете Традиционная ИПС Библиотечные ресурсы

Длина сессии (число запросов пользователей в поисковой системе) 1-2 7-16 2-5

Длина запроса (число слов в запросе) 2 6-9 1-2

Число релевантных документов, просмотренных за сессию не более 10 около 10 менее 50

Использование расширенных возможностей (с использованием дополнительных опций языка запросов) 9 % 9% 8%

Использование логических операций (число запросов с использованием логических операций) 8 % 37 % 1%

Частота отказов (частота неправильно сформулированных запросов) 10 % 17 % 7-19 %

1. ФОРМАЛЬНАЯ ПОСТАНОВКА ЗАДАЧИ

Опишем исходные множества2.

• множество документов Б = {^1, d2 , dn},

• множество лексем Ь = {11,12,..., 1т},

• множество значений I = {і11, і12,...,іт1,ітк},

• поисковый запрос Z = {г1,г2, ...,гу} С Ь, Zj — ключевая лексема.

Введем определения для исходных отношений:

• пословный индекс Я1 (Б,Ь) : (^) Є Я1 (Б,Ь) ^ лексема ^ содержится в документе df,

• толковый словарь Я2(1,Ь) : (ijk) Є Я2(1,Ь) ^ значение г^к относится к лексеме ,

'Омонимия — одинаковое написание различных морфологических форм одного и того же или различных слов (стали (глагол) — стали (существительное)). Полисемия — наличие нескольких значений одного и того же слова: (ревун — обезьяна и маяк).

2Лексема — слово в словаре. Значение — смысловое содержание слова. Для многозначных слов одной лексеме соответствует несколько значений.

• индекс по значениям Я3(Б,1) : ) е Я3(Б,1) ^ лексема Ц содержится в документе df в значении гцк.

«И -запрос» представляет собой поиск пересекающихся множеств документов по двум и более ключевым словам. При этом выполняются шаги 1-4.

Шаг 1. Строится сечение Я(г1) = {г12} С I на отношении Я2(1,Ь).

Шаг 2. Строится сечение каждого элемента Я(г1) — множества Я(г12} С Б на отношении Яз(Д!).

V

Шаг 3. Создается множество М{та} : та = Я(г12) П Р| Я(ги) С Б, где Я(ги) С Б — сечение

и=2

отношения Я1 (Б,Ь) по ги.

Шаг 4. Осуществляется выбор пользователем одного из элементов множества М, обозначенного далее Мр С Б, где р — номер значения из подмножества I2 1 = {н, ...гр, ...гг},121 С I.

Ниже приводятся соотношения, которые активируют сценарии

• фокусировки запроса

|МР| > 10, (1)

• расширения полноты поиска

|Мр| < 10. (2)

При выполнении И -запроса разрешение многозначности выполняется для ядерной лексемы. Будем для простоты полагать, что ядерной лексемой является первое ключевое слово в запросе х1. Сечение Я(^1) представляет собой выборку — множество значений для ключевого слова г1. Сечение Я(х1г) представляет собой выборку — множество документов в БД, которые включают ключевое слово х1. Множество М описывает результаты обработки запроса поисковой системой с условием вхождения слова г1 при одновременном вхождении остальных слов из Z, сгруппированные по значениям 1.. .г слова г1. Мр — подмножество документов М, включающих лексему г1 в значении р. В зависимости от мощности этого множества выполняются два сценария: фокусировки, т.е. сужения полноты поиска (при условии (1)) и расширения полноты (при условии (2)).

Фокусировка представляет собой операцию по формированию подмножества М путем использования следующих ассоциативных и семантических связей:

- между словом и другими терминами из данной предметной области (тематический кластер) (сталь -> {домна, прокат});

- между словом и его словосочетаниями (интеллект -> искусственный интеллект);

- между словом и потенциальными вопросами, на которые может ответить данный текст (МИСиС -> Как поступить в МИСиС?);

- между словом и областью деятельности, сферой интересов, которую разработчики ИПМ назвали коммуникативным кластером (ЕГЭ -> обучение в вузе).

Операция фокусировки может быть сформулирована следующим образом.

Множества:

• множество тематических кластеров К = {кк},

• множество словосочетаний Е = {ер},

• множество вопросов Q = {дд},

• множество коммуникативных кластеров С = {сс}.

Отношения:

• индекс по тематическим кластерам Як (К, Б) — кластер кк содержится в документе di,

• индекс по словосочетаниям Яе (Е,Б) — словосочетание ер содержится в документе di,

• индекс по вопросам — вопрос дц относится к документу di,

• индекс по коммуникативным кластерам Яс ( С , Б) — кластер сг (или его часть) содержится в документе di,

• онтологическая связь Яо(1,1) — значение ^ 1,11 состоит в онтологической связи со значением

Ц 2,12.

Расширение полноты поиска как операция переформулирования запроса (переход от М1 к М2) используется в том случае, если на запрос пользователя интеллектуальная поисковая система выдала незначительное количество документов (|М| < 10). К основным механизмам расширения полноты поиска относятся:

- переход от слова к словообразовательной парадигме (борт -> бортпроводник);

- переход от слова к синонимическому ряду (бегемот -> гиппопотам);

ДА. Бодров и др. Задачи интерактивной обработки поисковых запросов

- переход от аббревиатуры к ее расшифровке, и наоборот (МИСиС -> Московский институт стали и сплавов)

Кроме того, существуют еще возможности переформулирования запросов по элементам онтологического дерева (Пример: самолет -> когипонимы = виды транспорта: поезд, метро, трамвай, троллейбус, автобус).

Операция расширения может быть сформулирована следующим образом.

Отношения:

• словообразовательная парадигма Ящ (Ь,1) — лексема Ц является морфологическим дериватом другой лексемы со значением ,

• синонимический ряд Яв (Ь,Ь) — лексема 1-1 является синонимом лексемы 1ц,

• аббревиатура Яа(Ь,Е) — лексема Ц является аббревиатурой словосочетания ее,

• онтологическая связь Яо (1,1) — значение гц 1 ,к 1 состоит в онтологической связи со значением гц2,к 2.

Расширение в общем виде Я(хх) : (хх,уу) е Я(Х,У), Я(хх) С У, Я(хх) и Я(г1).

Далее представлена задача интерактивного поиска как задача принятия решения. Под пертинент-ностью документа мы понимаем субъективную оценку пользователем этого документа с точки зрения удовлетворения его информационной потребности.

Найти такой поисковый запрос Б *, который обеспечит выполнение следующих критериев:

тахР(в), тах(-1М(в)|), Б = {в : Б е О, Р(в) > 0, М(в) > 0},

вСв вСв

Р(в) — суммарная пертинентность множества найденных документов, М(в) — множество результатов (найденных документов), Б — множество результативных запросов, О — множество всех запросов. Нечеткие лингвистические переменные — критерии

(ПЕРТИНЕНТНОСТЬ, Т(Ь), [0,1],С, Н),

где Т(Ь) = {непертинентно, среднепертинентно, пертинентно} — терм-множество; О — процедура образования новых термов с помощью связок и модификаторов типа «очень», «слегка», «совсем», «не» и др. Например: «малопертинентно»; Н — процедура задания на множестве [0, 1] нечетких подмножеств, выполняемая пользователем в процессе работы с поисковой системой.

(ЧИСЛО РЕЗУЛЬТАТОВ,Т(Ь), [0, |Б| ],О,Н),

где Т(Ь) = {мало, много} — терм-множество; О — процедура образования новых термов с помощью связок и модификаторов типа «очень», «слегка», «совсем», «не» и др. Например: «слишком много»; |Б| — мощность множества всех документов; Н — процедура задания на множестве нечетких подмножеств, выполняемая пользователем в процессе работы с поисковой системой.

На рис. 1-2 представлены алгоритм обработки запросов и обобщенный алгоритм сценария поиска.

Рис. 1. Алгоритм обработки запросов в Интернете

Рис. 2. Обобщенный алгоритм сценария поиска в Интернете

ЗАКЛЮЧЕНИЕ

В работе представлено теоретико-множественное описание основных интерактивных механизмов обработки запросов в рамках проекта «Интеллектуальная поисковая машина»: фокусировка, расширение полноты. Новизна подхода заключается в том, что впервые рассматривается систематизация интерактивных методов разрешения многозначности в человеко-машинном комплексе «пользователь

- поисковая система». Инженерная реализация методов выполнена в нотации языка SQL. Результаты исследований найдут применение в поисковых модулях систем документооборота предприятия, в библиотечных системах, в сети Интернет.

Работа выполнена при частичной финансовой поддержке РФФИ (проект 05-07-90339).

Библиографический список

1. Jansen B.J., Pooch U. Web user studies: A review and framework for future work // J. of the Amer. Society of Information Science and Technology. 2000. V. 52(3). P. 235-246.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2. Ide N, Veronis J. Word Sense Disambiguation: The State of the Art. // Computational Linguistics. 1998. V. 24, № 1. P. 1-40.

3. Поляков В.Н. Использование технологий, ориентированных на лексическое значение, в задачах поиска и классификации // Проблемы прикладной лингвистики. Вып.2. Сборник статей /Отв. ред. Н.В. Васильева. М.: Азбуковник, 2004. C. 101-117

4. Поляков В.Н. Интеллектуальная поисковая машина. Концептуальный проект // Труды Казан. шк. по комп.

и когнитивной лингвистике. Казань: Сэлэт, 2000. № 5.

5. Бодров Д.А., Поляков В.Н., Точин А.В. Интерактивные методы фокусировки и расширения поиска в интеллектуальной поисковой машине. М., 2002.

6. Miller G.A. WordNet: a lexical database for

English // Communications of the ACM 38. 1995. № 11. http://www.acm.org/pubs/articles/journals/ cacm/1995-38-11/p39-miller/p39-miller.pdf.

7. Поляков В.Н. Проект WordNet и его влияние на технологии компьютерной и когнитивной лингвистики. М., 2003.

8. Фор Р., Кофман А., Дени-Папен М. Современная математика/ Пер. с фр.; Под ред. А.Н.Колмогорова. М.: Мир, 1966. 273 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.