Научная статья на тему 'Об одной модели адаптивного поиска'

Об одной модели адаптивного поиска Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
198
51
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНФОРМАЦИОННО-ПОИСКОВЫЕ СИСТЕМЫ / АДАПТИВНЫЙ ПОИСК

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Филонов Павел Владимирович

В работе предложена математическая модель адаптивного режима работы информационно-поисковой системы. Предложенная модель является модификацией поиска в линейных пространствах с учётом истории поисковых запросов клиентов, которая моделируется метрическим тензором в соответствующем пространстве. Предложен алгоритм эволюции метрического тензора, основанный на оценке качества поиска.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ABOUT ONE ADAPTIVE SEARCHING MODEL

The mathematical model of information search system adaptive work mode proposed. Considering model is a modification of vector space search with search query history witch is presented as metric tensor in search space. An algorithm for evolution of metric tensor is proposed based on search quality assessment.

Текст научной работы на тему «Об одной модели адаптивного поиска»

УДК 025.4.03

ОБ ОДНОЙ МОДЕЛИ АДАПТИВНОГО ПОИСКА

П. В. ФИЛОНОВ

Статья представлена доктором технических наук, профессором Кузнецовым В.Л.

В работе предложена математическая модель адаптивного режима работы информационно-поисковой системы. Предложенная модель является модификацией поиска в линейных пространствах с учётом истории поисковых запросов клиентов, которая моделируется метрическим тензором в соответствующем пространстве. Предложен алгоритм эволюции метрического тензора, основанный на оценке качества поиска.

Ключевые слова: информационно-поисковые системы, адаптивный поиск.

Введение

В последние десятилетия задачи автоматизированного поиска информации вызывают большой интерес, связанный с постоянным ростом объёмов цифровой информации. Функционирующие в настоящее время автоматизированные информационно-поисковые системы (ИПС) являются неотъемлимой частью сети WWW и входят в состав многих локальных приложений, обрабатывающих значительные объёмы данных, например, локальные поисковые системы, справочники нормативных документов.

Потребность в быстром и «качественном» поиске информации привела к созданию различных математических моделей данного процесса. В качестве основных моделей можно выделить следующие:

• векторная модель [1];

• вероятностная модель [2];

• Булевская модель [3];

• модель на основе индекса цитируемости (PageRank) [4].

В классической постановке данные модели не используют информацию об истории поисковых запросов клиентов (под клиентами подразумеваются пользователи ИСП или автоматизированные агенты). Таким образом, не учитываются поисковые интересы клиентов.

В настоящее время многие ИПС, работающие в сети WWW, хранят и используют историю поисковых запросов для определения поисковых интересов клиентов, чтобы улучшить «качество» поиска. Подобный режим функционирования называется адаптивным и представляет интерес с позиции прикладного математического моделирования.

В данной работе предлагается модификация классической модели векторного поиска [1], которая позволяет использовать историю поисковых запросов для улучшения качества поиска. Будем называть подобный режим функционирования ИПС как адаптивный, в том смысле, что поисковая система подстраивает алгоритм своей работы (адаптируется) под конкретных пользователей.

1. Модель поиска в векторных пространствах

Для построения математической модели информационного поиска необходимо формализовать следующие понятия ИПС:

• модель представления документа;

• модель представления запроса;

• мера релевантности - степень соответствия документа запросу.

В основе многих ИПС лежит понятие ключевого слова и словаря. Под ключевым словом будем понимать термин, представляющий содержание текста документов. Множество всех ключевых слов всех документов будем называть словарём.

Т = гп}. (1)

Здесь - ключевые слова и Т - словарь, п - мощность словаря.

В основе модели документа в векторной модели лежит матрица соответствия М [1]. Определим элементы этой матрицы в следующем виде

К — ---

М = —^~, і = 1,п, і = 1,т. (2)

Здесь К - относительная доля слова їі в документе О■; Ні - количество документов, содержащих слово їі; т - мощность множества документов. Выражение (2) позволяет выделить специфичные для документов слова по сравнению с часто используемыми. В данной модели документ О ^ представляется І -м столбцом матрицы М . Каждый элемент О ^ определяет меру соответствия слова из словаря Т данному документу.

Запрос пользователя к поисковой системе состоит из набора ключевых слов. Для представления запроса (Q) будем использовать булевый вектор, на і -й позиции которого стоит единица, если і -е слово присутствует в запросе и нуль в противном случае

Q = (0,1,0, ...,1,0)Т, Q є {0,1}п. (3)

В подобном представлении все документы и запросы можно представлять как элементы одного линейного пространства - пространства поиска, размерность которого определяется мощностью словаря.

Мерой релевантности Я документа О ^ запросу Q в векторной модели является косинус угла между соответствующими элементами пространства поиска [1]

О,Т Q

Я( Оі, Q) = . (4)

' НИ

Данное выражение отражает следующую идею - клиенту наиболее интересны те документы, для которых значимость ключевых слов из запроса является наибольшей. Таким образом, результаты поискового запроса можно ранжировать по мере релевантности (4) перед выдачей пользователю ответа.

2. Модель адаптивного поиска

Опираясь на модель векторного поиска, предложим её модификацию, работающую в адаптивном режиме [5]. Основная идея заключается в том, что для каждого пользователя должно существовать своё пространство поиска, которое характеризует его интересы. Последнее можно отразить в модели, формализовав значимость конкретного ключевого слова для пользователя и смысловой связи между ключевыми словами.

Для моделирования персонализированного пространства поиска для каждого пользователя определим метрический тензор g, который будет определять скалярное произведение, и определим новую метрику как

D|TgQ

Rg (Оі, Q) = и. (5)

; о і • ні

В том случае, если g = I, где I - единичная матрица, то выражение (5) переходит в (4).

Для одного и того же поискового запроса Q могут быть получены различные результаты, в зависимости от конкретного вида g . Данная идея использования g для изменения результатов поисковой выдачи схематично изображена на рис. 1.

А

А

А

А

А

А

А

А

А

А

А

а

б

Рис. 1. Пространство поиска: а - стандартное, б - при введении g

Диагональные элементы g характеризуют степень важности соответствующего ключевого слова для пользователя, а недиагональные элементы gij характеризуют степень связности слов ti и .. Поскольку мощность словаря значительно меньше, чем мощность множества документов и скорость пополнения словаря гораздо меньше, чем скорость пополнения базы документов, то хранение для каждого пользователя тензора g может быть организовано гораздо более эффективно по сравнению с хранением каких-либо характеристик на множестве всех документов.

Подстройка поисковой системы под конкретного пользователя должна заключаться в изменении тензора g в зависимости от поисковых запросов и выбранных пользователем документов. Таким образом, тензор g может изменяться во времени в зависимости от своего прошлого значения и от запроса пользователя

В качестве начального значения видится естественным взять g(0) = I.

При таком подходе к описанию адаптивного режима работы основным вопросом является вид правой части уравнения эволюции (6) в присутствии внешнего воздействия в виде поисковых запросов Q .

Поскольку основной целью работы ИПС является улучшение качества поиска, то логично искать такое уравнение эволюции, которое способствует улучшению основных показателей системы.

3. Эволюции метрического тензора

Основным назначением адаптивного режима работы является улучшение качества поиска. В ходе работы с ИПС пользователь посылает запросы на поиск документов по ключевым словам и далее осуществляет выбор необходимого ему документа из результатов поисковой выдачи. Практика работы с различными ИПС показывает, что для выбора нужного документа часто приходится проводить последовательный просмотр всех результатов поисковой выдачи. Будем понимать под качеством поиска следующий критерий: чем раньше встречается искомый документ в ранжированном по релевантности списке ответов, тем качественней работает поисковая система. При этом мы предполагаем, что пользователь точно может определить необходимый ему документ. Таким образом, эволюцию метрического тензора стоит рассматривать с точки зрения улучшения качества поиска.

Для формализации алгоритма адаптации работы ИПС воспользуемся следующими гипотезами.

1. Первый документ, который пользователь выбирает, является наиболее релевантным обработанному запросу.

2. В запросе не участвуют слова, которые тематически не относятся к выбранному документу.

На основе данных гипотез можно сделать предположение о том, что при повторном запросе по тем же ключевым словам пользователь ожидает увидеть выбранный им ранее документ на первой позиции в результате поискового запроса, т.е. на повторный запрос наиболее релевантным должен оказаться выбранный пользователем документ.

(6)

Представляя данное предположение в терминах векторных пространств, можно записать

^ (Рк, 0 ® max, (7)

где Пк - выбранный документ. В качестве варьируемых переменных выступают элементы g. Таким образом, в новом адаптированном пространстве поиска документ Пк должен быть наиболее релевантен в смысле (6) запросу Q (рис. 2).

Рис. 2. Вид пространства поиска: а - до адаптации; б - после изменения g

Для постановки корректной задачи оптимизации на элементы g следует наложить дополнительные ограничения в виде условий нормировки по строкам или столбцам

g(1 )|| = 1, 1 = 1,п . (8)

Таким образом, процедура вычисления изменения g может быть записана как задача линейного программирования с целевой функцией (7) при ограничениях (8). В качестве начального приближения логично использовать предыдущее значение метрического тензора.

Поскольку мощность словаря Т может быть значительной для крупных ИПС, то задача оптимизации по всем компонентам g будет иметь большую размерность порядка п2. При этом в целевую функцию (7) входят только те компоненты тензора g, которые соответствуют ключевым словам из запроса Q. Используя данный факт, можно переформулировать задачу, наложив ограничения (8) только на те компоненты g, которые фигурируют в целевой функции, что приведёт к значительному уменьшению размерности оптимизационной задачи.

Подобное изменение тензора g затронет не только те документы, которые клиент запрашивал ранее. В том случае, если близкие по смыслу документы содержат одинаковые ключевые слова, можно ожидать, что релевантность документов, близких по смыслу к выбранным, будет увеличиваться.

Учитывая тот факт, что для каждого пользователя ИПС существует своя история поисковых запросов, можно сделать вывод о том, что вид тензора g будет различен для разных клиентов поисковой системы. Следовательно, одинаковые запросы могут приводить к различным результатам алгоритма поиска, которые учитывают интересы конкретного клиента. Последнее предположение можно трактовать как последовательное улучшение качества поиска.

Заключение

Предложенная в работе модель адаптивного поиска информации позволяет трансформировать историю запросов пользователей в изменение метрического тензора пространства поиска. Вторым основным элементом модели является уравнение эволюции метрического тензора в зависимости от поисковых запросов клиентов. Рассмотренный в данной работе алгоритм эволюции получен исходя из критерия улучшения качества повторного поиска информации.

ЛИТЕРАТУРА

1. Salton G., Wong A., Yang C.S. A vector space model for automatic indexing // Communications of th ACM, 1975, V. 18, № 11, P. 613-620.

2. Fuhr N. Probabilistic Models in Information Retrieval // The Computer Journal, 1992, V, 35, P. 243-255.

3. Лившиц Ю.М. Алгоритмы для Интернета. Архитектура поисковых систем // http://logic.pdmi.ras.ru/~yura/internet.html.

4. Brin S., Page L. The anatomy of a search Engine // http://www-db.stanford.edu/pub/papers/google.pdf.

5. Филонов П.В. Адаптивный режим поиска в электронных информотеках // Научный Вестник МГТУ ГА. - 2007. - № 124. - С. 40-43.

ABOUT ONE ADAPTIVE SEARCHING MODEL

Filonov P.V.

The mathematical model of information search system adaptive work mode proposed. Considering model is a modification of vector space search with search query history witch is presented as metric tensor in search space. An algorithm for evolution of metric tensor is proposed based on search quality assessment.

Key words: information search systems, adaptive search.

Сведения об авторе

Филонов Павел Владимирович, 1985 г.р., окончил МГТУ ГА (2007), кандидат физико-математических наук, доцент МГТУ ГА, автор 20 научных работ, область научных интересов - моделирование электродинамических систем и процессов, информационные модели.

i Надоели баннеры? Вы всегда можете отключить рекламу.