Научная статья на тему 'АССОЦИАТИВНАЯ МОДЕЛЬ СМЫСЛОВЫХ КОНТЕКСТОВ И ЕЕ ПРИМЕНЕНИЕ В ЗАДАЧЕ УТОЧНЕНИЯ ПОИСКОВЫХ ЗАПРОСОВ'

АССОЦИАТИВНАЯ МОДЕЛЬ СМЫСЛОВЫХ КОНТЕКСТОВ И ЕЕ ПРИМЕНЕНИЕ В ЗАДАЧЕ УТОЧНЕНИЯ ПОИСКОВЫХ ЗАПРОСОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
19
6
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Беляев Дмитрий Владимирович

В статье дается обзор методов, применяемых для уточнения (расширения) информационно-поисковых запросов - одной из ключевых проблем теории информационного поиска. Вводится формализованное понятие смыслового контекста. Предлагается модель смысловых контекстов для текстов на естественном языке. Рассматриваются свойства предложенной модели, и обосновывается метод ее построения. Приводятся алгоритмы построения и применения ассоциативной модели смысловых контекстов для решения задачи уточнения информационно-поисковых запросов методом обратной связи по релевантности с пользователями информационно-поисковых систем.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Беляев Дмитрий Владимирович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «АССОЦИАТИВНАЯ МОДЕЛЬ СМЫСЛОВЫХ КОНТЕКСТОВ И ЕЕ ПРИМЕНЕНИЕ В ЗАДАЧЕ УТОЧНЕНИЯ ПОИСКОВЫХ ЗАПРОСОВ»

УДК 519.766.2

Ассоциативная модель смысловых контекстов и ее применение в задаче уточнения поисковых запросов

Д.В. Беляев

В статье дается обзор методов, применяемых для уточнения (расширения) информационно-поисковых запросов - одной из ключевых проблем теории информационного поиска. Вводится формализованное понятие смыслового контекста. Предлагается модель смысловых контекстов для текстов на естественном языке. Рассматриваются свойства предложенной модели, и обосновывается метод ее построения. Приводятся алгоритмы построения и применения ассоциативной модели смысловых контекстов для решения задачи уточнения информационно-поисковых запросов методом обратной связи по релевантности с пользователями информационно-поисковых систем.

Введение

Одной из основных проблем полнотекстового информационного поиска является проблема неоднозначного выбора терминов, используемых пользователями информационно-поисковых систем (ИПС) в поисковых запросах. Эта проблема состоит в том, что пользователи ИПС часто применяют для описания ключевых понятий термины, отличные от терминов, которые используют авторы для описания тех же понятий в текстах [1]. Статистика показывает, что в общем случае два различных человека используют один и тот же термин для описания одного и того же понятия менее чем в 20% случаев [2]. Эта проблема стоит еще более остро для коротких поисковых запросов потому, что чем длиннее запрос, тем больше вероятность того, что наиболее важные термины из искомых документов попадут в поисковый запрос. Тем не менее, пользователи ИПС обычно не склонны выражать свою информационную потребность в виде длинных поисковых запросов или использовать специальные средства, позволяющие более точно формулировать запрос (например, языки поисковых запросов) [3].

В связи с этим одними из ключевых задач в теории информационного поиска стали:

• задача расширения поисковых запросов, состоящая в добавлении в исходный запрос пользователей ИПС синонимов или словоформ ключевых терминов запроса, без изменения смыслового содержания исходного запроса;

• задача уточнения (или переформулирования) поисковых запросов, состоящая в изменении исходного запроса посредством учета ключевых слов из релевантных (т.е. соответствующих информационным потребностям пользователей ИПС) документов с целью уточнения смыслового содержания запроса и, как следствие, точности поиска.

Методы решения этих задач можно разделить на два класса:

• методы автоматического уточнения (расширения) запросов, не требующие получения в ходе своей работы дополнительной информации от пользователей ИПС;

• методы, использующие обратную связь с пользователем, в ходе работы которых пользователь должен предоставить дополнительную информацию, позволяющую осуществить более точный поиск.

В зависимости от объема используемой информации, методы уточнения запросов подразделяются на глобальные и локальные.

Глобальные методы основаны на использовании информации обо всей коллекции документов, в которой осуществляется поиск. Одним из первых глобальных методов уточнения запросов является метод кластеризации терминов [4]. Другими наиболее известными глобальными методами уточнения запросов являются: методы, использующие тематическую кластеризацию документов [5], скрытое семантическое индексирование (LSI) [2, 6], технологии PhraseFinder и аналогичные ей [7, 8], основанные на построении тезаурусов посредством автоматического выделения терминов и устойчивых словосочетаний. Главное отличие глобальных методов состоит в том, что для их применения необходима предварительная обработка всей коллекции документов на этапе ее индексирования.

Идея использования для уточнения запросов документов, полученных в ходе поиска по исходному запросу, легла в основу локальных методов уточнения запросов [9], использующих принцип псевдообратной связи по релевантности [10, 11], а также методов, в которых применяются вероятностные подходы к определению ключевых терминов из релевантных документов [6, 12].

Однако, наилучшие результаты уточнения запросов дают методы, использующие обратную связь с пользователем ИПС [13]—[17], работающие в несколько итераций. Среди результатов поиска по исходному запросу пользователю ИПС требуется указать заинтересовавшие его документы, в ходе дальнейшего анализа которых и строится уточненный запрос.

Принципиально новые подходы вызваны появлением ИПС с большим числом пользователей, таких как Yahoo, Google, Рамблер, Яндекс, что позволяет накапливать и анализировать статистику по вводимым запросам и документам, которые пользователь выбирает для более детального изучения, выражая тем самым свою информационную потребность [18].

Выбор подхода к уточнению запросов зависит от многих факторов, например, числа релевантных запросу пользователя документов, объема коллекции документов, предрасположенности пользователя к поиску в несколько итераций (с использованием обратной связи) [6, 19].

В основе большинства методов, решающих задачи расширения и уточнения поисковых запросов, независимо от используемого подхода, лежат модели текстовых документов, характеристики которых оказывают непосредственное влияние на выбор ключевых терминов [17]. В настоящей статье предлагается подход, основанный на использовании формальной модели смысловых контекстов, позволяющий перейти от анализа слов и терминов, составляющих документ, к анализу смысловых контекстов - устойчивых сочетаний групп терминов, несущих в анализируемом документе единую смысловую нагрузку.

1. Формальное определение понятия смыслового контекста

Предлагаемая модель смысловых контекстов основана на идее выявления устойчивых смысловых связей между терминами в различных документах [16]. Однако, в отличие от рассмотренного подхода, анализ будет проводиться не во всей коллекции документов, а в каждом документе в отдельности.

Рассмотрим произвольный текстовый документ (или его некоторый сегмент - главу, раздел, подраздел и т.п.). Так как минимальным фрагментом текста с законченным смысловым содержанием в общем случае является предложение, рассмотрим анализируемый документ d как последовательность предложений и представим его в виде множества

предложений

где п - число предложений в документе d .

Под терминами будем в дальнейшем понимать слова или словосочетания, обозначающие в документе d некоторые сущности. Пусть

- словарь документа d объемом т терминов. В дальнейшем будем считать, что Пй содержит те и только те предложения документа d, в которых встречается, по крайней мере, один из терминов, входящих в Та, и введем на множестве Та х Пd отношение вхождения терминов в

Па ={ж1,я2,...,яп}, (1)

Т" = {^, t2,..., tm }

(2)

предложения, задаваемое матрицей вхождения ^ = размерности т х п , где

1, если термин встречается в предложении ж^, 0, иначе.

(3)

Множество предложений Пг с П , в которых встречается термин t е Та, назовем носителем

этого термина в документе d :

П, ={же П : ^= 1},

(4)

где ) - индекс термина t в Та, - индекс предложения Л в Па, и введем

оператор носителя терминов как отображение Тй ^ 2П :

Vt е Тй Supp{t} = Пt. (5)

Определение (5) задает оператор носителя терминов только для одноэлементных подмножеств множества Та. Продолжение оператора носителя терминов на все множество подмножеств Та

может быть задано в виде отображения 2Т ^ 2П : Ресли Т ф0,

Supp(T)=

t■

/еТ

П^, если Т = 0,

(6)

где Т с Та .

Множество терминов ТЛ с Та, которые входят в предложение л е Па, назовем контентом этого предложения:

Тп = {* е Т<1 )М(л) = 1}

(7)

и введем оператор контента предложений как отображение П ^ 2Г' :

^ е П ^п^л} = Тл , (8)

продолжив его аналогичным образом на все множество подмножеств Пй в виде отображения

2П ^ 2^ :

Cont( П ) = (9)

Р ТЛ, если П ф 0,

жеП

Та, если П = 0,

где П с П .

Необходимо отметить, что операторы ^рр и Cont не являются взаимообратными. Так, если для некоторого текстового документа, состоящего из двух предложений и содержащего два термина, матрица вхождения имеет вид:

д=С 0] • (10)

то Cont(Supp{t1}) = Cont{л"1} = t2} ф {t1}. В то же время имеют место следующие обратные включения.

Утверждение 1.

1. VT1• Т с Тл Т с Т2 ^ Supp(T2)с Supp(T1).

2. VП1• П2 с ПА П1 с П2 ^ Cont(П2) с Cont(П1).

4

Доказательство:

1. Если Т1 с Т2, то Т2 = Т ^ Т', где Т'=Т2\Т1. Из определения оператора носителя

терминов (6) следует, что Supp(T2 ) = Supp(T1 )п Supp(T')с Supp(T1). Что и требовалось доказать.

2. Доказывается аналогично. Я

Замечание. Утверждения, обратные Утверждению 1, в общем случае не верны. Действительно, пусть Т1 = Т2 = {t2 }, тогда из определения оператора носителя терминов (6) и матрицы вхождения (10) имеем Supp(T1 ) = Supp(T2) = }, т.е. имеет место включение

Supp(T1 )с Supp(T2 ), но при этом Т1 с Т2 .

Рассмотрим подмножества терминов документа d, которые устойчиво встречаются в различных его предложениях. Множество пар с = {(Т^П): Т с Та ^П с Пс1}, являющихся нетривиальными решениями ( (Т^П> ф <0,0 ) системы уравнений

Г п = ^рр(т ) (11)

IТ = ^(П) (11)

назовем смысловыми контекстами документа d и обозначим их [[Т, П ]] . 2. Свойства смысловых контекстов

Рассмотрим свойства смысловых контекстов документа d, позволяющие найти общее решение системы уравнений (11).

В дальнейшем для удобства записи обозначим: ^П^иррТ) = Cont(Supp(T)),

SuppCont(П) = Supp(Cont(П)). (12)

Так как операторы ^рр и Cont не являются взаимообратными, то, в общем случае, Т ф ^пБиррТ) и П ф SuppCont(П) , однако имеют место следующие включения. Утверждение 2.

1. VT с Тd Т с ^П^иррТ).

2. Vп с П П с SuppCont(п). Доказательство:

1. Покажем, что VT с Td и Vt е Т t е ContSupp(T) .

Возьмем произвольное подмножество терминов Т с Тd . Согласно Утверждению 1 для любого термина t е Т имеет место включение ^рр(Т) с Supp{t}. Применяя оператор контента к обеим

частям включения, получаем, что ContSupp{t} с ContSupp(T). Так как произведение

^ .(^ )Т

задает рефлексивное отношение на множестве Td, то ОТ с С^ш^ррОТ, откуда

{О £ с°п^ирр(Т) и, в силу произвольности выбора , е Т, непосредственно следует истинность включения Т с ContSupp(T) .

2. Доказывается аналогично. ^

Рассмотрим критерии, при которых включения, приведенные в Утверждении 2, выполняются в виде равенств.

Утверждение 3.

1. Т = ContSupp(T) # "П с Пл : Т = Соп^П),

2. П = SuppCont(П) # "Т с Тл : П = Supp(T). Доказательство:

1. Для доказательства прямого утверждения достаточно положить П = ^рр(Т).

Докажем обратное утверждение. Из существования П с Па такого, что Т = Cont(п) и применения к обеим частям равенства оператора носителя, получаем Зирр(Т) = БиррСоп^П). Согласно Утверждению 2 имеем включение П с SuppCont(п), откуда следует, что П с Supp(т). Таким образом, носитель множества терминов Т можно представить в виде

Supp(т) = П ^ П', где П' = Б^р(Т) \ П. Применяя к обеим частям равенства оператор контента,

получаем ContSupp(т)= Cont(П'), откуда следует, что ^тБ^рТ)с ) = Т . В

то же время, согласно Утверждению 2 имеет место обратное включение Т с ContSupp(т). Следовательно, Т = ContSupp(т).

2. Доказывается аналогично. ^

Следствие 1. Из Утверждения 3 непосредственно следует, что VT с Та и VП с Па имеют место тождественные равенства:

SuppCont(Supp(T)) - Supp(T), (13)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ContSupp(Cont(П))- Cont(П). ( )

Следствие 2. Из Утверждения 3 следует, что VT с Та и VП с Па пары |[ContSupp(T), Б^р(Т)]] и [[Cont(П), Б^р^п^П )]] являются смысловыми контекстами документа d . Истинность этого следствия непосредственно вытекает из (13): Supp(ContSupp(T)) = SuppCont(Supp(T)) = Supp(T),

Cont(SuppCont(П)) = ContSupp(cont(п)) = ). (14)

Таким образом, произвольное подмножество предложений П с Па или произвольное подмножество терминов Т с Та документа d однозначно задают некоторый соответствующий им смысловой контекст. Учитывая это, можно ввести следующие обозначения смысловых контекстов:

def

[[т ]] = [[^п^рр^т ), supp(т )]],

def

[[п ]] = [[^^(п ), suppcont(п)]],

(15)

где множества терминов Т и предложений П называются образующими соответствующих смысловых контекстов. При этом необходимо отметить, что по заданному смысловому контексту нельзя, в общем случае, однозначно определить его образующие.

Рассмотрим свойства контекстов, связанных с пересечением и объединением их образующих.

Утверждение 4. Для V[[T1, П1 ]], [[Т2, П2 ]]е Сd имеют место равенства:

1. ИТ и Т2 ]]=[[П1 п П2 ]].

2. [Т пТ2НП иП2]].

Доказательство:

1. Так как [[Т1, П1 ]], [[Т2, П2 ]]е С, то Т1 = Cont(П1), Т2 = Cont(П2 ). Следовательно,

^П^иррТ иТ1)= ContSupp(Cont(П1 )и))= ^п^рр^^(П1)пSuppCont(П2)) = = ^п^П пП2).

С другой стороны, П = Supp(T1), П2 = Supp(T2), откуда следует, что SuppCont(П1 п П2 ) = = SuppCont(Supp(T1) п Supp(T2)) = Supp(ContSupp(T1) и ContSupp(T2)) = и Т2).

Таким образом, [[т1 и т2 ]] = [[contsupp(t1 и т1), cont(t1 и т2 )]] = = [[Cont(П1 п П2), SuppCont(П1 п П2)]] = [[П п П2 ]].

2. Доказывается аналогично. ^

Введем на множестве смысловых контекстов С1 отношение включения. Пусть П Т1 ]], [[П2, Т2 ]]е С1, тогда

ПТ]]с[[П2,Т2]]# П с П2. (16)

Заметим, что отношение включения на множестве смысловых контекстов документа 1 является рефлексивным, антисимметричным и транзитивным отношением и задает частичный порядок на множестве С1.

Следствие 3. Из определения (16) с учетом Утверждения 1 получаем:

П Т ]]с[[П 2, Т2 ]]# Т2 с Т .

Объединением смысловых контекстов [[Т1, П1 ]], [[Т2, П2 ]]е С1 назовем смысловой контекст

Т П ]]$[[Т2, П 2 ]]= [[П и П 2 ]].

Пересечением смысловых контекстов |[Т1, П1 ]], |[Т2, П2 ]]е С1 назовем смысловой контекст

Цтх, П Ц%[[Т2, П 2 ]] = [[п п п 2 ]].

Отметим, что операции V и Л ассоциативны в силу их определения через операции объединения и пересечения множеств и для VC с С1

VС ^ ЦТ^С [[Т' П]] = ! [Т УП ]] и (17)

л с = л [т, пы [[ глп ]] .

[[Т ' Л а [[т г]]еС

Обозначим через С1 множество базовых смысловых контекстов документа 1, состоящее из смысловых контекстов, построенных на одноэлементных подмножествах множества предложений П1:

С1 = {М : ж еП1 }и[0]. (18)

Теорема. Множество смысловых контекстов С1 документа 1 является замыканием множества базовых смысловых контекстов С^1 относительно операции V . Доказательство.

Пусть [[т, П]]е С1 - произвольный смысловой контекст. Соответствующее ему

подмножество базовых смысловых контекстов с1 с с11 имеет вид с1 = { цл]]: л е П }. С учетом (18) получаем:

$ С =[[ ^^П ]] = [[П]]. Так как множества т и гг удовлетворяют (11), то

1 ^ [ [ т ',Г']]еС1 ^ ^ ^

[[г]]=[ [т, П ]].

Таким образом, любой смысловой контекст [[Т, П]]е С1 может быть получен как объединение некоторого подмножества базовых смысловых контекстов. ^

Замечание. Из доказательства теоремы следует, что построение множества смысловых контекстов может быть осуществлено через множество подмножеств базовых смысловых

контекстов С1 с С1 , при чем |С 1 | & п . Таким образом, верхняя оценка вычислительной сложности алгоритма построения С1 равна 2п, что делает неэффективным алгоритм, основанный на переборе всего множества П1, для текстовых документов большого объема.

3. Контекстно-ассоциативная модель текста

Предлагаемая модель будет являться развитием ассоциативной модели, предложенной в работе [20].

Пусть с = [[г, П]]е С1. Назовем первое предложение п е П порождающим предложением смыслового контекста с . Оставшуюся часть носителя смыслового контекста П = П/{п} назовем областью существования смыслового контекста с .

Два контекста са,ср е С1 связаны в документе 1 непосредственной ассоциативной связью ), если выполняется следующее условие:

С() с' # П' Ф0 . (19)

В случае, когда са,ср е С1 не связаны непосредственной ассоциативной связью, но имеется последовательность с у е С1, у = 1,2,...£ :

сЛ ° с2 ° - ° сл ° с', (20)

то уровнем ассоциативной связи k между с( и ср назовем наименьшую длину такой последовательности. Таким образом, непосредственная ассоциативная связь двух смысловых контекстов - это ассоциативная связь уровня 0.

Вес ассоциативной связи будем рассчитывать через ее уровень k : ч(са,С') = 1/2£ . (21)

Ассоциативной мощностью уровня I смыслового контекста с е С1 назовем средневзвешенную сумму весов ассоциативных связей этого смыслового контекста с другими

Ж1 (с) = *

к=0

1

\

* ^(с, О

смысловыми контекстами документа

/ Л

, (22)

*

,, , ^(с, с

V !Сс|с*еСс£ ,

где Сс - множество контекстов, связанных с контекстом с ассоциативной связью уровня £ . Уровень I является эвристическим параметром контекстно-ассоциативной модели и выбирается экспериментальным путем.

4. Применение контекстно-ассоциативных моделей в задаче утонения поисковых запросов

Рассмотрим модель ИПС в виде тройки <о,Q, у), (23)

где О - конечное множество документов, Q - множество поисковых запросов (в общем случае - бесконечное, заданное языком поисковых запросов LQ ), / : О х Q ^ [0,1] - мера релевантности.

Пусть q е Q - исходный запрос, заданный пользователем ИПС.

= Р q) - отклик ИПС на запрос q - упорядоченная последовательность элементов документов из О, в которой документ с порядковым номером i предшествует элементу с

индексом j , если /(di, Ч) > /, ч), с точностью до перестановок документов с равными оценками релевантности.

Пусть пользователь ИПС, анализируя отклик , сформировал релевантную выборку Огде1 -конечную подпоследовательность заинтересовавших его документов. В этом случае интегральная оценка качества отклика ИПС имеет вид:

quaKty(Dq, О*) = * -1— . (24)

VdеBf lnd(d) V ^

Задача уточнения запросов состоит в построении нового запроса ч* е Q, такого что quallty( О^1) > quallty( Dq, О;1) .

(25)

Заметим, что в силу конечности множества документов О для любого всегда будет существовать оптимальный запрос, улучшить который нельзя. Однако в силу сложности алгоритмов, реализующих различные меры релевантности и бесконечности множества запросов, задача поиска оптимального запроса в общем случае не решена. Алгоритм уточнения запроса:

1. Для всех документов 1 е О^1 строятся их контекстно-ассоциативные модели С1.

2. Для всех терминов из анализируемых релевантных документов вычисляются весовые коэффициенты:

Ж (г, 1) = С- (с), (26)

|Сг | сеС1

где С = { [[т,г]]е С : г е Т} - множество смысловых контекстов документа 1, содержащих термин г .

3. Для всех терминов вычисляются обобщенные весовые коэффициенты терминов:

Ж (г) = и Ж (г, 1)

(27)

4. В уточненный запрос включаются первые т терминов, имеющих наибольшие значения весовых коэффициентов. Параметр т может устанавливаться пользователем ИПС или выбираться экспериментальным путем.

5. Примеры

Пример 1

Пусть для некоторого текстового документа 1, состоящего из 6 предложений, включающих 5 терминов, матрица вхождения терминов Д имеет вид:

7 72 73 74 75 76

¿1 1 1 1 0 1 0

' 2 1 1 0 1 0 0

¿3 0 1 1 0 1 1

' 4 0 0 1 1 1 0

¿5 0 0 0 1 1 1

Примеры носителей и контентов: Supp {12, Ь} = { 7 } и ContSupp {¿2, Ь} = СоП { тг2 } = { 71, тт2 , тт3 }

СоП { 7, 72, 75 } = { ¿1 } и SuppCont { 7, 72, 75 } = Supp { и } = {71, 72, 73, 75 } Множество базовых смысловых контекстов имеет вид С^ = { с1 : i = 0,1,..., 6 }, где

Со =[0]]=[[0,{^1, ^2.....¿5}]] , С! =[К Ц=[[{^1,^2},{?1, ¿2}]], С 2 = 7 МК},^, ¿2, МП

Сз = 7 И= ¿3, ¿4 }Ц, С4 = 7 ]]=[ 2, ¿4, ¿5 }Ц , С5 = 7 ]]=[[{^5},{?1, ¿3, ¿4, ¿5}]],

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Сб = [[7 ]]= [К,^},^ ¿5}]] .

Оставшиеся смысловые контексты порождаются через замыкание множества базовых смысловых контекстов следующим образом:

С7 = ${С3, С1} = [| _{71,72,73,75},{^1}И, С8 = ${С3> С2}

С9 = ${с4, С1} = [ .{71,72,74},{^2}]], С10 = ${с4, С3} = [ [{73,74,75},{^4}И,

С11 = ${С5, С4} = l{74,75},{t4, ¿5}]], С12 = ${с6, С1} = | 1{71,72,73,74,75,76}' 0]],

С13 = ${с6, С2} = | 1{72,73,75,76},{^3}И, С14 = ${С6' С4 } = [{74,75,76},и5}1].

В табл. 1 приведены ассоциативные мощности нулевого уровня смысловых контекстов в порядке их убывания (по столбцам):

Табл. 1

С12 0,929 С13 0,857 С10 0,786 С3 0,643 С1 0,429

С7 0,857 С11 0,786 С9 0,714 С5 0,643 С4 0,357

С8 0,857 С14 0,786 С6 0,643 С2 0,429

Обобщенные весовые коэффициенты терминов (в порядке убывания):

¿3 - 0,679, ¿4 - 0,643, ¿5 - 0,643, ¿1 - 0,643, г2 - 0,482. Пример 2

Рассмотрим сегмент теста, состоящий из 5 предложений (табл. 2).

Табл. 2

71 Нормальное приближение для биномиального распределения имеет важное теоретическое и практическое значение в теории вероятностей.

72 Нормальное приближение сыграло большую роль в развитии теории вероятностей, так как привело к первой предельной теореме.

73 С современной точки зрения первая предельная теорема является лишь частным случаем

центральной предельной теоремы.

П4 Нормальное распределение часто называют гауссовским распределением, но оно использовалось в теории вероятностей еще Муавром и Лапласом.

П5 Рассмотрим, как используется нормальное распределение в качестве приближения для биномиального распределения с р=1/2.

Предложения рассматриваемого сегмента текста включают 36 терминов, матрица вхождения которых показана в виде табл. 3.

Табл. 3

t Термин п1 П2 П3 П4 П5

1 биномиальный 1 1

2 биномиальное распределение 1 1

3 больший 1

4 большая роль 1

5 важный 1

6 важный теоретический 1

7 вероятность 1 1 1

8 значение 1

9 зрение 1

10 качество приближения 1

11 нормальный 1 1 1 1

12 нормальное приближение 1 1

13 нормальное распределение 1 1

14 практический 1

15 практическое значение 1

16 предельный 1 1

17 предельная теорема 1 1

18 приближение 1 1 1

19 развитие 1

20 развитие теории 1

21 распределение 1 1 1

22 роль 1

23 случай 1

24 современный 1

25 современная точка 1

26 современная точка зрения 1

27 теорема 1 1

28 теоретический 1

29 теория вероятностей 1 1 1

30 точка 1

31 точка зрения 1

32 центральный 1

33 центральный предельный 1

34 центральная предельная теорема 1

35 частный 1

36 частный случай 1

Примеры носителей и контентов:

• если Т = {"вероятность", "нормальное приближение"}, то $ирр(7) = {п1,п2} и СоП;$ирр(7) = = {"вероятность", "нормальный", "нормальное приближение", "приближение", "теория

вероятностей"}.

• если П = { п1, п2 , п5 }, то СоП;(Л) = {"нормальный", "приближение"} и SuppCont(П) = П. Множество базовых смысловых контекстов имеет вид С1

= { с, : i = 0Л,-,5 }, где

с0 =[[0]]=[[0,{^!, г2,-, ^36 }]] ,

с1 = [[п1 ]] = [[{п1 {г1, г2 , г5, — , г8 , г11, г12 , г14 , г15 , г18 , г 21, г28 , г29 }]] ,

с2 = [[п2 ]]= [[{п2}, {г3, г 4 , г 7 , г11, г12, г16,-, г20, г22 , г27 , г29}]] ,

с3 = [[п3 ]]= [[{п3}, {г9, г16, г17, г23' —, г27, г30 , — " г36}]] ,

с4 = [[п4 ]] = [КЫ^ г11» г13 » г21» г29 }]] ,

с5 = [[П ]] = [[{П5 Ь {г1 > г2 ' г10. г11> г13 . г18 . г21 }]] .

Оставшиеся смысловые контексты порождаются через замыкание множества базовых смысловых контекстов следующим образом:

с6 = ${с2> с1} = [[{П1,П2},{г7' гП> *12> г18> г29 }]],

с7 = ${с3, с1} = [[{п1,п2,п3,п4,п5}, 0]],

с8 = ${с3, с2} = [{п2> П3} {г16 , г17, г27}]], с9 = с1} = [{п1,п4}> {*7> г11» *21> г 29 }]],

с10 = ${с4' с2} = [{П1,П2,П4}> {*7> г11» г29}]], с11 =${с5' с1} = [[{п1,п5},{г1» *2> г11> *18> г21}]], с12 = ${с5' с2} = [[{П1,П2,П5}5 {г11' г18}]], с13 = ${с5, с4} = [{п4,п5}> {г11, г13, г21}]] , с14 = ${с9' с5} = 1{П1,П4,П5}> {г11' г21}]], с15 = ${с10> с5} = [[{П1,П2,П4,П5}, {г11}]] .

В табл. 4 приведены ассоциативные мощности нулевого уровня смысловых контекстов в порядке их убывания (по столбцам):

Табл. 4

с7 0,933 сю 0,800 с- 0,667 с1 0,533 с4 0,400

с15 0,867 с14 0,733 с9 0,667 с8 0,467 с5 0,400

с12 0,800 с6 0,667 с13 0,600 с2 0,400 с3 0,133

Обобщенные весовые коэффициенты терминов (в порядке убывания) в случае применения контекстно-ассоциативной модели 1-го уровня приведены в табл. 5,а.

Табл. 5,а

W (г) 1

0.398 нормальный

0.366 вероятность

0.366 приближение

0.366 теория вероятностей

0.366 распределение

0.281 нормальное приближение

0.281 биномиальное распределение

0.281 биномиальный

0.281 нормальное распределение

0.203 центральная предельная теорема

0.203 теорема

0.203 предельный

0.203 практический

0.203 значение

0.188 практическое значение

0.188 центральный

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

0.188 теоретический

Табл. 5,б

W (1) 1

0.692 предельная теорема

0.692 теорема

0.692 предельный

0.590 нормальный

0.590 I вероятность

0.590 | теория вероятностей

0.590 | нормальное приближение

0.385 биномиальное распределение 0.234

0.385 биномиальный 0.234

0.385 точка 0.234

0.385 нормальное распределение 0.234

0.385 современная точка зрения

-распределение_________

центральная предельная теорема

частный случай

центральный

Для сравнения в табл. 5,б представлены весовые коэффициенты терминов, полученные с использованием ассоциативной модели, предложенной в работе [20] (ключевые термины выделены жирным шрифтом). Видно, что в случае применения контекстно-ассоциативной модели ключевые термины располагаются ближе к началу списка. Вследствие этого, в случае применения контекстно-ассоциативной модели, нет необходимости вводить какие-либо специальные признаки, выделяющие ключевые термины среди всех терминов анализируемого текста.

Пример 3

Работу алгоритма уточнения запросов можно проиллюстрировать примером поиска текстов, посвященных нормальному приближению биномиального распределения.

1. Информационная потребность: найти информацию по нормальному приближению биномиального распределения. Пусть известно, что в тестовой коллекции документов информационной потребности соответствуют 11 релевантных документов.

2. Исходный запрос состоит из 1 термина: q = "приближение биномиального распределения". Отклик ИПС на исходный запрос имеет вид (релевантные документы отмечены серым фоном):

Д =

d2 dз d4 d5 d6 d7 d9 dlo •••

Пользователь ИПС, анализируя отклик, сформировал релевантную выборку Д^1 = { d2, d5}, при

этом качество поиска по исходному запросу quaHty( Од,Де1) = 1/2 +1/5 = 0,7, точность на уровне первых 10 документов ргесш(д) = 4/10 = 0,4, полнота поиска гесаП^д) = 4/11. 0,367 .

3. Уточненный запрос включает 2 термина: д* = "нормальное приближение" & "биномиальное распределение". Отклик ИПС на уточненный запрос:

о

d5 d7 d2 а21 d9 dl7 d8 d4 а- •

Качество поиска по уточненному запросу увеличилось: Чиа111у(0д»,оде1) = 1 +1/3 . 1,333, при этом точность и полнота поиска не изменились в силу того, что не изменилось число релевантных документов среди первых 10 в отклике ИПС.

Заключение

В заключение хотелось бы отметить, что практические эксперименты, основанные на случайных выборках поисковых запросов, показали применимость предлагаемого метода уточнения поисковых запросов при поиске в специально организованных тестовых коллекциях документов из областей знаний с устоявшейся терминологией (технической документации,

коллекциям учебных пособий и справочным материалам), а также в коллекциях текстов небольшого объема (архивам новостей).

В дальнейшем, для уточнения эвристических параметров алгоритмов и исследования зависимости работы метода от наборов данных, планируется проведение экспериментов с реальными коллекциями документов, в частности, с коллекцией новостей сайта Lenta.Ru, коллекцией технической документации сайта CITForum.Ru и электронной библиотекой кафедры математической кибернетики МАИ.

Список литературы

1. Ермаков А.Е. Полнотекстовый поиск: проблемы и их решение.// Мир ПК. №5, 2000. -http://www.osp.ru/pcworld/2001/05/064.htm (15.05.2001)

2. Furnas G.W., Landauer T.K., Gomez L.M., Dumais S.T. The vocabulary problem in humansystem communication. Communications of the ACM, 30(11): 964-971, November 1987.

3. Ашманов И.С. Национальные особенности поисковых систем.// Компьютер в школе. №1, 2000. - http://www.osp.ru/school/2000/01/012.htm (19.01.2000)

4. Sparck-Jones K., Jackson D.M. The use of automatically-obtained keyword classifications for information retrieval. Information Processing and Management, 5:175-201, 1970.

5. Crouch C.J., Yang B. Experiments in automatic statistical thesaurus construction, In Proceedings of the ACM-SIGIR Conference on Research and Development in Information Retrieval, Copenhagen, Denmark, 1992, pp. 77-88.

6. Добрынин В.Ю., Некрестьянов И.С. Расширение запросов с помощью вероятностного латентного семантического индексирования. Труды 3-й Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции", Петрозаводск, Россия, сентябрь 2001. - c. 151-155.

7. Jing Y., Croft W.B. An association thesaurus for information retrieval. In Proceedings of RIAO-94, 1994, pp. 146-160.

8. Qiu Y., Frei H.P. Concept based query expansion. In Proceedings of ACM SIGIR International Conference on Research and Development in Information Retrieval, 1993, pp. 160-169.

9. Attar R., Fraenkel T.S. Local feedback in full-text retrieval systems. Journal of the Association for Computing Machinery, 24(3), July 1977, pp. 397-417.

10. Croft W.B., Xu J. Query expansion using local and global document analysis. In Proc. of the SIGIR'96, 1996, pp. 4-11.

11. Xu J., Croft W.B. Improving the effectiveness of information retrieval with local context analysis. ACM Transactions on Information Systems, 18(1), 2000, pp. 79-112.

12. Croft W.B., Harper D.J. Using probabilistic models of document retrieval without relevance information. Journal of Documentation, 35:285-295, 1979.

13.Rocchio J.J. Relevance feedback in information retrieval. In G. Salton (Ed.), The SMART Retrieval System: Experiments in Automatic Document Processing, Prentice Hall, 1971, pp. 313-323.

14. Salton G., Buckley C. Improving retrieval performance by relevance feedback. Journal of the American Society for Information Science, 41(4), 1990, pp. 182-188.

15. Allan J. Relevance Feedback With Too Much Data. Research and Development in Information Retrieval, 1995, pp. 337-343.

16. Grootjen F.A., Th.P. van der Weide. Conceptual Query Expansion. Technical Report NIII-R0406, Nijmegen Institute for Information and Computing Sciences, University of Nijmegen, Nijmegen, The Netherlands, EU, 2004.

17. Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval. ACM Press, 1999.

18. Cui H., Wen J.-R., Nie J.-Y., Ma W.-Y. Probabilistic query expansion using query logs. In Proceedings of the eleventh international conference on World Wide Web (2002), ACM Press, pp. 325332.

19. Silverstein C., Henzinger M., Marais H., Moricz M. Analysis of a very large AltaVista query log. Technical Report 1998-014, COMPAQ System Research Center, October 1998.

20. Чанышев О.Г. Ассоциативная модель естественного текста.// Вестник ОмГУ. - 1997, №4. -c. 17-20.

Беляев Дмитрий Владимирович, аспирант кафедры математической кибернетики Московского

авиационного института (государственного технического университета);

e-mail: belyaev aovion/.ru, dvbelyaev'arambler.ru; контактный телефон: (095) 211-3324, 158-4811.

i Надоели баннеры? Вы всегда можете отключить рекламу.