УДК 001(06)
МОДЕЛИ ТЕКСТОВОГО ПОИСКА НА ОСНОВЕ ТЕОРИИ НЕЧЕТКИХ МНОЖЕСТВ
Л.А. Панкова, В.А. Пронина
Понятия текстового поиска интерпретированы в терминах теории нечетких множеств. Предложены модели текстового поиска на основе теории нечетких множеств. Показано, что три модели (в том числе две предложенные) дают одну формулу вычисления релевантности документа запросу.
Ключевые слова: текстовый поиск, семантическая связанность, нечеткое множество, нечеткое отношение релевантности, принцип обобщения.
ВВЕДЕНИЕ
Работа посвящена семантическому поиску текстовых документов в коллекции научных документов по их содержимому. Модель текстового поиска на основе онтологии включает в себя модель поискового запроса, модель документа и модель релевантности (соответствия) документа запросу. Онтология предметной области представляет собой формализованное описание терминологии предметной области, отражающее синонимию и семантическую связанность понятий.
В работе рассматриваются модели запроса и
документа как наборы понятий (терминов1) онтологии предметной области коллекции (словаря терминов) с коэффициентами (весами) от 0 до 1, отражающими важность понятий для описания содержания. В запросе назначенные пользователем веса определяют его информационную потребность. В документах в автоматическом процессе концептуального индексирования [1] распознаются термины понятий и связи между ними, а также определяются веса понятий. Существуют различные методы вычисления весов понятий — с использованием частоты встречаемости, мест встречаемости и др.
Релевантность (семантическое соответствие) документа запросу в рассматриваемых моделях формально определяется с использованием отношения семантической связанности (геЫеёпе88) понятий. Семантическая связанность понятий может вычисляться формальным образом по онтологии предметной области данной коллекции или с по-
1 В коллекции научных документов понятия и термины чаще всего не различаются.
мощью статистических методов, а может задаваться экспертом. В последнем случае оценка семантической связанности — это оценка возможности с точки зрения эксперта (например, по лингвистической шкале) того, что если в тексте содержится понятие с, то в нем будет содержаться и понятие Cj.
Отметим, что текстовый поиск имеет дело с нечеткой априорной информацией, что не принимается в расчет в большинстве существующих четких (crisp) моделей (см., например, обзор [2]). Теория нечетких множеств дает средства обращения с нечеткостями. В данной работе рассматриваются модели текстового поиска, основанные на теории нечетких множеств.
1. ПОНЯТИЯ ТЕКСТОВОГО ПОИСКА В ТЕРМИНАХ ТЕОРИИ НЕЧЕТКИХ МНОЖЕСТВ
Интерпретируем понятия текстового поиска в терминах теории нечетких множеств [3, 4].
Пусть D — конечное множество документов коллекции, C — конечное множество понятий предметной области коллекции, Q — конечное множество запросов.
1.1. Множество концептуальных индексов документов можно представить как нечеткое бинарное индексирующее отношение I:
I = {ц/d, c)/(d, c)|d е D; с е C},
где : D s C — [0, 1] — функция принадлежности, обозначающая для каждой пары (d, с) степень принадлежности понятия с документу d (вес понятия в концептуальном индексе). Индексирующее отношение I индуцирует множества Id (концептуаль-
ные индексы) как нечеткие множества на множестве понятий:
Т<1 = {Ц^(с)/Ф е С' Ц^(с) = ЦМ с)},
где (с) — вес понятия в концептуальном индексе документа.
1.2. Множество концептуальных индексов запросов можно представить как нечеткое бинарное индексирующее отношение:
и = {ц^, с)/(4, с)4 е О; с е С},
где ц^: О х С ^ [0, 1] — функция принадлежности, обозначающая для каждой пары (д, с) степень информационной потребности понятия с в запросе 4 (вес понятия в концептуальном индексе запроса). Запрос 4 представляется как нечеткое множество понятий:
Т<1 = {Ц/9 (с)/с|с е С, Ц/, (с) = с)}.
1.3. Отношение семантической связанности понятий ^ можно представить как нечеткое рефлексивное отношение на С х С с функцией принадлежности ц^с., с.) = £(с., с.), где £(с., с.) е [0, 1] — семантическая связанность понятий с. и с.:
^ = {ц^(сг, с/.)/(сг, с/.)|сг, с. е С}.
1.4. С целью повышения эффективности текстового поиска вводится понятие расширенного запроса: исходный запрос, дополненный семантически связанными понятиями.
1.4.1. Расширенный запрос представляется нечетким множеством I*, включающим в себя ис-
и если рассматривать I как нечеткое унарное отношение на множестве С:
1* = ь ° $
1* = I Ц/. (с,)/.
1 9
Композиция нечетких отношений определяется разными способами. Максиминная композиция нечетких отношений I и ^ на С определяется функцией принадлежности вида
^ (c.) = max\ min {^ (c,), С)}
минимаксная композиция — функцией принадлежности вида
Ц - (с.) = minJ max {(сг), с,.)}
iq [ Cj e C 9
максимультипликативная композиция — функцией принадлежности вида
Ц- (с.) = max{ Ц/ (с,)цл<с,, с,.)}.
iq J Cj e C 9 J
1.5. Релевантность документа запросу определяется различными способами.
1.5.1. Релевантность документов запросу определяется как близость между двумя нечеткими множествами. Близость между двумя нечеткими множествами вычисляется различными способами [5], например как обобщение мер близости между двумя четкими множествами: Хемминга, Эвклида, Дайса и др.
1.5.2. Релевантность документов запросу опре-
ходный запрос 1п, дополненный семантически свя- деляется как образ нечеткого множества на четкое множество Б при нечетком индексирующем
q
занными понятиями со значениями связанности больше заданного порога, I с I*.
1.4.2. Расширенный запрос представляется как образ нечеткого множества I при нечетком отображении (отношении) S — нечеткое множество I*:
Г* = £ ц (сУс-.
i 9
2
По принципу обобщения функция принадлежности множества I* имеет вид:
^i* (j = max 1 mine {ч (с>), ц^, он.
1.4.3. Расширенный запрос представляется как
отображении (отношении) I:
Rq = £ Ч (^k)/^^.
k
По принципу обобщения функция принадлежности множества Rq имеет вид:
Цд (dk) = max J min{ (Ci), ц/а^ сЖ.
9 [ c(- e C 9 J
Функция цд (dk) определяет релевантность документа dk запросу q.
1.5.3. Релевантность документов запросу определяется как результат композиции двух нечетких отношений I и I, если рассматривать I как нечет-
результат композиции двух нечетких отношений /? кое унарное отношение на множестве С:
Принцип обобщения (generalization principle) — это способ расширения области определения (области значений) отображений (отношений) на класс нечетких множеств.
R = Iq 0 1
= £ 4
k
9
где цд (№к) определяет релевантность документа №к
запросу #, вычисляется в зависимости от выбранной композиции.
2. БЛИЗКИЕ РАБОТЫ
В работе [6] запрос и документ представлены нечеткими множествами I и /ё соответственно. Запрос не расширяется и связанность понятий не учитывается. Релевантность документа запросу определяется как близость между нечеткими множествами I и /л по нечеткой мере:
?) = £ шт(ц^(с), Цг(с))/ £ ц, (с).
с е С с е С
В работе [7] предлагается учитывать отношения связанности понятий, заданные нечетким отношением семантической связанности и расширить запрос, применяя композицию отношений / и ^
(см. пп. 1.4.2):
п = ° $
= £ (сг)/сг.
г 4
Далее релевантность документа запросу определяется как результат композиции двух нечетких
отношений /* и /, при этом /* рассматривается как нечеткое унарное отношение на множестве С (см. пп. 1.5.3):
Я = 4 ° /,
Я = £ ч (¿Ж.
к
Для фильтрации документов со значениями оценок близости, больших а е [0, 1], используется а-срез нечеткого множества Я^:
^(а) = {Цд4 е Д ц„ (№) > а}.
3. МОДЕЛИ ТЕКСТОВОГО ПОИСКА, ОСНОВАННЫЕ НА ТЕОРИИ НЕЧЕТКИХ МНОЖЕСТВ
3.1. Модель текстового поиска, основанная на обобщении нечеткого отношения
В предлагаемой модели используется принцип обобщения — универсальный принцип теории нечетких множеств теории — для перехода от отношений между понятиями к отношениям между документами и запросами, от связанности понятий к релевантности документов запросам.
На первом этапе отношение связанности на понятиях обобщается, чтобы получить нечеткое от-
ношение связанности S' нечетких запросов с одним понятием:
Нх(Iq, с.) = max J min {(сг), ц^с,-, с)}
y J ^ c;- e C q J
Затем принцип обобщения используется еще раз. При этом нечеткое отношение связанности S' нечетких запросов с одним понятием обобщается, чтобы получить нечеткое отношение релевантности нечетким запросам нечетких документов R:
= maX j miC{ Vlq j j =
= max J min J ^i, (c,), max min {(c,), ^c,, c,)> I j .(1)
j Cj e C j a J c(- e C q J J
Можно показать, что формула (1) преобразуется к виду
^ Id) =
= maxJ minc{(cj, pj(c,), ^c,, c,)} |. (2)
j ci' cje C q J
Таким образом, релевантность документа Id запросу I вычисляется по формуле (2).
3.2. Модель текстового поиска с расширением запроса, основанная на максиминной близости между нечеткими множествами
В предлагаемой модели используется расширение запроса максиминной композицией нечетких отношений I и S (см. пп. 1.4.3):
Ц- (c,) = maxJ min{ (c,), ^Ц, c.)} [.
Функция ц (с.) определяет степень принадлежности понятия с. расширенному запросу /*.
Релевантность документа запросу определяется как близость между двумя нечеткими множествами: расширенным запросом и документом.
Определим близость между нечеткими множествами А и В на множестве Xследующим образом:
S(A, B) = max J mm{^A(x), цв(х)}
x e X
Тогда релевантность документа запросу с использованием введенной близости будет вычисляться по формуле:
Д/^ = /с) = тах Шт { Ц., ^ ЦГ (с/)} =
= maxmin j max jjnin{ ^ (c.), ^c, c.)} J, ^ (c.) J, что эквивалентно формуле (2).
q
q
3.3. Анализ моделей
Модель релевантности из работы [7] можно представить как последовательное применение двух композиций:
^ = /, о Л о /,
^ = I Ц«,
1
Легко показать, что если на каждом этапе применять максиминную композицию [7], то релевантность документа 1ё запросу I тоже будет вычисляться по формуле (2).
Таким образом, все три модели:
— модель текстового поиска, основанная на обобщении нечеткого отношения (п. 3.1),
— модель текстового поиска с расширением запроса, основанная на максиминной близости между нечеткими множествами (п. 3.2),
— модель текстового поиска из работы [7] дают одинаковые значения релевантности.
1. ПРИМЕР
3
Пусть множество С состоит из следующих понятий:
c1 = Fuzzy logic
c2 = Fuzzy relation equations
c3 = Fuzzy modus ponens
c4 = Approximate reasoning
c5 = Max-min composition
cg = Fuzzy implication
Запрос включает в себя понятия c1, c2, c3 и представлен вектором
I = c1 c2 c3
' [ 10,4 0,1 ]'
Отношение семантической связанности понятий S (необходимый для вычислений фрагмент) задается матрицей:
c
c
2
c
c
4
cc
S =
5 "6
' 1 0,2 1 1 0,5 1
0,2 1 0,1 0,7 0,9 0
1 0,4 1 0,9 0,3 1
индексирующее отношение I — матрицей:
I =
d1 d2 d3 d4 d5 d6 d7 d8 d9 d10
c1 0,2 0 1 0 0 0 1 0 0 0
c2 1 0 0 0,3 0 0,4 0 0 1 0
c3 0 0 0,8 0 0,4 0 1 0 0 0
c4 0 1 0 0 0 0 0 0,9 0,7 0,5
c5 1 0 0,5 0 0 0,6 0 0 0 0
c6 0 1 0 0 0,2 0 1 0 0 0,5_
Тогда вектор релевантности по моделям из § 3 (формула (2)) имеет вид:
П _ $1 $10
4 [0,5 1 1 0,3 0,4 0,5 1 0,9 0,7 0,5]'
Вектор релевантности по модели из работы [6] имеет вид:
П _ $1 $2 $4 $5 $6 $7 $8 $9 $10
4 [0,4 0 0,7 0,2 0,06 0,27 0,7 0 0,27 0 ]
Нулевая релевантность запросу документов объясняется отсутствием в этих документах понятий запроса, так как модель не предполагает расширение запроса.
Применяя а-срез при а _ 0,5, получаем
п _ $2 $7 $8
Ка(.5) _
[ 111 0,9 0,7]
по моделям из § 3 и
по модели из работы [6].
R = d3 d7 Rq(. 5)
) [0,7 0,7 ]
ЗАКЛЮЧЕНИЕ
Проанализированы модели текстового поиска в рамках теории нечетких множеств: две модели, предложенные в данной работе, и модель из работы [7]. Показано, что все три модели дают одну формулу вычисления релевантности документа запросу. Для сравнения моделей текстового поиска, основанных на теории нечетких множеств, с их четкими аналогами планируется экспериментальная проверка на реальных примерах.
ЛИТЕРАТУРА
Из работы [7].
1. Онтологии и тезаурусы / В.Д. Соловье в и др. — Казань, Москва, 2006. — 157 с.
2. Панкова Л. А., Пронина В. А., Крюков К. В. Онтологические модели поиска экспертов в системах управления знаниями научных организаций // Проблемы управления. — 2011. — № 6. — C. 52—60.
3. Заде Л. Понятие лингвистической переменной и его применение к принятию приближенных решений. — СПб.: Питер, 2000. — 384 с.
4. Орловский С.А. Проблемы принятия решений при нечеткой исходной информации. — М.: Наука, 1981. — 208 с.
5. Mitrovic Zoran, Rusov Srâan. Z Similarity Measure Among Fuzzy Sets // FME Transactions. — 2006. — N 34. — P. 115—119.
6. Knappe Rasmus. Measures of Semantic Similarity and Related-ness for Use in Ontology-based Information Retrieval. — Denmark: Roskilde University, 2005. — 108 p.
7. Karn Bhaskar. Information retrieval system using fuzzy set theory — the basic concept. — URL: http://pchats.tripod.com/ istebhaskar.pdf (дата обращения: 28.9.2012).
Статья представлена к публикации членом редколлегии О.П. Кузнецовым.
Людмила Александровна Панкова — канд. техн. наук, ст. науч. сотрудник, S (495) 334-92-49, И [email protected], Валерия Александровна Пронина — канд. техн. наук, ст. науч. сотрудник, S (495) 334-92-49, И [email protected], Институт проблем управления им. В.А. Трапезникова РАН, г. Москва.
c
c
2
c
3