НАУКА и ОБРАЗОВАНИЕ
Эл N° ФС 77 - 30569. Государственная регистрация №0420900025. 15514 1994-040Е
Оценка релевантности документов онтологической базы знаний # 09, сентябрь 2010 автор: Карпенко А. П.
УДК 519.6
МГТУ им. Н.Э. Баумана, [email protected]
Введение
Корпоративная база знаний представляет собой, как правило, совокупность разного рода слабоструктурированных документов, в которых с той или иной степенью подробности описаны прецеденты - ситуации и решения, которые были приняты в этих ситуациях. В системах поддержки принятия решений (СППР), которые используют такие базы знаний, поиск решения заключается в поиске в этих базах наиболее подходящих прецедентов и соответствующих им документов [1]. В работе рассматривается поиск решений по атрибутам документов, содержащимся в их метаданных, как альтернатива полнотекстовому поиску.
Классический атрибутивный поиск основывается на использовании в качестве метаданных документа преимущественно его регистрационных атрибутов [2]. В работе рассматривается иной подход к поиску решений в базах знаний прецедентов, когда метаданные формируются на основе онтологии соответствующей предметной области, заданной в виде семантической сети. При этом релевантность документа оценивается близостью в некоторой метрике семантической сети этого документа и семантической сети запроса.
В работе существенно используется «важность» концептов в семантической сети рассматриваемой онтологической базы знаний. Ряд мер этой важности предложен в нашей работе [3].
Важной составной частью предлагаемой методики оценки релевантности документа является построение семантической сети этого документа. В работе данная задача ставится, как задача огрубления графа семантической сети онтологии рассматриваемой предметной области [4,5]. Рассматриваются три метода решения задачи на основе насыщенных паросочетаний - методы, использующие случайные паросочетания, паросочетания из тяжелых ребер, а также паросочетания из тяжелых клик [4, 6,7].
В общей постановке о задаче поиска информации следует говорить в терминах модели поиска, которая включает в себя способ представления документов, способ представления поисковых запросов, вид критерия релевантности документов [8].
В данной работе документы в базе знаний, а также поисковые запросы к базе представляются в виде фреймов, которые называются паттерном проектирования и паттерном запроса соответсвенно. Слоты этих паттернов соответствуют ролям концептов используемой онтологии (предметная область, объект, свойство, действие, задача и т.д.) [1].
Указанные роли разбивают концепты онтологии, документа и запроса к базе знаний на кластеры. Предполагается, что по методике построения семантической сети документа, построены семантические сети указанных кластеров. Таким образом, поисковые образы документа и запроса представляются в виде совокупности семантических сетей, соответствующих слотам паттерна проектирования и паттерна запроса.
В работе предложено несколько мер релевантности ролевых кластеров документа, формализующих близость семантических сетей поискового образа документа и семантических сетей запроса. На основе указанных мер предложен алгоритм оценки релевантности документа запросу.
1. Построение семантической сети документа
Представим семантическую сеть £ (0) рассматриваемой онтологии 0 в виде взвешенного связного мультиграфа G(O). Узлы этого графа
соответствуют концептам множества С (О) = {с-, I е[1: п0 ]}, а ребра - четким бинарным отношениям между ними, каждое из которых принадлежит одному из типов ир,р е [1: т0].
Определены веса w°, I е[1: п0 ] узлов графа G(0), формализующие «важность» соответствующих концептов в сети £ (О). Для каждого из ребер
(сг-,су), I,у е[1: п0], I ф у графа G(0) полагается заданным также (1 х т0)-вектор весов {у0у р, р е[1: т0 ]}, где р = 0, если концепты (сг-, с у) не связаны
между собой отношением типа ир, и у0у р = \°р - в противном случае. Здесь \°р
- априори заданный вес отношений типа ир в онтологии 0.
Некоторые методы определения весов концептов w° и весов отношений
у<0 предложены в работе [3]. Для определения весов концептов может быть
также использована их семантическая близость, полученная с помощью соответствующего словаря [9] или Википедии [10]. Веса концептов могут быть сформированы также на основе понятий центральности по близости и центральности по посредничеству [11].
Перейдем, например, с помощью аддитивной свертки
= Е ЛрУ0у р , р е [1: т0 ] (1)
р
от взвешенного мультиграфа G(0) к взвешенному обыкновенному графу,
в котором вес ребра (сг-, с у) равен . Сохраним за полученным графом
прежнее обозначение. Здесь и далее Лр, р = 1,2,... - положительный скалярный
вещественный множитель, определяющий относительный вес компонентов аддитивной скалярной свертки вида (1).
Аналогично определим семантическую сеть £ (Т) с £ (О) документа Т в виде связного взвешенного обыкновенного графа Є(Т). Узлы этого графа
соответствуют пТ < пО концептам С(Т) с С (О) документа Т, а ребра - связям между ними. Вес узла графа Є(Т), соответствующего концепту сі є С(Т),
т т' т т
обозначим wi , а атрибуты его ребра (сі, су) зададим парой (Іі, у; уг-, у), где /і, у -
«расстояние» между узлами с{, с у, а уг-, у - вес ребра (сі, с у).
В терминах графа Є(Т) задача построения семантической сети документа £ (Т) сводится к решению двух следующих задач.
Задача 1 (задача определения топологии графа G(T)) - по каким правилам связывать узлы этого графа ребрами, т.е. устанавливать связи между концептами множества С (Т)?
Задача 2 (задача определения весов узлов и атрибуты ребер графа G(T)) -исходя из каких соображений, назначать веса wi узлов этого графа, а также
Т Т
атрибуты /■,у, у-,у его ребер?
1.1. Определение топологии графа G(T). В общей постанове эту задачу следует отнести к задаче огрубления графа [4].
Классические методы решения задачи огрубления графа основаны на итерационном стягивании смежных узлов графа Ga в узлы графа Ga+l, где а = 0,1,2,... - номер итерации, Є0 = G(O). В результате этого процесса ребро между двумя вершинами графа Єа удаляется и создается мультиузел графа Єа+1, объединяющий оба стягиваемых узла. Задача огрубления графа Є(О) до графа Є(Т) имеет ту специфику, что ни на одной из итераций указанного
итерационного процесса в один узел не могут быть стянуты те узлы графа Єа , которые принадлежат графу Є(Т).
Обычно задача огрубления графа решается в терминах паросочетаний. Паросочетанием в графе называется набор его ребер, в котором любые два
ребра не инцидентны общему узлу. Таким образом, граф Єа+1 строится на основе графа Єа путем нахождения в графе Єа паросочетания и стягивания в мультиузел узлов, входящих в каждую из пар этого паросочетания. Непарные
узлы графа Єа просто копируются в граф Єа+1. Важно, что граф, огрубленный с использованием паросочетаний, сохраняет многие свойства исходного графа.
Так, например, если граф Є0 является планарным, то граф Єа также планарен [12].
В терминах паросочетаний специфика нашего случая состоит в том, что любая пара узлов каждого из паросочетаний не может включать в себя одновременно два узла графа Є(Т).
С точки зрения повышения эффективности процесса огрубления графа, целесообразно использовать насыщенные паросочетания - паросочетания в которых хотя бы один узел любого ребра, не вошедшего в паросочетание, инцидентен ребру, вошедшему в паросочетание. Вообще говоря, с той же точки желательным является использование максимальных паросочетаний -насыщенных паросочетаний, которые имеют максимальное число ребер. Однако, вычислительная сложность формирования максимальных паросочетаний, в общем случае, значительно выше аналогичной вычислительной сложности для просто насыщенных паросочетаний. Поэтому обычно в вычислительной практике ограничиваются последними [7].
Утверждение 1. Оценка снизу количества итераций, необходимых для построения графа Є(Т) с использованием насыщенных паросочетаний равна п°/
V /п
Справедливость утверждения следует из того факта, что при использовании насыщенных паросочетаний число узлов графа Єа+1 не может быть, очевидно, меньше половины числа узлов графа Єа .
Наиболее известны три следующих метода построения насыщенных паросочетаний: случайное паросочетание (RM); паросочетание из тяжелых ребер (HEM); паросочетание из тяжелых клик (HCM) [5].
Случайное паросочетание на итерации а строится по следующей схеме:
1) все узлы Ca текущего графа G(X объявляем немаркированными;
2) случайным образом выбираем немаркированный узел, еще не включенный в паросочетание - пусть это будет узле cj;
3) из числа немаркированных узлов, смежных узлу ct , случайным образом выбираем узел (пусть это будет узел cаi), также еще не включенный в паросочетание;
4) если оба узла или один из узлов пары cj, cj не принадлежат графу
G(T), то включаем ребро (cj , cj) в паросочетание, и узлы cj, cj маркируем;
5) если ни одного немаркированного узла, смежного узлу cj, не существует, то узел cj маркируем и оставляем свободным (чтобы затем перенести его в граф G®+1);
6) если в графе Ga имеются еще немаркированные узлы, то переходим к шагу 2.
Данную схему иллюстрирует рисунок 1, на котором слева показан граф
Ga_1 и сформированное на его основе паросочетание, а справа - граф Ga .
Паросочетание из тяжелых ребер. Схема построения этого паросочетания отличается от рассмотренной выше схемы шагом З, который в данном случае формулируется следующим образом. Из числа немаркированных узлов, смежных узлу cj, выбираем такой узел cj, еще не
включенный в паросочетание, что вес ребра (cj, cj) является максимальным
среди весов всех возможных ребер, связанных с узлом cj.
а) б)
Рисунок 1 - К методу случайных паросочетаний: квадратиками показаны узлы
графа Є(Т): а) граф Єа~1; б) граф Єа
Паросочетание из тяжелых клик. В данном случае также меняется только шаг 3 рассмотренной схемы формирования случайного паросочетания:
из числа немаркированных узлов, смежных узлу с“, выбираем такой узел с(а,
еще не включенный в паросочетание, что реберная плотность мультиузла,
который получается стягиванием узлов с“, с(а, является максимально
возможной по сравнению со всеми иными вариантами выбора узла с^ .
Итерации во всех рассмотренных методах формирования паросочетания заканчиваются, когда в результате данной итерации не удалось выделить ни одной пары узлов. Другими словами, итерации заканчиваются, если в текущем
графе Єа содержатся только узлы графа Є(Т).
Отметим следующее обстоятельство. В силу наличия элемента случайности при формировании паросочетаний, различные итерационные процессы порождают, вообще говоря, графы Є(Т), имеющие различную топологию. Таким образом, возникает задача получения в некотором смысле наилучшего графа Є(Т). При этом в качестве максимизируемого критерия
оптимальности графа можно использовать, например, его реберную плотность (коэффициент кластеризации) [3,11].
1.2. Определение весов узлов и ребер графа G(T). Выделим два случая:
1) рассматриваемая пара узлов паросочетания включает в себя узел, принадлежащий графу G(T) (например, пара са на рисунке 1);
2) пара узлов содержит только узлы, не принадлежащие графу G(T)
(например, пара с^ на том же рисунке).
Случай 1. Пусть рассматриваемая пара включает в себя узел (или мультиузел) Са є С(Т) и узел (или мультиузел) с“ £ С(Т), веса которых равны
соответственно, а атрибуты ребра (с“, с“) определяется парой (/“■; ). Отметим, что во веденных обозначениях надиндекс а указывает на
то, что в процессе огрубления графа G(O) веса его узлов и ребер, вообще
говоря, изменяются. Здесь и далее в данном разделе для простоты записи индекс Т в обозначениях опущен.
Будем полагать, что в процессе стягивания узлов с“, с“ узел с“ стягивается к с“, так что в результате получается мультиузел с“+1 є С(Т), вес которого равен ча+1. Условно результат данной процедуры будем записывать
некоторой положительной возрастающей функций своих аргументов , wai,
и такой же убывающей функций аргумента 1“-. В простейшем случае в качестве такой функции может быть использована функция вида
в виде <+1 = < 0 с- .
Логично исходить из того, что вес wf +1 = w(jl +1(w“, w- , 1“- , V) является
(2)
В результате стягивания узла с“ к узлу с“ атрибуты ребер, инцидентных
узлу с“, не меняются, а значения атрибутов ребер, инцидентных узлу с“, должны быть по некоторому правилу изменены. Рассмотрим одно из таких ребер (с “, сар), атрибуты которого равны (/“ ; ). Это ребро заменяется на
ребро (с?+1 = с? © с?, ср+1 = ср), которому соответствуют атрибуты (/“р1; У^р1).
Естественно положить, что длина ребра (с“+1, ср+1) равна
/ а +1 = / а + / а
1 ,р =1 ,і + Ч ,р,
т.е. на длину ребра (с“,с“) превышает длину ребра (с“,ср). Логично также
принять, что вес ребра у^р1 = vгap1(vгa/, Vа: р) является некоторой положительной
возрастающей функцией своих аргументов. В простейшем случае можно положить
= Л + Х2уаир. (3)
Схему рассмотренного алгоритма иллюстрирует рисунок 2. Здесь принято, что
V а-
+1 (ч ?, /“,, V?ч , (4)
■ 4 1 ’ ] ’ г,7 ’ г,77 * ] і а ’ 47
1 ,У
ут;1=+у“р. (5)
Случай 2. Положим, что оба узла рассматриваемой пары (с“, с “) не
принадлежат графу G(T), т.е. когда имеет место ситуация с“,с“ £ С(Т). Как и
ранее, положим, что веса указанных узлов равны , а атрибуты ребра
с, с “) определяется парой (/г“ ; уг“-).
В этом случае также можно считать, что один из узлов (пусть это будет
/у ч / (У \
узел с]-) стягивается к другому узлу (с■ ), так что в результате получается мультиузел с“ +1 = с“ © с“, с"+1 £ С(Т) Как и в предыдущем случае, положим,
что вес этого узла равен w“+1 и представляет собой, например, функцию вида (2).
Рисунок 2 - К стягиванию узла (мультиузла) с® є С(Т) и узла (мультиузла) с0® £ С(Т): квадратиками показаны узлы графа G(T)
В отличие от предыдущего случая, здесь логично положить, что в результате стягивания узла с® к узлу с® меняются значения атрибутов всех
ребер, инцидентных как узлу с®, так и узлу с® . Рассмотрим ребра (с“, сар),
(с®,с®), атрибуты которых равны (/®р;\®р), (®;у®л) соответственно. Эти
ребра заменяются на ребра (с“+1, с‘р+1), (с“+1, с^+1), которым соответствуют
а веса vi р , viq определяются, например, по формуле вида (2).
Отметим, что принятые соглашения могут приводить к нецелым
(6)
значениям расстояний между узлами графа Ga+l, даже если все расстояния между узлами графа Ga являются целыми.
Схему рассмотренного алгоритма иллюстрирует рисунок 3. Здесь принято, что вес узла с®+1 определяется по формуле (4), веса ребер графа Ga+1 -по формуле (5), а расстояние между узлами этого графа - по формуле (6).
а) б)
Рисунок 3 - К стягиванию узлов (мультиузлов) с®,с® £ С(Т)
В результате итерации а в графе Ga+1 могут появиться кратные ребра (см., например, узлы с®, с® на рисунке 1а). Прежде чем переходить к основному циклу итерации (а +1) эти ребра следует объединить. Возникает вопрос, как вычислить значения атрибутов полученного ребра?
Положим, что двумя ребрами связаны узлы с®, с®, и атрибуты этих
ребер равны (/®,®, у®-,®), (/®.,®, V®,.,®). В качестве расстояния между этими узлами
/а +1 і а і а
. - примем минимальное из расстояний /1 і ®, /2 і ®:
/®+1 = Ш1П(/®,®, /®і,-).
В качестве веса V®®1 логично принять сумму весов указанных ребер:
Vа +1 = V?. ■ + V2 -
і,] 1,і,] 2,і,]
Таким образом, после завершения итераций оказываются полностью определенными топология графа G(T), а также веса его узлов wt и значения
Т
атрибутов его ребер (/■,-, vt,-); i, j є [1: n ], i ф j .
Вернемся к использованию в обозначениях весов узлов и атрибутов ребер графа G(T ) индекса T .
Исключим из числа атрибутов ребер графа G(T) расстояния /Jj и модифицируем веса viT, j ребер этого графа: положим, что «новый» вес ребра (сІ, Cj) равен v^j = v(/J-, v^j), где v(/J-, vj,-) - некоторая положительная
убывающая функция расстояния /iT, j и такая же возрастающая функция
T
«старого» веса vi, j . Например, можно принять
T vf,
vL = A jf. (7)
li,J
При необходимости, можно нормировать веса узлов и ребер полученного графа G(T) , например, следующим образом:
T vT
T wi T vi, j T
wi =—[—; vi- = V-; ■,j є[1:n ]; ■ф j .
wv
max max
Здесь wmax = maxwT, vmax = max vT, - максимальный вес узла и ребра в графе
i i, j
G(T) соответственно.
2. Ролевая кластеризация семантических сетей онтологии
и документа
Положим, что выделено k ролей coi, І є [1: k] концептов. Роли coi разбивают все множество концептов C(O) на k непересекающихся «ролевых» кластеров D0, среди которых могут быть и пустые кластеры. Множество концептов, принадлежащих кластеру D0, обозначим C0, так что
k
C (O)=n CO
i =1
Число концептов в кластере DO (или, что то же самое, во множестве сО) обозначим пО. Очевидно, что
Ъп° = пО.
/'=1
Аналогично, роли со( разбивают множество концептов Ст документа Т
т т
на k ролевых кластеров Di , концепты которых образуют множества С
с числом концептов в них, равным пт:
k k
ст = ПСТ; Т.пТ = пт.
/=1 /=1
ОТ О
Кластерам Di , Di поставим в соответствие их семантические сети Si ,
Т Л т л л л
Sj и графы Gt , Gt ; i е [1: k]. Обозначим w, р - вес узла с, р графа Gt , vt
pq
вес ребра графа G(O, связывающего его узлы сг- р, с1ц. Здесь р, ц е [1: п° ^ р ф ц.
P?~l,q • L • 7
Аналогичные обозначения w^, утр q введем для графа GT.
Л Т л т
Г рафы GO, GT , l е [1: k] ролевых кластеров Di , Di могут быть
построены по схеме, рассмотренной в п.1. При этом графы G0 строятся на
основе графа G(O), а графы GT - на основе графа GT.
Отметим, что оценить качество рассмотренной ролевой кластеризации можно, например, с помощью величины, которая называется модулярность (modularity) графа [13].
3. Поисковые образы документа и запроса
Пусть в семантической сети документа T выделены ролевые кластеры
T T
D, и тем или иным образом построены семантические сети этих кластеров S, , а также соответствующие им графы Gt ; l е [1: k]. Положим, что паттерн
проектирования А(Т) = А документа Т имеет k слотов Аі (Т) = Аі и слот Аі соответствует роли соі.
Поисковый образ рассматриваемого документа Т будем представлять
Т Т
в виде k семантических сетей Si , формализованных в виде графов Gi ; і є [1: k] - рисунок 4.
Слоты паттерна А
А А:
Паттерн л Рисунок 4 - Поисковый образ документа Т
Не ограничивая общности рассуждений, положим, что поисковый образ запроса Q формируется паттерном В(е) = [В((е),ге [1: k]}, который также имеет k слотов В{ (Q) = В{.
Введем следующие обозначения:
CQ - множество концептов запроса Q; пе - число концептов во множестве CQ;
D? - ролевые кластеры множества Се, I е [1: k];
се - множество концептов кластера D?,
k
се = Пс,е;
1=1
щ - число концептов в кластере Df ,
£пр = пе;
i=1
SQ - семантическая сеть кластера DQ;
GQ - граф семантической сети SQ;
w
б і, р
- вес узла сбр графа О?;
і ?
вес ребра (с?р,с?) графа 0?.
Здесь р, q є[1: п?К р * q.
Таким образом, поисковый образ запроса б представляет собой k
семантических сетей SQ, формализованных в виде графов О?; і є [1: k] -рисунок 5.
Слоты паттерна В
і
т
Паттерн В Рисунок 5 - Поисковый образ запроса б
Графы О?, і є [1: k] ролевых кластеров D? также могут быть построены по схеме, рассмотренной в п.1 на основе графа 0(0).
4. Релевантность ролевого кластера документа
Можно предложить несколько мер релевантности ролевых кластеров
т
документов, формализующих близость семантических сетей Si поискового образа документа Т и семантических сетей SQ запроса е или, что то же самое, мер близости соответствующих графов Gт', GQ. Обозначим эти меры
г&,sе) = г, .
Определим прежде меру близости концептов множества сО
1 (с1,р, С1Л ) = 1!,рл = т“( У°р.а + ),
где минимум берется по всем возможным цепям с( р , с( а , с( р ,..., с(^, с( ц ,
0
Во множестве СТ найдем для концепта с{ р, такого что С,р е С?,
Т 1
с, р £ С( , концепт с, ц, расстояние которого до концепта с, р равно рц =рц.
Включим полученный концепт с1 во множество D?i. Повторим процедуру для
всех концептов множества С?, которые не принадлежат множеству СТ.
Полученный в результате кластер D?i представляет собой совокупность
концептов множества СТ, не принадлежащих множеству С?, но находящихся ближе всего (в смысле меры I) к этому множеству. Положим, что мощность кластера D?l равна п?(.
Аналогично, для каждого концепта с1 р, такого что с( р е С?, с( р £ СТ,
найдем во множестве СТ \ D?i концепт с1 , расстояние которого до концепта
с1 р равно 1( рц = 1'2р и включим все полученные концепты во множество D2QІ.
Кластер ^?, представляет собой совокупность концептов множества С1, не
принадлежащих множествам С?, D^, , но находящихся ближе всего (в смысле
той же меры I) к кластеру D?i. Мощность кластера D?i равна п?(. И.т.д.
Взаимосвязи кластеров D?, D?i, D?i,..., Dт', D(O иллюстрирует рисунок 6.
Для каждого из концептов с( р е С?, с( р £ СТ и концептов с( е D?
определим функцию ftipq (м^Тц, 1^рц), которая является положительной
возрастающей функцией относительно первого аргумента и такой же убывающей функцией относительно второго аргумента; ? = 1,2,... Примером такой функции может служить функция
Т
Лрл (, Чрл ) = Л!рл = Я1 . (8)
1, рл
Функция л!р формализует уменьшение весов концептов из кластеров D? по мере «удаления» их от кластера D?.
0
Рисунок 6 - К взаимосвязям кластеров DQ, DQІ, DQІ,..., DT', D(i
4.1. Меры, не учитывающие веса концептов и связей между ними.
Мера на основе коэффициента Дайса, используемого при сравнении текстовых документов [14]
„==щар є[«]. (9)
п(0г) + п(О ) щ + п
где п(0б) = пб, п(ОТ) = пТ - числа узлов графов О?, От , соответственно; п(0? п ОТ) - числа узлов, содержащихся как в графе О?, так и в графе От .
Мера (9), по сути, представляет собой относительное число концептов кластера D? , содержащихся в кластере DTІ , и в работе [14] называется мерой
концептуальной близостью графов О?, От .
Здесь и далее полагается, что і є [1: k].
Мера на основе относительной близости графов О?, От [14]
гі 2 =-------------------------------\і" 1 Т = V У є [0,1], (10)
, тґЛ _І_ тґЛ т° _І_ т
2т(О? П ОТ) = 2ш(О°г П ОТ) т(О°) + т(ОТ) т? + ті
где т(О?) = т?, т(ОТ) = тТ - числа ребер, содержащихся в графах О?, ОТ,
соответственно; п(О? п ОТ) - число ребер, содержащихся как в графе О?, так
и в графе ОТ.
Известно, что меры вида (9), (10) сильно зависят от размеров графов [14]. Поэтому целесообразно использовать их следующие модификации,
учитывающие размеры графов О?, ОТ.
Модифицированная мера на основе меры гі 1
2п(О? п ОТ )е, п? + пТ
Г ,3 = <2 Т 1 , (И)
где
Є1
і п]
(12)
пі
Модифицированная мера на основе меры гі 2
. ітОЩе., (13)
т^ + т^
где величина е2 определяется по формуле вида (12).
Очевидно, что при е1 = 1 меры (12), (13) совпадают с мерами гі 1, гі2
соответственно, так что последние меры являются частным случаем мер (9), (10).
Мера, являющаяся расширением меры гі 3
п? п?1
Гі ,5 = Гі ,3 + Л1 0 0 + Л2~п ? V+..... (14)
п? + 4! п? + пй + Щ,
Мера имеет смысл относительного числа узлов графа О?, содержащихся в графе ОТ, и графах О?, О£■,....
Мера, являющаяся расширением меры г 4 и аналогичная мере (14)
т?: т<°і
гі ,6 = гі ,4 + Л1~п 1~а + Л2~п ? ?+.... (15)
т^ + тЦ ту + тЦ + т^-
Здесь т?,^. - число ребер, содержащихся в графе О? ; ґ = 1,2,...
Отметим, что, очевидно, меры (14), (15) являются частными случаями мер
(11), (13).
На основе мер (9) - (11), (13) - (15) легко сконструировать меры, которые учитывают только «сильные» узлы и ребра в графах О?, О?, О?і ,...., т.е. узлы
и ребра, веса которых превышают некоторые заданные величины [15].
Аддитивная свертка мер гі 5, гі6
Гі ,7 = Л1 Г ,5 + Л2 Гі ,6, (16)
включающая в себя все рассмотренные выше меры.
4.2. Меры, учитывающие веса концептов и связей между ними.
Взвешенная мера на основе меры г 1
2Х w?а
Гі,8 = д ^ Т є [0,1], (17)
X + X ^-,у
где индекс пробегает номера узлов, принадлежащих пересечению графов О? п ОТ , что условно будем записывать в виде а є [1: п(О° ПОТ)]; индексы Р,
у пробегают номера узлов [1: п? ], [1: пТ ] соответственно.
Очевидно, что мера (17) эквивалентна мере (9), если принять следующие соглашения: w? а = 1 при а є [1: пО? П ОТ)]; w<2а = 0 - в противном случае;
Т Т
wi р = 1, wiу = 1. Таким образом, меру (9) можно считать частным случаем меры
(17).
Взвешенная мера на основе меры г 2
2Х V? а р
п,9 = е а Т є [0,1], (18)
Х Vi,у,s ^ Х '^і,Р,%
где, аналогично (17), а, Рє[1: п(О° П ОТ)], у,Sє[1: п? ], р,/є[1: пТ ]; а ф Р,
у ф S, р ф / . Легко видеть, что мера (18) является частным случаем меры (10).
Модифицированная мера на основе меры гі 8
2Х w^а а
Гг ,10 = е і О. Т . (19)
X Щр +Х wi,у
Модифицированная мера на основе меры г
і ,9
2Х V? а РЬ
Г',11 = ^ д 'оР Т . (20)
X V- ^ + X V
/—і і,у£ ' 1,ф,%
Мера, являющаяся расширением меры г
і ,10
о X ^ ,р , X ^і ,у
гі ,12 = гі,10 + з ^ ? + 22 „ ? ? ? + ...., (21)
X <+X к,р X W'^іа+X wli ,р+X w2,',у
где є [1: п(О? п ОТ)]; индекс Р пробегает номера узлов, принадлежащих графу о?' , что условно будем записывать в виде Рє[1: п(О°)]; аналогично ує[1: п(0£-)].
Мера, являющаяся расширением меры г 11
X V2■ X V2■
г = г , 7 __________________^ ^,у,s_____________ , 2 __________________ 1’1 ,р,%___________________+ (22)
гі ,13“ гі ,11+л1 ? ? +Л2 е е е +...., (22)
X V я + X X V й + X ^ * + X V*
^ і,а ,р ^ 1,і ,у,S ^ і,а ,р ^ 1,і ,у£ 2,г,р.х
аналогичная мере (21). Здесь а , Ре[1: п(Э? ^ Gт')], /,5е[1: п(0?()],
^ же [1: п(^^2?,г)]; а * р , Г * ^ ^ * ж Аддитивная свертка мер г, 12, г, 13
Г,,14 = Л1 Г,,12 + ЛГ,13 , (23)
включающая в себя все рассмотренные выше меры (17) - (22).
Модифицированная мера на основе меры г, 10
Г15 = гі10 + \----^ 1,р,у 1 + Л2---------------------------------------?-+...., (24)
і " X *?+x./;lр,у X w^a+x і1,р,у+x і р
где а є[1:п(0?поТ^ р,ує[1:n(08)], р,жє[1:п(02°і)]; а фр, уфs, рф^.
Меры (17) - (24) также легко модифицировать, учитывая только
«сильные» узлы и ребра в графах О?, О?-, О? і,.... [15]. Значительное число
мер релевантности ролевого кластера документа может быть построено на основе мер семантической близости в сетях документов [16].
5. Оценка релевантности документа
Пусть поисковый образ документа Т представлен паттерном
проектирования А = {Аі, і є [1: k]}, слотам которого Аі, і є [1: k] соответствуют
ТТ
семантические сети S і , формализованные в виде графов 0{ - рисунок 4.
Пусть, аналогично, поисковый образ запроса ? сформирован в виде паттерна В = {в' , і є [1: k]}, который представляет собой совокупность k семантических
сетей SQ, формализованных в виде графов О? - рисунок 5.
Обозначим R(T,?) = R(r12,г2?,...,г°) релевантность документа Т запросу
?, где R(r12,г?,...,г?) - некоторая неотрицательная вещественно значная возрастающая функция всех своих аргументов, например,
, ,... Г° ) = X Л г? . (25)
і=1
Нормировать величину R(r12,г?,...,г?) можно, отнеся ее к сумме релевантностей всех рассматриваемых документов базы знаний.
Общая схема предлагаемой методики оценки релевантности документа Т имеет вид, представленный на рисунке 7.
Определение релевантности (25) можно расширить путем учета
априорной «значимости» документа Т , которую можно построить, например,
ОТТ о
на основе мер , S і ) = ^г- близости семантических сетей S і онтологии и
Т
семантических сетей Si документа Т или, что то же самое, мер близости
соответствующих графов ОО, ОТ; і є [1: k]. Так в качестве меры /лт значимости документа Т можно использовать подходящим образом нормированную взвешенную сумму мер Л,Л,...,/л'Т :
лТ =x ЛлТ
=1
(26)
5(0)
Кластеризация семантической сети онтологии
5(0)
Построение семантической сети документа
Кластеризация семантической сети документа
5(0)
ші 5(1) I 5(0) щ в
' ' г 1 . Г ' ( ' ' 1
Кластеризация семантической сети запроса
$ 11 ч Оценка релевантности
Оценка значимости кластеров
документа семантической сети
документа
Оценка релевантности документа
тв)
Рисунок 7 - Схема оценки релевантности документа
Т
С учетом меры л формула (25) модифицируется следующим образом:
, ,...г°, лт) = лт XЛ г° . (27)
=1
Отметим, что формулы (25), (27) не учитывают эффективность решений, которые содержатся в документе Т. На основе опыта эксплуатации рассматриваемой базы знаний эта эффективность может быть оценена лицом, принимающим решения и сохранена в базе знаний.
Заключение
Предложенная в работе методика оценки релевантности документов обладает высокой вычислительной сложностью. Подавляющая часть требуемых вычислительных затрат обусловлена выполнением следующих работ.
Во-первых, для каждого из документов Т базы знаний методика требует построения соответствующей семантической сети £ (Т), а также построения
семантической сети , е [1: k] каждого из слотов поискового образа
документа (паттерна проектирования). Если онтология предметной области фиксирована, то эта работа выполняется лишь однажды, при помещении документа в базу знаний.
Во-вторых, методика требует построения аналогичных семантических
сетей 8° онтологии рассматриваемой предметной области. Опять же, если онтология предметной области фиксирована, то эта работа выполняется лишь однократно.
В-третьих, в соответствии с методикой для каждого из запросов Q также
требуется формирование семантических сетей 8®. Данная работа должна выполняться системой управления базой знаний при обработке каждого из запросов.
В работе широко используется аддитивная скалярная свертка (см., например, формулы (1), (2), (3), (7) и т.д.). Очевидно, что наряду с аддитивными свертками могут быть использованы и иные, например, мультипликативные свертки или их комбинация [17].
Основная задача работы - задача определения релевантности документа -является, по сути, задачей многокритериальной (точнее - k -критериальной)
оптимизации - см. формулы (25), (27). Использованный при решении этой задачи метод аддитивной скалярной свертки является простейшим и далеко не всегда эффективным методом решения многокритериальных задач. Поэтому представляет интерес исследование целесообразности использования других, более «тонких» методов решения указанной многокритериальной задачи [17].
Широкое использование сверток приводит к тому, что методика содержит большое число свободных параметров (см. формулы (1), (2), (3), (7) и т.д.). Имеется немного содержательных оснований для априорного выбора значений этих параметров. Поэтому представляется перспективным ставить задачу определения их значений, как задачу метаоптимизации [18]. Отметим, что при этом в базе знаний требуется хранить оценки успешности поиска, сформированные лицом, принимающим решения.
Одной из проблем, которая возникает при использовании рассмотренного подхода к определению релевантности документов, является проблема лексической многозначности терминов. Правильное значение многозначного слова может быть установлено только путем анализа контекста, в котором это слово упоминается. Известен ряд методов решения данной задачи, например, методы, основанные на использовании Википедии [19].
В развитие работы планируется экспериментальная проверка эффективности предложенной методики.
Автор выражает благодарность И.П. Норенкову за постановку рассмотренной в работе задачи, а также за конструктивные обсуждения подходов к ее решению.
Работа выполнена при поддержке гранта РФФИ 10-07-00401.
Литература
1. И.П. Норенков. Интеллектуальные технологии на базе онтологий // Информационные технологии, 2010, №1, с.17-23.
2. The Dublin Core Metadata Initiative [Электронный ресурс]. (http://dublincore. org/).
3. А.П. Карпенко. Меры важности концептов в семантической сети
онтологической базы знаний [Электронный ресурс] // Наука и образование: электронное научно- техническое издание, 2010, 7.
(http://technomag.edu.ru/doc/l 5ll42.html).
4. G. Karypis, V. Kumar. Multilevel k-way Partitioning Scheme for Irregular Graphs // Journal of Parallel and Distributed Computing, 1998, vol. 8, no. 1, pp. 96-129.
5. ДП. Бувайло, В.А. Толок. Быстрый высокопроизводительный алгоритм для разделения нерегулярных графов // Вісник Запорізького державного університету, 2002, № 2, с. 1 - 10.
6. T. N. Bui, S. Chaudhuri, F. T. Leighton, M. Sipser. Graph bisection algorithms with good average case behavior // Combinatorica, 1987, N7, pp. 171.191.
7. L. Miller Gary, Teng Shang-Hua, A. Vavasis Stephen. A unified geometric approach to graph separators: Proceedings of 31st Annual Symposium on Foundations of Computer Science, 1991, pp. 538 -547.
8. М.Р. Когаловский. Перспективные технологии информационных систем. - М.: ДМК Пресс; М.: Компания АйТи, 2003. - 288 с.
9. G.A. Miller and etc. Wordnet: a lexical database for the english language [Электронный ресурс]. // (http://wordnet.princeton.edu/).
10. E. Gabrilovich, S. Markovitch. Computing semantic relatedness using
wikipedia-based explicit semantic analysis: Proceedings of the Twentieth
International Joint Conference on Artificial Intelligence (IJCAI-07), Hyderabad, India, January 6-12, 2007: AAAI Press, 2007, pp. 1606-1611.
11. Ю.А. Целых. Теоретико-графовые методы анализа нечетких
социальных сетей [Электронный ресурс].
(http://swsys.ru/print/article print.php?id=742).
12. B. Hendrickson, R. Leland. An improved spectral graph partitioning algorithm for mapping parallel computations. Sandia National Laboratories. -Technical Report SAND92-1460, 1992. -P. 192.
13. М. Гринева, Д. Лизоркин. Анализ текстовых документов для извлечения тематически сгруппированных ключевых терминов [Электронный ресурс]. (http://citforum.ru/database/articles/kw_extraction/).
14. М.Ю. Богатырев, В.Е. Латов, И.А. Столбовская. Применение концептуальных графов в системах поддержки электронных библиотек: Труды 9-ой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL’2007, Переславль-Залесский, Россия, 2007. - Т. 2, С. 104-110.
15. Л.И. Бородкин. Математические методы и компьютер в задачах
атрибуции текстов [Электронный ресурс].
(http://www.textology.m/librarv/book.aspx?bookId=11 &textId=13).
16. Dmitry Lizorkin and etc. Accuracy Estimate and Optimization Techniques for SimRank Computation: Proceedings of the 34th International Conference on Very Large Data Bases (VLDB’08). - 2008. - Vol. 1, Issue 1. -pp. 422-433;
17. О.И. Ларичев. Теория и методы принятия решений, а также Хроника событий в Волшебных странах. - М.: Университетская книга, Логос, 2006. -292 с.
18. Hong Zhang, Masumi Ishikawa. Evolutionary Canonical Particle Swarm Optimizer - A Proposal of Meta-Optimization in Model Selection. Berlin : Springer-Verlag, 2008.
19. R. Mihalcea. Using Wikipedia for Automatic Word Sense Disambiguation: Proceedings of the North American Chapter of the Association for Computational Linguistics (NAACL 2007), Rochester, April 2007, pp. 196 - 203.