Научная статья на тему 'Оценка релевантности документов онтологической базы знаний'

Оценка релевантности документов онтологической базы знаний Текст научной статьи по специальности «Математика»

CC BY
298
60
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СЕМАНТИЧЕСКАЯ СЕТЬ / РЕЛЕВАНТНОСТЬ / ОНТОЛОГИЯ
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Оценка релевантности документов онтологической базы знаний»

НАУКА и ОБРАЗОВАНИЕ

Эл N° ФС 77 - 30569. Государственная регистрация №0420900025. 15514 1994-040Е

Оценка релевантности документов онтологической базы знаний # 09, сентябрь 2010 автор: Карпенко А. П.

УДК 519.6

МГТУ им. Н.Э. Баумана, apkarpenko@mail.ru

Введение

Корпоративная база знаний представляет собой, как правило, совокупность разного рода слабоструктурированных документов, в которых с той или иной степенью подробности описаны прецеденты - ситуации и решения, которые были приняты в этих ситуациях. В системах поддержки принятия решений (СППР), которые используют такие базы знаний, поиск решения заключается в поиске в этих базах наиболее подходящих прецедентов и соответствующих им документов [1]. В работе рассматривается поиск решений по атрибутам документов, содержащимся в их метаданных, как альтернатива полнотекстовому поиску.

Классический атрибутивный поиск основывается на использовании в качестве метаданных документа преимущественно его регистрационных атрибутов [2]. В работе рассматривается иной подход к поиску решений в базах знаний прецедентов, когда метаданные формируются на основе онтологии соответствующей предметной области, заданной в виде семантической сети. При этом релевантность документа оценивается близостью в некоторой метрике семантической сети этого документа и семантической сети запроса.

В работе существенно используется «важность» концептов в семантической сети рассматриваемой онтологической базы знаний. Ряд мер этой важности предложен в нашей работе [3].

Важной составной частью предлагаемой методики оценки релевантности документа является построение семантической сети этого документа. В работе данная задача ставится, как задача огрубления графа семантической сети онтологии рассматриваемой предметной области [4,5]. Рассматриваются три метода решения задачи на основе насыщенных паросочетаний - методы, использующие случайные паросочетания, паросочетания из тяжелых ребер, а также паросочетания из тяжелых клик [4, 6,7].

В общей постановке о задаче поиска информации следует говорить в терминах модели поиска, которая включает в себя способ представления документов, способ представления поисковых запросов, вид критерия релевантности документов [8].

В данной работе документы в базе знаний, а также поисковые запросы к базе представляются в виде фреймов, которые называются паттерном проектирования и паттерном запроса соответсвенно. Слоты этих паттернов соответствуют ролям концептов используемой онтологии (предметная область, объект, свойство, действие, задача и т.д.) [1].

Указанные роли разбивают концепты онтологии, документа и запроса к базе знаний на кластеры. Предполагается, что по методике построения семантической сети документа, построены семантические сети указанных кластеров. Таким образом, поисковые образы документа и запроса представляются в виде совокупности семантических сетей, соответствующих слотам паттерна проектирования и паттерна запроса.

В работе предложено несколько мер релевантности ролевых кластеров документа, формализующих близость семантических сетей поискового образа документа и семантических сетей запроса. На основе указанных мер предложен алгоритм оценки релевантности документа запросу.

1. Построение семантической сети документа

Представим семантическую сеть £ (0) рассматриваемой онтологии 0 в виде взвешенного связного мультиграфа G(O). Узлы этого графа

соответствуют концептам множества С (О) = {с-, I е[1: п0 ]}, а ребра - четким бинарным отношениям между ними, каждое из которых принадлежит одному из типов ир,р е [1: т0].

Определены веса w°, I е[1: п0 ] узлов графа G(0), формализующие «важность» соответствующих концептов в сети £ (О). Для каждого из ребер

(сг-,су), I,у е[1: п0], I ф у графа G(0) полагается заданным также (1 х т0)-вектор весов {у0у р, р е[1: т0 ]}, где р = 0, если концепты (сг-, с у) не связаны

между собой отношением типа ир, и у0у р = \°р - в противном случае. Здесь \°р

- априори заданный вес отношений типа ир в онтологии 0.

Некоторые методы определения весов концептов w° и весов отношений

у<0 предложены в работе [3]. Для определения весов концептов может быть

также использована их семантическая близость, полученная с помощью соответствующего словаря [9] или Википедии [10]. Веса концептов могут быть сформированы также на основе понятий центральности по близости и центральности по посредничеству [11].

Перейдем, например, с помощью аддитивной свертки

= Е ЛрУ0у р , р е [1: т0 ] (1)

р

от взвешенного мультиграфа G(0) к взвешенному обыкновенному графу,

в котором вес ребра (сг-, с у) равен . Сохраним за полученным графом

прежнее обозначение. Здесь и далее Лр, р = 1,2,... - положительный скалярный

вещественный множитель, определяющий относительный вес компонентов аддитивной скалярной свертки вида (1).

Аналогично определим семантическую сеть £ (Т) с £ (О) документа Т в виде связного взвешенного обыкновенного графа Є(Т). Узлы этого графа

соответствуют пТ < пО концептам С(Т) с С (О) документа Т, а ребра - связям между ними. Вес узла графа Є(Т), соответствующего концепту сі є С(Т),

т т' т т

обозначим wi , а атрибуты его ребра (сі, су) зададим парой (Іі, у; уг-, у), где /і, у -

«расстояние» между узлами с{, с у, а уг-, у - вес ребра (сі, с у).

В терминах графа Є(Т) задача построения семантической сети документа £ (Т) сводится к решению двух следующих задач.

Задача 1 (задача определения топологии графа G(T)) - по каким правилам связывать узлы этого графа ребрами, т.е. устанавливать связи между концептами множества С (Т)?

Задача 2 (задача определения весов узлов и атрибуты ребер графа G(T)) -исходя из каких соображений, назначать веса wi узлов этого графа, а также

Т Т

атрибуты /■,у, у-,у его ребер?

1.1. Определение топологии графа G(T). В общей постанове эту задачу следует отнести к задаче огрубления графа [4].

Классические методы решения задачи огрубления графа основаны на итерационном стягивании смежных узлов графа Ga в узлы графа Ga+l, где а = 0,1,2,... - номер итерации, Є0 = G(O). В результате этого процесса ребро между двумя вершинами графа Єа удаляется и создается мультиузел графа Єа+1, объединяющий оба стягиваемых узла. Задача огрубления графа Є(О) до графа Є(Т) имеет ту специфику, что ни на одной из итераций указанного

итерационного процесса в один узел не могут быть стянуты те узлы графа Єа , которые принадлежат графу Є(Т).

Обычно задача огрубления графа решается в терминах паросочетаний. Паросочетанием в графе называется набор его ребер, в котором любые два

ребра не инцидентны общему узлу. Таким образом, граф Єа+1 строится на основе графа Єа путем нахождения в графе Єа паросочетания и стягивания в мультиузел узлов, входящих в каждую из пар этого паросочетания. Непарные

узлы графа Єа просто копируются в граф Єа+1. Важно, что граф, огрубленный с использованием паросочетаний, сохраняет многие свойства исходного графа.

Так, например, если граф Є0 является планарным, то граф Єа также планарен [12].

В терминах паросочетаний специфика нашего случая состоит в том, что любая пара узлов каждого из паросочетаний не может включать в себя одновременно два узла графа Є(Т).

С точки зрения повышения эффективности процесса огрубления графа, целесообразно использовать насыщенные паросочетания - паросочетания в которых хотя бы один узел любого ребра, не вошедшего в паросочетание, инцидентен ребру, вошедшему в паросочетание. Вообще говоря, с той же точки желательным является использование максимальных паросочетаний -насыщенных паросочетаний, которые имеют максимальное число ребер. Однако, вычислительная сложность формирования максимальных паросочетаний, в общем случае, значительно выше аналогичной вычислительной сложности для просто насыщенных паросочетаний. Поэтому обычно в вычислительной практике ограничиваются последними [7].

Утверждение 1. Оценка снизу количества итераций, необходимых для построения графа Є(Т) с использованием насыщенных паросочетаний равна п°/

V /п

Справедливость утверждения следует из того факта, что при использовании насыщенных паросочетаний число узлов графа Єа+1 не может быть, очевидно, меньше половины числа узлов графа Єа .

Наиболее известны три следующих метода построения насыщенных паросочетаний: случайное паросочетание (RM); паросочетание из тяжелых ребер (HEM); паросочетание из тяжелых клик (HCM) [5].

Случайное паросочетание на итерации а строится по следующей схеме:

1) все узлы Ca текущего графа G(X объявляем немаркированными;

2) случайным образом выбираем немаркированный узел, еще не включенный в паросочетание - пусть это будет узле cj;

3) из числа немаркированных узлов, смежных узлу ct , случайным образом выбираем узел (пусть это будет узел cаi), также еще не включенный в паросочетание;

4) если оба узла или один из узлов пары cj, cj не принадлежат графу

G(T), то включаем ребро (cj , cj) в паросочетание, и узлы cj, cj маркируем;

5) если ни одного немаркированного узла, смежного узлу cj, не существует, то узел cj маркируем и оставляем свободным (чтобы затем перенести его в граф G®+1);

6) если в графе Ga имеются еще немаркированные узлы, то переходим к шагу 2.

Данную схему иллюстрирует рисунок 1, на котором слева показан граф

Ga_1 и сформированное на его основе паросочетание, а справа - граф Ga .

Паросочетание из тяжелых ребер. Схема построения этого паросочетания отличается от рассмотренной выше схемы шагом З, который в данном случае формулируется следующим образом. Из числа немаркированных узлов, смежных узлу cj, выбираем такой узел cj, еще не

включенный в паросочетание, что вес ребра (cj, cj) является максимальным

среди весов всех возможных ребер, связанных с узлом cj.

а) б)

Рисунок 1 - К методу случайных паросочетаний: квадратиками показаны узлы

графа Є(Т): а) граф Єа~1; б) граф Єа

Паросочетание из тяжелых клик. В данном случае также меняется только шаг 3 рассмотренной схемы формирования случайного паросочетания:

из числа немаркированных узлов, смежных узлу с“, выбираем такой узел с(а,

еще не включенный в паросочетание, что реберная плотность мультиузла,

который получается стягиванием узлов с“, с(а, является максимально

возможной по сравнению со всеми иными вариантами выбора узла с^ .

Итерации во всех рассмотренных методах формирования паросочетания заканчиваются, когда в результате данной итерации не удалось выделить ни одной пары узлов. Другими словами, итерации заканчиваются, если в текущем

графе Єа содержатся только узлы графа Є(Т).

Отметим следующее обстоятельство. В силу наличия элемента случайности при формировании паросочетаний, различные итерационные процессы порождают, вообще говоря, графы Є(Т), имеющие различную топологию. Таким образом, возникает задача получения в некотором смысле наилучшего графа Є(Т). При этом в качестве максимизируемого критерия

оптимальности графа можно использовать, например, его реберную плотность (коэффициент кластеризации) [3,11].

1.2. Определение весов узлов и ребер графа G(T). Выделим два случая:

1) рассматриваемая пара узлов паросочетания включает в себя узел, принадлежащий графу G(T) (например, пара са на рисунке 1);

2) пара узлов содержит только узлы, не принадлежащие графу G(T)

(например, пара с^ на том же рисунке).

Случай 1. Пусть рассматриваемая пара включает в себя узел (или мультиузел) Са є С(Т) и узел (или мультиузел) с“ £ С(Т), веса которых равны

соответственно, а атрибуты ребра (с“, с“) определяется парой (/“■; ). Отметим, что во веденных обозначениях надиндекс а указывает на

то, что в процессе огрубления графа G(O) веса его узлов и ребер, вообще

говоря, изменяются. Здесь и далее в данном разделе для простоты записи индекс Т в обозначениях опущен.

Будем полагать, что в процессе стягивания узлов с“, с“ узел с“ стягивается к с“, так что в результате получается мультиузел с“+1 є С(Т), вес которого равен ча+1. Условно результат данной процедуры будем записывать

некоторой положительной возрастающей функций своих аргументов , wai,

и такой же убывающей функций аргумента 1“-. В простейшем случае в качестве такой функции может быть использована функция вида

в виде <+1 = < 0 с- .

Логично исходить из того, что вес wf +1 = w(jl +1(w“, w- , 1“- , V) является

(2)

В результате стягивания узла с“ к узлу с“ атрибуты ребер, инцидентных

узлу с“, не меняются, а значения атрибутов ребер, инцидентных узлу с“, должны быть по некоторому правилу изменены. Рассмотрим одно из таких ребер (с “, сар), атрибуты которого равны (/“ ; ). Это ребро заменяется на

ребро (с?+1 = с? © с?, ср+1 = ср), которому соответствуют атрибуты (/“р1; У^р1).

Естественно положить, что длина ребра (с“+1, ср+1) равна

/ а +1 = / а + / а

1 ,р =1 ,і + Ч ,р,

т.е. на длину ребра (с“,с“) превышает длину ребра (с“,ср). Логично также

принять, что вес ребра у^р1 = vгap1(vгa/, Vа: р) является некоторой положительной

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

возрастающей функцией своих аргументов. В простейшем случае можно положить

= Л + Х2уаир. (3)

Схему рассмотренного алгоритма иллюстрирует рисунок 2. Здесь принято, что

V а-

+1 (ч ?, /“,, V?ч , (4)

■ 4 1 ’ ] ’ г,7 ’ г,77 * ] і а ’ 47

1 ,У

ут;1=+у“р. (5)

Случай 2. Положим, что оба узла рассматриваемой пары (с“, с “) не

принадлежат графу G(T), т.е. когда имеет место ситуация с“,с“ £ С(Т). Как и

ранее, положим, что веса указанных узлов равны , а атрибуты ребра

с, с “) определяется парой (/г“ ; уг“-).

В этом случае также можно считать, что один из узлов (пусть это будет

/у ч / (У \

узел с]-) стягивается к другому узлу (с■ ), так что в результате получается мультиузел с“ +1 = с“ © с“, с"+1 £ С(Т) Как и в предыдущем случае, положим,

что вес этого узла равен w“+1 и представляет собой, например, функцию вида (2).

Рисунок 2 - К стягиванию узла (мультиузла) с® є С(Т) и узла (мультиузла) с0® £ С(Т): квадратиками показаны узлы графа G(T)

В отличие от предыдущего случая, здесь логично положить, что в результате стягивания узла с® к узлу с® меняются значения атрибутов всех

ребер, инцидентных как узлу с®, так и узлу с® . Рассмотрим ребра (с“, сар),

(с®,с®), атрибуты которых равны (/®р;\®р), (®;у®л) соответственно. Эти

ребра заменяются на ребра (с“+1, с‘р+1), (с“+1, с^+1), которым соответствуют

а веса vi р , viq определяются, например, по формуле вида (2).

Отметим, что принятые соглашения могут приводить к нецелым

(6)

значениям расстояний между узлами графа Ga+l, даже если все расстояния между узлами графа Ga являются целыми.

Схему рассмотренного алгоритма иллюстрирует рисунок 3. Здесь принято, что вес узла с®+1 определяется по формуле (4), веса ребер графа Ga+1 -по формуле (5), а расстояние между узлами этого графа - по формуле (6).

а) б)

Рисунок 3 - К стягиванию узлов (мультиузлов) с®,с® £ С(Т)

В результате итерации а в графе Ga+1 могут появиться кратные ребра (см., например, узлы с®, с® на рисунке 1а). Прежде чем переходить к основному циклу итерации (а +1) эти ребра следует объединить. Возникает вопрос, как вычислить значения атрибутов полученного ребра?

Положим, что двумя ребрами связаны узлы с®, с®, и атрибуты этих

ребер равны (/®,®, у®-,®), (/®.,®, V®,.,®). В качестве расстояния между этими узлами

/а +1 і а і а

. - примем минимальное из расстояний /1 і ®, /2 і ®:

/®+1 = Ш1П(/®,®, /®і,-).

В качестве веса V®®1 логично принять сумму весов указанных ребер:

Vа +1 = V?. ■ + V2 -

і,] 1,і,] 2,і,]

Таким образом, после завершения итераций оказываются полностью определенными топология графа G(T), а также веса его узлов wt и значения

Т

атрибутов его ребер (/■,-, vt,-); i, j є [1: n ], i ф j .

Вернемся к использованию в обозначениях весов узлов и атрибутов ребер графа G(T ) индекса T .

Исключим из числа атрибутов ребер графа G(T) расстояния /Jj и модифицируем веса viT, j ребер этого графа: положим, что «новый» вес ребра (сІ, Cj) равен v^j = v(/J-, v^j), где v(/J-, vj,-) - некоторая положительная

убывающая функция расстояния /iT, j и такая же возрастающая функция

T

«старого» веса vi, j . Например, можно принять

T vf,

vL = A jf. (7)

li,J

При необходимости, можно нормировать веса узлов и ребер полученного графа G(T) , например, следующим образом:

T vT

T wi T vi, j T

wi =—[—; vi- = V-; ■,j є[1:n ]; ■ф j .

wv

max max

Здесь wmax = maxwT, vmax = max vT, - максимальный вес узла и ребра в графе

i i, j

G(T) соответственно.

2. Ролевая кластеризация семантических сетей онтологии

и документа

Положим, что выделено k ролей coi, І є [1: k] концептов. Роли coi разбивают все множество концептов C(O) на k непересекающихся «ролевых» кластеров D0, среди которых могут быть и пустые кластеры. Множество концептов, принадлежащих кластеру D0, обозначим C0, так что

k

C (O)=n CO

i =1

Число концептов в кластере DO (или, что то же самое, во множестве сО) обозначим пО. Очевидно, что

Ъп° = пО.

/'=1

Аналогично, роли со( разбивают множество концептов Ст документа Т

т т

на k ролевых кластеров Di , концепты которых образуют множества С

с числом концептов в них, равным пт:

k k

ст = ПСТ; Т.пТ = пт.

/=1 /=1

ОТ О

Кластерам Di , Di поставим в соответствие их семантические сети Si ,

Т Л т л л л

Sj и графы Gt , Gt ; i е [1: k]. Обозначим w, р - вес узла с, р графа Gt , vt

pq

вес ребра графа G(O, связывающего его узлы сг- р, с1ц. Здесь р, ц е [1: п° ^ р ф ц.

P?~l,q • L • 7

Аналогичные обозначения w^, утр q введем для графа GT.

Л Т л т

Г рафы GO, GT , l е [1: k] ролевых кластеров Di , Di могут быть

построены по схеме, рассмотренной в п.1. При этом графы G0 строятся на

основе графа G(O), а графы GT - на основе графа GT.

Отметим, что оценить качество рассмотренной ролевой кластеризации можно, например, с помощью величины, которая называется модулярность (modularity) графа [13].

3. Поисковые образы документа и запроса

Пусть в семантической сети документа T выделены ролевые кластеры

T T

D, и тем или иным образом построены семантические сети этих кластеров S, , а также соответствующие им графы Gt ; l е [1: k]. Положим, что паттерн

проектирования А(Т) = А документа Т имеет k слотов Аі (Т) = Аі и слот Аі соответствует роли соі.

Поисковый образ рассматриваемого документа Т будем представлять

Т Т

в виде k семантических сетей Si , формализованных в виде графов Gi ; і є [1: k] - рисунок 4.

Слоты паттерна А

А А:

Паттерн л Рисунок 4 - Поисковый образ документа Т

Не ограничивая общности рассуждений, положим, что поисковый образ запроса Q формируется паттерном В(е) = [В((е),ге [1: k]}, который также имеет k слотов В{ (Q) = В{.

Введем следующие обозначения:

CQ - множество концептов запроса Q; пе - число концептов во множестве CQ;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

D? - ролевые кластеры множества Се, I е [1: k];

се - множество концептов кластера D?,

k

се = Пс,е;

1=1

щ - число концептов в кластере Df ,

£пр = пе;

i=1

SQ - семантическая сеть кластера DQ;

GQ - граф семантической сети SQ;

w

б і, р

- вес узла сбр графа О?;

і ?

вес ребра (с?р,с?) графа 0?.

Здесь р, q є[1: п?К р * q.

Таким образом, поисковый образ запроса б представляет собой k

семантических сетей SQ, формализованных в виде графов О?; і є [1: k] -рисунок 5.

Слоты паттерна В

і

т

Паттерн В Рисунок 5 - Поисковый образ запроса б

Графы О?, і є [1: k] ролевых кластеров D? также могут быть построены по схеме, рассмотренной в п.1 на основе графа 0(0).

4. Релевантность ролевого кластера документа

Можно предложить несколько мер релевантности ролевых кластеров

т

документов, формализующих близость семантических сетей Si поискового образа документа Т и семантических сетей SQ запроса е или, что то же самое, мер близости соответствующих графов Gт', GQ. Обозначим эти меры

г&,sе) = г, .

Определим прежде меру близости концептов множества сО

1 (с1,р, С1Л ) = 1!,рл = т“( У°р.а + ),

где минимум берется по всем возможным цепям с( р , с( а , с( р ,..., с(^, с( ц ,

0

Во множестве СТ найдем для концепта с{ р, такого что С,р е С?,

Т 1

с, р £ С( , концепт с, ц, расстояние которого до концепта с, р равно рц =рц.

Включим полученный концепт с1 во множество D?i. Повторим процедуру для

всех концептов множества С?, которые не принадлежат множеству СТ.

Полученный в результате кластер D?i представляет собой совокупность

концептов множества СТ, не принадлежащих множеству С?, но находящихся ближе всего (в смысле меры I) к этому множеству. Положим, что мощность кластера D?l равна п?(.

Аналогично, для каждого концепта с1 р, такого что с( р е С?, с( р £ СТ,

найдем во множестве СТ \ D?i концепт с1 , расстояние которого до концепта

с1 р равно 1( рц = 1'2р и включим все полученные концепты во множество D2QІ.

Кластер ^?, представляет собой совокупность концептов множества С1, не

принадлежащих множествам С?, D^, , но находящихся ближе всего (в смысле

той же меры I) к кластеру D?i. Мощность кластера D?i равна п?(. И.т.д.

Взаимосвязи кластеров D?, D?i, D?i,..., Dт', D(O иллюстрирует рисунок 6.

Для каждого из концептов с( р е С?, с( р £ СТ и концептов с( е D?

определим функцию ftipq (м^Тц, 1^рц), которая является положительной

возрастающей функцией относительно первого аргумента и такой же убывающей функцией относительно второго аргумента; ? = 1,2,... Примером такой функции может служить функция

Т

Лрл (, Чрл ) = Л!рл = Я1 . (8)

1, рл

Функция л!р формализует уменьшение весов концептов из кластеров D? по мере «удаления» их от кластера D?.

0

Рисунок 6 - К взаимосвязям кластеров DQ, DQІ, DQІ,..., DT', D(i

4.1. Меры, не учитывающие веса концептов и связей между ними.

Мера на основе коэффициента Дайса, используемого при сравнении текстовых документов [14]

„==щар є[«]. (9)

п(0г) + п(О ) щ + п

где п(0б) = пб, п(ОТ) = пТ - числа узлов графов О?, От , соответственно; п(0? п ОТ) - числа узлов, содержащихся как в графе О?, так и в графе От .

Мера (9), по сути, представляет собой относительное число концептов кластера D? , содержащихся в кластере DTІ , и в работе [14] называется мерой

концептуальной близостью графов О?, От .

Здесь и далее полагается, что і є [1: k].

Мера на основе относительной близости графов О?, От [14]

гі 2 =-------------------------------\і" 1 Т = V У є [0,1], (10)

, тґЛ _І_ тґЛ т° _І_ т

2т(О? П ОТ) = 2ш(О°г П ОТ) т(О°) + т(ОТ) т? + ті

где т(О?) = т?, т(ОТ) = тТ - числа ребер, содержащихся в графах О?, ОТ,

соответственно; п(О? п ОТ) - число ребер, содержащихся как в графе О?, так

и в графе ОТ.

Известно, что меры вида (9), (10) сильно зависят от размеров графов [14]. Поэтому целесообразно использовать их следующие модификации,

учитывающие размеры графов О?, ОТ.

Модифицированная мера на основе меры гі 1

2п(О? п ОТ )е, п? + пТ

Г ,3 = <2 Т 1 , (И)

где

Є1

і п]

(12)

пі

Модифицированная мера на основе меры гі 2

. ітОЩе., (13)

т^ + т^

где величина е2 определяется по формуле вида (12).

Очевидно, что при е1 = 1 меры (12), (13) совпадают с мерами гі 1, гі2

соответственно, так что последние меры являются частным случаем мер (9), (10).

Мера, являющаяся расширением меры гі 3

п? п?1

Гі ,5 = Гі ,3 + Л1 0 0 + Л2~п ? V+..... (14)

п? + 4! п? + пй + Щ,

Мера имеет смысл относительного числа узлов графа О?, содержащихся в графе ОТ, и графах О?, О£■,....

Мера, являющаяся расширением меры г 4 и аналогичная мере (14)

т?: т<°і

гі ,6 = гі ,4 + Л1~п 1~а + Л2~п ? ?+.... (15)

т^ + тЦ ту + тЦ + т^-

Здесь т?,^. - число ребер, содержащихся в графе О? ; ґ = 1,2,...

Отметим, что, очевидно, меры (14), (15) являются частными случаями мер

(11), (13).

На основе мер (9) - (11), (13) - (15) легко сконструировать меры, которые учитывают только «сильные» узлы и ребра в графах О?, О?, О?і ,...., т.е. узлы

и ребра, веса которых превышают некоторые заданные величины [15].

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Аддитивная свертка мер гі 5, гі6

Гі ,7 = Л1 Г ,5 + Л2 Гі ,6, (16)

включающая в себя все рассмотренные выше меры.

4.2. Меры, учитывающие веса концептов и связей между ними.

Взвешенная мера на основе меры г 1

2Х w?а

Гі,8 = д ^ Т є [0,1], (17)

X + X ^-,у

где индекс пробегает номера узлов, принадлежащих пересечению графов О? п ОТ , что условно будем записывать в виде а є [1: п(О° ПОТ)]; индексы Р,

у пробегают номера узлов [1: п? ], [1: пТ ] соответственно.

Очевидно, что мера (17) эквивалентна мере (9), если принять следующие соглашения: w? а = 1 при а є [1: пО? П ОТ)]; w<2а = 0 - в противном случае;

Т Т

wi р = 1, wiу = 1. Таким образом, меру (9) можно считать частным случаем меры

(17).

Взвешенная мера на основе меры г 2

2Х V? а р

п,9 = е а Т є [0,1], (18)

Х Vi,у,s ^ Х '^і,Р,%

где, аналогично (17), а, Рє[1: п(О° П ОТ)], у,Sє[1: п? ], р,/є[1: пТ ]; а ф Р,

у ф S, р ф / . Легко видеть, что мера (18) является частным случаем меры (10).

Модифицированная мера на основе меры гі 8

2Х w^а а

Гг ,10 = е і О. Т . (19)

X Щр +Х wi,у

Модифицированная мера на основе меры г

і ,9

2Х V? а РЬ

Г',11 = ^ д 'оР Т . (20)

X V- ^ + X V

/—і і,у£ ' 1,ф,%

Мера, являющаяся расширением меры г

і ,10

о X ^ ,р , X ^і ,у

гі ,12 = гі,10 + з ^ ? + 22 „ ? ? ? + ...., (21)

X <+X к,р X W'^іа+X wli ,р+X w2,',у

где є [1: п(О? п ОТ)]; индекс Р пробегает номера узлов, принадлежащих графу о?' , что условно будем записывать в виде Рє[1: п(О°)]; аналогично ує[1: п(0£-)].

Мера, являющаяся расширением меры г 11

X V2■ X V2■

г = г , 7 __________________^ ^,у,s_____________ , 2 __________________ 1’1 ,р,%___________________+ (22)

гі ,13“ гі ,11+л1 ? ? +Л2 е е е +...., (22)

X V я + X X V й + X ^ * + X V*

^ і,а ,р ^ 1,і ,у,S ^ і,а ,р ^ 1,і ,у£ 2,г,р.х

аналогичная мере (21). Здесь а , Ре[1: п(Э? ^ Gт')], /,5е[1: п(0?()],

^ же [1: п(^^2?,г)]; а * р , Г * ^ ^ * ж Аддитивная свертка мер г, 12, г, 13

Г,,14 = Л1 Г,,12 + ЛГ,13 , (23)

включающая в себя все рассмотренные выше меры (17) - (22).

Модифицированная мера на основе меры г, 10

Г15 = гі10 + \----^ 1,р,у 1 + Л2---------------------------------------?-+...., (24)

і " X *?+x./;lр,у X w^a+x і1,р,у+x і р

где а є[1:п(0?поТ^ р,ує[1:n(08)], р,жє[1:п(02°і)]; а фр, уфs, рф^.

Меры (17) - (24) также легко модифицировать, учитывая только

«сильные» узлы и ребра в графах О?, О?-, О? і,.... [15]. Значительное число

мер релевантности ролевого кластера документа может быть построено на основе мер семантической близости в сетях документов [16].

5. Оценка релевантности документа

Пусть поисковый образ документа Т представлен паттерном

проектирования А = {Аі, і є [1: k]}, слотам которого Аі, і є [1: k] соответствуют

ТТ

семантические сети S і , формализованные в виде графов 0{ - рисунок 4.

Пусть, аналогично, поисковый образ запроса ? сформирован в виде паттерна В = {в' , і є [1: k]}, который представляет собой совокупность k семантических

сетей SQ, формализованных в виде графов О? - рисунок 5.

Обозначим R(T,?) = R(r12,г2?,...,г°) релевантность документа Т запросу

?, где R(r12,г?,...,г?) - некоторая неотрицательная вещественно значная возрастающая функция всех своих аргументов, например,

, ,... Г° ) = X Л г? . (25)

і=1

Нормировать величину R(r12,г?,...,г?) можно, отнеся ее к сумме релевантностей всех рассматриваемых документов базы знаний.

Общая схема предлагаемой методики оценки релевантности документа Т имеет вид, представленный на рисунке 7.

Определение релевантности (25) можно расширить путем учета

априорной «значимости» документа Т , которую можно построить, например,

ОТТ о

на основе мер , S і ) = ^г- близости семантических сетей S і онтологии и

Т

семантических сетей Si документа Т или, что то же самое, мер близости

соответствующих графов ОО, ОТ; і є [1: k]. Так в качестве меры /лт значимости документа Т можно использовать подходящим образом нормированную взвешенную сумму мер Л,Л,...,/л'Т :

лТ =x ЛлТ

=1

(26)

5(0)

Кластеризация семантической сети онтологии

5(0)

Построение семантической сети документа

Кластеризация семантической сети документа

5(0)

ші 5(1) I 5(0) щ в

' ' г 1 . Г ' ( ' ' 1

Кластеризация семантической сети запроса

$ 11 ч Оценка релевантности

Оценка значимости кластеров

документа семантической сети

документа

Оценка релевантности документа

тв)

Рисунок 7 - Схема оценки релевантности документа

Т

С учетом меры л формула (25) модифицируется следующим образом:

, ,...г°, лт) = лт XЛ г° . (27)

=1

Отметим, что формулы (25), (27) не учитывают эффективность решений, которые содержатся в документе Т. На основе опыта эксплуатации рассматриваемой базы знаний эта эффективность может быть оценена лицом, принимающим решения и сохранена в базе знаний.

Заключение

Предложенная в работе методика оценки релевантности документов обладает высокой вычислительной сложностью. Подавляющая часть требуемых вычислительных затрат обусловлена выполнением следующих работ.

Во-первых, для каждого из документов Т базы знаний методика требует построения соответствующей семантической сети £ (Т), а также построения

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

семантической сети , е [1: k] каждого из слотов поискового образа

документа (паттерна проектирования). Если онтология предметной области фиксирована, то эта работа выполняется лишь однажды, при помещении документа в базу знаний.

Во-вторых, методика требует построения аналогичных семантических

сетей 8° онтологии рассматриваемой предметной области. Опять же, если онтология предметной области фиксирована, то эта работа выполняется лишь однократно.

В-третьих, в соответствии с методикой для каждого из запросов Q также

требуется формирование семантических сетей 8®. Данная работа должна выполняться системой управления базой знаний при обработке каждого из запросов.

В работе широко используется аддитивная скалярная свертка (см., например, формулы (1), (2), (3), (7) и т.д.). Очевидно, что наряду с аддитивными свертками могут быть использованы и иные, например, мультипликативные свертки или их комбинация [17].

Основная задача работы - задача определения релевантности документа -является, по сути, задачей многокритериальной (точнее - k -критериальной)

оптимизации - см. формулы (25), (27). Использованный при решении этой задачи метод аддитивной скалярной свертки является простейшим и далеко не всегда эффективным методом решения многокритериальных задач. Поэтому представляет интерес исследование целесообразности использования других, более «тонких» методов решения указанной многокритериальной задачи [17].

Широкое использование сверток приводит к тому, что методика содержит большое число свободных параметров (см. формулы (1), (2), (3), (7) и т.д.). Имеется немного содержательных оснований для априорного выбора значений этих параметров. Поэтому представляется перспективным ставить задачу определения их значений, как задачу метаоптимизации [18]. Отметим, что при этом в базе знаний требуется хранить оценки успешности поиска, сформированные лицом, принимающим решения.

Одной из проблем, которая возникает при использовании рассмотренного подхода к определению релевантности документов, является проблема лексической многозначности терминов. Правильное значение многозначного слова может быть установлено только путем анализа контекста, в котором это слово упоминается. Известен ряд методов решения данной задачи, например, методы, основанные на использовании Википедии [19].

В развитие работы планируется экспериментальная проверка эффективности предложенной методики.

Автор выражает благодарность И.П. Норенкову за постановку рассмотренной в работе задачи, а также за конструктивные обсуждения подходов к ее решению.

Работа выполнена при поддержке гранта РФФИ 10-07-00401.

Литература

1. И.П. Норенков. Интеллектуальные технологии на базе онтологий // Информационные технологии, 2010, №1, с.17-23.

2. The Dublin Core Metadata Initiative [Электронный ресурс]. (http://dublincore. org/).

3. А.П. Карпенко. Меры важности концептов в семантической сети

онтологической базы знаний [Электронный ресурс] // Наука и образование: электронное научно- техническое издание, 2010, 7.

(http://technomag.edu.ru/doc/l 5ll42.html).

4. G. Karypis, V. Kumar. Multilevel k-way Partitioning Scheme for Irregular Graphs // Journal of Parallel and Distributed Computing, 1998, vol. 8, no. 1, pp. 96-129.

5. ДП. Бувайло, В.А. Толок. Быстрый высокопроизводительный алгоритм для разделения нерегулярных графов // Вісник Запорізького державного університету, 2002, № 2, с. 1 - 10.

6. T. N. Bui, S. Chaudhuri, F. T. Leighton, M. Sipser. Graph bisection algorithms with good average case behavior // Combinatorica, 1987, N7, pp. 171.191.

7. L. Miller Gary, Teng Shang-Hua, A. Vavasis Stephen. A unified geometric approach to graph separators: Proceedings of 31st Annual Symposium on Foundations of Computer Science, 1991, pp. 538 -547.

8. М.Р. Когаловский. Перспективные технологии информационных систем. - М.: ДМК Пресс; М.: Компания АйТи, 2003. - 288 с.

9. G.A. Miller and etc. Wordnet: a lexical database for the english language [Электронный ресурс]. // (http://wordnet.princeton.edu/).

10. E. Gabrilovich, S. Markovitch. Computing semantic relatedness using

wikipedia-based explicit semantic analysis: Proceedings of the Twentieth

International Joint Conference on Artificial Intelligence (IJCAI-07), Hyderabad, India, January 6-12, 2007: AAAI Press, 2007, pp. 1606-1611.

11. Ю.А. Целых. Теоретико-графовые методы анализа нечетких

социальных сетей [Электронный ресурс].

(http://swsys.ru/print/article print.php?id=742).

12. B. Hendrickson, R. Leland. An improved spectral graph partitioning algorithm for mapping parallel computations. Sandia National Laboratories. -Technical Report SAND92-1460, 1992. -P. 192.

13. М. Гринева, Д. Лизоркин. Анализ текстовых документов для извлечения тематически сгруппированных ключевых терминов [Электронный ресурс]. (http://citforum.ru/database/articles/kw_extraction/).

14. М.Ю. Богатырев, В.Е. Латов, И.А. Столбовская. Применение концептуальных графов в системах поддержки электронных библиотек: Труды 9-ой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL’2007, Переславль-Залесский, Россия, 2007. - Т. 2, С. 104-110.

15. Л.И. Бородкин. Математические методы и компьютер в задачах

атрибуции текстов [Электронный ресурс].

(http://www.textology.m/librarv/book.aspx?bookId=11 &textId=13).

16. Dmitry Lizorkin and etc. Accuracy Estimate and Optimization Techniques for SimRank Computation: Proceedings of the 34th International Conference on Very Large Data Bases (VLDB’08). - 2008. - Vol. 1, Issue 1. -pp. 422-433;

17. О.И. Ларичев. Теория и методы принятия решений, а также Хроника событий в Волшебных странах. - М.: Университетская книга, Логос, 2006. -292 с.

18. Hong Zhang, Masumi Ishikawa. Evolutionary Canonical Particle Swarm Optimizer - A Proposal of Meta-Optimization in Model Selection. Berlin : Springer-Verlag, 2008.

19. R. Mihalcea. Using Wikipedia for Automatic Word Sense Disambiguation: Proceedings of the North American Chapter of the Association for Computational Linguistics (NAACL 2007), Rochester, April 2007, pp. 196 - 203.

i Надоели баннеры? Вы всегда можете отключить рекламу.