УДК 681.3.06 ББК 05.13.11
МОДЕЛЬ ИНФОРМАЦИОННОГО ПОИСКА НА ОСНОВЕ СЕМАНТИЧЕСКИХ МЕТАОПИСАНИЙ
Нгуен Ба Нгок1, Тузовский А. Ф.2
(Томский политехнический университет, Томск)
Существующие подходы семантического поиска на основе онтологии, как правило, базируются на оценках концептуальной близости между элементами онтологии. В данной статье представлены методы вычисления оценки семантической близости между триплетами, а также между наборами триплетов. На основе этих оценок семантической близости представлена теоретическая модель семантического поиска, в которой документы и запросы представляются как наборы триплетов.
Ключевые слова: онтология, семантическая близость, семантический поиск, семантические метаописания, модель информационного поиска.
1. Введение
Под метаданными обычно понимаются данные о данных или информация об информации. Однако термин метаданные также используется по-разному в различных областях. В некоторых областях этот термин используется для обозначения машиночитаемой информации, одновременно в других областях термин метаданные используется для обозначения записи описания электронных ресурсов.
1 Нгуен Ба Нгок, аспирант ([email protected]).
2 Анатолий Федрович Тузовский, доктор технических наук, профессор (Томск, ул. Советская 84, тел. (3822) 42-14-85).
Важной причиной создания метаданных является возможность поиска информации с использованием релевантных критериев. Одним из примеров таких систем поиска по метаданным является сервис поиска файлов в операционной системе Windows 7 {рис. 1), в котором для поиска файлов требуются задания значений трех их атрибутов: название, дата создания и размер.
1 |й
“semantic search*
metadata
semantic web
Add a search filter
Date modified: | Size: 1
Рис. 1. Поисковый интерфейс в Windows
Информационный поиск по метаданным также широко применяется для поиска в электронных каталогах библиотек. На рис. 2 представлен интерфейс поиска научно-технической библиотеки ТПУ (http://www.lib.tpu.ru/catalog_arm.html - дата обращения 11.04.2012).
Материалы
Bee ГІ
Монографические —1
Сериальные
Аналитические щ
Автор ---------ЗГ
3
Заглавие —ЗГ
й з
Тематика —31-----------------------------
0 Показывать местонахождение____
Количество извлекаемых записей рЮ Поиск | Просмотр |
Рис. 2. Интерфейс поиска по метаданным
С использованием онтологии в работе [2] предложен метод создания особого вида метаданных - метаописаний документов, представляющих собой наборы простых высказываний вида
«субъект-предикат-объект», которые также называются триплетами и отражают основные семантики описываемых документов.
Отмечается, что такие метаописания являются ценными источниками информации для выполнения поиска и с их применением возможно значительное улучшение функциональности поисковых систем. В связи с этим в данной работе представлено описание модели информационного поиска на основе таких метаописаний, которое является теоретическим обоснованием для последующих программных реализаций. Предлагаемая модель представлена на рис. 3.
Известно, что основными функциями поисковых систем являются: 1) индексирование; 2) формирование запросов; 3) обработка запросов. В предлагаемой модели семантического поиска задача индексирования (1) подразделяется на две подзадачи: аннотирование и индексирование созданных метаданных.
Задача аннотирования заключается в создании семантических метаописаний для имеющихся документов. Семантические метаописания создаются с использованием терминологии онтологии предметной области, которая редактируется с помощью редактора (рис. 3), и могут быть разделены на контекстные и контентные метаданные, которые соответственно описывают контексты и контенты (содержания) объектов-документов. При этом метаописания документов могут быть сформированы без участия человека (автоматическим способом) либо с участием человека (полуавтоматическим либо ручным путем) [2].
Задача индексирования метаданных заключается в сборе метаописаний документов в базах данных системы (которые также называются индексами) для цели эффективного выполнения запросов.
Формирование поисковых запросов (2): с помощью поискового интерфейса системы клиенты формируют свои информационные потребности в виде множеств триплетов - запросы. Формированные запросы затем направляются в подсистему обработки запросов для выполнения.
Рис. 3. Предлагаемая модель информационного поиска
Обработка запросов (3): данная задача заключается в сравнении запросов пользователей (клиентов) с метаописаниями документов индекса. При этом онтология используется как фундаментальный компонент для вычисления оценки семантической близости между ними.
Затем на основе вычисленных оценок близости определяется множество релевантных документов и формируются систем-
ные сообщения, которые затем возвращаются клиентам. При анализе полученных результатов в некоторых случаях уточняются информационные потребности пользователей. В результате этого переформируются поисковые запросы.
Подробные описания проблемы индексирования и структуры индексов представлены в [17]. Далее в данной работе представляется описание предлагаемой модели поиска и алгоритма обработки запросов.
2. Постановка задачи
Определения понятия семантики, семантической близости, и семантического поиска были представлены в работе [7] следующим образом: под семантикой текста обычно понимается его «смысл», который автор текста хотел передать посредством символов, однако для компьютерной системы смысл текста строго зависит от контекста, где он определяется и обрабатывается. В области семантического веба лучшим средством представления семантики является онтология.
Оценкой близости между документом и запросом является числовое значение, которое выражает степень сходства между ними; оценка близости называется оценкой семантической близости, если и только если она определена на основе семантики документов и запросов.
Далее подходом семантического поиска называется подход поиска, в котором используется концепция семантической близости для сопоставления документов заданному запросу.
В данной работе используются следующие упрощенные обозначения компонентов онтологии: онтология О представляет собой знаковую систему О = <С, Е, R, Т>, где С - множество понятий (классов); Е - множество экземпляров понятий; R - множество предикатов - типов отношений; Т - множество отношений, которые задают следующие виды связи между сущностями:
1. Частичный порядок на множествах С и R, задающий отношения is-a - «подкласс-суперкласс» - «выше-ниже».
2. Отношение между понятиями, которое представляет собой триплет вида <c1 - r1 - c2>, где c1, c2 е C; r1 е R.
3. Отношение между экземплярами, которое представляет собой триплет вида <e1 - r1 - e2>, где e1, e2 е E; r1 е R.
4. Отношение между предикатами, которое представляет собой триплет вида <r1 - ri - r2>, где r1, r2, ri е R.
Допустим:
1) На основе онтологии предметной области O для каждого документа di коллекции документов D = {d} созданы семантические метаописания
m(di) = {tb t2, ..., t40}, где n(i) - количество триплетов в логическом представлении документа d¡; ti - RD^-триплеты - кортежи вида {s, pi, o), где si и oi включены в объединение Ci и Ei, а pi включен в R.
2) Каждый запрос q, данный пользователем из множества запросов Q, также состоит из множества триплетов
q {tb t2, •••, tn(q)},
где n(q) - количество триплетов, содержащихся в запросе q.
3) Определена весовая функция w, которая определяет значимость любого триплета t е T (T - множество возможных триплетов) при описании документов di и запроса q:
0 < w(t, d) < 1, где t е T, di е D,
0 < w(t, q) < 1, где t е T, q е Q.
Решаемая задача заключается в том, что для каждого запроса q требуется определить подмножество RES множества документов D, которое состоит из релевантных документов для заданного запроса q - результирующее множество. Документ di считается релевантным заданному запросу q, если и только если оценка семантической близости между ними превышает некоторую пороговую величину. При этом для вычисления близости между документом и запросом используются их семантические метаописания.
3. Модель информационного поиска на основе нечетких множеств
В связи с необходимостью выражения разных степеней значимости триплетов (их весовые коэффициенты) и релевантности между документами и запросами для цели ранжирования результатов, в данной работе используется модель нечеткого множества для описания предлагаемого алгоритма поиска.
3.1. НЕЧЕТКОЕ МНОЖЕСТВО: БАЗОВЫЕ ОПРЕДЕЛЕНИЯ Определение: четкое множество А определяется характеристической функцией fA, которая назначает каждому элементу и универсального множества и единственное значение из множества {0, 1} следующим образом:
fA: и^ {0, 1},
и
Г1,если и е А,
!А(и) = Г
[0, если иначе.
Функция fA различает элементы множества А от тех элементов, которые не принадлежат данному множеству [22].
Нечеткое множество А определяется характеристической функцией цА, которая ставит каждому элементу и универсального множества и единственное значение интервала [0, 1]:
Мл- и^ [0, 1],
где цА выражает степени членства элементов нечеткого множества А следующим образом: цА(и) = 1 означает, что и принадлежит А полностью; 0 < цА(и) < 1 - что и частично принадлежит А; цА(и) = 0 - что и полностью не принадлежит А.
Исходя из этих определений видно, что характеристическая функция четкого множества является частным случаем характеристической функции нечеткого множества, которая имеет только два значения 0 и 1.
Нечеткое подмножество А универсального множества и, определенное характеристической функцией цА, обозначается следующим образом:
A = {pA (u)/u | u eU} ,
или
A = Ma (ui)/U1 + Ma (u2)/u2 + "• + Ma (un )/un =YI=1^A (ui )/ui , где + и Y означают операцию объединения; n - количество элементов множества U.
3.2. НЕЧЕТКОЕ МНОЖЕСТВО: БАЗОВЫЕ ОПЕРАЦИИ
Размер нечеткого подмножества конечного универсального множества U является скалярной величиной, которая равна сумме степеней членства его элементов. Данная величина вычисляется по следующей формуле:
1 A |= Z Ma (u).
ueU
Результатом операции а-срезки нечеткого множества A для порогового значения а e [0, 1] является следующее четкое множество:
а A = {x | Ma (x) ^ «}.
Результаты операций пересечения и объединения двух нечетких множеств A и B определяются соответственно с помощью функций треугольной нормы (¿-норма) и треугольной конормы (t-конорма):
Масb (u) = T(Ma (u), Mb (u)),
Mavb (u) = S (Ma (u),Mb (u)),
где T - функция t-нормы; S - функция t-конормы. При этом имеются следующие популярные определения функции t-нормы и t-конормы:
1. Минимум TM и максимум SM:
TM (a,b) = min(a,b); SM (a, b) = max(a, b).
2. Вероятностное произведение TP и вероятностная сумма SP: TP (ab) = a • b ; SP (a, b) = a + b - a • b .
3. t-норма Лукасевича TL и t-конорма Лукасевича SL:
TL (a, b) = max(a + b -1, 0); SL (a,b) = min(a + b, 1).
4. Сильное произведение TD и сильная сумма SD:
а, если Ь = 1,
а, если Ь = 0,
Т0(а,Ь) = <{Ь, если а = 1, ; SD(а,Ь) = <{Ь,если а = 0,
0, если иначе,
1, если иначе.
3.3. НЕЧЕТКОЕ МНОЖЕСТВО: ФОРМАЛИЗАЦИЯ ПРЕДЛАГАЕМОЙ МОДЕЛИ ПОИСКА
На основе семантических метаописаний документов (наборы триплетов) и весовой функции имеется следующее определение нечеткого подмножества I множества пар документ-триплет - множество индекса:
где н(А, 0 = м>(^, А) - значимости триплета t при описании документа d.
На основе индекса I семантические метаописания документа А є D могут быть легко преобразованы в нечеткие подмножества множества триплетов (его логическое представление в предлагаемой модели информационного поиска) следующим образом:
Подобно метаописаниям документов запрос q также может быть представлен как нечеткое подмножество множества триплетов следующим образом:
В предлагаемой модели информационного поиска функция семантической близости определяет для каждого запроса q следующее нечеткое подмножество релевантных документов множества документов D:
где Цтя(с1) = simsem(d, q) - семантическая близость между документом А и запросом q. При этом для сравнения документов и запросов используются их семантические метаописания (логические представления), т.е.
I = {р1 (А, t) /(А, t) | А є D; t є Т},
іа = {Н(ю^111 є Т},где Ні№(0 = Ні(А,0 .
Іч = {Ні(9)(0/111 є Т}, где Ні(,)^) = w(t, q).
RES = {нКея(А)/А | А є D} ,
^ет (А, q) = ^ет (1А , 1д ) .
Для фильтрации документов с низкими степенями близости используется пороговое значение а е [0, 1] по следующему правилу: документ d считается релевантным запросу q, если и только если оценка близости между ними превышает пороговое значение а. Соответственно нечеткое подмножество результатов определяется следующим образом:
RESa = {¡uRES(d)/d | deaRES}, где aRES - результирующее множество операции а-срезки для множества результатов RES.
Далее описываются методики вычисления различных видов оценок семантической близости на основе онтологии.
4. Вычисление семантической близости
Учет структуры онтологии и семантики отношений позволяет вычислять оценки семантической близости между элементами онтологии (понятия, экземпляры, связи - предикаты). Эти оценки близости называются элементарными оценками близости, на основе которых определяются близости между триплетами. Оценки близости между триплетами затем используются для определения близости между метаописаниями.
Исходя из описанной выше структуры триплетов (см. раздел 2), для их сравнения требуются вычисления следующих видов элементарных оценок близости между: 1) понятиями; 2) понятиями и экземплярами; 3) экземплярами; 4) предикатами. Методы вычисления каждого типа элементарной оценки близости представляются далее.
В данной работе используется упрощенное определение триплетов, т.е. не учитывается случай, когда субъекты триплетов являются литеральными значениями. С учетом этого помимо элементарных оценок семантической близости требуется определение близости между строковыми литеральными значениями. Данная оценка близости не является семантической и может быть вычислена с использованием, например, расстояния Левенштейна [25].
Далее в разделах 4.1 и 4.2 представлены обзоры подходов семантической близости между понятиями. Данная оценка близости также известна как концептуальная близость. Представляемый обзор является расширением работы [5], т.е. приведены более подробные описания рассматриваемых подходов и добавлены новые подходы по концептуальной близости.
4.1. КОНЦЕПТУАЛЬНАЯ БЛИЗОСТЬ В ТАКСОНОМИИ
В этом разделе представлен обзор подходов вычисления концептуальной близости на основе таксономии, т.е. учитывается только семантическое отношение «выше-ниже» (is-a - также известно как отношение «родитель-ребенок»). Рассматриваемые подходы группируются согласно свойствам, которые используются для вычисления близости. При этом чаще всего используются следующие характеристики понятий: 1) длина пути между понятиями; 2) глубина в таксономии; 3) информационное содержание; 4) множество родительских понятий.
Кроме того, в разделе гибридные подходы рассматриваются методы комбинирования разных мер близости для получения более эффективного измерения близости.
Подходы на основе длины пути.
Rada R., Mili H., Bicknell E. и Blettner M. В [31] предложено определение семантического расстояния между понятиями (обратная величина близости, т.е. чем больше расстояние, тем меньше близость и обратно) как количество ребер пути между ними в таксономии:
distRada(c\, c2) = min(path(cb c2)|), где \path(c\, c2)| - количество ребер пути от c¡ до c2. Пути между понятиями определены с учетом таксономии как неориентированный граф.
Hirst G., St-Onge D. В [20] представлена мера близости, по которой ограничиваются характеристики путей между понятиями. При этом учитываются только те пути, которые содержат не больше 5 ребер или соответствуют одному из 8 шаблонов, представленных в [20]. Близость по допустимому пути вычисляется следующим образом:
simHirst&St-onge(ci, c2) = S - длина пути - k ■ кол. изм. напр.
Следовательно, чем длиннее путь и больше количество изменений по направлению, тем меньше близость между понятиями.
Лукашевич Н.В., Добров Б.В. Подобно подходу Hirst & St-Onge в [6] ограничивается конфигурация путей, используемых при вычислении близости. При этом рассматриваются пути, состоящие из совокупности иерархических отношений (выше-ниже - is-a, часть - целое - partOf и несимметричная ассоциация) либо направленные в одну сторону, либо включающие ровно один перегиб (изменение по направлению).
BulskovH., Knappe R., Andreasen T. В работе [15] близость между понятиями х и y вычисляется как максимальное произведение весовых коэффициентов ребер путей между ними. По этому методу для отношения is-a задаются два параметра gen, spec е [0, 1], которые соответственно выражают близости в направлении обобщения и детализации.
Для пути P = {c1, c2, ..., cn} между понятиями х и у, где c1 = х, cn = у, определяются следующие характеристики:
g(P) = |{i | ci - isa - ci+1}| - количество ребер в направлении обобщения;
s(P) = |{i | ci+1 - isa - c}| - количество ребер в направлении детализации.
С учетом множественного наследования, допустим, что {P1, P2, ., Pm} - множество возможных путей между понятиями х и у. Тогда близость между ними определяется следующим образом:
simWSP (х, у) = max(specs(Pl) ■ geng(Pl)).
i=1...m
Подходы на основе длины пути и глубины вершин.
Sussna M. В работе [36] представлена мера семантического расстояния между понятиями WordNet (обратная величина близости). При этом семантическое расстояние между любыми понятиями c1 и c2 вычисляется как сумма расстояний между соседними понятиями, входящими в пути между ними.
Семантическое расстояние между понятиями c1 и c2, связанное отношением r, вычисляется по формуле
_ g(Ci ^с2) + ш(с2 ^Cl)
sussna' 1 ’ 2 ' ~ , 5
2d
где г* -обратное отношение отношения г; весовые коэффициенты определяются по следующей формуле:
r max r - min r
m(ci ^с2) — maxr----------------—-----,
Пг (Ci)
где d - глубина ребра таксономии - максимальное значение глубины двух понятий; maxr, minr - максимальное и минимальное значение весового коэффициента отношения r; nr(X) - количество выходов из понятия X отношения r.
Вычисление семантического расстояния в таксономии является частным случаем оригинального алгоритма, т.е. учитываются только отношение «выше-ниже» (hypernymy - обобщение) и его обратное отношение - отношение детализации (hyponymy). Согласно работе [36] весовые коэффициенты этих отношений варьируются в диапазоне от 1 до 2.
Wu Z., PalmerM. В работе [39] концептуальная близость между понятиями с1 и с2 определена следующим образом:
2 N
Í \ 3
SimWu&Palmer (C1, С2 ) — .
Wu&Palmery 15 2' N + n2 + 2 N3
Пусть с3 - ближайший общий родитель понятий с1 и с2, тогда имеются следующие определения параметров заданной формулы: N1 - количество вершин пути от с1 до с3 - длина пути между ними; N2 - количество вершин пути от с2 до с3; N3 - количество вершин пути от с3 до коренного понятия таксономии - её глубины.
Leacock C., Chodorow M. В работе [24] оценка семантической близости между понятиями вычисляется по следующей формуле:
.NpO^, с2).
SlmLeacock&Chodorow (с1 , с2 ) _ log( 2D ’
где Np(c1, с2) - длина кратчайшего пути между ними (количество вершин); D - максимальная глубина таксономии.
Nguyen H.A. В [29] предложено измерение семантического расстояния, которое является функцией двух параметров -длины кратчайшего пути между вершинами и общей специфичности двух вершин. Вводится понятие общей специфичности двух вершин CSpec:
CSpec(c,, c2) = N - N(LCS(c,, c2)), где N - максимальная глубина таксономического дерева. Чем меньше специфичность двух вершин, тем большей информацией они обладают и близость их больше.
Семантическое расстояние между понятиями с, и с2 определяется по следующей формуле:
SemDist(cj,c2) = log((d(cj,c2) -1)“ • (CSpec(cJ,c2))ß + k), где а > 0, ß > 0; k > 1 - константы (обеспечивают нелинейность и положительность функции SemDist); d(c1, c2) - длины кратчайшего пути между ними.
Haase P., Siebes R., Harmelen F. В [19] представлена следующая мера близости между понятиями c1 и c2:
,ßh - e-ßh
SimHaas (cl, C2) =<
-al e — e e •^-------ж, если с, Ф с2,
eßh + e-ßh
1, если иначе.
где I - длина кратчайшего пути между понятиями с1 и с2 и h - глубина ближайшего общего родителя понятий с1 и с2.
Параметры а, в > 0 соответственно регулируют влияние расстояния между понятиями и глубины ближайшего общего родителя при вычислении близости.
Как было определено в [19], оптимальными значениями параметров являются а = 0,2 и в = 0,6.
Подходы на основе информационного содержания Resnik Р. В работе [32] предложено следующее определение близости между понятиями с1 и с2:
(с1, С2) = тах (Ю (с)),
cGS (с1,с 2)
где £(Сь с2) - множество ближайших верхних общих понятий для с1 и с2; 1С(с) - информационное содержание понятия с. При
этом имеется следующее определение величины информационного содержания понятия таксономии:
пусть C - множество понятий таксономии и для каждого понятия c е C определена вероятность p(c) того, что встречается экземпляр понятия с в обучающей коллекции текстов. В работе [34] информационное содержание понятия с определено следующим образом:
IC(с) = - log p(c).
В работе [32] предложено, что встречаемость каждого термина обучающей текстовой коллекции учитывается в подсчете частоты тех понятий таксономий, которые включают данный термин. Исходя из данного правила, частота понятия в коллекции определяется следующим образом: freq(c) = X freq(t),
tewords(c)
где words(c) - множество терминов, которые по смыслу принадлежат понятию с. Принадлежность термина понятию определяется ручным путем и учитывается наследование между понятиями, т.е. если термин t принадлежит понятию х и x ISA у, то термин t также принадлежит понятию у. По примеру таксономии, которая представлена на рис. 4, при встрече существительных dime увеличиваются частоты понятия dime, coin, cash и т.д.
Вероятность того, что встречается понятие c, определяется по следующей формуле: p = freq^c)
N
где N - количество аннотированных терминов обучающей коллекции.
Jiang J, Conrath D. В [21] представлена мера близости, которая является функцией двух параметров: количество ребер пути между понятиями и информационные содержания понятий. При этом информационные содержания используются как поправочные величины.
О
Рис. 4. Фрагмент таксономии WordNet
Общая формула для определения весового коэффициента ребра между понятием с и родительским понятием р представляется следующим образом:
где d(c) - глубина понятия c; E(p) - количество детей понятия p (локальная плотность); E* - среднее значение плотности, определенной в таксономии; LS(c, p) - сила связи между си р; T(c, р) - коэффициент типа отношения; параметры а > 0 и
0 < в < 1 регулируют соответственно глубину понятия и плотность понятия. По результатам экспериментов, которые представлены в [21], имеются следующие оптимальные значения для этих параметров: аопт = 0,5; вопт = 0,3. В таксономии, где используется единственное отношение is-a, коэффициент типа отношения T(c, p) = 1 и не влияет на вычисление расстояния между вершинами.
В работе [21] отмечено, что мощность отношения LS(c, р) пропорциональна вероятности р(ср) того, что встречается экземпляр понятия c при условии, что встречается экземпляр его родительского понятия р:
LS(с, р) = - log р(с | р).
Данная вероятность определена по следующей формуле:
(
wt (c, p) = Р + (1 - р)
E(p)) [ d(p) ,
LS (c, p)T (c, p),
V
p(c n p)
p(c I p) = —7—. p( p)
Исходя из способа вычисления вероятности, который представлен в работе [32], получается, что p(c Пp) = p(c), так как любой экземпляр понятия с является экземпляром родительского понятия p. Следовательно,
p(c I p) = и LS(c, p) = IC(c) - IC(p),
p( p)
где IC(c) и IC(p) - информационное содержание понятий с и p соответственно. В работе [21] семантическое расстояние между понятиями определено как сумма весов ребер, входящих в кратчайший путь между ними:
diStJiang&Cpmrath (с^ С2) = Z Wt(^ parent(с)) ,
се( path(o1,o2) - LSuper (с1,с2)
где path(c1, с2) - множество вершин пути, соединяющего с1 и с2; LSuper(c1, с2) - множество общих родителей понятий с1 и с2; parent(c) - родительское понятие понятия с.
В частном случае, когда учитываются только силы связей, имеется следующее упрощенное определение семантического расстояния:
Dist(c1, с2) = IC (с1) + IC (с2 ) - 2IC (LSuper(с1, с2)).
Lin D. В работе [26] предложено следующее определение близости между понятиями таксономии:
simUn(с,,с2) = 21°Sp(LUB(CС2)), log p(Cl) + 1°S p(C2)
где LUB(c1, с2) - верхняя грань понятий с1 и с2; p(c1), p(c2) -информационное содержание понятий с1 и с2, которые могут быть определены на основе обучающей коллекции по методу, который представлен выше.
Подходы на основе множества родительских понятий
Тузовский А.Ф. В [11, 12] представлено следующее определение понятия множества родительских понятий CANC: «для
каждого понятия ci е C существует множество CANс(сг), являющееся подмножеством C и содержащее понятия, пред-
шествующие понятию с., а также само понятие с.», где С - множество имеющихся понятий.
Для оценки семантической близости двух понятий ск и с1 вводятся два показателя, основанные на сравнении множеств Слж(с1)'-
sim(Ck, ci ) = k где kst =
1 CANC (ck ) ° CANC (ci ) 1
1 CANC (ck ) U CANC (ci ) 1
1, если CanC (ck ) U CANC (ci) = Canc (ci),
0,если иначе.
Г ибридные подходы
В [5] представлено следующее определение гибридных подходов: гибридные меры являются свертками некоторых мер близости понятий. Чем полнее будут учитываться характеристики двух сущностей с разных точек зрения, тем более качественную меру близости можно получить. В связи с этим наиболее перспективными представляются именно гибридные меры, сочетающие несколько подходов.
Чаще всего в гибридных мерах используется аддитивная свертка:
П
S (Cl, С2) = £>,. • sim1 (q, c2),
i=1
где simг - i-я мера близости; вес ai определяет важность данной меры близости; сумма весов равна единице; п - количество мер близости.
Распространенная модификация аддитивной свертки основана на сигмоидальной функции, которая позволяет повысить веса мер, имеющих большие значения и практически пренебречь мерами с малыми значениями:
sig (x) =---1---, где а > 0 ;
П
S (Ci, C2) = Z ®i-sig (sim1 (ci, C2)).
i=l
4.2. КОНЦЕПТУАЛЬНАЯ БЛИЗОСТЬ В ОНТОЛОГИИ
Вышеописанные методы вычисления концептуальной близости базируются на отношении «выше-ниже». Однако нет необходимости ограничить измерения близости в использовании только этого отношения. В онтологии количество возможных семантических отношений неограниченно, поэтому семантическая близость в онтологии является более широким понятием, чем в таксономии.
Оценка концептуальной близости в онтологии может означать доли общих частей сущностей и степень связанности между ними. Например, понятия «электрический автомобиль» и «автомобиль» являются близкими понятиями, однако «бензин» и «автомобиль» являются связанными понятиями, и степень связанности между ними может быть выражена оценкой близости в онтологии. Проблема вычисления оценки семантической близости с учетом различных типов семантических отношений рассмотрена в работах [13, 16, 23, 37].
Castano S., Ferrara A., Montanelli S., Racca G. В [16] представлена симметричная мера семантической близости, в которой учитываются различные семантические отношения. При этом для каждого семантического отношения задается вес, который принимает значение в диапазоне [0, 1]. Семантическая близость заданного пути вычисляется как произведение весов её ребер.
Допустим, что (Pi, P2, ..., Pk} - множество возможных путей между c1 и c2, тогда близость между ними вычисляется следующим образом:
[max i=1 k (w( Pi)), если k> 0,
SimCast (cU C2) 4„ "
[0, если иначе.
где k - количество путей между c1 и c2; w(Pi) - оценка близости на основе пути Pi:
w(P) =П °У ,
j =1..n
где n - количество ребер пути Pi; OJj - весовой коэффициент j-го ребра пути Pi.
Tversky A. В работе [37] представлена мера близости, которая является основой для многих современных подходов вычисления близости в онтологии. По этому методу близость между понятиями а и b является функцией трех аргументов A n B, A - B, B - A, где A, B - множество свойств этих понятий. Эта функция должна удовлетворять аксиомам монотонности, независимости, разрешимости и инвариантности и определяется формулой (contrast model):
sim(a, b) = Of (A n B) -af (A - B) - ßf (B - A),
В развитие модели Тверски была построена ratio model:
, 7\ f (A n B)
sim(a, b) =----------------------------------.
V ' f (A n B) + af (A - B) + ßf (B - A)
В большинстве методов вычисления близости используется ratio model, а в качестве функции f - мощность множества -аргумента.
Knappe R. В [23] представлена мера близости на основе контекстных множеств, которые определяются следующим образом: контекстное множество заданного понятия состоит из тех понятий онтологии, которые достигнуты из данного понятия. Понятие у считается достигнутым из понятия х, если и только если существует хотя бы один путь между ними.
Схема алгоритма определения контекстного множества A заданного понятия c1 представлена на рис. 4. По данному алгоритму, сначала A = {c1}. Затем контекстное множество A расширяется по следующей формуле:
extend (A) = A u {у | x e A л у g A л r(x, y) e T} ,
где r e R - множество допущенных семантических отношений; T - множество связей между элементами онтологии. Процесс расширения повторяется итерационно до тех пор, пока не достигнуто условие завершения.
В качестве условия завершения можно использовать, например, ограничение по количеству операции расширения или по признаку добавления новых элементов после выполнения операции.
/ Ci \
к С2
Сз
ч /
Параметры
Т ипы допущенных отношений; Условия завершения
Рис. 5. Определение контекстного множества вершин
На основе контекстных множеств в [23] близость между понятиями с1 и c2 вычисляется следующим образом:
| A(c1) n A(c2)| | A(c1) n A(c2)|
Simsharednodes (c^ c2) = P-' + (1 “ P)---,
1 A(ci)| 1 A(c2)|
где p e [0, 1] - параметр для объединения двух составляющих.
Andreasen T., Knappe R., Bulskov H. Как отмечено в работе [13], по предыдущему методу [23] значимости вершины для вычисления близости неодинаковые. Поэтому имеется возможность улучшения данного метода путем определения весовых коэффициентов для элементов контекстного множества.
С учетом весов элементов контекстное множество понятия c1 есть нечеткое подмножество ¡uA множества понятий и экземпляров онтологии:
jliA = со1/ c1 + со2/ c2 +... + соп / cn , при этом весовые коэффициенты соответствуют степени принадлежности элементов нечеткому множеству.
Схема модифицированного алгоритма определения контекстного множества для понятия c1 с учетом весовых коэффициентов представлена на рис. 6.
Сначала контекстное множество вершины ¡uA = {ю1 / c1}, где ю1 = 1 - весовой коэффициент понятия с1. Затем контекстное множество uA расширяется идентично случаю описанного выше
метода [23]. При этом весовой коэффициент новой вершины определяется как произведение весовых коэффициентов семантического отношения и исходной вершины.
БЗ
Л
Г Л №1 !с\
\ Процесс |\ Уі’2ІС2
—1/ расширения 1/ 11 'з/сз
ч V )
Типы допущенных отношений; Параметры Функции определения весовых
коэффициентов;
Условия завершения.
Рис. 6. Алгоритм определения контекстного множества вершин с учетом весовых коэффициентов
Допустим, что новая вершина у добавляется с использованием связи г(х, у) и для отношения г определен весовой коэффициент /г). Тогда весовой коэффициент вершины у определяется следующим образом:
®у = /(г) -®х ,
где шх - весовой коэффициент вершины х.
Весовые коэффициенты семантических отношений являются важными параметрами алгоритма и могут быть настроены по-разному в разных предметных областях. Метод автоматического определения оптимальных коэффициентов с использованием обучающей выборки представлен далее в разделе 4.7.
4.3. БЛИЗОСТЬ МЕЖДУ ЭКЗЕМПЛЯРАМИ
Тузовский А.Ф. В [11] предложена мера близости, согласно которой оценка семантической близости simI(i 1, i2) двух экземпляров i\ и i2 складывается из их реляционной близости и близости их типов (понятия, к которым они относятся).
Отмечается, что в онтологии О для каждого экземпляра ix е I существуют:
1) непустое множество С^т^х), включающее понятия, к которым относится экземпляр ix:
С1ШТ (,х) * 0 , с1тт (,х) = {с; е С 1 «Ох, с])} ;
2) множество Дм^О}), включающее все конкретизированные отношения экземпляра ix:
^тт Ох) = {Г е R1 Г Ох, iy)}.
При этом реляционная близость simIL(i 1, ,2) позволяет оценить схожесть двух экземпляров исходя из их отношений с другими экземплярами онтологии:
simIL (^ i2) =
1 REQU (,1, 72 ) \
| „ (. ) „ (. )\, если RINST (,\) ° ^тт (/2) *0,
\ Д1тт (,1 ) ° Д1№£Г (,2) \
0, если иначе,
где ^и(,1,i2) = {Г е д \ Г (,1,4) Л Г (,2,4)}.
Близость типов определяется следующим образом:
^ тах( sim(c1, с2))
^т1С (,, /2) = С1еС1ЖГ (,1)-С2 еС1ЖГ (,2)-,
п
где п - размер множества С^^х); sim(c\, с2) - близость понятий с1, с2, которая может быть вычислена с использованием вышеописанных методов концептуальной близости.
В итоге семантическая близость двух экземпляров определяется как аддитивная свертка двух оценок близости:
simI (,х, ,у) = ^ • simIc (,'х, ,у) + ^ • simIL (,'х, ,у),
где Ьс, ^ е [0, 1]; ^ = 1 - kIC.
Коэффициенты ^С и ^ позволяют настраивать процедуру вычисления семантической близости двух экземпляров. Если экземпляры описаны в онтологии в основном с помощью связей с другими экземплярами или конкретными значениями, то необходимо установить соотношение ^С < ^. В противном случае необходимо установить соотношение ^С > ^.
4.4. СЕМАНТИЧЕСКАЯ БЛИЗОСТЬ МЕЖДУ ПРЕДИКАТАМИ
Как описано выше в условии задачи, предикаты организуются в таксономии предикатов. Поэтому вышеописанные меры близости в таксономии являются подходящими для вычисления близости между ними.
Однако учет только отношения is-a будет недостаточным, так как в онтологии близости между предикатами также выражаются явным образом через отношение sameAs (идентичность) и invertOf (инверсное отношение).
Семантическая близость между предикатами, связанными отношением sameAs, очевидна, принимает максимальное значение близости и равна единице. В случае если предикаты связаны отношением ітегЮ/, предполагается, что близость между ними равна -1. Следовательно, расширяется диапазон значения близости между предикатами. Близость между предикатами принимается в диапазоне [-1; 1]. При этом значение близости между предикатами < 0 означает инверсное сравнение триплетов.
Предполагаемая мера близости для предикатов с учетом этих особенностей представляется в разделе 4.6, а инверсное сравнение триплетов - в разделе 4.8.
4.5. СЕМАНТИЧЕСКАЯ БЛИЗОСТЬ РАЗНОТИПНЬЖ ЭЛЕМЕНТОВ
В работе [11] представлены методы определения близости между разнотипными элементами, согласно которым сравнение двух разнотипных элементов онтологии возможно лишь с некоторым допущением, которое выражается соответствующим коэффициентом:
Для вычисления семантической близости между понятием и экземпляром используется коэффициент dCI є (0, 1], который выражает близость между родительским понятием и экземпляром:
simCI (с, і) = йС1 • тах^іт(с, сх)).
схєСітт(і)
Аналогично, для вычисления семантической близости между экземпляром и понятием используется коэффициент
dIC е (0, 1], который выражает близость между экземпляром и соответствующим родительским понятием:
simIC (i, c) = dIC • max(sim(cx, c)).
cx eCINST (i)
4.6. ОБОБЩЕНИЕ ПОДХОДА ВЗВЕШЕННОГО КРАТЧАЙШЕГО ПУТИ
В этом разделе представляется модификация меры близости, представленной в работе [15], с учетом всех видов семантических отношений, которая должна быть подходящей для вычисления всех видов близости между компонентами триплетов.
По предлагаемой модификации:
1. Для отношения «родитель-ребенок» (is-a) задаются два коэффициента gen и spec, которые соответственно выражают близость в направлении обобщения и детализации.
2. Для отношения instanceOf (связывает понятие с экземплярами понятий) задаются два параметра dIC, dCI е [0, 1], которые соответственно выражают близость экземпляра понятию и близость понятия экземпляру.
3. Коэффициенты близости для отношения sameAs (синонимы) и invertOf (обратные отношения) соответственно равны 1 и -1.
4. Для остальных семантических отношений ri определяется весовой коэффициент wr, который выражает семантическую близость по этим отношениям.
Для P - путь между сущностями x и y (которые могут быть понятиями, экземплярами, или предикатами) определяются следующие характеристики:
1. s(P) - количество ребер в направлении детализации;
2. g(P) - количество ребер в направлении обобщения;
3. ic(P) - количество ребер от экземпляра до понятия;
4. ci(P) - количество ребер от понятия до экземпляра;
5. inv(P) - количество ребер инверсного отношения;
6. oth(P) - количество ребер остальных отношений.
Оценка близости между сущностями x и y согласно пути P
определяется по следующей формуле:
simGwsp (х, У) =
= (-1)inv(P) • specs(p) • geng(p) • dIC'c(P) • dCIc,(P) • wroth(P).
Допустим, что PATH = (Pi, P2, ..., Pk) является множеством всех возможных путей между сущностями х и у, тогда близость между ними определяется следующим образом: simOWSP (х, у) = simGWsP (х, у), где путь Pmax с максимальной оценкой близости определяется по следующему условию:
1 simOmWsP(х у) |= max ppth (| simPwsP(х, у) |).
В частном случае, если PATH = 0, то значение близости считается равным нулю:
simOWSP (х, у) = 0 , если PATH = 0 .
4.7. НАСТРОЙКИ КОЭФФИЦИЕНТОВ
Параметры алгоритма могут быть настроены ручным или автоматическим путем. В литературе представлены методы автоматической настройки оптимальных значений коэффициентов с помощью обучаемой нейронной сети [18] или генетического алгоритма [35]. В этом разделе представлен примитивный способ определения приблизительных оптимальных значений коэффициентов по методу максимизации оценки меры близости.
Основная идея предлагаемого метода заключается в том, что чем больше значение коэффициента корреляции между оценками близости алгоритма и оценками близости экспертов, тем эффективнее считается алгоритм, и при оптимальных значениях параметров алгоритма значение коэффициента корреляции является максимальной, так как согласно [28, 33] оценка близости имеет субъективный характер.
По предлагаемому методу область значения [a, b] коэффициента k сначала дискретизируется на n + 1 точек:
, b - a
ki = a + i----,
n
где i = 0, 1, ..., n.
Затем оптимальные значения коэффициентов определяются методом полного перебора по следующему условию:
СОГГ № (тах) , • • •, km (тах) ) = тах(согг) ,
где corr(kl(г■), ..., ^(¡)) - значение коэффициента корреляции меры близости с использованием заданных параметров; тах(согг) - максимальное значение коэффициента корреляции для рассматриваемой меры близости.
Для вычисления значения коэффициента корреляции меры близости сначала вычисляются близости между сущностями обучающей коллекции с помощью алгоритма. Затем вычисляется значение коэффициента корреляции с оценками близости экспертов по известной формуле Пирсона.
Значение коэффициента корреляции Пирсона между сериями п измерений случайных переменных X и Y, обозначенных как хг и у, где г = 1, 2, ..., п, вычисляется следующим образом:
г = ПЕ ХгУг +Е х -Е У_______________
х/пЕхГ-(Ех1)7 -V пЕ у1 - (Е Уг)2
В итоге для нахождения оптимальных значений параметров требуется выполнение пт итераций, где п - частота дискретизации; т - количество параметров. Соответственно, по предлагаемому методу, чем больше частота дискретизации, тем выше точность определения оптимальных значений параметров. Однако увеличивается требуемое время для работы алгоритма.
4.8. СЕМАНТИЧЕСКАЯ БЛИЗОСТЬ МЕЖДУ ТРИПЛЕТАМИ
В [11, 12] близость между триплетами вычисляется как среднее значение оценок близости между их компонентами:
sгm(< ^,^ >, < t2,k2 >) = sгm(s1, s2) + sгm( р1, р2) + sгm(o1, о2) .
= з У(^, k2)
В [30] близость между триплетами t1 = (s1, р1, о1) и t2 = ^2, р2, о2) вычисляется следующим образом:
Если sгm(s1, s2) + sгm(o1, о2) > sгm(s1, о2) + sгm(o1, s2), то близость между t1 и t2 определяется следующим образом:
sгm(tl, t2) = а«« • sгm( Sl, S2) + а рр • sг■m( Р1, Р2) + ®оо • sг'm(ol, 02).
Иначе используется следующая формула:
sгm(tl, t2) = • (sгm(«, 02) + sг■m(s2, 01)) + арр • sгm(р, Р2),
где юрр, ю00, - весовые коэффициенты, которые выража-
ют значимости составляющих оценок семантической близости и
а* + арр + а00 = арр + 2 'а*о = 1.
Представленные методы вычисления семантической близости между триплетами неверны в случае, когда триплеты выражают противоречивые мнения о связи между одинаковыми сущностями, например две фразы «команда А-выиграть-команда Б» и «команда А-проиграть-команда Б». С использованием методов суммирования получается высокая близость между этими высказываниями, хотя они имеют противоречивые смыслы.
Кроме того, если р1 и р2 - обратные отношения, то триплет ^ = < э2, р2, о2 > имеет такое же значение, как триплет t2 = < о2, р1, э2 >. Следовательно, имеется следующее равенство:
Sгmsem (t1, ^ (t1, t2*).
В общем случае, если путь между предикатами в онтологии содержит нечеткое количество отношения гтегЮ/ (инверсное отношение), то при вычислении близости между триплетами предлагается использование инверсного сравнения триплетов, т.е. вычисляются близости между субъектами и объектами (в отличие от прямого сравнения, когда субъект сравнивается с субъектом и объект сравнивается с объектом).
Исходя из указанных предположений, в данной работе предлагается следующее определение близости между триплетами t1 = <1 р1, о1>и Ь = < э2, р2, о2 >:
|„ («1, «2) + «Щ,,, (01,02) если k > 0
2
sгmSem (t1, ^ = <
где k = sгmsem(p1, р2) - оценка близости между предикатами.
sim ^, о2) + sim (о1, s2)
| k |----*гт 1——-тет 1—— ,если иначе,
2
4.9. СЕМАНТИЧЕСКАЯ БЛИЗОСТЬ МЕЖДУ МЕТАОПИСАНИЯМИ
В литературе представлены различные подходы вычисления близости между метаописаниями, которые состоят из множеств триплетов [1, 3-4, 9-12, 30, 38]. При анализе существующих подходов выделяются три направления решения данной задачи (количественной оценки близости между метаописаниями). По первому направлению метаописания рассматриваются как пакет триплетов - BOT (Bag Of Triples). При этом элементарными единицами сравнения являются триплеты. По второму - метаописания рассматриваются как RDF-граф, вершинами которого являются субъекты и объекты триплетов, а ребрами - семантические отношения. При этом элементарными единицами сравнения являются элементы онтологии. По последнему направлению метаописания сначала преобразуются в аналогичные форматы - пакет слов - BOW (Bag Of Words), или пакет понятий BOC (Bag Of Concepts), затем применяются известные меры близости для этих форматов.
К первому направлению относятся подходы, представленные в работах [11, 12, 30]. В [11, 12] оценка семантической близости между метаописаниями Id и Iq вычисляется как сумма близостей между всеми парами триплетов следующим образом:
sim(Id, Iq) = Z Z sim(ti, tj ).
ti Glq tj Glq
В [30] семантическая близость между метаописаниями вычисляется по следующей формуле:
Sim( Jd , !q ) = . 1 . . . • ( Z Sim(ti , !q ) + Z Sim(tj , ld ^
1 \ + 1 *q \ ^ ^d tj eIq
где близость между триплетом и множеством триплетов есть максимальная близость между данным триплетом и триплетами множества.
С другой стороны, формат BOT является аналогом формата пакета слов (BOW) - логическое представление текстов в классических системах информационного поиска. Поэтому если учитывать триплеты как ключевые слова, то можно применять
классические меры близости для вычисления близости между метаописаниями.
Например, в [10] для вычисления весов триплетов в BOT предлагается использовать меру TF/IDF, рассматривая каждый триплет как отдельное «слово», а для вычисления близости -косинусную меру.
К второму направлению относятся подходы, представленные в работах [1, 4, 38].
В [38] предлагается вычислять семантическую близость между метаописаниями, представленными в формате BOT, на основе соответствия RDF-графов. Проблема определения близости графов в такой формулировке лежит в рамках известной задачи проверки изоморфизма графов [3], которая является ^Р-полной. Однако учет специфики RDF-графов позволяет избежать проблемы ^Р-полноты. Приведен полиноминальный алгоритм поиска наилучшего отображения, при котором сумма близостей соответствующих вершин и дуг максимальна.
В [1, 4] близость двух RDF-графов вычисляется как взвешенная сумма близости вершин и близости по отношениям. Близость вершин оценивается долей совпадающих вершин с учетом весов, близость по отношениям - суммой долей общих дуг отдельно по каждому типу отношений с учетом весов отношений.
Главная идея последнего направления заключается в том, что метаописания сначала могут быть преобразованы в пакеты понятия (BOC), которые состоят из элементов триплетов, или в пакеты ключевых слов (BOW), которые состоят из меток элементов триплетов. Затем для вычисления близости между метаописаниями можно применить известные меры близости для форматов BOC или BOW соответственно.
При таком преобразовании потеряются явные семантические связи между сущностями. Из-за чего снижается точность выполнения запроса. Однако повышается производительность обработки, так как форматы BOC и BOW являются более простыми форматами по сравнению с форматом BOT.
Далее в этом разделе предлагаются два метода вычисления близости между метаописаниями, которые относятся к первому направлению: 1) метод суммирования, являющийся модификацией метода, представленного в [11, 12]; 2) метод максимального паросочетания в двудольном взвешенном графе.
Метод суммирования оценок близости, который представлен в [11, 12], не учитывает количество триплетов метаописаний документа и запроса и количество их общих триплетов. С учетом этих характеристик представляется следующее определение близости между метаописаниями Г и 1^.
_ 1І* п !д \ І* • !д
ы, 19) тах(\ I*,)\)' \ 1 \ • \ 1 \,
ЛІ*, 1а) _■
(і) ІУ \*д\
где \1*\, \19\ и \1* п 1д\ соответственно являются размерами представления документа *, представления запроса д и их пересечения; тах(\1ф)\) - константа - максимальный размер метаописаний коллекции документов; I*, І9 - сумма оценок близости между триплетами попарно, которая определяется следующим образом:
1* • І9 _ Е Мі (*)(х) • Мі (9)(У) • ет (x, У).
хєТ, уєТ
Основная идея метода максимального паросочетания во взвешенном двудольном графе заключается в сопоставлении каждого триплета запроса с единственном триплетом метаописания документа таким образом, чтобы сумма близости между ними являлась максимальной. При этом находятся оптимальные отображения между триплетами метаописаний.
Двудольный граф является особенным графом, обладающим следующими двумя свойствами: 1) все вершины двудольного графа могут быть распределены в двух непересекающихся множествах (левое и правое множество вершин); 2) любое ребро графа соединяет только вершину из левого множества с вершиной правого множества.
По предлагаемому алгоритму сначала строится двудольный взвешенный граф BG = <У, Е>, где множество вершин графа V
является объединением левого множества вершин и правого множества вершин:
V = V, u VR ,
где V = aId - левое множество вершин, которое состоит из триплетов метаописания документа, и VR = aIq - правое множество вершин, которое состоит из триплетов метаописания запроса.
Для каждой пары вершин v^ є VL и Vj є VR определяется ребро графа (<vt(), vt(j~>, ej с весовым коэффициентом е^, который равен оценке семантической близости между соответствующими триплетами:
еч = e(vt(i), vt(j)) = Mi(d) (t) • Mi(q) (tj) • simsem(t, 0).
После определения двудольного графа определяется его максимальное паросочетание. При этом паросочетание двудольного графа является множеством пар вершин графа вида
P ={(vа^vd)) 1 v(i)є vl; v(i)є vr; i = 1,...,min(| vl 1,1 Vr |)}, в котором каждая вершина встречается только один раз.
Максимальным является паросочетание, имеющее максимальную сумму весовых коэффициентов ребер:
sumBO(Pmx) = maxPGP*(sumBO(P)), где P* - множество всех возможных паросочетаний;
sumBO(P) - сумма весовых коэффициентов ребер паросочетания P графа BO:
SUmBo (P) = Z e(Vl(ГР Vr(i)).
(vl(i) ,vr(i) ^P
Эффективным алгоритмом для нахождения максимального паросочетания во взвешенном двудольном графе является алгоритм Hungarian [14] (алгоритм был предложен венгерским математиком Egervary). В итоге оценка семантической близости между документом d и запросом q определяется как сумма весовых коэффициентов ребер максимального паросочетания, деленная на нормирующий множитель:
/Т т ч sumBO(Pmax)
Simsem (d, q) = Simsem (Id , Iq ) =- O j U .
max(| Id(i) |)
где тах(|1^|) - нормирующий множитель - максимальный размер метаописаний коллекции документов.
5. Выполнение запроса
В качестве примера рассматривается информационная поисковая система со следующими исходными данными:
множество триплетов Т, которое состоит из трех триплетов:
Т = {tl, ^ ¿эК и следующая коллекция документов D:
D = {^1, ^2, ^э}.
Опускаются подробности структуры онтологии; допустим, имеются следующие метаописания документов:
т(й1) = ^1,t2} ; т(ё2) = ^1,t3} ; т(ё3) = {12,t3} .
При этом каждый триплет ^ имеет вид р, о>, т.е.
11 =< s1,р1,о1 >, t2 =< s2,р2,о2 >, t3 =< s3,р3,о3 > .
Без учета подробности процесса вычисления близости допустим, что имеется следующая функция базовых оценок семантической близости:
^Щет ^3 , S1) = 0,9 ; ^Щет (P3, Р1) = 1,0 ; ^Щет (03 , 01) = 0,7 ; ет ^3 , s2) = °^; ^ет (Pз, Р2) = ^ ^тет (o3, 02) = 0,6 ;
^Щет (S2 , S1) = 0,3; ^Щет (P2, Р1) = ^ ^Щет (02 , 01) = 0^
^тет(х х) =1,0;
simsem (х, у) = 0,0 - в остальных случаях, когда х Ф у , на основе которых определяется следующая функция семантической близости между триплетами:
, . 0,9 + 0,7
^*^т$ет (t3, t1) = 1--^--= 0,8 ;
, ч , 0,6 + 0,6
S^msem (t3, ¿"2 ) = 1-^-- = 0,6 ;
, \ 1 0,3 + 0,3 _ _ , , 1 _
ет 02 , t1) = 1-2---= 0,3 ; ^Щет (t, t) = ^
simsem (х, у) = 0,0 - в остальных случаях, если х Ф у .
Для весовых функций:
(1, если t е d, w(t, d) = <¡
I 0, если иначе,
(1, если t е q,
w(t, q) = <!
[0, если иначе.
Имеется следующее нечеткое множество индекса:
I = {1/(d1, t1) + 1/(d1, t2) + U/(d1, t3) +
+ 1/ d , ti) + 0/ (d 2, t2) +1/ (d 2, t3) +
+ 0/(d3, t1) +1 /(d3, t2) +1 /(d3, t3)} ,
и соответствующие представления документов:
Id (1) = {1/ t1 + 1/ t2 + U/ t3}; Id (2) = {1/t1 + U/ t2 + 1/ t3};
Id(3) = {U / t1 + 1/ t2 + 1/ t3 } .
Для заданного запроса q = {t1, t2} оценки семантической близости между документами и запросом по первому методу вычисляются следующим образом:
, , . 2 1-1-1 +1-1-0,3 +1-1-0 +1-1-1 Л ,
símSem (dl, q)=2------------------2-2-------------=0,6;
/f ч 1 1-1-1 +1-1-0,8 +1-1-0 +1-1-0,6
Símsem (d2 , q) = ---------------2-2--------------= 0,3 ;
/f ч 1 1-1-0,3 +1-1-0,8 +1-1-1 +1-1-0,6
símsem (d3, q) = -----------------2-2---------------= 0,35 .
На основе вычисленных оценок семантической близости определяется следующее множество результатов:
RES = 0,6/d1 + 0,35/d3 + 0,3/d2, при этом знак «+» означает операцию объединения элементов в множество.
По второму методу. Сначала строятся следующие взвешенные двудольные графы документов и запроса (рис. 7):
и
@
©
d\ — q
d2-q
d3-q
Рис. 7. Взвешенные двудольные графы
На основе полученных взвешенных двудольных графов имеются следующие оценки семантической близости документов запросу:
Множество результатов в данном случае представляется следующим образом:
RES = 1,0/dj + 0,9/d3 + 0,8/d 2.
Исходя из представленного примера видно, что по данным алгоритмам для определения множества результатов требуется вычисление оценок близости всех документов. Из-за этого в случае обработки большой коллекции документов без применения метода оптимизации процесса вычисления возможно требуется много времени для выполнения запросов, и следовательно снижается эффективность системы.
6. Оптимизация выполнения запроса
В этом разделе представлены два метода повышения скорости обработки запросов: фильтрация коллекции документов с помощью инвертированного индекса и применение статических оценок близости. Эти методы могут быть применены отдельно или совместно в зависимости от доступных ресурсов вычислительных систем.
Первый способ оптимизации выполнения запроса заключается в определении нечеткого подмножества Dq множества документов D, документы из которого могут быть релевантными запросу q. Затем сравнения выполняются только в данном множестве Dq.
Данное множество Dq называется контекстным множеством запроса q. В данной статье предлагается определение контекстного множества Dq как объединение списков релевантных документов следующим образом:
Dq = U I ,
teq
где It - список релевантных документов триплета t. На основе индекса I список It определяется следующим образом:
It = [pI (t)(d) / d | d e D},
где
Mi (t)(d) = Mi (d, t).
С использованием контекстного множества Dq имеется следующее оптимизированное определение множества результатов запроса q:
RES = {mres (d)/d|de“Dq},
где aDq - четкое множество, полученное в результате операции а-срезки над нечетком множеством Dq.
При этом ускорение получается за счет того, что размер множества aDq меньше, чем размер коллекции документов D. Однако снижается полнота результатов в связи с возможными ошибками фильтрации.
По второму методу скорость выполнения запроса может быть увеличена за счет использования статических оценок близости между элементами метаописаний. Статический метод означает, что оценки семантической близости вычисляются заранее до выполнения запроса и сохраняются в виде двухмерного массива.
В предлагаемой модели поиска данная идея применима для вычисления элементарных оценок близости и близости между
триплетами. На основе этих оценок возможно определить следующие нечеткие множества:
1) нечеткие подмножества множества пар элементов-триплетов:
SA = {Ps(A) (X y) /(x y) 1 X y e Ci ^ Ei},
где Ms(A)(x, y) = sim
sem (x, y).
Sp = {Ps(P)(x, y)/(x, y)l x, y e P },
где ps(P)(x, y) = sim
sem
(x, y).
2) нечеткое подмножество множества пар триплетов:
St = {Ps(t) (x, y) /(x, y)| x, y e T}, где Ps(T)(x, y) = sim
sem
(x, y).
Для данного метода необходимо большое дисковое пространство для хранения массива оценок близости, так как требуется определение оценки семантической близости попарно. Примитивным методом решения этой проблемы является удаление малых элементов массивов, т.е. сохраняются только те пары, близость которых выше, чем заданное пороговое значение а.
7. Выводы
В описанной модели семантического поиска элементарными единицами для составления поисковых запросов и метаописаний документов являются триплеты.
В работе предложены общий метод для вычисления близости между компонентами триплетов (см. раздел 4.6), метод вычисления близости между триплетами (см. раздел 4.8) и две схемы вычисления семантической близости между метаописаниями: 1) сумма близости между составляющими триплетами;
2) максимальное паросочетание во взвешенном двудольном графе (см. раздел 4.9).
Описаны два метода оптимизации обработки запроса: фильтрация исходной коллекции документов с помощью инвертированного индекса и использование статических оценок близости. Отличительная особенность структуры инвертированного индекса, используемая в первом методе, заключается в
использовании триплетов для составления словаря указателей. Поэтому для реализации такого типа инвертированных файлов требуется эффективный метод организации словарей триплетов, исследование данной проблемы представлено в работе [8].
Второй метод заключается в том, что при вычислении семантической близости документа запросу составляющие оценки семантической близости могут быть вычислены статическим (когда оценки близости вычислены заранее и сохранены на диске) либо динамическим способом (когда оценки близости вычисляются во время выполнения запроса). По сравнению с динамическим методом статический метод увеличивает производительность системы, однако требуются большее дисковое пространство и дополнительные вычислительные затраты при индексировании.
Литература
1. БОГАТЫРЕВ М.Ю., ЛАТОВ В.Е., СТОЛБОВСКАЯ И.А.
Применение концептуальных графов в системах поддержки электронных библиотек // Труды 9-й Всероссийской науч. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». - Переславль, 2007. -Т. 2. - С. 104-110.
2. ГУБИН М.Ю., РАЗИН В В., ТУЗОВСКИЙ А.Ф. Методы создания семантических метаописаний документов с применением семантических сетей, фреймовых моделей и частотных характеристик // Доклады Томского государственного университета систем управления и радиоэлектроники. - 2010. - Т. 2, №2. - С. 227-229.
3. ГЭРИ М., ДЖОНСОН Д. Вычислительные машины и труднорешаемые задачи. - М.: Мир, 1982. - 192 с.
4. КАРПЕНКО А.П. Оценка релевантности документов онтологической базы знаний // Электронное научнотехническое издание «Наука и образование». - иЯЪ: http://technomag.edu.ru/doc/157379.html (дата обращения: 23.07.2012).
5. КРЮКОВ КВ., ПАНКОВА Л.А., ПРОНИНА В.А., ШИПИ-ЛИНА Л.Б. Меры семантической близости в онтологиях // Проблемы управления. - 2010. - №2. - С. 2-14.
6. ЛУКАШЕВИЧ Н.В., ДОБРОВ Б.В. Тезаурус русского языка
для автоматической обработки больших текстовых коллекций // Компьютерная лингвистика и интеллектуальные технологии: Труды Международного семинара Диа-
лог'2002 / Под ред. А.С. Нариньяни. - М.: Наука, 2002. -Т. 2. - С. 338-346.
7. НГУЕН Б.Н., ТУЗОВСКИЙ А.Ф. Обзор подходов семантического поиска // Доклады Томского государственного университета систем управления и радиоэлектроники. - 2010. -Т. 2, №2. - С. 234-237.
8. НГУЕН Б.Н., ТУЗОВСКИЙ А.Ф. Оптимизация хранения словаря триплетов с использованием числовых идентификаторов // Научно-технический вестник Поволжья. - 2012.
- №2. - С. 235-245.
9. ПАНКОВА Л.А., ПРОНИНА В.А., КРЮКОВ К.В. Онтологические модели поиска экспертов в системах управления знаниями научных организаций // Проблемы управления. -2011. - №6. - С. 52-60.
10. РАБЧЕВСКИЙ Е.А. Автоматическое построение онтологий на основе лексико-синтаксических шаблонов для информационного поиска // Труды 11й всероссийской научной конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». - Петрозаводск, 2009.
- С. 69-77.
11. ТУЗОВСКИЙ А.Ф. Онтолого-семантические модели в корпоративных системах управления знаниями: дис. докт. техн. наук. - Томск, 2007. - С. 175-182.
12. ЧЕРНИЙ А.В., ТУЗОВСКИЙ А.Ф. Развитие информационной системы организации с использованием семантических технологий // Материалы Всерос. конф. с междунар. участием «Знания - Онтологии - Теория». - Новосибирск: ЗАО «РИЦ Прайс-Курьер», 2009. - Т.2. - С. 52-59.
13. ANDREASEN T., KNAPPE R., BULSKOV H. Domain-specific similarity and retrieval // 11th Int. Fuzzy Systems Association World Congress. - Vol. 1. - P. 496-502.
14. BONDY J.A., MURTY U.S.R. Graph Theory. - N.Y.: Springer, 2008. - 651 p.
15. BULSKOV H., KNAPPE R., ANDREASEN T. On measuring similarity for conceptual querying // Proc. 5th Int. FQAS Conf. LNCS. - Berlin: Springer, 2002. - Vol. 2522. - P. 100-111.
16. CASTANO S., FERRARA A., MONTANELLI S., RACCA G. Semantic information interoperability in open networked systems // Proc. of the Int. Conf. SNW. - Paris, 2004. - P. 215230.
17. CHRISTOPHER D.M., PRABHAKAR R., HINRICH S. Introduction to information retrieval. - N. Y.: Cambridge University Press, 2008. - 482 p.
18. EHRIG M., SURE Y. Ontology mapping - an integrated approach // The Semantic Web: Research and Applications. Proc. 1st European Semantic Web Symposium. - Berlin: Springer. -Vol. 3053. - P. 76-91.
19. HAASE P., SIEBES R., HARMELEN F. Peer selection in peer-to-peer networks with semantic topologies // Proc. of Int. Conf. on Semantics in a Networked World. - Paris, 2004. -P.108-125.
20. HIRST G., ST-ONGE D. Lexical chains as Representations of context for the detection and correction of Malapropisms // WordNet: an Electronic Lexical Database. - Cambridge: The MIT Press, 1998. - P. 305-322.
21. JIANG J., CONRATH D. Semantic similarity based on corpus statistics and lexical taxonomy // Proc. Int. Conf. on Computational Linguistics. - Taiwan, 1997. - P. 19-33.
22. KLIR G.J., YUAN B. Fuzzy sets and fuzzy logic : theory and applications. - N. Y.: Prentice Hall PTR, - 1995. - 574 p.
23. KNAPPE R. Measures of semantic similarity and relatedness for use in ontology-based information retrieval. PhD thesis. -Roskilde University, 2006. - 143 p.
24. LEACOCK C., CHODOROW M. Combining local context and wordnet similarity for word sense identification // WordNet: An Electronic Lexical Database. - Massachusetts: MIT Press, 1998. - P. 265-283.
25. LEVENSHTEIN I.V. Binary codes capable of correcting delation, insertion and revercals // Cybernetics and Control Theory. - 1966. - Vol.10., №8. - P. 707-710.
26. LIN D. An information-theoretic definition of similarity // Proc. 15th Int. Conf. on Machine Learning. - Massachusetts: Morgan Kaufmann, 1998. - P. 296-304.
27. MAEDCHE A., ZACHARIAS V. Clustering ontology-based metadata in the Semantic Web // Proc. 6th European PKDD Conf. LNCS. - Berlin: Springer, 2002. - Vol. 2431. -P. 348-360.
28. MILLER G., CHARLES W. Contextual correlates of semantic similarity // Language and Cognitive Processes. - 1991. - Vol.6, №1. - P. 1-28.
29. NGUYEN H.A. New semantic similarity techniques of concepts applied in the biomedical domain and wordnet // Thesis for the Degree Master of Science. - University of Houston-Clear Lake, 2006. - 108 p
30. PENIN T., WANG H., TRAN T., YU Y. Snippet generation for semantic web search engines // Proc. of the 3rd Asian Semantic Web Conf. on the Semantic Web. - Berlin: Springer Verlag, 2008. - P. 493-507.
31. RADA R., MILI H., BICKNELL E. ET AL. Development and application of a metric on semantic nets // IEEE Transactions on Systems, Man, and Cybernetics - 1989. - Vol.19, №1. - P. 1730.
32. RESNIK P. Using information content to evaluate semantic similarity in a taxonomy // Proc. 14th Int. Joint Conf. on Artificial Intelligence. - 1995. - P. 448-453.
33. RUBINSTEIN H., GOODENOUGH J. Contextual correlates of synomymy // Communications of the ACM. - 1965. - Vol.8, №10. - P. 627-633.
34. SHANNON C.E., WEAVER W. A mathematical theory of communication // ACM SIGMOBILE Mobile computing and communications review. - 2001. - Vol.5, №10. - P. 3-55.
35. SPASIC I. NENADIC G., MANIOS K., ANANIADOU S. Supervised learning of term similarities // Proc. 3rd Int. IDEAL Conf. LNCS. - Berlin: Springer, 2002. - Vol. 2412. -P.429-434.
36. SUSSNA M. Word sense disambiguation for free-text indexing using a massive semantic network // Proc. 2nd Int. Conf. IKM. -N.Y.: ACM Press, 1993. - P. 67-74.
37. TVERSKY A. Features of similarity // Psychological Rev. -1977. - Vol. 84. - P. 325-352.
38. ZHU H., ZHONG J., LI J., YU Y. An approach for semantic search by matching RDF graphs // Proc. LAIRS Conf. - 2002. -P. 450-454.
39. WU Z., PALMER M. Verbs semantics and lexical selection // Proc. 32nd ann. Meeting ACL. - NJ, USA, 1994. - P. 133-138.
INFORMATION RETRIEVAL MODEL BASED ON SEMANTIC METADATA
Ba Ngoc Nguyen, Tomsk Polytechnic University, Tomsk, PhD student ([email protected]).
Anatoly Tuzovsky, Tomsk Polytechnic University, Tomsk, Doctor of Science, professor.
Abstract: Typically, existing ontology-based approaches to semantic search use semantic similarity between ontology concepts and individuals as basic building blocks. We propose a semantic similarity scheme for triples and for sets of triples. Based on the proposed concept of semantic similarity, a theoretical model of semantic search was proposed. The model uses presentation of documents and queries in the form of triple sets.
Keywords: ontology, semantic similarity, semantic search, semantic metadata, information retrieval model.
Статья представлена к публикации членом редакционной коллегии В. Г. Лебедевым