Научная статья на тему 'Меры семантической близости в онтологии'

Меры семантической близости в онтологии Текст научной статьи по специальности «Математика»

CC BY
3148
422
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Проблемы управления
ВАК
Область наук
Ключевые слова
ОНТОЛОГИЯ / ПОНЯТИЕ / ОТНОШЕНИЕ / АТРИБУТ / ЭКЗЕМПЛЯР / СЕМАНТИЧЕСКАЯ БЛИЗОСТЬ / ONTOLOGY / CONCEPT / RELATION / ATTRIBUTE / INSTANCE / SEMANTIC SIMILARITY

Аннотация научной статьи по математике, автор научной работы — Крюков Кирилл Вячеславович, Панкова Людмила Александровна, Пронина Валерия Александровна, Суховеров Виктор Степанович, Шипилина Любовь Борисовна

Представлены обзор и классификация существующих мер семантической близости для онтологических термов понятий, отношений и экземпляров и онтологий. В основу классификации мер положены характеристики онтологических термов положения в иерархических структурах, отношения и их типы, атрибуты понятий и экземпляров. Дан обзор способов оценки мер близости.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Крюков Кирилл Вячеславович, Панкова Людмила Александровна, Пронина Валерия Александровна, Суховеров Виктор Степанович, Шипилина Любовь Борисовна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Меры семантической близости в онтологии»

U бзоры

УДК 001(06)

МЕРЫ СЕМАНТИЧЕСКОЙ БЛИЗОСТИ О ОНТОЛОГИИ

К.В. Крюков, Л.А. Панкова, В.А. Пронина, B.C. Суховеров, Л.Б. Шипилина

Представлены обзор и классификация существующих мер семантической близости для онтологических термов — понятий, отношений и экземпляров — и онтологий. В основу классификации мер положены характеристики онтологических термов — положения в иерархических структурах, отношения и их типы, атрибуты понятий и экземпляров. Дан обзор способов оценки мер близости.

Ключевые слова: онтология, понятие, отношение, атрибут, экземпляр, семантическая близость.

ВВЕДЕНИЕ

Онтология — это спецификация концептуализации предметной области (ПО). Онтологический подход дает целостный, системный обзор ПО и позволяет сделать знания доступными и повторно используемыми. Онтологии — неотъемлемый компонент Semantic Web.

Онтология состоит из организованных в иерархию понятий ПО, отношений между понятиями и атрибутов понятий, а также аксиом и правил вывода. Понятия представляют множества экземпляров. Выражения, используемые в онтологии для обозначения понятий, экземпляров и отношений, будем называть онтологическими термами. Каждая онтология отражает взгляд некоторого сообщества на ПО и сконструирована для специфических задач, решаемых в рамках этой онтологии.

Под семантической близостью подразумевается сходство пар объектов, а не семантическая связан-

ность1 объектов, когда объекты различной природы имеют некоторую связь, например публикация — автор. Семантическая близость объектов включает в себя множество аспектов сходства, поэтому выбор тех или иных критериев для оценки близости в каждом отдельном случае представляет собой непростую задачу, зависящую от целей исследования. Онтологический подход позволяет нам оперировать не простыми словами (plain words), а их смыслом (senses of words), т. е. словами, смысл которых определен онтологией. Меры близости онтологических термов используют различные

1 Связанность (ге/а?ей?йеда) — более общее понятие, чем близость [1].

семантические характеристики сравниваемых термов — их свойства (атрибуты и отношения с другими термами), взаимное положение в онтологических иерархиях.

Данный обзор рассматривает онтологические меры семантической близости, предполагающие однозначную интерпретацию термов для одной онтологии. Для кросс-онтологических мер при разных лексиконах онтологий используется еще и лексическая близость термов.

Онтологический подход обеспечивает новый уровень в решении задач поиска и интеграции информации (объединение информации из разных источников).

Запрос пользователя, как правило, не полностью отражает его интерес, так как пользователь, с одной стороны, не знает всех терминов и структур данных, заложенных в систему, с другой — не всегда точно выражает, что он ищет. Использование семантической близости дает возможность расширять запросы и ранжировать результаты запросов. Другими словами, объект c может быть представлен как размытое (нечеткое) множество, включающее в себя, кроме этого объекта, семантически близкие объекты со значением семантической близости выше заданного порога.

При интеграции информации, например, при операциях над онтологиями, использование мер близости позволяет автоматически находить семантически близкие понятия, принадлежащие к разным системам концептуализации.

Ключевой момент в решении задач поиска и интеграции информации состоит в разработке количественных оценок семантической близости. В работе представлен обзор и классификация методов, которые используют знания, заложенные в

концептуализации ПО — онтологии, для оценок семантической близости понятий, отношений и онтологий.

1. ОСНОВНЫЕ ОПРЕДЕЛЕНИЯ

Онтология есть кортеж <L > LC и LP и и LИ,

C, P, A, F, G, ^, J, HP, />, где L — лексикон, т. е.

с

множество терминов понятий (L ), отношений

(Lp), атрибутов (LA), значений атрибутов (LVA) C — множество понятий; P: C s C — множество отношений между понятиями; A: С s LVA — множество атрибутов понятий; F: L C — функция связи лексикона с понятиями; G: LP ^ P — функция связи лексикона с отношениями; J: LA ^ A — функция связи лексикона с атрибутами; H0: C s C — так-

p

сономическая иерархия классов; H : Ps P — иерархия отношений, I — множество экземпляров (экземпляр — понятие единичного объема).

Для отношения p(X, Y) X будем называть доменом (domain) — множество, для которого допустимо использование отношения, Y — диапазоном (range) — область допустимых значений отношения. Например, для отношения «иметь публикацию» множество авторов является доменом, множество публикаций — диапазоном.

Семантическая близость онтологических термов x, y определяется c помощью функции S(x, y) е [0, 1].

2. МОДЕЛЬ ТВЕРСКИ

Традиционно объект представляется точкой в n-мерном пространстве свойств (геометрическая модель). Близость двух объектов является функцией от расстояния между соответствующими точками пространства. Расстояние между точками i и j рассчитывается по формуле:

г A

VA>.

D(i, j) =

IIX* -

■k = 1

1/r

где п — размерность пространства, Х.к — значение координаты k для объекта i, г — параметр, позволяющий использовать различные пространственные метрики. При г = 2 используется евклидова мера расстояния. Каждая ось интерпретируется как свойство. Качественная характеристика объекта может быть приведена к количественной одной из процедур приведения лингвистических шкал к цифровым.

В геометрической модели расстояние d(a, Ь) между объектами a и Ь должно удовлетворять следующим аксиомам:

d(a, b) l d(a, a) = 0 (минимальность); d(a, b) = d(b, a) (симметрия);

d(a, b) + d(b, c) l d(a, c) (неравенство треугольника).

Недостаток геометрической модели заключается в том, что субъективная оценка близости не всегда удовлетворяет аксиомам геометрической меры близости.

В основу многих онтологических мер близости положен теоретико-множественный подход Твер-ски [2], определяющий меру близости двух объектов через сопоставление свойств (feature matching), как одинаковых, так и различных. Если мера близости S(a, b) между объектами a и b является функцией трех аргументов A п B, A — B, B — A, где A и B — множества свойств этих объектов, и удовлетворяет аксиомам монотонности, независимости, разрешимости и инвариантности [2], то она определяется формулой:

S(a, b) = 0f(A п B) - af(A - B) + pf(B - A),

где f — некоторая функция; 0, a, и в l 0 — веса для общих и различных свойств объектов. Веса позволяют определить ассиметричную меру близости. Эта модель называется контрастной моделью (contrast model) близости объектов. В развитие модели Тверски была предложена нормализованная модель (ratio model):

S(a, b) =

f( A n B)

f( A n B) + af(A - B) + ef( B - A)

В большинстве методов вычисления мер близости используется ratio model, а в качестве функции f — мощность множества-аргумента.

Модель Тверски более подходит для мер близости в онтологии, чем геометрическая, так как в геометрической модели при большом числе координат наглядность представления существенно уменьшается. Кроме того, свойства геометрической модели не всегда соответствуют содержательным представлениям о семантической близости. Так, при сравнении варианта с прототипом (или дочернего понятия с родительским) вариант более подобен прототипу, чем прототип варианту. Например, портрет больше похож на человека, изображенного на нем, чем наоборот [2], т. е. аксиома симметрии не соблюдается. При попарном сравнении России, Кубы и Ямайки получаем, что Ямайка подобна Кубе (географическая близость), Куба подобна России (политическая близость (в 1970-е гг.)), но Ямайка вовсе не подобна России, т. е. в данном случае отношение близости не транзитивно, и неравенство треугольника не выполняется.

Кроме того, геометрическая модель близости не «реагирует» на добавление общих свойств к объектам, что должно бы увеличивать их близость [3].

П

3. МЕРЫ БЛИЗОСТИ ОНТОЛОГИЧЕСКИХ ТЕРМОВ

3.1. Меры близости понятий

3.1.1. Меры, основанные на иерархических структурах

Близость двух понятий оценивается по положению вершин, соответствующих этим понятиям в иерархических онтологических структурах — главным образом в таксономической иерархии (иерархии, основанной на отношениях IS — A).

Простейшая мера близости такого рода основана на длине кратчайшего пути, измеряемого числом вершин (или ребер) в пути между двумя соответствующими вершинами таксономии [4], с

учетом глубины таксономической иерархии [5] — чем меньше длина пути между вершинами, тем они ближе:

S(C- ^ ■

где N — глубина дерева, d(cv c2) — длина кратчайшего пути между вершинами. Рассмотрим, например, фрагмент таксономического дерева из Medicine Subject Heading онтологии (рис. 1).

Длина пути между вершинами G01 и G03 равна 3 (число вершин). Длина пути между вершинами G01.273 и G01.550 тоже 3. Однако интуитивно близость первой пары меньше, чем второй, которая принадлежит более низкому уровню и разделяет больше информации, чем первая пара. Чем ниже уровень пары вершин, тем они семантически ближе по сравнению с парами более высокого уровня. По мере спуска уровень семантической детализации увеличивается. Значит, глубина вершин должна тоже приниматься во внимание.

В работе [6] предложена мера близости, учитывающая только глубины вершин понятий:

S(c с ) = 2 х L CS) (l,2) N(Cl) + N(c2) ’

(1)

где N(LCS) — глубина наименьшей общей родовой вершины — ближайшего общего родителя (least common subsumer — LCS), N(cl) и N(c2) — глубины вершин. Например, на рис. 1 LCS(G01.273, G01.550) = G01 и LCS(G01, G03) = G.

В работе [7] предложена мера близости, учитывающая два параметра: расположение вершин в таксономии (длину кратчайшего пути между вершинами) и глубину LCS-вершины — с учетом их весов a и b. Были исследованы линейные и нелинейные комбинации этих параметров, и наиболь-

Глубина вершины — путь от вершины до корня (Чор-вер-шины), глубина таксономической иерархии — это максимальная глубина по всем вершинам.

Рис. 1. Фрагмент MeSH-онтологии

шая корреляция с экспертными оценками получена при применении формулы:

w -ad(ci, c2) (ebN(LCS) - e-bNLCS))

(C1’ e ( ebN(L CS) + e-bN(L CS)) ,

где d и N — длина кратчайшего пути между вершинами и глубина LCS-вершины, соответственно.

При оценке семантической близости понятий предлагается ограничивать конфигурацию пути: длину пути и количество перегибов [8]. Предполагается, что два понятия семантически близки, если соединены достаточно коротким путем с малым числом перегибов:

c ) _ k0 - d(c1> c2) - kh

S(cl, c2> _ ------C--------,

k0

где h — число перегибов на протяжении пути, k0 и k — константы. Например, при k0 _ 8, k _ 1 максимальная длина пути ограничивается пятью шагами.

Этот подход развивается в работах [9, 10], рассматриваются либо пути, состоящие из совокупности иерархических отношений, направленных в одну сторону (например, последовательность отношений от потомка к предку), либо включающие ровно один перегиб, т. е. изменение направления движения. Рассматриваются перегибы двух видов: перегиб-сверху, например, сначала несколько отношений от видовых понятий к родовым, затем несколько отношений от родовых понятий к видовым, и перегиб-снизу — наоборот.

Для измерения близости используется семантическое расстояние SemDist [1], инверсное семантической близости: чем больше семантическое расстояние, тем меньше семантическая близость. Вводится понятие общей специфичности двух вершин CSpec(c1, c2) _ N — N(LCS(c1, c2)), где N — глубина таксономического дерева. Чем меньше специфичность двух вершин, тем больше их близость. Семантическое расстояние является функцией двух параметров — длины кратчайшего пути между

вершинами и общей специфичности двух вершин с их весами, причем при совпадении сравниваемых вершин (единичная длина пути) семантическое расстояние нулевое:

SemDist(c1, c2) =

= log((d(c1, c2) - 1)a(CSpec(c1, c2))e + k), (2)

где a > 0, в > 0; k l 1 — константа (обеспечивает нелинейность и положительность SemDist), d(c1, с2) — длина кратчайшего пути между двумя вершинами, выражаемая числом вершин.

При определении семантического расстояния в таксономическом дереве онтологии предлагается учитывать гранулированность (granularity) кластеров [1]. Кластером называется категориальное4 поддерево таксономического дерева. Кластер, имеющий наибольшую глубину, объявляется главным (primary), и остальные (вторичные) шкалируются относительно главного. При вычислении кросс-кластерного расстояния между вершинами, находящимися в разных кластерах, LCS двух вершин есть глобальный корень дерева. Тогда:

CSpec(cl, c2) = CSpecprimary =

Nprimary 1

и d(c1, c2) = d(c1 root) + d(c2 root) - 1,

где ЛргЫагу — глубина главного кластера. Предлагается шкалировать путь во вторичном кластере величиной (2Л^ — 1)/(2Л2 — 1), где N и Л2 — глубины кластеров, (2ЛХ — 1) и (2Л2 — 1) — максимальная длина пути между вершинами в главном и вторичном кластерах. Длина пути между вершинами с учетом гранулированности кластеров вычисляется как

d(cj, c2) = N(cj) +

2 N - 1

2—"Л

N(c2) - 1.

В работе [11] вводится информационное содержание IC (information content) понятия, которое определяется как частота встречаемости понятия и его подпонятий в стандартном корпусе текстов и трактуется как значение вероятности P(c). Если c2 — родитель для cj, то P(cj) < P(c2). Значение P(c) для корня иерархии равно 1. В теории информации IC(c) = -logP(c). Чем более абстрактно понятие, тем меньше значение IC. В мерах семантической близости используется таксономическая иерархия в онтологии как первичный источник информации и IC — как вторичный.

В качестве информационного содержания понятия предлагается использовать так называемое

Чем больше вершин в кластере, тем больше гранулиро-ванность кластера.

4 Вершины-категории — первый после корня уровень таксономического дерева.

«внутреннее» информационное содержание (intrinsic information content), основанное только на иерархической структуре [12]:

IC(c) = 1 _ log (hypo (c) + 1)

(c) 1 log К ,

где hypo(c) — число прямых потомков (hyponym) понятия c, K — общее число вершин иерархии.

В работе [11] близость между двумя понятиями оценивается по информационному содержанию IC ближайшего по таксономической иерархии общего понятия (родителя сравниваемых понятий): S(c1, c2) = IC(LCS(c1, c2)). В случае множественного наследования для сравниваемых понятий учитывается множество Sup(q, с2) ближайших общих родителей (LCS):

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

S(c1, c2) = max [IC(c)].

С £ sup(Cj)

В работе [13] учитывается не только IC ближайшего общего родителя, но и IC самих понятий — их исходное местоположение:

S(c1, c2) = IC(c1) - 2IC(LCS(c1, c2)).

Мера близости из работы [14] подобна мере близости из работы [6] — см. формулу (1), но вместо глубины вершины используется ее IC — «взвешенная» глубина:

S(c c ) = 2IC(LCS(c1, c2))

( ^ 2) IC( с 1 ) + IC( c2) .

Общая специфичность двух концептов CSpec

[1] вычисляется с использованием IC:

CSpec(c1, c2) = ICmax - IC(LCS(c1, c2)),

где ICmax — максимальное значение IC для всех понятий онтологии, а семантическое расстояние SemDist вычисляется по формуле (2).

Для вычисления семантической близости понятий вводится множество вершин [15], которое содержит все вышележащие вершины (суперпонятия) по таксономической иерархии H по отношению к заданной вершине-понятию и заданную вершину, — так называемая «верхняя котопия» (upwards cotopy — UC):

UC(c,, HC) > {j е C\H%, cj) v (ci = cy)|.

Таксономическая мера близости понятий определяется как отношение числа общих суперпонятий обеих вершин к числу всех суперпонятий обеих вершин:

*1, Сг) = Иc 1, . (3)

I UC(c1, H) u UC(c2, HC)|

При вычислении семантической близости понятий ислам и христианство по фрагменту онто-

Рис. 2. Пример онтологии (пунктирными стрелками показано отношение «верить»)

логии, изображенной на рис. 2, по формуле (3) получаем:

UC(христианство) = {христианство, религия, root}; UC(ислам) = {ислам, религия, root};

S(ислам, христианство) = 1/2.

Недостаток большинства мер, основанных на структуре графа онтологии, состоит в симметричности (экспертные оценки показывают, что мера близости не всегда симметрична). Кроме того, эти меры независимы от контекста и чувствительны к структуре иерархии.

В работе [16] предлагается асимметричная мера семантической близости. В зависимости от направления прохождения ребрам придается разный вес, так как потомок более подобен родителю, чем наоборот.

Пусть d = {c1, ..., cn} — путь в вершинах между вершинами c1 и cn, s(d) (g (d)) — число непосредственных ребер от дочерней вершины до родительской (от родительской до дочерней) в этом пути, ст — вес ребра в направлении от дочерней вершины до родительской, у — от родительской до дочерней. Тогда:

гу Ч , s( dj) g(dj)

S(c1, c2) = max {ст у },

j = 1, ■■■, m

где d1, ..., dm — пути в вершинах между вершинами c и c .

1n

3.1.2. Меры, использующие неиерархические отношения

Оценка близости понятий, использующая неиерархические («горизонтальные») отношения, опирается на предположение, что если два понятия имеют одно и то же отношение с третьим, то

они ближе, чем два понятия, которые имеют это же отношение с различными понятиями, т. е. близость двух понятий зависит от близости понятий, с которыми они имеют отношения. Таким образом, мера близости вычисляется рекурсивно.

В работе [15] предлагается мера близости между экземплярами5, основанная на неиерархических отношениях.

Пусть сравниваются два экземпляра il и /2. Пусть P1 (Р2) — множество отношений, для которых ^ (^) является элементом домена или диапазона. Множество Рсо = Р1 П Р2 будем использовать для реляционной меры близости экземпляров ^ и ^. В свою очередь, Рсо = Р^^ и PCO_O, где Рсо_1 — входящие отношения (¡1 и ^ — диапазоны), PCO_O — выходящие отношения (^ и ^ — домены). Множества входящих и выходящих отношений пар i1

и Ч — PCO_I(І1, ^ = PCO_I(І1) П PCO_I(І2) и

^о^^ 2 = PC0_0(І1) П PCO_O(i2), соответственно.

Для i1 и каждого отношения рп из PC0_I (PC0_0) существует множество ЛБ ассоциированных экземпляров ^, таких что рп(^, 1 (рп(^, ix)).

Для Рп из Pсо_I: ЛS(Pn, ^ = {ixIPn(ix, г'1)}.

Для Рп из Pсо_о: ^ = {Іx|Pn(i'l, 0}.

Сравнение экземпляров относительно отношения рп будет сводиться к сравнению множеств ЛБ(рп, ^ и ЛБ(Рп, у.

5 Экземпляр — понятие единичного объема (висячая вершина таксономической иерархии).

Близость экземпляров относительно одного отношения Б(11, 12, р) вычисляется по формуле:

S(iv iv p) =

1

z

max {S(a, b)},

\AS(P’ hУ a є AS(p, t0 b є AS(P. h)

если |AS(p, i1)| > \AS(p, i2)|, 1

\AS(p, i2)| a є AS(p, t2) b є AS(P. t'l)

если |AS(p, i1)| < \AS(p, i2)|.

max {S(a, b)},

Реляционная мера близости S(i1, i2) с учетом ех отної формуле:

всех отношений из PCO = P1 n P2 вычисляется по

S(¿1, ¿2) =

1

\PCO-l + \PCO-t

S ^ Z S( i!’ *2> P) + Z S( i!’ /2’ P)J •

p e PCO—I p e PCO—O

Задается максимальная глубина рекурсии. При ее достижении близость экземпляров оценивается, например, по таксономической мере.

Вычислим реляционную меру близости между вершинами Финляндия и Германия для отношения верить (см. рис. 2) при глубине рекурсии 1:

AS (верить, Германия) = {Католичество, Протестантство};

AS (верить, Финляндия) = {Протестантство}; Б(Протестантство, Протестантство) = 1;

AS (верить, Протестантство) = {Финляндия, Германия};

AS (верить, Католичество) = {Германия}; Б(Католичество, Протестантство) = 0,75. Следовательно, Б(Финляндия, Германия) = (1 + + 0,75)/2 = 0,87.

3.1.3. Меры, учитывающие значения атрибутов

Атрибутивная мера близости основана на близости значений общих атрибутов понятий. Атрибуты можно рассматривать как отношения, диапазоны которых — литералы, числа, строки и другие типы данных.

В работе [15] предлагается мера близости между экземплярами, учитывающая значения атрибутов.

Пусть A — множество атрибутов; A(i) — множество атрибутов экземпляра i; ACO = A(/j) n A(i2) — множество общих атрибутов экземпляров il и i2; AS(a, i) = {lx\a(i, lx)} — множество значений атрибута а для экземпляра i; LS(ll, l2, a) e [0, 1] — близость значений lj, l2 атрибута а, причем минимальная близость при сравнении атрибутов равна нулю.

В качестве меры близости для строковых данных можно использовать пронормированное ре-

дакторское расстояние [17], для чисел — инверсию разности, пронормированную максимальным значением атрибута. Тогда близость двух экземпляров 11 и 12 в отношении одного атрибута Б(1Х, 12, а) может быть вычислена так [15]:

Б(11, 12, а) =

1

Z

max {LS(l, m, a)},

|AS( a, ¿i ^ і є AS(a, t1)m є AS(a’ t2)

если |AS(a, i1)| > |AS(a, i2)|,

1

V 1

|Л£(а, *2)| I е л'ка, 2) т е лЭ(а, ^)

если |Л£( а, *1)| < |Л£(а, 12)|.

Атрибутивная мера близости экземпляров £(*'1, *2) с учетом всех атрибутов из Лсо = Л1 п Л2 вычисляется по формуле:

1

max {LS(l, m, a)},

S(i1, i2) =

Ia

CO

Z S(¿i, i2, a).

є Ar

iCO

3.1.4. Гибридные меры

Гибридные меры являются свертками перечисленных мер близости понятий. Чем полнее будут учитываться характеристики двух сущностей с разных точек зрения, тем более качественную меру близости можно получить. В связи с этим наиболее перспективными представляются именно гибридные меры, сочетающие несколько подходов.

Чаще всего в гибридных мерах используется аддитивная свертка:

п

£(сГ С2) = V ^ c2),

I = 1

где £ 1 — мера близости по определенному критерию, вес wi определяет относительную важность критерия, сумма весов равна 1, п — число критериев. Распространенная модификация аддитивной свертки основана на использовании сигмоидальной функции:

п

£(с1, с2) = V Wi^(Б ^1, С2)),

I = 1

где 81§(х) = 1/(1 + е ах), а > 0.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Сигмоидальная функция позволяет повысить веса мер с большими значениями и практически пренебречь мерами с малыми значениями.

Редакторское расстояние (ed) между строками измеряется в минимальном числе символов, которые надо удалить или добавить при переходе от одной строки к другой. Например, ed(«TopHotel», «Top Hotel») = 1.

X

Веса могут определяться интерактивно экспертами и (или) пользователями, а также автоматически с помощью обучаемой нейронной сети [18] или генетического алгоритма [19].

В работе [20] гибридная мера оценивает близость понятий, комбинируя гаИв-модель Тверски с мерой, основанной на иерархических структурах. Мера близости представляет собой аддитивную свертку трех составляющих по разным типам свойств: части (компоненты понятий); функции (функциональные возможности); атрибуты (остальные свойства):

Для вычисления значения меры по каждому типу используется гайв-модель:

£(С1, с2) = WpSP(Cl, С2) + wfSf(Cl, с2) + WaSа(С1, Сз).

£*(ср С2) =

= ____________________С п с2 |__________________

IС п С2 | + а ( С1, с2 ) | С1 - С2 | + (1 - а ( с1, с2 ) ) | С2 - С1 | ,

где £р, Sf и £а — составляющие близости по частям, функциям и атрибутам, ? = {р, / а}, с1 и с2 — сравниваемые понятия, С1 и С2 — множества различимых свойств данного типа сравниваемых понятий, а определяется через длины путей между вершинами, соответствующими сравниваемым понятиям, и ближайшим общим родителем (ЬС£) в иерархии:

а(с1, с2) =

¿(сь ¿С£), если ¿(сь ЬС£) < ¿(с2, ЬС£),

_ ¿( с1> с2)

1 - сКс ь ЬС £), если ¿(с 1; £СБ) > ¿(с2, ЬС£).

¿( с 1> с2 )

Из определения а следует несимметричность меры близости. При сравнении подкласса и над-класса (варианта и прототипа) а = 0, т. е. не учитываются свойства варианта, которыми не обладает прототип, а при сравнении прототипа и варианта они учитываются (а = 1). Таким образом, вариант ближе к прототипу, чем прототип к варианту, что согласуется с интуицией.

Гибридная мера, предложенная в работе [15], содержит оценку близости экземпляров, состоящую из трех частей — таксономической, реляционной и атрибутивной (см. п. 3.1.1 — 3.1.3), представленную аддитивной сверткой:

£(*1, *2) = ^(¿р *2) + р£р(*1, *2) + а£а(/1, *2),

где £*, £р и £а — таксономическая, реляционная и атрибутивная составляющие близости, соответственно, ?, р и а — веса.

3.2. Меры близости отношений

До сих пор рассматривались меры близости между понятиями. Рассмотрим меры близости между отношениями.

В работе [21] близость двух бинарных отношений р1 и р2 вычисляется как среднее геометрическое (а не арифметическое среднее) близости понятий доменов и диапазонов этих отношений. Это основано на интуиции: если близость по одному из компонентов достигает значения 0, то и общая близость двух предикатов также достигает значения 0:

£(рР р2) > Т£(ад^Р^£(кР^Г(Р^1,

где ¿(р) — понятие домена отношения р, г(р) — диапазон отношения р, £(с1, с2) — близость понятий в таксономической иерархии.

В работе [22] близость двух п-арных отношений р1 и р2 вычисляется как среднее геометрическое близости понятий соответствующих аргументов сравниваемых отношений. В измерении близости двух п-арных отношений учитываются как близости пар соответствующих аргументов сравниваемых отношений, так и близость самих отношений

по иерархии отношений Н , измеряемая аналогично таксономической близости понятий в иерархии

с

понятий Н , см. формулу (3):

£(р р Нп) = |( иС(Р1, НК)п иС(р2, НК))\

£(р1, р2, Н ) | в Ъ | ,

|( иС(р1, НЪ )и иС(р2, НЪ))|

т. е. отношение числа одинаковых надотношений (всех предков в иерархии отношений) обеих вершин к числу всех надотношений обеих вершин, и с учетом аргументов I, у:

£(Р1(1р ..., Іn), Р2(1р ..., *п)) =

= п + V£(Р1, Р2, Н) £(* 1, У)... £(*п, Уп).

3.3. Кросс-онтологические меры

Трудности сравнения разных онтологий ПО (различных концептуализаций одной и той же ПО) заключаются, с одной стороны, в различии используемых лексиконов термов, с другой — в различных путях концептуализации и ее представления.

3.3.1. Меры близости понятий

Отображение онтологии 01 на онтологию 02 означает попытку найти для каждого из концептов онтологии 01 подобный ему концепт в онтологии 02, т. е. возникает задача поиска наилучших кандидатов для установления соответствий онтологий.

В работе [1] таксономии двух онтологий связываются через «мосты» («якори») — вершины, соот-

ветствующие эквивалентным понятиям, которые определяются с использованием синсетов (множеств синонимов) из онтологий MeSH и WordNet.

Например, вершины а9 и Ь2 из разных онтологий (рис. 3, а) сливаются в одну вершину-мост (рис. 3, б).

Параметры меры — длина кратчайшего пути между двумя вершинами, соответствующими сравниваемым понятиям, и общая специфичность вершин — рассчитываются с учетом введенных мостов. Ближайшим общим родителем (LCS) для сравниваемых понятий из разных онтологий O1 и O2 является ближайший общий родитель первого элемента сравниваемой пары и вершины-моста:

LCS (c1p c2j) = LCS (c1p Bridge).

Путь между двумя сравниваемыми вершинами проходит через вершину-мост и через две онтологии с разными глубинами таксономии. Часть длины пути во вторичной онтологии «шкалируется» длиной пути в первичной онтологии:

d(cli, c2j) = d(clp Bridge) +

2N1 - 1 Щ-Л

d(c2j, Bridge) — 1,

где N1 и N2 — глубина соответствующих таксономий, d(cu, Bridge) и d(c2j, Bridge) — длины путей от каждой вершины до вершины-моста, вычитание 1, так как вершина-мост считается дважды.

Общая специфичность CSpec двух вершин и семантическое расстояние SemDist при наличии одной вершины-моста рассчитываются по формулам:

CSpec(cXi, c2j) = N1 — N(LCS(cu, Bridge)),

SemDist(clp c2j) =

= log((d(cb., cj) - 1)a(CSpec(cb, c2j)e + k).

Две онтологии могут иметь много пар эквивалентных вершин, образующих вершины-мосты.

Рис. 4. Множество семантического соседства вершины Спортивный комплекс радиуса 1

Для нескольких мостов, связывающих две онтологии:

SemDist(cx,, c2j) =

min

= і,

{SemDistk(c1i, c2j)},

я *

где п — число вершин-мостов. Таким образом, семантическое расстояние между двумя сравниваемыми вершинами (понятиями в разных онтологиях) определяется как минимальное из множества расстояний по всем вершинам-мостам.

Для вычисления кросс-онтологической меры таксономии двух онтологий связываются через вводимый корень обеих иерархий [20]. Близость понятий в двух онтологиях вычисляется с учетом

лексической близости термов, соответствующих сравниваемым вершинам, семантической близости соседних (в заданном радиусе окрестности вершины в иерархии) вершин, а также близости различимых свойств понятий, соответствующих сравниваемым вершинам.

Множество семантического соседства вершины радиуса г в объединенной онтологической иерархии, основанной на таксономических (1£-Л) и ме-ронимических (PЛRT-0F) отношениях — множество вершин-понятий, расстояние (в ребрах) до которых от заданной вершины меньше г (рис. 4):

Щ(с, г) = {с. | ¿(с, с) < г}.

Сравнение семантических соседей сравниваемых объектов основано на том, что чем ближе объекты, с которыми сравниваемые объекты связаны таксономическими и меронимическими отношениями, тем сравниваемые объекты ближе.

Мера близости между объектами в разных онтологиях представляет собой взвешенную сумму значений близости для каждой составляющей: лек-

Рис. 3. Связь двух онтологических фрагментов: слияние двух вершин из разных онтологий (а) в одну вершину-мост (б)

Основывается, например, на редакторском расстоянии вй(1,, ') между двумя терминами І,, і(сколько символов надо добавить, удалить или изменить, чтобы сделать из одной лексемы

другую): LS(l¡, і') = тах(о, тт(І1'І’ ^ є [0, 1].

* ' V тіп / / / \ )

k

сическое соответствие, соответствие свойств, соответствие семантического соседства. Веса определяют относительную важность каждой составляющей:

£(с1Р с2,) = wi£/(cli, с2/') + Wн£И(cli, с2/') +

+ ^(с1Р с2р, где си и су — сравниваемые вершины-понятия из онтологий 01 и 02, соответственно Sl, Su и Sn — составляющие близости по лексикону, свойствам и семантическому соседству, м> — веса составляющих близости объектов в интервале [0, 1], их сумма равна единице.

Для вычисления значения по каждой составляющей меры близости используется гай'о-модель

[2], адаптированная для каждого типа близости:

&(с1р с2) =

=_____________________С і п С2 ,.|________________,

\СИ п С2;\ + а( С1 і, с2])\ С1 і ~ С2;\ +( 1 - а( с1і, °2]))\ С2] - С1г|

где Ї = {/, и}, си и с2. — сравниваемые понятия; Си и Су — множества слов в названиях вершин (или в множестве их синонимов) при Ї = I, множества различимых свойств сравниваемых вершин-понятий при Ї = и.

Близость по семантическому соседству Бп радиуса г между вершинами си и с2. из онтологий 01 и

02 есть функция от так называемого аппроксимирующего пересечения (пи) между множествами семантического соседства для с1г и с2, которое характеризует семантическую близость окрестности первой вершины по отношению к окрестности второй:

с1і Пп с2) =

X іїіах£( с\і, Су) і_ ^ І < т ■*

к < п '

Ф^Р су^

= Г1, если £(с 1 і, с2У) = шах£(си, с1у),

= і 1 І < т 1

0 в противном случае,

где п и т — число вершин в сравниваемых окрестностях.

Близость по семантическому соседству определяется по формуле:

£П(сХР </ = [с1| пп с2/]/[с11 Пп с2/ + а(с1Р с2р Х Х8(с1|, с11 пп с2/, г) + (1 - а(с1|, с2/)8(с1|, с11 пп с2/, г)],

8(с1|, с11 Пп с2/, г) =

= |Щ(с 1* г)| - с11 пп с2р если Щс11> г)| < с11 пп C2/',

[0 в противном случае.

Коэффициент а для гай'в-модели [2] — функция от глубин вершин-понятий — кратчайшего рассто-

яния от данной вершины до введенного корня, который является единственным общим надклассом для вершин-понятий из разных онтологий:

а(с1Р с2) =

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

,г М(с 1і)----------, Щ(с 1і) < Щ(с2,),

Щ( с1і) + Щ( суУ 10 1,ь

Щ( си)

Щ(с 1і) + Щ( су)

Щ(си) > Щ(су).

Существенную роль в этой мере играет различие путей формализации и ее представления в онтологиях сравниваемых понятий (например, различная классификация различимых свойств или несовпадение множества свойств подобных понятий). Лексика определяет все три составляющие меры близости, поэтому при использовании этой меры существенно соответствие лексиконов онтологий сравниваемых понятий.

В работе [23] мера близости между термами разных онтологий разбивается на элементарные критерии, для свертки которых используются аддитивная или сигмоидальная функции:

о

• лексическая близость ;

• отношение «£ameClassЛs» и «£ате1пйт(1иа1М»;

• близость свойств — атрибутов и отношений;

• близость доменов и диапазонов для отношений;

• близость родительских понятий;

• близость родительских атрибутов;

• близость дочерних понятий;

• близость дочерних атрибутов;

• близость понятий одного уровня;

• близость экземпляров понятий;

• близость ограничений и правил;

• другие.

Расчет близости между понятиями в разных онтологиях представляет собой итерационный процесс, поскольку многие из рассмотренных критериев близости двух понятий основываются на близости других сущностей (понятий, свойств, экземпляров). На первой итерации используются критерии близости, которые не основываются на других критериях, т. е. критерии, основанные на лексике и отношениях «£атеС1а55М» и «£ате-ЫйтйиаЛ».

3.3.2. Меры близости онтологий

В работе [21] рассматриваются методы измерения близости между онтологиями на двух уровнях — вербальном и концептуальном. На вербальном уровне сравниваются лексиконы двух онтологий, на концептуальном — сравниваются таксономии понятий и других отношений двух он-

Здесь лексическая близость термов основывается на редакторском расстоянии между терминами.

Ф

Рис. 5. Пример двух онтологий OJ и O2

тологий. Под лексиконом подразумевается множество терминов понятий, отношений и атрибутов C P А

онтологии L := L u L u L . Лексикон и понятия (отношения) связаны через функцию F(G), которая ставит термины в соответствие понятиям (отношениям) в онтологии.

Лексическая близость между двумя онтологиями вычисляется с использованием лексической близости между терминами:

S(L1, L2) = у max LS(l, l),

1 2 IL1 lt ,L11J - L2 i j

где L1, L2 — лексиконы сравниваемых онтологий.

Концептуальная близость онтологий оценивается с двух сторон — близость таксономий и близость отношений.

Для вычисления близости таксономий используется множество вершин, которое содержит все выше- и нижележащие вершины по таксономической иерархии H по отношению к заданной вершине-понятию, — семантическая котопия (SC — semantic cotopy):

SC(c, HC) := {cj є C\HC(c, c) v HC(c, cj)}.

Для множества понятий:

SC({ci, ..., cn), HC) := , U SC(c;, HC).

1 n i : = 1,n ‘

Если термин l используется в обеих онтологиях

O1 и O2 с таксономиями HC и H2C, то таксономическая близость онтологий относительно этого термина определяется по формуле:

S'(l, O1, O2) :=

:= I F- 1 ( SC(F1 ( { 1} ), H C) ) n F- 1 ( SC(F2 ( { 1} ), H 2 ) ) I ' |F1'1(SC(F1({l}), HCX)) u F2-1(SC(F2({l}), H2C))| .

Чем больше одинаковых терминов в семантических котопиях понятий, названных этим термином в обеих онтологиях, тем больше таксономическая близость онтологий относительно этого термина.

Если термин есть только в одной онтологии, а во второй отсутствует, то сравниваются термины семантических котопий понятия, соответствующего термину l, и всех понятий во второй онтологии, и в качестве таксономической близости относительно этого термина берется максимум:

S"(l, O1, O2) >

:= max | F- 1 ( SC(F( { l} ), H?) ) n F- 1 ( SC(c, H?) ) |

' ‘^2 |F11(SC(F({ l}), H?)) u F-1(SC(c, H?))| '

Такая операция делается для каждого термина в первой онтологии, после чего вычисляется таксономическая близость для двух онтологий как среднее значение по лексикону понятий первой онтологии:

St(Oi, O-) = X S(l, Oi, O-),

L

где

S(l, Ox, O2) =

l, O1, O2 ), если l є L2,

^£"( І, 01, 02), если І £ Ь2.

Рассмотрим пример. На рис. 5 представлены две онтологии 01 и 02, которым соответствуют частично пересекающиеся лексиконы Ь1 и Ь2. Таксономическая близость $ («гостиница, Н1, Н2) определяется следующим образом:

Ff1 ($С(/1({«гостиница»}), Их )) = {«гостиница», «размещение»} и

F21 ($С^2({«гостиница»}), И2 )) = {«здравница», «гостиница»}.

С с

Следовательно, $ («гостиница», Их , И2 ) = 1/3. Для термина «размещение», которая есть толь-

ко в лексиконе L

і •

F1 1 (^(^({«размещение»}), H2 )) = {«молодежное общежитие», «размещение», «гостиница»}.

В онтологии 02 нет понятия, соответствующего «размещению», поэтому берется то, которое даст наилучший результат. В данном случае это «гостиница»:

F21 (£С^2({«гостиница»}))) = {«здравница», «гостиница»}.

Таким образом: £"(«размещение», Нс, Н2С) = 1/4.

Для оценки близости отношений используется понятие верхней котопии — все предки понятия с..

Вводится таксономическая близость понятий с 9

учетом лексиконов :

£1(с1, 01, с2, 02) >

:= I Fl- 1 (ЦС(с 1, Нс)) п Р-1( ис(с2, Н2С))|

' |^-1(иС(с1, НС)) и F21( иС(с2, Н2С))| .

Близость отношений из разных онтологий вычисляется как среднее геометрическое близостей понятий для доменов и для диапазонов:

£'(Р1, 01, Р2, 02) >

где ¿(р) — домен отношения р, г(р) — диапазон отношения р.

Для отношений, присутствующих в обеих онтологиях:

S "(l, O1, O2) >

у

G1({ l})l Rj e G({l})R2 - G2({l})

max {S (R1, O1, R2, O2)},

так как в онтологиях может быть несколько отношений с одинаковыми названиями.

Если отношение присутствует только в одной онтологии 01, то:

S''(l, O1, O2) > у max {S'(p1, O1, p2, O2)}.

|^1({ 1 })| Щ е в1({ I}) р2 е Р2

Тогда реляционная близость между онтологиями будет вычисляться по формуле:

£р(0р 02) > ^ х £(1, 01, 02)},

N . ь{

В работе [15] введена таксономическая близость понятий как отношение числа совпадающих понятий к общему числу понятий в верхних котопиях, а здесь таксономическая близость понятий вводится как отношение числа совпадающих терминов понятий к общему числу терминов понятий в верхних ко-топиях.

где

S(l, O1, O2) :=

S’(l, Ob O2), если l e Lp2, S "(l, Ob O2), если l <£ L2.

Предлагается подход к семантическому ранжированию ответов на запрос к Web-порталу [22]. Задача ранжирования может быть сведена к сравнению пар баз знаний10 — каждого результата запроса (QKB) и портала (KB). Один ответ — результат запроса, преобразованный в предложения F-Logic, интерпретируется как база знаний. Базы знаний запроса, результата и портала имеют один лексикон и одни понятия, поэтому сравниваются только отношения. Ранжирование производится по значению близости баз знаний результатов запроса к базе знаний портала, причем понятие близости между двумя базами знаний сводится к определению близости отношений:

S(QKBi, KB) = -L Z maxS( j p),

\Fdpj Tpq pie P j

где Pq — множество отношений базы знаний результата запроса QKB, P — множество отношений

базы знаний портала, S( pj, pi) — близость двух

ji

n-арных отношений p. и p..

4. СПОСОБЫ ОЦЕНКИ МЕР БЛИЗОСТИ ПОНЯТИИ

Отсутствие «золотого стандарта» меры семантической близости — хорошо известная проблема. Усилия многих исследователей направлены на оценку и сравнение мер семантической близости.

В работе [24] выделяются три подхода к оценке мер семантической близости.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Первый подход — теоретическая проверка желательных математических свойств предлагаемой меры [2, 14]. Например, является ли мера симметричной или асимметричной, гладкой, имеет ли особые точки и т. д. Такой анализ может служить грубым фильтром при оценке меры.

Второй подход — сравнение с экспертными оценками [1, 20, 24]. Насколько экспертные оценки считаются корректными, настолько этот подход дает правильную оценку мере. Главная помеха — трудность проектирования психолингвистического эксперимента и обоснования его результатов для получения достоверных оценок.

Третий подход — оценка эффективности мер в рамках конкретного приложения [24].

В рамках второго подхода рассматриваются разные способы проведения экспериментов для получения экспертных оценок. Можно выделить три

Считается, что база знаний и онтология — одно и то же.

1

1

способа получения информации о семантической близости терминов от экспертов:

— для множества пар понятий по заданной шкале оценивается семантическая близость;

— понятия из выбранного множества ранжируются по семантической близости с заданным понятием;

— из заданного множества понятий, достаточно близких к некоторому понятию, выбирается ближайшее.

Мера семантической близости оценивается степенью совпадения с экспертными оценками, выраженной значением корреляции или в процентах совпадения.

Для автоматизированной оценки мер близости существуют электронные ресурсы:

— онтологии (например, WordNet, MeSH);

— корпуса текстов (например, PubMed — http://www.ncbi.nlm.nih.gov/pubmed/);

— наборы пар понятий (Data Set) экспертными оценками семантической близости (например, [25, 26]);

— наборы понятий, семантически близких к фиксированному понятию с выбранным ближайшим (например, TOEFLSynonymQuestions — http://www.aclweb.org/aclwiki/index.php?title= TOEFL _Synonym_Questions);

— программные системы (например, WordNet. similarity — http://wn-similarity.sourceforge.net/).

Система WordNetsimilarity позволяет оценить заданную меру (из существующего списка или пользовательскую), используя онтологию WordNet, а также корпуса текстов, которые можно выбрать самому.

Результаты экспериментов показали, что оценка мер семантической близости зависит от контекста сравнения понятий, при учете которого корреляция увеличивалась [20]. Также замечено, что специалисты разного профиля в одной ПО могут давать разные оценки семантической близости. Например, в работе [1] семантическую близость оценивали практикующие врачи и эксперты в области медицины, и оценки различались. Кроме того, оценки зависят от корпуса текстов, а также от его размера.

Во многих работах оцениваются результаты сравнения ряда мер семантической близости. Так, была проведена серия экспериментов [1], в которых сравнивались различные меры, основанные на иерархических онтологических структурах (см. п. 3.1.1). Результаты, наиболее близкие к экспертным оценкам, дала мера самого автора, а также мера из работы [13]. Среди мер, не использующих информационный контент, лучше всего показал себя метод из работы [5]. В исследовании [27] среди иерархических мер также лучшей оказалась мера из работы [5].

Однако общепринятая методология оценки мер семантической близости отсутствует. К настоящему времени каких-либо рекомендаций по использованию той или иной меры для конкретных задач не прослеживается.

5. 0 РЕКОМЕНДАЦИЯХ ПО ПРИМЕНЕНИЮ МЕР БЛИЗОСТИ

Как уже было сказано, меры семантической близости используются в широком спектре задач. Эффективность применения той или иной меры, по нашему мнению, зависит как от задачи, так и от пользователя — автора запросов. Этот вопрос не рассматривается в известной авторам данного обзора литературе и ожидает своего исследования. Например, факторами, определяющими выбор меры семантической близости, применяемой системой для ответа на запрос, могут быть предпочтения пользователя:

• выбор критериев, составляющих меру близости, как то: таксономические отношения между понятиями и (или) конкретный набор отношений и (или) атрибутов;

• выбор значимости критериев — коэффициентов важности в гибридной аддитивной мере близости.

Интерактивный интерфейс при задании запроса поможет пользователю определить свои предпочтения при выборе меры семантической близости.

ЗАКЛЮЧЕНИЕ

В работе дан обзор и классификация существующих мер семантической близости. Рассмотрена семантическая близость между онтологическими термами — понятиями, отношениями и экземплярами — и между онтологиями. В основу классификации мер положены характеристики термов — свойства, отношения и их типы, атрибуты понятий — и структура онтологии.

При построении мер близости рассматриваются разные подходы:

• теоретико-множественный подход — пересечение одинаковых и различных свойств;

• информационный подход — статистика на стандартных корпусах текстов (частота встречаемости терминов) или на таксономической иерархии;

• структурный подход — характеристики онтологических структур (длина пути, глубина иерархии и т. д.).

При кросс-онтологическом подходе важный момент состоит в соответствии лексиконов. Для установления соответствия понятий рассматриваются «окрестности» понятий в онтологических структурах.

Гибридные меры используют различные комбинации мер близости понятий. Наиболее эффективными представляются именно гибридные меры, сочетающие несколько критериев, так как чем полнее будут учитываться характеристики двух сущностей с разных точек зрения, тем более качественную меру близости можно получить. Чаще всего в качестве гибридной меры используется аддитивная свертка мер. Использование сигмоидальной функции в гибридных мерах позволяет повысить веса мер, имеющих большие значения, и практически пренебречь мерами с малыми значениями. Веса определяются на основе суждения экспертов и (или) обучающих алгоритмов. Дан обзор способов оценки мер близости.

ЛИТЕРАТУРА

1. Nguyen H.A., Eng B. New Semantic Similarity Techniques of Concepts applied in the Biomedical Domain and WORDNET // Thesis Presented to the Faculty of the University of Houston Clear Lake in Partial Fulfillment of the Requirements for the Degree Master of Science the University of Houston-Clear Lake, December 2006.

2. Tversky A. Features of similarity // Psychological Review. — 1977. — 84(4). — P. 327—352.

3. Goldstone R.L., Son J. Similarity // In Cambridge Handbook of Thinking and Reasoning / K. Holyrak & R. Morrison (Eds.) — Cambridge: Cambridge University Press. 2005. — P. 13—36. — URL: http://cognitivn.psych.indiana.edu/rgoldsto/pdfs/ similarity2004.pdf.

4. Development and Application of a Metric on Semantic Net / Rada R., et al. // IEEE Trans. on Systems, Man and Cybernetics. — 1989. — 19(1). — P. 17—30.

5. Leacock C, Chodorow M. Combining local context and Word-Net similarity for word sense identification // WordNet: An electronic lexical database / Fellbaum C. (ed.). — Cambridge, MA: MIT press, 1998. — P. 265—283.

6. Wu Z, Palmer M. Verb semantics and lexical selection // 32nd Annual Meeting of the Association for Computational Linguistics, 1994. — P. 133—138.

7. Li Y., Bandar Z.A., McLean D. An Approach for Measuring Semantic Similarity between Words Using Multiple Information Sources // IEEE Trans. on Knowledge and Data Engineering, 2003. — 15(4). — P. 871—882.

8. Hirst G., St-Onge D. Lexical Chains as representation of context for the detection and correction malapropisms // Word-Net: An electronic lexical database and some of its applications / C. Fellbaum (ed.). — Cambrige, MA: The MIT Press, 1997.

9. Лукашевич Н.В., Добров Б.В. Тезаурус русского языка для автоматической обработки больших текстовых коллекций // Компьютерная лингвистика и интеллектуальные технологии: Тр. междунар. семинара «Диалог’2002». — М., 2002. — Т. 2. — С. 338—346.

10. Лукашевич Н.В., Добров Б.В. Разрешение лексической многозначности на основе тезауруса предметной области // Компьютерная лингвистика и интеллектуальные технологии: Тр. междунар. конф. «Диалог 2007» (Бекасово, 30 мая — 3 июня 2007 г.). — М., 2007. — С. 400—406.

11. Resnik P. Using information content to evaluate semantic similarity in ontology // Proc. of the 14th Int’l Joint Conference on Artificial Intelligence, 1995. — P. 448—453.

12. Seco N., Veale T., Hayes J. An intrinsic information content metric for semantic similarity in WordNet // Proc. of the 16th

European Conference on Artificial Intelligence,Valencia, Spain, 23—27 August 2004. — P. 1089—1090.

13. Jiang J. and Conrath D. Semantic Similarity Based on Corpus Statistics and Lexical Taxonomy // Intern. Conf. on Computational Linguistics (ROCLING X), Taiwan, 1997. — P. 19—35.

14. Lin D. An information-theoretic definition of similarity // Proc. of the Int’l Conference on Machine Learning, 1998.

15. Maedche A., Zacharias V. Clustering Ontology-Based Metadata in the Semantic Web / Proceedings PKDD-2002, LNAI 2431, 2002. — P. 348—360.

16. Bulskov H, Knappe R., Andreasen T. On Measuring Similarity for Conceptual Querying / FQAS 2002, LNAI 2522, 2002. — P. 100—111.

17. Levenshtein I.V. Binary Codes capable of correcting deletions, insertions, and reversals // Cybernetics and Control Theory. — 1966. — 10(8). — P. 707—710.

18. Ehrig M., Sure Y. An Ontology Mapping — An Integrated Approach / The semantic web: Research and applications. — Berlin: Springer, 2004. — P. 3—13.

19. Supervised Learning of Term Similarities / I. Spasi'c, G. Ne-nadi'c, K. Manios, and Ananiadou S. // IDEAL 2002, H. Yin et al. (eds.), LNCS 2412, 2002. — P. 429—434.

20. Rodriguez M.A. Assessing Semantic Similarity among Spatial Entity Classes / A Thesis Submitted in Partial Fulfillment of the Requirements for the Degree of Doctor of Philosophy (in Spatial Information Science and Engineering), The Graduate School University of Maine May, 2000.

21. Maedche A., Staab S. Measuring Similarity between Ontologies / EKAW 2002, A. Gomez-Perez and V.R. Benjamins (eds.), LNAI 2473, 2002. — P. 251—263.

22. A framework for developing semantic portals / N. Stojanovic, et al. // Proc. of the first international ACM conferences on knowledge capture K-CAP’01, October 22-23, 2001, Victoria, British Columbia, Canada, http://www.aifb.uni-karlsruhe.de/ WBS/Publ/2001/sealkcap2.pdf.

23. Карпенко А.П., Сухарь Р.С. Методы отображения онтологий. Обзор / Наука и образование: электронное научно-техническое издание, 2009, 1 (январь). — URL: http:// elibrary.ru/item.asp?id=11991555.

24. Budanitsky A., Hirst G. EvaluatingWordNet-based Measures of Lexical Semantic Relatedness // Computational Linguistics. — 2006. — Vol. 32, N 1. — Р. 13—47.

25. Placing Search in Context: The Concept Revisited / L. Finkel-stein, et al. // ACM Trans. on Information Systems. — January 2002. — 20(1). — P. 116 — 131, http://www.cs.technion.ac.il/ ~gabr/papers/tois_context.pdf.

26. Miller G.A., Charles W.G. Contextual Correlates of Semantic Similarity // Language and Cognitive processes. — 1991. — N 6(1).

27. Крижановский А.А. Оценка результатов поиска семантически близких слов в Википедии / Тр. СПИИРАН. — СПб., 2007. — Вып. 5. — C. 113—116.

Статья представлена к публикации членом редколлегии В.Г. Лебедевым.

Крюков Кирилл Вячеславович — ст. математик,

®(495) 334-76-39, И kryukovkirill@yandex.ru,

Панкова Людмила Александровна — канд. техн. наук, ст. науч. сотрудник, ®(495) 334-92-49, И pankova@ipu.ru,

Пронина Валерия Александровна — канд. техн. наук, ст. науч. сотрудник, ®(495) 334-92-39, И pron@ipu.ru,

Суховеров Виктор Степанович — канд. техн. наук,

ст. науч. сотрудник, ®(495) 334-76-39, И suhoverv@ipu.ru,

Шипилина Любовь Борисовна — канд. техн. наук, ст. науч. сотрудник, ®(495) 334-76-39, И lubship@ipu.ru,

Институт проблем управления им. В.А. Трапезникова РАН.

i Надоели баннеры? Вы всегда можете отключить рекламу.