электронное научно-техническое издание
НАУКА и ОБРАЗОВАНИЕ
Эл № ФС 77 - 30569. Государственная регистрация №0420900025. ISSN 1994-040S
Меры важности концептов в семантической сети онтологической базы знаний
# 07, июль 2010 автор: Карпенко А. П.
УДК 519.6
МГТУ им. Н.Э. Баумана,
Введение
Можно выделить три следующих класса систем поддержки принятия решений (СППР): системы, основанные на использовании типовых решений; системы, использующие типовые правила синтеза решений; системы, использующие поиск прецедентов. Корпоративная база знаний представляет собой, как правило, совокупность разного рода слабоструктурированных документов, в которых с той или иной степенью подробности описаны прецеденты - некоторые ситуации и решения, которые были приняты в этих ситуациях. В СППР, которые используют такие базы знаний, поиск решения заключается в поиске в этих базах наиболее подходящих прецедентов и соответствующих им документов [1].
Эффективность поиска решений в базах знаний прецедентов в значительной мере зависит от используемых методов поиска.
Современные поисковые системы основаны, преимущественно, на применении полнотекстового поиска - поиска в каждом из документов всех
терминов, входящих в запрос. При этом учитывается частота встречаемость терминов в документе и их средняя языковая частотность [2].
Более эффективной альтернативой полнотекстовому поиску является поиск по метаданным - поиск по атрибутам документов, содержащимся в их метаданных. При этом классический атрибутивный поиск основывается на использовании в качестве метаданных документа преимущественно его регистрационных атрибутов (авторы документа, название документа, дата создания, тема и т.п.) [3].
Эффективный поиск решений в базах знаний прецедентов должен, очевидно, основываться не на регистрационных атрибутах документов, а на параметрах, характеризующих ситуацию принятия решения и само решение. Поэтому для СППР классический поиск по метаданным может играть лишь вспомогательную роль.
В работе рассматривается подход к поиску решений в базах знаний прецедентов, в котором метаданные формируются на основе онтологии соответствующей предметной области, заданной в виде семантической сети. При этом релевантность документов оценивается близостью в некоторой метрике концептов, входящих в метаданные документа, и концептов поискового запроса [1]. Можно предложить значительное количество таких метрик, при построении которых может оказаться целесообразным учитывать «важность» фигурирующих в них концептов.
В работе предлагается ряд мер важности концептов в семантической сети онтологической базы знаний. При разработке этих мер существенно используются некоторые результаты наших публикаций [4 - 8].
Модели семантических сетей
Пусть с(О) = (с, i е [1: п0 ]} - множество концептов рассматриваемой онтологии О, а г(О) = (гу,у = 1,2,...} - совокупность четких бинарных отношений между концептами множества с(О). Положим, что каждое из
бинарных отношений г(О) принадлежат к одному из типов отношений R(O) = ,ае[1: т0 ]}. Здесь п0, т0 - общее число концептов онтологии О
и число типов отношений, соответственно. Примерами типов семантических отношений являются таксонономические, характеристические, каузальные, атрибутивные, квантифицирующие, временные, пространственные, арифметические, логические и многие иные типы отношений.
Семантическую сеть £ (О) онтологии О представим в виде взвешенного мультиграфа G(O), вершины которого соответствуют концептам множества С, а дуги - отношениям между ними. Заметим, что граф G(O) не обязательно является связным.
Пусть с(Т) с с(О) - множество концептов рассматриваемого документа Т, а г(Т) с г(О) - совокупность бинарных отношений между концептами множества с(Т). Общее число концептов и типов отношений R(T) документа Т обозначим пТ, тТ соответсвенно; пТ < пО, тТ < тО.
Семантическую сеть £ (Т) с £ (О) документа Т представим в виде взвешенного мультиграфа G(T), аналогичного графу G(O).
Веса вершин и дуг графов G(O), G(T) определены ниже.
Метрики графа семантических сетей
При построении мер важности концептов в семантических сетях £ (О), £ (Т) используются рассмотренные ниже метрики соответствующих графов
G(O), G(T).
Положим прежде, что между собой связаны все концепты семантической сети £(О) и что отношения, связывающие эти концепты, являются отношениями частичного порядка типа Ra (например, родовидовыми отношениями). Графа G(O) в этом случае представляет собой ориентированный граф,
Тогда в качестве метрик графа G(O) могут быть использованы его
«высота», которая определяется на основе ярусно-параллельной формы (ЯПФ) этого графа [9].
Номер яруса ЯПФ графа G(O), на котором находится концепт ci,
называется высотой концепта и обозначается ^ (е1); количество ярусов в
ЯПФ графа G(O) называется высотой графа и обозначается ^ (О(О)) = ^.
Положим теперь, что тип отношений Ra не принадлежит типу отношений частичного порядка. В этом случае в качестве метрики графа О(О) может быть использован «диаметр графа» аа (О(О)) = а®, которым называется максимальное расстояние между его двумя вершинами. Расстоянием р между вершинами графа называется минимальное количество ребер графа, связывающих эти вершины [10].
Наконец, в качестве метрики графа О(О) может быть использована его «реберная плотность», определяемая формулой
Ьа(О(О)) = ьа = 23
7(7 -1)
где ¡3 - количество дуг этого графа, а 7 = пО - количество его вершин. Реберная плотность Ьа е [0,1] и характеризует близость графа О(О) к полносвязному графу (клике): чем ближе величина Ь(° к единице, тем выше связность графа О(О) и он ближе к полносвязному графу.
Аналогично, при построении мер важности концептов в семантической сети документа £ (Т) используются следующие метрики графа О(Т): высота
концепта ^а ); высота графа ^ (О(Т)) = ^а; диаметр графа аа (О(Т)) = а^
а
реберная плотность Ьа (О (Т)) = Ь3
Кластеризация семантических сетей
Если концепты ci, с] семантической сети £ (О) связаны между собой отношением типа Ra е R(O), то будем говорить, что эти концепты связаны отношением типа Ra в узком смысле. Число всех концептов множества с(О), включая концепт с1, связанных отношением типа Ra с
этими концептом в узком смысле, обозначим п° (ci).
Пусть в узком смысле отношением типа Ra концепт с1 связан с концептом с, концепт с- с концептом ск и так далее до концепта сС1. Здесь полагается, что все концепты с1, с],..., ^ принадлежат множеству концептов с(О). Тогда будем говорить, что концепты с1, ^ связаны отношением типа Ra в широком смысле. Число всех концептов семантической сети £ (О), включая концепт с1, связанных отношением типа Ra с этим концептом в
широком смысле, обозначим N °а(с1).
Обозначим d<а (ci) совокупность всех концептов семантической сети £ (О), включая сам концепт с1, которые связаны отношением типа Ra с концептом с1 в узком смысле. Назовем эту совокупность Ra -локальным кластером концепта с1 в семантической сети £ (О). Число концептов в
кластере d<а (с1) равно, очевидно, п® (с1).
Отметим, что, поскольку концепт с1 е с(О) может одновременно
входить в несколько локальных кластеров, кластеры (ci), d<а (ci), а,¡3 е [1: тО ], аФ ¡3 могут пересекаться, так что, вообще говоря,
da (с )П d3 (с) Ф0 .
Аналогично, обозначим Dа (ci) совокупность всех концептов семантической сети £ (О), включая сам концепт с1, которые связаны отношением типа Rа с концептом с1 в широком смысле, и назовем эту
совокупность Rа -глобальным кластером концепта с1 в семантической сети £ (О). Легко видеть, что число концептов в кластере D° (в;) равно N° (в;).
Отметим, что кластер D° (с;) является одновременно Rа -глобальным кластером всех концептов, принадлежащих этому кластеру.
Совокупность всех концептов кластера D° (с;), включая концепт ci, которые расположены на расстоянии р= 1,2,... от указанного концепта, обозначим D° (р, с(). Число таких концептов обозначим № (р, с(), где а(D°(ci)) - диаметр кластера D°(ci); р = 1,2,...,а(D°(ci)). Очевидно, что № (1, Ci)=пО (^).
Взвешенные мультиграфы, соответствующие кластерам d° (ci), D° (ci)
обозначим ^^ (ci), ОО (ci) соответственно.
Аналогично определим связи концептов документа Т в узком и широком смыслах, а также введем в рассмотрение Rа -локальный и Rа -
Т Т
глобальный кластеры dа ), Da ) документа Т. Числа концептов в этих
ТТ
кластерах обозначим па (ci), N а (ci) соответственно. Введем в рассмотрение
ТТ
также взвешенные мультиграфы gа ), Оа ), аналогичные графам
О О Т
gО ), О О (ci). Кроме того, рассмотрим совокупности концептов Da (р, ci),
ОТ
аналогичные совокупностям D¡а (р,ci), где р = 1,2,...,а(Da (ci)).
Веса вершин и дуг семантических сетей
Поставим в соответствие каждому из типов отношений Rа е R(O) его
вес УО, а е [1: тО ]. Аналогично поставим в соответствие каждой из вершин
ci е ^О) графа О(О) вес мР, I е [1: пО ], формализующий «важность» концепта ci в семантической сети £ (О).
Определим прежде веса у° , а е [1: тО ]. В простейшем случае в
качестве веса у° можно использовать общее число п° концептов онтологии О, связанных между собой отношением типа Rа :
=пО.
Если отношения типа Rа представляют собой отношения частичного порядка, то в качестве веса у° может быть использована максимальная из высот Rа -глобальных кластеров D° (ci):
hp° (ci)), ^ е c(°).
v° = max hpx (c )), c е
Аналогично, вес у° можно определить на основе суммарной и средней
высот
hp° (Ci)):
v° = Z h(p 0(Ci)), i е [1: n° ];
i
= — Zhp0(Ci)), i е [1: n°].
У а = ™Ра (^ )Ъ 1 е [1: пО-
пО I
Для произвольного типа отношений Rа в качестве веса у° могут быть использованы максимальный, суммарный и средний диаметры соответствующих кластеров:
= шах ар° (^)), е с(О); =Ъ а\Р а (^)), ^ е ц: по
о
Z ap °a(c1)), i е [1: n° ]; i
= — Z aplc)), i е [1: n° ].
V a =~Z a\Da (Ci )h 1 е [1: n°-n° i
Аналогично, веса v° можно определить на основе максимальной, суммарной и средней реберных плотностей графов D° (р, ct), где р -некоторое фиксированное значение из диапазона 1,2,...,a(Da (ci). Например,
v° (р) = max bp° (р,c,)), ^ е c(°).
Наряду с рассмотренными весами уа могут быть использованы их нормированные тем или иным образом аналоги, например,
V? = п<а°/ , V? = max
h{D°a ))
, . „ — 111 £1Л 7, п
и т.д. Большое количество выражений для весов va° может быть получено на основе использования различных сверток рассмотренных весов.
Положим, что веса отношений va°, а е [1: m° ] тем или иным образом
определены. Тогда в простейшем случае в качестве веса w° может быть использовано взвешенное число концептов, содержащихся во всех Ra -
локальных кластерах da (с):
W? = 2V°an°a (с), ае [1: m°].
а
Аналогично можно использовать взвешенное число концептов, содержащихся во всех Ra -глобальных кластерах Da (ci):
w° = 2 v°°Na (с), ае [1: m° ]. (1)
а
Положим, что в формуле (1) влияние концептов на вес концепта с изменяется по мере увеличения расстояния этих концептов от концепта с, например, обратно пропорционально этому расстоянию. Тогда из формулы (1) следует формула
W° = 2Va°£-№а (р,C), а е [1: m°], р е [1: a^C))].
а р р
Формулы для вычисления веса w° могут быть построены на основе взвешенных максимального, суммарного и среднего из диаметров кластеров
D°° (Ci):
° = 2 max va a {d°° (с)), ае [1: m° ];
а
w° =2 va a^c)), ае [1: m° ];
а
"О =— 2 у 0 а(р0с)), а е [1: тО ]
тО а
Аналогично, веса м. можно определить на основе максимальной, суммарной и средней реберных плотностей графа РО (р, с(), например
О
М (р) = 2 тах у0Ьр (Р, с)), а е [1: тО ], р е [1: ар° (с))].
а
Наряду с рассмотренными весами могут быть использованы их нормированные тем или иным образом аналоги, а также различные свертки этих весов.
Меры важности концептов в семантической сети документа
Положим, что вес м. концепта ci в онтологии О тем или иным
образом определен; I е [1: пО ]. Тогда в качестве меры мМ важности концепта с1 в семантической сети £ (Т) документа Т могут быть использованы следующие меры.
1). Взвешенное число концептов, содержащихся во всех Rа -локальных кластерах dТ (с.)
м! = 2 ^^ (сX а е [1: тО].
а
2). Взвешенное число концептов, содержащихся во всех Rа -
Т
глобальных кластерах Р Т (ci)
мТ =2 (Ci), а е [1: тО ].
а
3). Нормированное взвешенное число концептов, содержащихся во
Т
всех Rа -глобальных кластерах Р Т (ci)
мТ =2"О2-К (Р,сг), а е [1: тО], р е [1: ар (с.))].
а р р
4). Взвешенные максимальный, суммарный и средний из диаметров
Т
кластеров D а (ci):
м! = Zmax w0a{Dl (ci)), a e [1: mo ];
м! = Z w0 a (d! (Ci)), a e [1: mo ];
a
м! =— Z w0 a (d! (Ci)), a e [1: mo ].
mO a
5). Взвешенные максимальная, суммарная и средняя из реберных плотностей кластера DTa (р, ci), р e [l: a(DTa (ci))]:
M! = Zmax w0b{DTa (р,ci)), a e [1: mo];
a
м! =Z w0 b(D! (р, Ci)), a e [1: mo ];
a
м! =— Z w0b(D! (р, Ci)), a e [1: mo ].
^О а
Кроме того, в качестве мер важности можно, очевидно, использовать нормированные тем или иным образом аналоги рассмотренных мер важности, а также различные свертки тех же мер важности.
Отметим, что большие значения всех предложенных мер, соответствуют большим значениям важности соответствующих концептов.
Заключение
В работе под онтологий О понимается, так называемая, «легкая» онтология, определяемая парой вида О = (с, г), где с - множество концептов,
а г - множество отношений между ними. В развитии работы планируется применить предложенную в ней методику оценки важности концептов к «тяжелой» онтологии, которая определяется тройкой О = (с, г, ^, где f -
множество функций интерпретации, определенных на концептах и/или отношениях онтологии.
Под отношениями r в работе понимаются четкие отношения. Однако во многих случаях более адекватной является модель онтологии, в которой эти отношения понимаются как нечеткие. В этом случае возможен анализ важности концептов с учетом различий в «силе» связей между ними.
Автор выражает благодарность И.П. Норенкову за постановку рассмотренной в работе задачи, а также за конструктивные обсуждения подходов к ее решению.
Работа выполнена при поддержке гранта РФФИ 10-07-00401.
Литература
1. Норенков И.П. Интеллектуальные технологии на базе онтологий // Информационные технологии, 2010, №1, с.17-23.
2. Толчеев В.О. Методы выявления информационных признаков в задачах классификации текстовых документов // Информационные технологии, 2005, №8, с.14-21.
3. The Dublin Core® Metadata Initiative // (http ://dublincore. org/).
4. Карпенко А.П., Соколов Н.К. Оценка сложности семантической сети в обучающей системе // Наука и образование: электронное научно-техническое издание, 2008, 11, (http://technomag.edu.ru/doc/106658.html).
5. Карпенко А.П., Соколов Н.К. Расширенная семантическая сеть обучающей системы и оценка ее сложности // Наука и образование: электронное научно- техническое издание, 2008, 12, (http://technomag.edu.ru/doc/111716.html).
6. Карпенко А.П., Галямова Е.В., Соколов Н.К. Методика контроля понятийных знаний субъекта обучения в обучающей системе // Наука и образование: электронное научно- техническое издание, 2009, 2, (http://technomag.edu.ru/doc/115086.html).
7. Карпенко А.П., Соколов Н.К. Меры сложности семантической сети в обучающей системе // М.: Вестник МГТУ им. Н.Э. Баумана, серия «Приборостроение», 2009, №1(74), с. 50-66.
8. Галямова Е.В., Карпенко А.П., Соколов Н.К., Ягудаев Г.Г. Контроль понятийных знаний субъекта обучения в обучающей системе // М.: Вестник МАДИ (ГТУ), 2009, №2(17), с.82-86.
9. Федотов И.Е. Некоторые приемы параллельного программирования: Учебное пособие.- М.: Изд-во МГИРЭА (ГУ), 2008.188 с.
10. Евстигнеев В.А. Применение теории графов в программировании. -М.: Наука, 1985.-332 с.
11. Ларичев О.И. Теория и методы принятия решений, а также Хроника событий в Волшебных странах. - М.: Университетская книга, Логос, 2006. -292 с.