Научная статья на тему 'Метод поиска релевантных связей между концептами проектируемых онтологий'

Метод поиска релевантных связей между концептами проектируемых онтологий Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
3589
91
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Чалая Лариса Эрнестовна, Чижевский Антон Валерьевич, Волощук Елена Борисовна

Предлагается метод определения наиболее релевантных связей между концептами формируемых онтологических моделей. Вычислительная схема метода, основанная на модификации алгоритма Гинзбурга, позволяет повысить качество автоматически создаваемых онтологий. Метод может эффективно использоваться для задач семантического поиска в системах интеллектуального анализа электронных текстов и формирования онтологических моделей предметной области.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Чалая Лариса Эрнестовна, Чижевский Антон Валерьевич, Волощук Елена Борисовна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Method of search of relevant connections between concepts of the designed ontologies

In the article the method of determination most of relevant connections between concepts of the designed ontological models is proposed. The calculus procedure of method, based on modification of Ginsburg’s algorithm, allows improving quality automatically created ontologies. A method can be effectively used for the tasks of semantic search in the intellectual analysis systems of e-texts and forming of ontological models of subject domain.

Текст научной работы на тему «Метод поиска релевантных связей между концептами проектируемых онтологий»

УДК 004.912

Л.Э. ЧАЛАЯ, А.В. ЧИЖЕВСКИЙ, Е.Б. ВОЛОЩУК

МЕТОД ПОИСКА РЕЛЕВАНТНЫХ СВЯЗЕЙ МЕЖДУ КОНЦЕПТАМИ ПРОЕКТИРУЕМЫХ ОНТОЛОГИЙ

Предлагается метод определения наиболее релевантных связей между концептами формируемых онтологических моделей. Вычислительная схема метода, основанная на модификации алгоритма Гинзбурга, позволяет повысить качество автоматически создаваемых онтологий. Метод может эффективно использоваться для задач семантического поиска в системах интеллектуального анализа электронных текстов и формирования онтологических моделей предметной области.

1. Постановка проблемы

Основной задачей современных систем поиска и предварительной обработки web-документов является оперативное предоставление пользователям сети Интернет необходимой информации. При этом результаты поиска не всегда оказываются удовлетворительными, так как поисковые Интернет-сервисы могут выдавать по запросам пользователей большое количество условнорелевантных web-данных, которые далеко не всегда удовлетворяют истинным интересам пользователей. Кроме того, такие результаты могут быть существенно зашумлены нерелевантными ссылками. Все это снижает эффективность получения пользователями необходимой значимой информации из сети Интернет, ресурсы которой постоянно растут. В связи с этим особенно актуальными становятся автоматические методы работы с большими объемами информации. В последнее время получили широкое распространение исследования в области автоматического синтеза онтологических моделей, позволяющих повысить эффективность систем семантического поиска по запросам пользователей (в корпусе текстов, электронных библиотеках, в сети Интернет) [1]. Актуальными также являются задачи использования онтологии как основы для спецификации и разработки программного обеспечения, поддержки общего доступа к информации, поиска информации, взаимодействия при объединении информации, создании порталов знаний, разработке пользовательского интерфейса программных систем, редакторов информации и интеллектуальных систем [2]. Качество формируемых онтологий, используемых для создания поисковых систем, во многом определяется полнотой учета в онтологической модели наиболее значимых концептов для корпуса анализируемых текстов с учетом их тематической специфики (под концептами будем в дальнейшем понимать наиболее значимые слова и словосочетания в анализируемом тексте, которые могут быть учтены в онтологической модели). В связи с этим целесообразно решить задачу формирования множества концептов будущей онтологии с учетом связей между ними. В работах [3, 4] уже были рассмотрены решения автоматического построения онтологий, в частности, методы нахождения концептов для онтологии и связей между ними. Данное исследование ставит перед собой целью усовершенствование и дополнение алгоритмов и методов автоматического синтеза онтологических моделей.

Методы нахождения концептов при автоматическом синтезе онтологий и нахождения шаблонных связей между ними (типа «часть-целое» и «отношение») рассматриваются в работе [5]. Однако результаты экспериментального исследования этих методов показали, что при поиске слов и словосочетаний, которые могут использоваться в качестве концептов, сформированное множество концептов-претендентов не всегда соответствует такому же множеству, составленному экспертом предметной области. Это приводит к тому, что некоторые важные понятия предметной области могут не попасть в автоматически создаваемую онтологию. Кроме того, в этих методах отсутствует процедура общего ранжирования по значимости списка всех концептов-претендентов, а осуществляется лишь раздельное ранжирование слов и словосочетаний, входящих в этот список.

В частности, возникают следующие проблемы:

- не всегда удается правильно найти связи между концептами;

- не всегда удается выделить концепты, имеющие связь с наибольшим количеством других концептов;

- найденные связи между концептами будущей онтологии не всегда актуальны для конкретной предметной области. При этом не только повышается используемый объем памяти и увеличивается время на создание онтологии и обработку запросов к ней, но и избыточным становится объем онтологии, что снижает оперативность дальнейшего ее применения.

В данной статье рассматривается возможность частичного устранения перечисленных трудностей на основе комбинированного применения и модификации существующих методов определения релевантных связей между концептами формируемых онтологических моделей.

Целью данного исследования является модификация и программная реализация методов автоматического поиска актуальных связей между концептами проектируемой онтологии для заданной предметной области.

2. Установление связей между концептами проектируемой онтологии

Выделим три основных подхода для решения задачи установления связей между концептами проектируемой онтологии:

- поиск слова-претендента на связь в онтологии и последующий подбор концептов, для которых актуальна эта связь (метод 1);

- определение для рассматриваемого концепта списка вероятных слов-претендентов на использование в качестве связи для этого концепта и последующий подбор концепта для установления связи (метод 2);

- нахождение в онтологии двух концептов, которые необходимо связать, и последующий подбор связи для данных концептов (метод 3).

Достоинства первого подхода (метод 1):

- поиск в тексте слов-связей и концептов осуществляется раздельно. Это означает, что концепт и связь не обязательно должны составлять в тексте словосочетание при поиске данной связки в тексте программы автоматического синтеза онтологии;

- возможность варьировать количество учитываемых связок «концепт-связь-концепт» с помощью настраиваемых коэффициентов (уменьшать в случае нахождения большого количества ненужной информации и увеличивать в случае недостаточного количества связей в онтологии).

Недостатки первого подхода:

- в общем множестве найденных связей между концептами присутствуют несущественные или несуществующие связи;

- некоторые важные концепты предметной области не имеют связей сформированного множества с другими концептами проектируемой онтологии.

Устранению отмеченных недостатков способствует комбинированное применение второго и третьего подходов (метод 2 и 3).

Предлагаемый ниже метод поиска связей для онтологии, основанный на таком комбинированном подходе, назовем методом главного концепта.

3. Метод главного концепта.

Данный метод предполагает необходимость вычисления вероятности применения слова в качестве релевантной связки для рассматриваемого концепта.

Рассмотрим вначале свойства слов, которые в формируемой онтологии будут применяться в качестве слов-отношений, связывающих концепты в онтологии.

Задача автоматического определения таких связок является далеко не тривиальной. Рассмотрим пример определения слов связок для концептов следующего текстового фрагмента:

1) «на основе алгоритма Гинзбурга был разработан метод выделения ключевых слов»;

2) «разработанный алгоритм синтезирует функциональную модель»;

3) «осуществляется определение для концепта онтологии необходимого списка связей».

В этом примере словами-связками между понятиями являются соответственно слова

«разработан», «синтезирует», «определение». Здесь в качестве слов-связок могут приме-

няться как слова специфичные для рассматриваемой предметной области, так и достаточно общие, которые могут присутствовать в любом тексте. Можно отметить, что слово-связка вероятнее всего будет находиться в тексте между понятиями, которые оно связывает. Вследствие этого целесообразно определить степень специфичности претендента на слово-связку в контексте понятия, которое будет связывать данное слово-связка. Для решения этой задачи предлагается использовать алгоритм Гинзбурга [6]. В соответствии с этим алгоритмом, если слово-связка входит в контекст леммы-понятия в рамках рассматриваемого текста, считают, что оно специфично в контексте данного понятия. Введем понятие тройки элементов, используемых для реализации процедуры предварительного отбора наиболее релевантных связок для проектируемой онтологии. К элементам такой тройки отнесем: слово, обозначающее связь между двумя концептами ^), и собственно два концепта (^ и W2), каждый из которых может быть представлен одним словом либо словосочетанием. Таким образом, тройку можно представить в виде: «слово №1, связь, слово .№2»:

^ ^ L1 ^ W2. (1)

Отметим, что если концепт представлен словосочетанием, то в тройку вносится главное слово словосочетания.

Выделим четыре возможных варианта представления любой тройки в зависимости от уровня специфичности слова-связки по отношению к понятиям:

^ < ' > L1 < 1"2'ы)' > w2; (2)

^ < ' > L1 < > w2; (3)

W1 < ' > L1 < > w2; (4)

W1 < ' > L1 < > W2, (5)

где символ ^Р^.и) ~ означает, что слово-связка L1 специфична для слова Wi, а ^и) ^

означает, что слово-связка L1 не специфична для слова ^ .

На основе статистического анализа текстов рассматриваемой предметной области могут быть определены коэффициенты вероятности принадлежности определенной тройки к одному из вариантов ее представления: (2)-(4) или (5). Например, для корпуса текстов из электронной библиотеки методических указаний Харьковского национального университета радиоэлектроники по технической тематике было определено количество троек, принадлежащих к одному из четырех типов, и рассчитаны (как среднее арифметическое по всей выборке текстов) соответствующие вероятности: р1 = 0,25 ; р2 = 0,15 ; р3 = 0,1; р4 = 0,5 [3].

На основании полученных значений р1, р2, р3, р4 определим вероятности выбора слова в качестве связки в зависимости от его положения в предложении по отношению к концептам. Рассмотрим варианты положения слова-связки в предложении относительно концептов, которые оно связывает. Назовем «нормальным порядком» расположения концептов в тексте, если первый концепт располагается в тексте раньше, чем второй, и «обратным порядком», если второй концепт располагается в тексте раньше, чем первый. В зависимости от положения слова-связки в предложении относительно концептов рассматриваемую тройку можно отнести к одной из трех возможных групп (рисунок). Первая группа содержит тройки, в которых слово-связка находится в предложении между первым и вторым концептами, а концепты расположены в нормальном порядке. Вторая группа содержит тройки, в которых слово-связка находится в предложении между первым и вторым концептами, а концепты расположены в обратном порядке. К этой группе отнесем также тройки, в которых слово-связка расположено в тексте раньше, чем концепты. Третья группа содержит тройки, в которых слово-связка расположено в тексте после концептов.

На основе значений р1, р2, р3, р4 можно определить коэффициенты к, соответствующие вероятности автоматического выбора определенной тройки в качестве актуальной для проектируемой онтологии. Коэффициенты к представляют собой отношение числа троек

определенного типа к общему числу троек, актуальных для онтологии заданной предметной области. Для рассмотренного выше примера получены следующие значения этого коэффициента в зависимости от варианта (группы) положения слова-связки в предложении относительно концептов: группа (1) - к = 0,7 ; группа (2) - к = 0,2 ; группа (3) - к = 0,1.

Варианты положения слова-связки L1 в тексте относительно концептов " и

При принятии решения о занесении той или иной тройки в проектирующуюся онтологию, кроме расположения элементов тройки, необходимо учитывать наличие слов между ними и их количество. Очевидно, что целесообразнее вносить в онтологию тройку, элементы которой следуют непосредственно друг за другом, чем тройку, между концептами и связкой которой находятся фрагменты предложения.

Назовем расстоянием между элементами тройки количество слов, которые находятся в предложении между двумя любыми элементами тройки. Обозначим через N расстояние в предложении между двумя концептами " и рассматриваемой тройки.

Тогда вероятность актуальности рассматриваемой тройки в зависимости от положения ее элементов в предложении можно определить следующим образом:

к * ((| т - п| / тт(п, т) + 2) +1)

Р =

р1асе

(6)

ТО,

т -

п + т +1

где п - расстояние от L1 до , п = N, если между L1 и находится

расстояние от L1 до , т = N, если между L1 и находится .

В соответствии с (6), чем больше расстояние между словом-связкой и концептами в тройке, тем меньше вероятность ее актуальности для проектируемой онтологии. Также необходимо отметить, что приведенная формула учитывает приоритет троек, у которых расстояние слова-связки хотя бы с одним из концептов является намного меньше среднего значения такого расстояния для всей совокупности рассматриваемых концептов.

Предлагаемый метод главного концепта имеет ряд преимуществ. В частности, его можно применять для поиска связей в онтологии, в которой до этого не была определена ни одна связь. Дополнительным преимуществом метода является возможность задавать здесь список концептов, для которых необходимо найти связь (например, всех концептов, имеющихся в онтологии в данный момент). Это позволяет определить максимально возможное количество актуальных (релевантных) связей для проектируемой онтологии. Сле-

дует отметить, что целесообразно искать слово-связку для выбранного концепта/понятия только в тех предложениях, где встречается собственно сам этот концепт.

Алгоритм установления связей в онтологии по методу главного концепта можно представить набором следующих действий:

- выбор концепта/понятия и нормализация его до одного слова ("), для которого следует сформировать тройку в проектируемой онтологии;

- определение множества слов М Т ), входящих в контекстное множество данного

концепта " (из множества всех слов в предложениях, где присутствует данный концепт с

понятием М^1), а также множества слов М ^ ), не входящих в контекстное множество данного концепта (по алгоритму Гинзбурга [6]);

- определение наиболее вероятного типа связи Т или ^) между концептом " и предполагаемым словом-связкой L1;

- определение множества М(Ц), состоящего из претендентов на слова-связки, удовлетворяющих установленному типу связи (М(,) принимается как М Т ) или как М ^ ));

- определение для каждого Li (из множества М(Ц)) множества слов М Т ), входящих в контекстное множество данного слова Li (из множества всех слов, входящих в одно предложение с данным словом Li и данным словом ", во всех предложениях, где присутствуют Li и "), а также множества слов, М ^ ) не входящих в контекстное множество данного концепта (по алгоритму Гинзбурга [6]);

- определение множеств Mi ), состоящих из претендентов на концепт, связываемый с концептом " при помощи слова-связки Li, удовлетворяющих установленному типу связи (для каждого Li из множества М(Ц));

- определение наиболее вероятного типа связи Т или F(W ь^) между будущим словом-связкой L1 и концептом "2 (для каждого Li из множества М(Ц);

- включение в онтологию наиболее вероятной связки из множества М(^) возможных вариантов троек.

Наиболее вероятный тип связи F(WЛ]) определяется по следующим зависимостям:

,. Т, а р, > Р,

F = <! ^ } , Ь2 /-7Ч

^ ) а, < Р,, (7)

М Т (^ )|

Рц = ^-1 *(Р1 + Р2), (8)

а111

|М ^ (W1 )|

^ = ^-1 *(Р3 + Р4), (9)

а111

где Кщ - мощность объединения множеств М Т (^) и М ^ (W1), определяемая количеством всех слов в предложениях с " . р1, р2, р3, р4.

В (8), (9) вероятности pi суммируются, так как типы троек, соответствующие вероятностям р1 и р2, удовлетворяют условию типа связи F(WЛ ) Т, а р3 и р4 - условию типа связи

Наиболее вероятный тип связи F(W2)Ll) определяется по следующим зависимостям:

F = Кл) Т,ifPLз > (10)

^ iF(W2,L,) ^3 < PL4, (10)

Рч =

|м Т (W2 )|

м Т (W2)

N

:Р1 *(Н,Ц2 - ^^^щ) = Р^ц) Т

* Р2 * (N3)12 - = ^щ) ^

Р. =

|м ^ )|

, N-12 ,

м ^ (W2)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

N,

*Р3*(^Д2 - ^^^ц) = F(Wl,L1) Т

*Р4*(ЧД2 - ^^Р^) = ^

(12)

где - мощность объединения множеств М Т ) и М ^ ); N L — количество повторений Ц.

В формулах (11) и (12) вероятности Рц и Рц умножаются на разность общего количества слов в предложениях, где присутствуют элементы рассматриваемой тройки и вхождения в эти предложения слова-связки Ц . Таким образом, чем чаще в предложении встречается определенное слово, тем меньше вероятность его выбора в качестве слова-связки, так как маловероятно, что одно и то же слово будет выполнять в предложении и роль слова-связки для двух понятий, и просто встречаться в предложении в каких-либо других контекстах.

На заключительном этапе алгоритма определяется множество М(Т) — множество

троек, для которых определены типы связей и ) ((2), (3), (4) или (5) соответ-

ственно). При этом предлагается ранжировать элементы из данного множества в соответствии со значениями вероятностей их выбора в качестве троек, актуальных для проектируемой онтологии. Вероятность выбора тройки Т в качестве актуальной для онтологии Рт рассчитывается по следующей зависимости:

^ *f *f if т с (2)

if Ti с (3),

Рт =

Р *f *f

Гр1асе ^ ,L1) ,W2 )

Рр1асе *f(

№ ) (W2 ,L1) ,W2 )

if Ti с (4),

1(Wl ,Ц) Рр1асе *f(W1 ,W2 )

(13)

f *f

if Ti с (5)

где рр1асе — вероятность, рассчитываемая по формуле (6); ^ ,L1) — сила связи, рассчитанная

для ^ и Ь1 из тройки Т по алгоритму, описанному в [3]; f(w2,L1) — сила связи, рассчитанная

для W2 и Ь1 из тройки Т по алгоритму, описанному в [3]; f(w1 ,w2) — сила связи, рассчитанная

для W1 и W2 из тройки Ti по алгоритму, описанному в [3]; (2, 3, 4, 5) — один из четырех

определенных типов тройки Т .

Эта формула позволяет учесть (в зависимости от типа рассматриваемой тройки), насколько сила семантической связи между элементами тройки влияет на вероятность ее выбора в качестве актуальной для проектирующейся онтологии. Если тип связи

между двумя элементами определен как к ^) Т, то с возрастанием силы связи

между элементами тройки Wi и Ь1 возрастает вероятность актуальности данной тройки для онтологии. Если же тип связи между двумя элементами определен как

w ^) X, то чем больше сила связи между элементами тройки W; и Lj, тем меньше

вероятность актуальности данной тройки для онтологии. Также следует отметить, что чем больше сила связи между концептами тройки, тем тройка актуальнее для проектирующейся онтологии. Кроме того, при оценивании связей в онтологии по методу главного концепта можно найти или одну тройку, для которой вероятность актуальности для онтологии наиболее высока, или же найти множество троек, для которых вероятность

PT выше либо равна min(PT ), и считать, что все тройки, входящие в это множество,

актуальны для проектирующейся онтологии:

minp.) = К,*тах(Рт), (14)

где Kj - настраиваемый коэффициент, позволяющий исключить из рассмотрения тройки, заведомо неактуальные для проектируемой онтологии.

4. Оценка эффективности разработанного метода

По предложенному методу был разработан программный модуль ««Concept-Ont-M», который может эффективно использоваться для задач семантического поиска в системах анализа электронных текстов и автоматического создания онтологий. Проведенные экспериментальные исследования показали, что метод главного концепта в целом работает гораздо эффективнее, чем методы, основанные на поиске отдельных связей. Оценка эффективности проводилась по двум параметрам: R - точность поиска связей (отношение правильно найденных связей к общему количеству найденных связей); Р - полнота поиска связей (отношение правильно найденных связей к общему количеству связей, выявленных экспертом). Результаты экспериментальных исследований (для корпуса текстов из электронной библиотеки методических указаний Харьковского национального университета радиоэлектроники по технической тематике) для метода поиска отдельных связей и метода главного концепта значения R составляют 57 и 78% соответственно; значения Р - 78 и 82% соответственно.

5. Выводы и перспективы дальнейших исследований

Проведенные исследования позволяют сделать вывод, что важным этапом автоматического построения онтологий является формирование релевантных связей между концептами. Модификация и программная реализация метода нахождения таких связей с учетом расположения элементов «концепт-связка» в тексте позволили повысить возможности автоматического создания онтологий. В частности, предложенный метод можно применять для поиска связей в онтологии, в которой до этого не была определена ни одна связь. При этом особое внимание следует уделить задачам ранжирования однословных/многословных концептов и выявления связей типа «отношения» между ними. Научная новизна предложенного метода состоит в возможности определения степени специфичности претендента на слово-связку в контексте леммы-понятия в рамках анализируемого текста. При проведении дальнейших исследований целесообразно усовершенствовать предложенный метод, дополнив его анализом более сложных типов связок в онтологической модели.

Список литературы: 1. Хорошевский В. Ф. Пространства знаний в сети Интернет и Semantic Web (Ч. 3) / В.Ф. Хорошевский// Искусственный интеллект и принятие решений. 2011. N° 2. С. 15-36. 2. Ландэ Д.В. Интернетика: Навигация в сложных сетях: модели и алгоритмы / Д.В. Ландэ, А.А. Снарский, И.В. Безсуднов. M.: Либроком, 2009. 264 с. 3. Чалая Л.Э., Формирование множества связных концептов для автоматического синтеза онтологий [Текст] / Л.Э. Чалая, А.В. Чижевский// International Journal "Information Theories and Applications". Vol. 21, Number 3. 2014. P. 203 - 212. 4. Зябрев И.Н., Пожарков О.В., Пожаркова И.Н. Использование спектральных характеристик лексем для улучшения поисковых алгоритмов// Труды РОМИП 2010. Казань: Казанский ун-т. С. 4048. 5. Воронина И.Е. Алгоритмы определения семантической близости по их окружению в тексте / И.Е. Воронина, А.А. Кретов, И.В. Попова // Вестник ВГУ: системный анализ и информационные технологии. 2011. № 2. С. 15-36. 6. Гинзбург Е. Л. Идиоглоссы: проблемы выявления и изучения контекста / Е. Л. Гинзбург // Семантика языковых единиц: Доклады VI Международной конференции. Т. I., М., 1998. С. 26-28.

Поступила в редколлегию 13.09.2015

Чалая Лариса Эрнестовна, канд. техн. наук, доцент кафедры ИИ ХНУРЭ. Научные интересы: системы и методы информационного поиска, обработка естественно-языковой информации. Увлечения и хобби: чтение. Адрес: Украина, Харьков, 61140, пр. Гагарина, 78, кв.48, тел. 050-636-06-03.

Чижевский Антон Валерьевич, аспирант каф. ИИ ХНУРЭ. Научные интересы: онтологический инжиниринг, обработка естественно-языковой информации. Увлечения и хобби: профессиональный туризм, программирование. Адрес: Украина, 61009, Харьков, ул. Вокзальная, 10, кв.80, тел. 097-527-96-51.

Волощук Елена Борисовна, канд. техн. наук, доцент каф. ИИ ХНУРЭ. Научные интересы: моделирование предметных областей, объектно-реляционные базы данных, обработка естественно-языковой информации. Увлечения и хобби: искусство движения. Адрес: Украина, 61143, Харьков, ул. Невельского, 14/2, тел. 05003016172.

i Надоели баннеры? Вы всегда можете отключить рекламу.