Научная статья на тему 'Модели представления знаний и представление текста в форме семантической сети'

Модели представления знаний и представление текста в форме семантической сети Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
554
102
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Котов Э. М.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Модели представления знаний и представление текста в форме семантической сети»

гических программ - предикатных формул. В этом случае использование языка Пролог естественным образом реализует механизм вывода по нечёткой онтологии.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. RobertE. Kent. The Model Theory of Onto Logic. In: Proceedings of ISKO 6: Dynamism and Stability in Knowledge Organization. Toronto, 2000.

2. Nicola Guarino, Christopher Welty. Towards a methodology for ontology based model engineering.- LADSEB/CNR, Padova, Italy.

3. Малышев Н.Г., Берштейн Л.С., Боженюк А.В. Нечеткие модели для экспертных систем САПР.- М.: Энергоатомиздат, 1991.

4. Котеленко С.А. Использование модели нечёткого графа для описания нечётких данных в спецификации OWL // Известия ТРТУ. Тематический выпуск «Интеллектуальные САПР». Материалы Международной научно-технической конференции «Интеллектуальные САПР».- Таганрог: Изд-во ТРТУ, 2004.

5. Reference for users and developers of OXML - the XML - based Ontology Representation language for OntoEdit, Ontoprise GmbH, Karlsruhe, 2003.

6. Guarino N. Formal Ontology and Information Systems In: Proceedings of FOIS’98, Amsterdam, IOS Press, pp.3-15.

7. Troels Andreasen, Henrik Bulskov, Rasmus Knappe. On Ontology-based querying. Department of Computer Science, Roskilde University, 2003.

8. Blue M., Bush B., Puckett J. Applications of Fuzzy Logic to Graph Theory / Energy and Environmental Analysis Group Report, Los Alamos National Laboratory, 1997.

Э.М. Котов

МОДЕЛИ ПРЕДСТАВЛЕНИЯ ЗНАНИЙ И ПРЕДСТАВЛЕНИЕ ТЕКСТА В ФОРМЕ СЕМАНТИЧЕСКОЙ СЕТИ

При рассмотрении вопроса классификации информационных систем можно выделить два класса, в зависимости от способа хранения и обработки информации.

1. Документальные системы. Их основное назначение - работа с информационными массивами, представленными в словесной форме. Одним из основных примеров здесь могут выступать информационно-поисковые системы.

2. Фактографические системы. В данном классе информация представляется в виде специальных структур, например, баз данных под управлением СУБД. К подобному классу можно отнести системы обработки данных, системы анализа и принятия решений. Обработка данных в фактографических системах сводится к вводу, хранению, сортировке данных и т.д.

Можно утверждать, что наибольшее распространение на сегодняшний день имеет представление информации в виде текстовых документов, а не структурированных данных.

Документальные базы данных выделяются в один тип, называемый «информационно-поисковые системы». Они занимаются решением главной задачи -обработки запросов, как правило, сформулированных на естественном языке, посредством выполнения процедуры поиска [1].

Можно выделить следующие четыре основные модели представления знаний:

1. Продукционная. Модель основана на наборе правил, и знания представляются в виде предложений типа:

если (A), то (B),

Известия ТРТУ

Тематический выпуск

где A - условие, предложение-образец, по которому осуществляется поиск в базе знаний;

B - действие, процедура, выполняемая при успешном выполнении условия.

Причем действие /-го шага Bi может быть или условием Ai+1 для последующих предложений системы, или операцией, завершающей работу системы.

Преимущества продукционной модели:

• легкость внесения дополнений и изменений;

• наглядность;

• высокая модульность;

• простой механизм логического ввода.

2. Фреймы. Представляют собой формализованную модель отображения образа и являются структурой знаний для восприятия пространственных сцен, в основе которой лежит абстрактный образ или ситуация, называемые фреймом.

Структуру фрейма можно представить следующей таблицей.

Имя фрейма

Имя 1-го слота Тип 1-го слота Значение 1-го слота Присоединенная процедура

Имя 2-го слота Тип 2-го слота Значение 2-го слота Присоединенная процедура

Имя i-го слота Тип i-го слота Значение i-го слота Присоединенная процедура

Различают: 1) фреймы-структуры; 2) фреймы-роли; 3) фреймы-сценарии; 4) фреймы-ситуации.

Преимущества данной модели:

• способность отражать концептуальную основу памяти человека;

• гибкость;

• наглядность.

3. Формальные логические модели. Основаны на классическом исчислении предикатов I порядка. Предметная область описывается в виде набора аксиом.

Недостатки данной модели:

• высокие требования и ограничения к предметной области;

• логическая модель применима в основном в исследовательских системах. В промышленных системах практически не используется.

4. Семантические сети. Модель представляет собой ориентированный граф, у которого в роли вершин выступают понятия (абстрактные или конкретные), а в роли дуг - отношения (связи типа «это», «принадлежит», «имеет частью») между понятиями.

В семантической сети обязательно присутствуют следующие типы отношений:

<класс> - <элемент класса>;

<свойство> - <значение>;

<пример элемента класса>.

Семантическая сеть, реализованная на множестве абсолютно всех терминов, выработанных человеком, и, по сути, представляющая абстрактное хранилище всех терминологических статей, связанных семантическими отношениями, называется универсальным терминологическим пространством [2].

Формально семантическая сеть представляет собой пару множеств: множество вершин A и множество связей R. Развитие универсального терминологического пространства можно выразить в виде последовательности сетей:

< A(1), R(1) >< A(2), R(2) < A(t), R(0 >.

Семантическая сеть < A(t), R(t ) > обладает рядом следующих свойств:

• в сети отсутствуют изолированные и имеющие 1-2 точки сочленения компоненты;

• сеть является сильносвязанным графом с ограниченным числом циклов;

• отношение числа связей R(t )| к числу вершин |A(t)| практически постоянно;

• для строго иерархических структур справедливо:

R(t)| = \A(t)\ - с,

где с - количество компонент связанности, т.е. R(t )|/| A(t )| > 1 - 0;

• для полносвязных структур справедливо:

R(t)|/|A(t)| > (|A(t)| -1)/2 ;

• отношение общего числа вершин-документов к числу терминов-понятий практически постоянно:

i < |A(t)| / p < i +1,

где p - число документов, выделенных экспертом в качестве понятий. Семантическая сеть может быть описана матрицей весов связей:

W = [wp ],

где wij - степень ассоциативности, отражающая вероятность появления понятия j в смысловой связи с понятием i.

Для решения задачи автоматической классификации документов в качестве модели можно предложить модель ассоциативной семантической сети:

PN = [p(j l i)],i = 1,...,N, j = 1,...,N,

где p(j l i) ~ Wj - условная вероятность появления понятия j в смысловой связи

с понятием i;

N - количество элементов сети.

Таким образом, метод решения задач, связанных с анализом документов, может быть найден в представлении текста в форме семантической сети, в которой для каждого понятия, наиболее часто встречающегося в тексте, и, следовательно, несущего смысловую нагрузку, формируется набор ассоциативных связей с другими понятиями, с которыми оно встречалось в текстовом материале.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Luhn H.P. A statistical approach to mechanised encoding and searching of library information / IBM Journal of Research and Development, 1, P. 309-317.

2. Мальковский М.Г., Соловьев С.Ю. Универсальное терминологическое пространство / Материалы международной конференции «Диалог-2002».

Э.М. Котов, Ю.А. Целых МОДЕЛИ ПОИСКА И КЛАССИФИКАЦИЯ ТЕКСТОВЫХ ДОКУМЕНТОВ

В качестве основного понятия, связанного с рассмотрением документа, как множества ключевых слов, и определяющего, по какому принципу определяется

i Надоели баннеры? Вы всегда можете отключить рекламу.