Научная статья на тему 'Применение реляционных таблиц для организации баз знаний в слабоструктурированных предметных областях при неполной и противоречивой информации'

Применение реляционных таблиц для организации баз знаний в слабоструктурированных предметных областях при неполной и противоречивой информации Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
143
33
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БАЗА ЗНАНИЙ / KNOWLEDGE BASE / РЕЛЯЦИОННЫЕ БАЗЫ ДАННЫХ / RELATIONAL DATABASES / ЛОГИЧЕСКИЙ ВЫВОД / INFERENCE / ЭКСПЕРТНЫЕ СИСТЕМЫ / EXPERT SYSTEMS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Аршинский Леонид Вадимович

Рассматривается технология организации базы знаний для системы правдоподобных рассуждений, основанная на применении реляционной СУБД. Обсуждаются достоинства и недостатки такого представления.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Аршинский Леонид Вадимович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

APPLICATION OF RELATIONAL TABLES IN THE DEVELOPMENT OF KNOWLEDGE BASES TO ILL-STRUCTURED SUBJECT AREAS WITH INCOMPLETE AND CONTRADICTORY INFORMATION

The technology of the knowledge base development for the systems of the plausible reasoning, based on the use of relational databases is considered in this article. Advantages and disadvantages of this representation are discussed.

Текст научной работы на тему «Применение реляционных таблиц для организации баз знаний в слабоструктурированных предметных областях при неполной и противоречивой информации»

иркутским государственный университет путей сообщения

БИБЛИОГРАФИЧЕСКИМ СПИСОК

Тихий И. И. Методологическая модель процесса определения состояния сложных объектов. //Современные технологии. Системный анализ. Моделирование. 2010. Вып. 2 (26). С. 239-245. Тихий И. И. Обобщённый диагностический признак различных отказовых ситуаций в структурах взаимоконтроля. // Контроль. Диагностика. 2011. № 1 (151). С 33-39

Тихий И. И. Оценка качества пилотирования в режиме полета по глиссаде / И. И. Тихий , В. В.

Кашковский, С. П. Полуэктов // Научный вестник МГТУ ГА. 2008. 138 (1). С. 191-197. Кашковский В. В. Методика прогнозирования прочностных свойств крыла самолета / В. В. Каш-ковский, И. И. Тихий, С. П. Полуэктов // Известия высших учебных заведений. Авиационная техника. 2009. 4. С.15-17.

Тихий И. И. Применение 2-преобразований для разработки авиационных тренажеров / И. И. Тихий, В. В. Кашковский // Авиакосмическое приборостроение. 2009. № 7. С. 50-53.

УДК 004.8

Аршинский Леонид Вадимович,

д. т. н., доцент, заведующий кафедрой информационных систем Иркутского государственного университета путей сообщения, тел. +7-914-888-52-20; e-mail: larsh@mail.ru

ПРИМЕНЕНИЕ РЕЛЯЦИОННЫХ ТАБЛИЦ ДЛЯ ОРГАНИЗАЦИИ БАЗ ЗНАНИЙ В СЛАБОСТРУКТУРИРОВАННЫХ ПРЕДМЕТНЫХ ОБЛАСТЯХ ПРИ НЕПОЛНОЙ И ПРОТИВОРЕЧИВОЙ ИНФОРМАЦИИ

L. V. Arshinskiy

APPLICATION OF RELATIONAL TABLES IN THE DEVELOPMENT OF KNOWLEDGE BASES TO ILL-STRUCTURED SUBJECT AREAS WITH INCOMPLETE AND CONTRADICTORY INFORMATION

Аннотация. Рассматривается технология организации базы знаний для системы правдоподобных рассуждений, основанная на применении реляционной СУБД. Обсуждаются достоинства и недостатки такого представления.

Ключевые слова: база знаний, реляционные базы данных, логический вывод, экспертные системы.

Abstract. The technology of the knowledge base development for the systems of the plausible reasoning, based on the use of relational databases is considered in this article. Advantages and disadvantages of this representation are discussed.

Keywords: knowledge base, relational databases, inference, Expert Systems.

В работе рассматривается один из подходов к моделированию плохоформализованных (слабоструктурированных) предметных областей на основе технологии экспертных систем с использованием реляционных таблиц и реляционных СУБД для хранения и обработки знаний. В качестве при-

мера взята авторская система моделирования правдоподобных рассуждений (СМПР) «Гераклит», реализующая методологию векторного представления истинности и предназначенная для работы в областях с неполной и противоречивой информацией.

Как правило, логический вывод, опирающийся на неполные и противоречивые знания, является правдоподобным. Не точное, не исчерпывающее представление о свойствах и отношениях предметной области затрудняет или делает невозможным использование рассуждений на основе не только классической, но и некоторых многозначных логик. Традиционными способами моделирования подобных предметных областей являются базы знаний и машины вывода, основанные на теории вероятности (с применением байесовского вывода) или нечетких логиках. Однако даже их использование не снимает всех вопросов, возникающих при описании соответствующих ситуаций. В связи с этим автором в серии работ предложен еще один класс логик, который обобщает

1

4

2

5

3

Информатика, вычислительная техника и управление. Приборостроение. Метрология. Информационно-измерительные приборы и системы

нечеткие. Речь идет о т. н. логиках с векторной семантикой, точнее, об одном классе таких логик,

тДТ

названных V -логиками.

В основу данного подхода положено представление об истинности суждения как о векторе с компонентами (Истина; Ложь) [1]. Значения компонентов принадлежат интервалу [0, 1] и определяются свидетельствами, поступившими в пользу Истины или Лжи суждения. Поскольку в общем случае эти свидетельства поступают из независимых источников различной надежности, компоненты также целесообразно считать независимыми. Это позволяет более корректно, чем в случае вероятностного или нечеткого моделирования, моделировать ситуации дефицита / противоречивости данных, учитывать силу и убедительность поступивших свидетельств [1, 2].

Моделирование рассуждений в системе «Ге-

TF

раклит» основано на V -логиках, причем в еще более общем - интервальном представлении. Такой прием обобщает не только обычный («точечный») вектор истинности, но также классический {0, 1} и нечеткий [0, 1] случаи. Более того, данная система способна моделировать рассуждения в рамках 4-значной паранепротиворечивой логики со значениями истинности {Истина, Ложь, Неопределенность, Противоречие}. Фактически, ею поддерживаются следующие типы логик: классическая; паранепротиворечивая; нечеткая; нечеткая интервальная; векторная «точечная»; векторная «интервальная».

Работа с интервалами позволяет в определенном смысле представлять также модальности «Точно так», «Почти так», «Возможно так». Это достигается путем установки соответствующих интервальных значений вектора. Интервальное представление позволяет также работать с дизъюнктивной правой частью в конструкциях «Если..., то...» и «Если., то., иначе. ». Последнее приводит к росту степени неопределенности - интервала истинности - в соответствующем векторе (Истина; Ложъ) [1]. Таким образом, используемый в системе «Гераклит» механизм сбора и обработки фактов и знаний позволяет задавать истинность в интервальном виде, когда значения Истины и Лжи есть не зависящие друг от друга подынтервалы интервала [0, 1] (в системе реализовано более эффективное с вычислительной точки зрения представление истинности в виде целочисленного набора 0,100 , переход к которому от [0, 1] тривиален). Модель знаний - продукционная. Вывод - прямой, присоединенный, предполагающий расчет значений истинности заключения на основе истинностей посылок по правилу modus ponens. Суж-

дения декларативны и имеют характер высказываний.

Современные системы работы со знаниями используют различные технологии их хранения и обработки. Одна из распространенных - хранение знаний в плоских файлах. Это обеспечивает быстроту выполнения элементарных операций чтения, записи и поиска информации, но затрудняет использование развитых средств манипулирования ею, а также эффективную обработку больших массивов данных [3]. В связи с этим специалистами предлагаются иные подходы к хранению знаний, например на основе реляционных таблиц и соответствующих СУБД (см., напр., [3-5]). База знаний в системе «Гераклит» также реализована в виде системы реляционно-связанных таблиц:

- facts.db - массив фактов, формирующих продукции; таблица находятся в отношении «один ко многим» с таблицами rulif.db, rulthen.db и rulelse.db;

- rulatt.db - массив атрибутов продукций, содержащий данные уровня продукций, необходимые для «сборки» продукции и организации логического вывода («узлы продукций»);

- rulif.db - массив левых частей (антецедентов) продукций, содержащий данные уровня посылок для организации логического вывода и формирования части «Если.»; таблица связана отношением «многие к одному» с таблицей узлов rulatt.db;

- rulthen.db - массив правых частей (консе-квентов) продукций, содержащий данные уровня заключений для организации логического вывода и формирования части «То.»; таблица связана отношениями «многие к одному» с соответствующими записями таблицы rulatt.db;

- rulelse.db - еще один массив правых частей (консеквентов) продукций, содержащий данные уровня заключений для организации логического вывода и формирования части «Иначе.» там, где она имеется; таблица связана отношениями «многие к одному» с соответствующими записями таблицы rulatt.db;

- priority.db - справочник приоритетов продукций, содержащий массив лингвистических значений приоритетов; таблица связана отношением «один ко многим» с таблицей rulatt.db.

На концептуальном уровне в качестве сущностей выступают: факты; узлы продукций; факты, образующие антецеденты «Если.»; факты, образующие консеквенты «То..»; факты, образующие кон-секвенты «Иначе..»; приоритеты продукций.

Связи осуществляются посредством ключей, идентифицирующих факты, продукции и значения приоритета. Связь между фактами и антецедента-

иркутским государственный университет путей сообщения

ми/консеквентами - это связь типа «Входит в...» (вроде «Факт Фг- входит в посылку ЕСЛИ продукции П» или «Факт Фг- входит в заключение ТО продукции П» и т. д.). Такова же связь между фактами антецедента/консеквента и узлами продукций. Наконец, связь между продукциями (точнее, их узлами) и приоритетами - это связь вида «Имеет значение» («Продукция П/ имеет значение приоритета P¿»). Взаимосвязь реализуется посредством кодов, по которым производится индексирование таблиц. Это: коды фактов; коды продукций; коды приоритетов.

Структура взаимосвязей представлена на рис. 1.

Рассмотрим подробнее основные атрибуты.

Таблица фактов. Атрибутами в ней, помимо кода факта, служат следующие данные.

1. Содержание факта. Это текст, выражающий смысл факта. Например, «Температура смеси выше критической», «Неисправен клапан сброса давления» и т. п.

2. Вектор истинности высказывания о факте а в интервальном представлении:

II а 11= (\а+- ,а+ 1:1~а~- ,а~ ]) (1)

II II M-^mm э max J> L mm > max -I/ • V '

3. Скалярные характеристики высказывания a, такие как достоверность, определенность, противоречивость, строгость, избыточность, разброс значений истинности.

4. Технологические атрибуты; здесь и далее - это множество атрибутов различных типов, необходимые для структурирования знаний и орга-

низации логического вывода, в детали которых погружаться не будем.

Скалярные характеристики вычисляются на основе вектора истинности (1) по формулам:

- достоверность

МАа) = ач ~асР;

- определенность

Мо(С<)=С<ср®С<ср',

противоречивость

Мо(а)=аср*аср-

строгость

Мс (а) = Мо (я) " Мо (а) = аср © аср ~ аср • аср ;

для показателя строгости также удобно пользоваться формулой:

МЛ°) =1 М0(а)\=\ асР ~асР I; избыточность

МиАа) = а+ср +а~ср -1;

- разброс

(ашах — атат ) + (^шах — йтт )

Мраъб(.С1)

2

Здесь аср и аср - среднее значение интервалов [а^,атх] и [ати,атах]. Операции • и © -это, соответственно, триангулированные норма и ко-норма в инфиксной записи, связанные между собой соотношениями:

Приоритет

PK Код приоритета

Наименование приоритета

чек

Факты ЕСЛИ...

FK1 Код продукции

Признак связки И/ИЛИ

Признак левой скобки

Признак связки НЕ

FK2 Код факта

Признак правой скобки

Технологические атрибуты

ю-

Факты ИНАЧЕ...

FK1

FK2

Узел продукции

PK Код продукции

FK1 Код приоритета Имя продукции Смысл продукции Технологические атрибуты

Факты

PK Код факта

Содержание факта Истинность факта Достоверность ф. Определенность ф. Противоречивость ф. Строгость ф. Избыточность ф. Разброс ф.

Технологичекие атрибуты

Код продукции

Признак связки И/ИЛИ Признак отрицания НЕ Код факта

Истинность заключения ИНАЧЕ Технологические атрибуты

2.

Т

Факты ТО...

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

FK1 FK2 Код продукции Признак связки И/ИЛИ Признак отрицания НЕ Код факта Истинность заключения ТО Технологические атрибуты

эо-

Рис. 1. Концептуальная модель базы знаний СМПР «Гераклит»

Информатика, вычислительная техника и управление. Приборостроение. Метрология. Информационно-измерительные приборы и системы

ш

(1 - х).(1 - У ) = 1 - X ® у;

(1 - х)©(1 - у) = 1 - X • у ; при X, у е [0,1].

В [1] они названы композиционным умножением и композиционным сложением. Примерами их служат известные пары функций:

х • у = min(x, у); х © у = max(x, у);

X • у = ху; X © у = X + у - ху; х • у = max(0, х + у -1); х © у = min(1, х + у) .

Все три пары представлены в настройках «Гераклит».

Первая из приведенных характеристик показывает степень близости высказывания к строгой (бесспорной) истине. Вторая - степень его аргументированности, которая зависит от надежности/убедительности поступивших свидетельств (иначе говоря, от «веры в них»). Третья характеризует величину противоречивости: она близка к единице для векторов, близких к полному противоречию П = ([1,1];[1Д]), и близка к нулю для векторов, близких к строгой истине И = ([1,1];[0,0]) , строгой лжи Л = ([0,0];[1,1]) или полной неопределенности Н = ([0,0];[0,0]) . В последнем случае близка к нулю также мера определенности цо(а). Мера строгости стремится к 1 для векторов, близких к строгой истине И или строгой лжи Л, и к 0 для полного противоречия П или полной неопределенности Н. Мера избыточности подобна мере строгости. Ее модуль характеризует близость суждения к П или Н. Она равна 0 в случае соблюдения баланса а+ + а-р = 1, справедливого для нечетких

логик. Наконец, разброс позволяет оценить степень «интервальности» истинности, удаленности

вект°ра (К^ amax];[amm, О«« ]) ОТ «точечного» вида. Часть этих показателей принимают участие в логическом выводе. Они используются для активизации продукций (например, продукции с низким показателем достоверности или определенности посылок в выводе не участвуют). Часть - полезна при упорядочении результатов вывода, а также для интегральной количественной оценки характера заключений.

Таблица fаcts.db является частью базы знаний, однако ее можно рассматривать и как самостоятельную базу фактов, связанную с базой продукций.

Таблица узлов продукций. Кроме кодов продукций и технологических атрибутов ее полями являются:

1) код приоритета продукции;

2) имя продукции;

3) смысл продукции.

Назначение кодов очевидно. Имя продукции

служит ее лингвистическим идентификатором. Поле «Смысл продукции» призвано хранить развернутое пояснение ее характера. Оба поля не являются обязательными, однако их целесообразно заполнять для удобства последующей работы с базой знаний.

Таблица фактов антецедента ЕСЛИ помимо кодов продукций и технологических атрибутов содержит атрибуты:

1) признак связки И/ИЛИ (заполняется символом «&» либо «V»);

2) признак левой скобки (имеет логическое значение True либо False);

3) признак отрицания НЕ (имеет логическое значение True либо False);

4) ссылку на факт антецедента в виде его

кода;

5) признак правой скобки (имеет логическое значение True либо False).

Код факта служит для идентификации конкретного факта, входящего в антецедент продукции. Признаки скобок и связок предназначены для сборки сложных антецедентов, содержащих внутри себя логические связки и скобки.

Таблица фактов консеквентов ТО включает кроме кода продукции, частью которой она является, и технологических атрибутов, необходимых для сборки продукций и организации логического вывода, также поля:

1) признак связки И/ИЛИ (заполняется символом «&» либо «V»);

2) признак связки НЕ (логическое);

3) код факта, формирующего данный элемент консеквента;

4) четыре атрибута типа короткого целого, показывающих степень истинности данного факта заключения в случае выполнения посылки ЕСЛИ.

Консеквенты скобочных выражений не содержат. Также они однородны относительно связок И/ИЛИ (либо все связки И, либо все ИЛИ). Это является ограничением на структуру продукций, однако представляется, что оно не обременительно.

Вектор истинности при конкретном факте в заключении служит для расчета истинности данного факта в ходе вывода. Это - истинность продукции относительно соответствующего факта заключения. Результирующая истинность факта получится в ходе учета «суммарной» истинности антецедента и истинности данной части продукции по схеме:

" '1= F(\\a\\,\\i(b1 )||),

где а - антецедент, ||а|| - его истинность, Ъ - текущий консеквент, ||Ъг|| - истинность данного кон-

иркутским государственный университет путей сообщения

секвента, получаемая в ходе вывода, /(6,) - истинность импликации (продукции) относительно факта Ъ. Сами схемы расчета истинности для интервалов подробно освещены, например, в [1]. Здесь они не рассматриваются.

Наконец таблица консеквентов ИНАЧЕ аналогична таблице ТО. Данные консеквенты активизируются в случае, когда достоверность антецедента продукции становится отрицательной и превышающей по абсолютной величине настроечный порог.

Таким образом, факты из базы фактов входят как в посылки, так и в заключения продукций, образуя их содержимое. При этом они делятся на три непересекающихся класса:

- стартовые, входящие только в левые части продукций,

- промежуточные, входящие в левые и правые части продукций;

- терминальные, или факты-гипотезы, входящие только в правые части продукций.

Это деление применяется для организации логического вывода, а также диалога с пользователем системы. Использование СУБД для построения базы знаний в «Гераклит» позволяет:

- выявлять факты, не вошедшие ни в одну из продукций;

- заблаговременно обнаруживать возможные логические циклы;

- в начале диалога устанавливать значения истинности для всех интересующих пользователя стартовых фактов и получать из них все связанные с ними гипотезы, не разбирая специальным образом ситуации конфликтующих продукций, когда одному и тому же набору фактов отвечают различные продукции и цепочки вывода; пользователю предъявляется весь набор гипотез, вытекающих из указанных им фактов, упорядоченный по степеням достоверности и определенности;

- наконец, упорядочивать продукции таким образом, чтобы выявление гипотез, отвечающих введенным фактам, выполнялось за одно сканирование базы знаний, а выполнение продукций, содержащих некоторый факт в консеквенте, всегда предшествовало выполнению продукций, содержащих его в антецеденте (отсутствие возможности такого упорядочения говорит о наличии в базе потенциальных логических кругов).

Попутно хотелось бы отметить, что логика,

на основе которой осуществляется вывод, в силу своей природы устойчива к возникновению в процессе «рассуждения» противоречий. Система сохраняет свою работоспособность при их наличии. Пользователю просто указывается на возникновение таких ситуаций, а подсистема объяснения подсказывает их возможный источник.

К недостаткам представленной технологии хранения знаний, по сравнению с хранением в плоских файлах, пожалуй, можно отнести лишь относительно медленную работу со знаниями в смысле времени, затрачиваемого на обработку одной продукции. Однако этот недостаток с успехом покрывается эффективностью организации знаний и удобством работы с ними за счет развитого инструментария работы с реляционными таблицами.

В целом, реализованная в «Гераклит» технология уже в настоящий момент позволяет достаточно удобно хранить декларативные знания с довольно развитыми по структуре продукциями и эффективно организовывать логический вывод на них.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Аршинский Л. В. Векторные логики: основания, концепции, модели. Иркутск : Изд-во Ир-кут. гос. ун-т, 2007. 228 с.

2. Аршинский Л. В. Многозначные логики с векторной семантикой [Электронный ресурс] // Logical Studies 2004, - № 12. - URL : http://www.logic.ru/Russian/LogStud/12/LS12.htm l. (дата обращения: 21.04.2012)

3. Рабинович Б. И. Хранение баз знаний в современных СУБД [Электронный ресурс] // URL : http: //it-claim .ru/Library/Books/ ITS/wwwbook/ist6/rabinovich/rabinovich.htm (дата обращения: 21.04.2012)

4. Вехорев М. Н. Построение хранилищ онтологических баз знаний / М. Н. Вехорев, М. Г. Пантелеев // Программные продукты и системы № 3. 2011. С. 3-8.

5. Федоров В. В. Методика проектирования Web-ориентированных гибридных экспертных систем на примере рентгенофлуоресцентного анализа : автореф. дисс... канд. технич. наук : 05.13.01 / В. В. Федоров Иркутск : Изд-во Ир-ГУПС, 2012. 22 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.