Научная статья на тему 'Архитектура и принципы самообучения конструкторско-технологических экспертных систем, основанных на знаниях с использованием мониторинга сети Интернет'

Архитектура и принципы самообучения конструкторско-технологических экспертных систем, основанных на знаниях с использованием мониторинга сети Интернет Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
709
205
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЭКСПЕРТНЫЕ СИСТЕМЫ / БАЗЫ ЗНАНИЙ / РАСШИРЕНИЕ ОНТОЛОГИЙ / МОНИТОРИНГ ИНТЕРНЕТ / ОБУЧЕНИЕ ОНТОЛОГИЙ / EXPERT SYSTEMS / DATABASES / EXTENTION OF ONTOLOGIES / MONITORING OF INTERNET / LEARNING OF ONTOLOGIES

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Аверченков Андрей Владимирович, Леонов Евгений Алексеевич

Актуальность и цели. Большая часть современных интеллектуальные систем, основанных на знаниях, базируется на использовании онтологий. Качество работы таких систем во многом зависит от качества используемых онтологий их актуальности, целостности и непротиворечивости. Составление и расширение таких онтологий является чрезвычайно трудоемким процессом, требующим максимальной автоматизации. Рассматриваются подходы к построению конструкторско-технологических экспертных систем, базирующихся на знаниях и способных наращивать собственные знания о предметной области за счет информации из сети Интернет. В рамках подхода предлагается использовать замкнутый цикл, в котором система самостоятельно обучается находить качественные документы в рамках предметной области, используя онтологию и предпочтения эксперта, а также дополняет эту онтологию знаниями, извлеченными из найденных документов. Материалы и методы. Предлагаемый концепт системы базируется на использовании подходов к построению многоагентных систем. Для описания алгоритмов обучения подсистем метапоиска и особенностей его использования при обучении онтологий используется общая теория множеств и математика кортежей. Результаты. Разработана концептуальная архитектура самообучающихся систем на основе знаний из сети Интернет. Предложен алгоритм обучения подсистем метапоиска с использованием активного контроля. Рассмотрены особенности применения методов обучения онтологий в рамках самообучающихся систем, взаимодействующих с Интернет через подсистемы метапоиска, а также предложена архитектура многоагентных интеллектуальных экспертных систем, основанных на знаниях из сети Интернет. Выводы. Предлагаемые подходы позволят создавать системы, способные постоянно наращивать собственные знания, исследуя документы сети Интернет, и решать поставленные задачи с использованием актуального состояния области знания.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ARCHITECTURE AND PRINCIPLES OF SELF-LEARNINGOF ENGINEERING AND DESIGN EXPERT SYSTEMS BASED ON KNOWLEDGE USING MONITORING OF INTERNET

Background. Most of modern intelligent systems based on knowledge use ontologies. The quality of such systems depends on the quality of the ontologies used their relevance, integrity and consistency. Creation and extension of ontologies are an extremely time-consuming process requiring maximum automation. The article discusses approaches to building of engineering and design expert systems based on knowledge that are capable of building their own domain knowledge using information from the Internet. Under the approach it is proposed to use the closed cycle in which the system automatically learns to find high quality documents within the domain by using ontology and preferences of the experts, as well as extends ontology by knowledge extracted from the retrieved documents. Materials and methods. The proposed concept of the system is based on using the approaches to creation of multi-agent systems. In order to describe the learning algorithms of metasearch subsystems and features of using thereof at ontologies learning the authors used the general theory of sets and tuple mathematics. Results. The researchers developed a conceptual architecture of self-learning systems based on knowledge taken from the Internet. The authors offered a learning algorithm for metasearch subsystems using active control and considered the application features of ontology learning methods within the self-learning systems that interact with the Internet through metasearch subsystems, as well as proposed a multi-agent architecture of intelligent expert systems based on knowledge from the Internet. Conclusions. The proposed approach will allow to create a system that will be capable to constantly increase its own knowledge by obtaining the documents from the Internet and solve target problems by using the current actual state of a knowledge area.

Текст научной работы на тему «Архитектура и принципы самообучения конструкторско-технологических экспертных систем, основанных на знаниях с использованием мониторинга сети Интернет»

№ 4 (32), 2014 Технические науки. Информатика, вычислительная техника

УДК 004.93'12

А. В. Аверченков, Е. А. Леонов

АРХИТЕКТУРА И ПРИНЦИПЫ САМООБУЧЕНИЯ КОНСТРУКТОРСКО-ТЕХНОЛОГИЧЕСКИХ ЭКСПЕРТНЫХ СИСТЕМ, ОСНОВАННЫХ НА ЗНАНИЯХ С ИСПОЛЬЗОВАНИЕМ МОНИТОРИНГА СЕТИ ИНТЕРНЕТ

Аннотация.

Актуальность и цели. Большая часть современных интеллектуальные систем, основанных на знаниях, базируется на использовании онтологий. Качество работы таких систем во многом зависит от качества используемых онтологий - их актуальности, целостности и непротиворечивости. Составление и расширение таких онтологий является чрезвычайно трудоемким процессом, требующим максимальной автоматизации. Рассматриваются подходы к построению конструкторско-технологических экспертных систем, базирующихся на знаниях и способных наращивать собственные знания о предметной области за счет информации из сети Интернет. В рамках подхода предлагается использовать замкнутый цикл, в котором система самостоятельно обучается находить качественные документы в рамках предметной области, используя онтологию и предпочтения эксперта, а также дополняет эту онтологию знаниями, извлеченными из найденных документов.

Материалы и методы. Предлагаемый концепт системы базируется на использовании подходов к построению многоагентных систем. Для описания алгоритмов обучения подсистем метапоиска и особенностей его использования при обучении онтологий используется общая теория множеств и математика кортежей.

Результаты. Разработана концептуальная архитектура самообучающихся систем на основе знаний из сети Интернет. Предложен алгоритм обучения подсистем метапоиска с использованием активного контроля. Рассмотрены особенности применения методов обучения онтологий в рамках самообучающихся систем, взаимодействующих с Интернет через подсистемы метапоиска, а также предложена архитектура многоагентных интеллектуальных экспертных систем, основанных на знаниях из сети Интернет.

Выводы. Предлагаемые подходы позволят создавать системы, способные постоянно наращивать собственные знания, исследуя документы сети Интернет, и решать поставленные задачи с использованием актуального состояния области знания.

Ключевые слова: экспертные системы, базы знаний, расширение онтологий, мониторинг Интернет, обучение онтологий.

A. V. Averchenkov, E. A. Leonov

ARCHITECTURE AND PRINCIPLES OF SELF-LEARNING OF ENGINEERING AND DESIGN EXPERT SYSTEMS BASED ON KNOWLEDGE USING MONITORING OF INTERNET

Abstract.

Background. Most of modem intelligent systems based on knowledge use ontologies. The quality of such systems depends on the quality of the ontologies used -their relevance, integrity and consistency. Creation and extension of ontologies are

Engineering sciences. Computer science, computer engineering and control

53

Известия высших учебных заведений. Поволжский регион

an extremely time-consuming process requiring maximum automation. The article discusses approaches to building of engineering and design expert systems based on knowledge that are capable of building their own domain knowledge using information from the Internet. Under the approach it is proposed to use the closed cycle in which the system automatically learns to find high quality documents within the domain by using ontology and preferences of the experts, as well as extends ontology by knowledge extracted from the retrieved documents.

Materials and methods. The proposed concept of the system is based on using the approaches to creation of multi-agent systems. In order to describe the learning algorithms of metasearch subsystems and features of using thereof at ontologies learning the authors used the general theory of sets and tuple mathematics.

Results. The researchers developed a conceptual architecture of self-learning systems based on knowledge taken from the Internet. The authors offered a learning algorithm for metasearch subsystems using active control and considered the application features of ontology learning methods within the self-learning systems that interact with the Internet through metasearch subsystems, as well as proposed a multi-agent architecture of intelligent expert systems based on knowledge from the Internet.

Conclusions. The proposed approach will allow to create a system that will be capable to constantly increase its own knowledge by obtaining the documents from the Internet and solve target problems by using the current actual state of a knowledge area.

Key words: expert systems, databases, extention of ontologies, monitoring of Internet, learning of ontologies.

Введение

Современные интеллектуальные системы, основанные на знаниях, имеют широкое применение в различных областях знаний. Одной из таких сфер применения являются конструкторско-технологические экспертные системы, позволяющие экспертам:

- находить оборудование и инструменты производства;

- отслеживать появление новых методов и технологий производства;

- принимать решения по разработке технологии производства изделий;

- находить типовые решения конструкторских задач;

- отслеживать рынки конкурентных производств;

- проводить маркетинговые исследования в заданной области.

Основой базы знаний таких систем являются онтологии предметной

области, использование которых позволяет формализовать знания эксперта. Разработка онтологии является трудоемкой задачей, которая не может быть решена экспертом самостоятельно и для этого требуется привлечение инженера по знаниям, способного формализовать опыт эксперта и наблюдаемые прецеденты в единую жестко структурированную базу знаний. При обеспечении наибольшей объективности используемых онтологий может возникнуть необходимость в привлечении целых сообществ экспертов в рамках одной предметной области, при этом с увеличением объема онтологии возрастает сложность обеспечения ее непротиворечивости.

В связи с высокой трудоемкостью процесса создания онтологий на данный момент ведется активная разработка различных методов их автоматического формирования. В результате появилось отдельное направление ис-

54

University proceedings. Volga region

№ 4 (32), 2014 Технические науки. Информатика, вычислительная техника

следований по автоматическому расширению онтологий, получившее название «обучение онтологий». Значительная часть методов в рамках данного направления основана на использовании продукционных правил, лексических шаблонов, статистического анализа текста, а также различных методов искусственного интеллекта, а в качестве исходных данных используется текст на естественном языке.

Концепция интеллектуальных экспертных систем

Использование интеллектуальных агентов метапоиска [1] позволяет создавать гибкие механизмы наполнения предметно-ориентированных хранилищ документов. На базе данных механизмов могут быть построены системы, которые могут самостоятельно формировать поисковые задания на базе предварительно составленной онтологии. Концептуальная схема работы такой системы (рис. 1) должна иметь процедуры генерации запросов по онтологии, составленной экспертом, после чего эти запросы должны быть отправлены сторонним универсальным поисковым системам, а для каждого документа, полученного от них, должна быть произведена оценка его качества. Информативные документы, имеющие высокую степень близости с заданной предметной областью, должны заноситься в хранилище документов, которое может быть использовано для построения различных представлений информации, содержащейся в документах, а также для обнаружения новых знаний и пополнения имеющейся онтологии.

Рис. 1. Концептуальная архитектура предлагаемой системы, основанной на знаниях из Интернет

Система, построенная по предложенному принципу, сможет постоянно накапливать информацию, актуализируя знания о предметной области из сети Интернет, а решения, предлагаемые системой, могут выходить за рамки компетенции составителей базовой онтологии, из чего следует качественно иное использование систем подобного рода, так как они смогут не только воспроизводить имеющиеся знания эксперта-разработчика, но и самостоятельно

Engineering sciences. Computer science, computer engineering and control

55

Известия высших учебных заведений. Поволжский регион

обучаться новым знаниям, используя информацию из сети Интернет. Рассмотрим более детально отдельные процедуры представленной концепции.

Самообучающийся алгоритм метапоиска с использованием активного контроля

В целях повышения качества собираемых документов предлагается ввести самообучающийся алгоритм метапоиска с обратной связью. Для формирования запроса к внешней универсальной поисковой системе используется база продукционных правил, исходными данными для которых являются узлы и связи онтологии.

Упрощенно онтологию можно представить в виде графа, описываемого следующим кортежем:

O = {E, R, I), (1)

где E - множество сущностей (узлов) онтологии; R - множество связей между понятиями; I - соответственно предикат инциденции между узлом и связью,

I(e,r) ={0,1}, eє E, rє R. (2)

При этом каждая связь может характеризоваться целым набором свойств, служащих для выражения семантики связи, полный перечень которых определяется в зависимости от типа интеллектуальной системы и методов формирования целевого вывода в ней. Таким образом, связь может быть представлена следующим образом:

г = {t, P, l, w, f, c}, (3)

где t - тип связи; P - множество свойств связи, служащих для продукции целевого вывода системы; l - лексический эквивалент, который может быть использован при генерации запроса; w - вес связи; f - вероятность наличия связи; c - сочетаемость свойства (c є N), по сути, характеризует максимальную мощность для связи данного типа.

Продукционные правила, используемые для генерации поисковых запросов, могут иметь следующий общий вид:

Pq ={S(r), ЦРвх,i), A: e, r ^ Qs, Q(Qs,T(c))}, (4)

где pQ - идентификатор продукционного правила для рассматриваемого подграфа онтологии O; S (r) - класс связи г, для которого может быть применено правило; L(Рвх,i) - предикат активации правила, определяющий, имеется ли связь между рассматриваемыми узлами и удовлетворяют ли они заданным условиям Рвх ; A: e, r ^ Qs - ядро продукции, в котором производится перевод рассматриваемых узлов e и r в часть запроса Qs; Q(Qs ,Tc (c)) - постусловие, в котором производится внедрение подзапроса Qs в общий запрос Q .

Условия активации правила зависят от заданных для него значений Рвх, которые содержат следующие элементы:

56

University proceedings. Volga region

№ 4 (32), 2014 Технические науки. Информатика, вычислительная техника

(5)

где En - множество типов сущностей, для которых может быть активировано правило; Tn - множество типов связей, которыми должны быть связаны сущности; w - пороговое значение веса семантической связи для активации правила; f - пороговое значение вероятности существования связи; Tc (c) - тип сочетаемости связи (Tc (1) = 1 v Tc (x) = 0 л c ф1, 0 - множественная, 1 - уникальная). При этом для каждого типа сочетаемости используются свои продукционные правила, а также от этого параметра зависит способ внедрения полученного подзапроса в общий запрос и тип операции языка поисковой системы. Таким образом, при генерации запросов к поисковым системам участвуют лишь те узлы, которые с высокой вероятностью связаны между собой и при этом имеют сильную семантическую связь.

Каждое правило генерирует множество подзапросов из соответствующих ему узлов и связей

Сочетая данные подзапросы между собой, можно построить более сложные и точные запросы к поисковой системе. При объединении подзапросов с помощью функции Q(Qs ,Tc (c)) запрос уточняется, если связь является

уникальной, а также область поиска будет расширена при дополнении запроса на базе множественной связи. Глубина совершаемого вывода, а также тип связей, используемых при общем выводе запроса, зависит от результатов, полученных от поисковой системы.

Каждый полученный подзапрос пересылается поисковой системе, в результате будет получено множество документов с заданной глубиной выборки. Для каждого полученного документа на основании заданных экспертом предпочтений производится оценка его информативности и степени близости к предметной области [2]. Для этого предварительно осуществляется выявление семантически значимой части документа, а также перевод его в текст на естественном языке [3]. После чего рассчитываются критерии, необходимые для определения качества документа. В случае, если качество ниже указанного экспертом порога, то такой запрос и правило должны быть исправлены. Для этого на первом этапе определяется характер ошибки и порядок действий по исправлению правила.

После определения характера возникшей ошибки определяется ее сила воздействия на полученный результат. Так, в случае критического смещения от ожидаемого результата правило может быть полностью отклонено, признано не применимым для данного типа онтологий. В зависимости от характера возникающей ошибки правило может не исправляться и применяться лишь над другой областью онтологии.

Для обнаружения знаний в документах на естественном языке наиболее целесообразным видится применение шаблонов в связи с возможностью вторичного использования синтаксических шаблонов для обратной конвертации

PQ = Os ^ Qs .

(6)

Особенности применения методов обучения онтологий

Engineering sciences. Computer science, computer engineering and control

57

Известия высших учебных заведений. Поволжский регион

узлов онтологий в поисковые запросы с целью расширения онтологий для несвязанных узлов.

Так, если у нас имеется шаблон, использующий для обнаружения определенную структуру лексических единиц L, то упрощенно правило можно представить как функцию преобразования участка текста в часть графа онтологии:

P: L,wi,W2 ^ r,гх,в2, (7)

где P лексико-семантический шаблон; L - множество константных лексем, используемых для обнаружения связи r; wi,W2 - слова текста, попадающие под шаблон, от которых образуются концепты онтологии гх,г^. Таким образом, можно сказать, что множество лексем L характеризует связь r между концептами ei и г^, которые представлены в тексте словами wi и W2 соответственно. Тогда в случае, если в онтологии имеется узел ei, для которого нет установленных связей или имеется необходимость расширить имеющиеся связи, можно построить продукционное правило для построения запроса с использованием слов, которыми представлен концепт онтологии и лексем, характеризующих связь:

PQ (i,{L, t}) = {S, L(РвХ, i), A: ei,r ^ Qs э {ei, L}, Q}, ei є O л r g O, (8)

где {L, t} - связанная пара множества лексем и типа искомой связи, которые они характеризуют (t є r ); O - онтология предметной области.

При этом функция поиска, использующая данный запрос, может с высокой вероятностью возвращать документы, содержащие участки текста, соответствующие заданному шаблону Р:

FSE : Qs ^ D э {L, wl, ^2}є р.

Тогда, так как Fse : Pq(ei, {L, t}) ^ {L, wi, W2}є P ^ {r, ei, e2}є O , то,

сопоставив с каждым типом связи набор характеризующих их лексем {L, t} ,

на основе правил P можно с высокой степенью вероятности дополнить именно интересующую часть онтологии.

Данный метод может быть использован для повышения коэффициента, характеризующего вероятность наличия связи или опровержения имеющейся связи при разрешении противоречивости онтологии.

Архитектура интеллектуальных агентов, основанных на данных из сети Интернет

На базе предложенной концепции интеллектуальных систем могут быть построены программные комплексы, имеющие различную архитектуру. Для построения предметно-ориентированных аналитических систем, основанных на знаниях из сети Интернет, предлагается использовать многоагентную [4] архитектуру (рис. 2).

Исходными данными для работы системы являются: первичное описание источников информации; настройки пользователя и параметры системы;

58

University proceedings. Volga region

№ 4 (32), 2014 Технические науки. Информатика, вычислительная техника

цифровой образ пользователя; первичная онтология предметной области, которая в дальнейшем должна быть расширена. Основным средством управления агентами является главный агент координации. В его задачи входит формирование заданий для других агентов и их групп, распределение нагрузки между отдельными узлами системы, разрешение конфликтов, балансировка между отдельными стадиями обработки документов для формирования равномерного процесса анализа и поддержания необходимого объема хранилища данных.

Рис. 2. Архитектура интеллектуальных экспертных систем, основанных на знаниях из сети Интернет

Основным узлом является агент обучения онтологий, в его задачи входит формирование поискового задания на базе имеющейся онтологии, формирование запросов на анализ и оценку полученных документов, а также собственно само пополнение онтологии на базе документов, имеющих высокие оценки качества. В архитектуру системы также может входить значительное количество автономных агентов, осуществляющих различные стадии обработки и анализа содержимого документа, а также формирующих целевые выводы в случае соответствующих систем или систем поддержки принятия

Engineering sciences. Computer science, computer engineering and control

59

Известия высших учебных заведений. Поволжский регион

решений или агенты формирования аналитических отчетов и представления данных для аналитических систем. Также к таким агентам могут быть отнесены: агенты конвертирования форматов данных, выделения семантически значимой части из веб-документов, агенты формирования текста на естественном языке, агенты анализа медиаконтента, агенты оценки информативности документов и другие ранжирующие агенты. Часть данных агентов может использовать информацию о предметной области, накопленную в онтологии.

Все агенты, имеющиеся в системе, не должны иметь прямой доступ к хранилищу данных, так как все производимые в нем изменения должны быть согласованны между собой. Для этого могут быть использованы специально разработанные драйверы, коннекторы представления данных, а также брандмауэры для контроля доступа.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Заключение

Предложена концепция конструкторско-технологических экспертных и интеллектуальных систем, основанных на знаниях и использующих в качестве основного источника информации сеть Интернет, которые используют для хранения знаний специальные предметно-ориентированные онтологии. В соответствии с предложенной концепцией такие системы могут автоматически накапливать собственные знания, используя механизмы, основанные на применении интеллектуальных агентов метапоиска, задания для которых должны автоматически генерироваться на базе уже имеющейся онтологии, которая в свою очередь также должна обогащаться за счет знаний, имеющихся в найденных документах. Такой замкнутый цикл позволит постоянно в автоматическом режиме актуализировать знания системы о предметной области и соответственно обеспечивать высокое качество решения целевых задач.

Предложенная архитектура и концепция построения самообучающихся систем, основанных на знаниях, является одним из шагов на пути создания автономных самообучающихся интеллектуальных систем, использование которых позволит решать задачи по поддержке принятий решений при разработке конструкторских и технологических решений, а также выборе управленческих решений в области машиностроения, используя при этом знания, накапливаемые человечеством в сети Интернет, охватить которые не способен ни один эксперт предметной области.

Список литературы

1. Аверченков, В. И. Математическая модель универсальной многоагентной подсистемы метапоиска / В. И. Аверченков // Вестник Брянского государственного технического университета. - 2011. - № 2 (30). - С. 101-110.

2. Аверченков, В. И. Формализация процесса мониторинга информации в сети Интернет при создании предметно-ориентированных хранилищ данных /

В. И. Аверченков, А. В. Аверченков, Е. А. Леонов // Вестник компьютерных и информационных технологий. - 2012. - № 1. - С. 38-45.

3. Аверченков, А. В. Анализ структуры веб-документов с целью выявления уникальной семантически значимой информации в рамках задач информационного поиска / А. В. Аверченков, Е. А. Леонов // Известия Волгоградского государственного технического университета. - 2011. - № 11 (84). - С. 30-35.

60

University proceedings. Volga region

№ 4 (32), 2014 Технические науки. Информатика, вычислительная техника

4. Niazi, M. Agent-based computing from multi-agent systems to agent-based models: a visual survey / M. Niazi, A. Hussain // Scientometrics. - 2011. - Vol. 89, Issue 2. -P. 479-499.

References

1. Averchenkov V. I. Vestnik Bryanskogo gosudarstvennogo tekhnicheskogo universiteta [Bulletin of Bryansk State Technical University]. 2011, no. 2 (30), pp. 101-110.

2. Averchenkov V. I., Averchenkov A. V., Leonov E. A. Vestnik komp’yuternykh i infor-matsionnykh tekhnologiy [Bulletin of computing and information technologies]. 2012, no. 1, pp. 38-45.

3. Averchenkov A. V., Leonov E. A. Izvestiya Volgogradskogo gosudarstvennogo tekhnicheskogo universiteta [Proceedings of Volgograd State Technical University]. 2011, no. 11 (84), pp. 30-35.

4. Niazi M., Hussain A. Scientometrics. 2011, vol. 89, iss. 2, pp. 479-499.

Аверченков Андрей Владимирович

доктор технических наук, доцент, старший научный сотрудник, Институт конструкторско-технологической информатики Российской академии наук (Россия, г. Москва, пер. Вадковский,

18, корп. 1А)

E-mail: mahar@mail.com

Леонов Евгений Алексеевич кандидат технических наук, старший научный сотрудник, Институт конструкторско-технологической информатики Российской академии наук (Россия, г. Москва, пер. Вадковский,

18, корп. 1А)

E-mail: johnleonov@gmail.com

Averchenkov Andrey Vladimirovich Doctor of engineering sciences, associate professor, senior staff scientist, Institute of engineering and design informatics of the Russian Academy of Sciences (building 1a, 18 Vadkovsky lane, Moscow, Russia)

Leonov Evgeniy Alekseevich Candidate of engineering sciences, senior staff scientist, Institute of engineering and design informatics of the Russian Academy of Sciences (building 1a,

18 Vadkovsky lane, Moscow, Russia)

УДК 004.93'12 Аверченков, А. В.

Архитектура и принципы самообучения конструкторско-технологических экспертных систем, основанных на знаниях с использованием мониторинга сети Интернет / А. В. Аверченков, Е. А. Леонов // Известия высших учебных заведений. Поволжский регион. Технические науки. -2014. - № 4 (32). - С. 53-61.

Engineering sciences. Computer science, computer engineering and control

61

i Надоели баннеры? Вы всегда можете отключить рекламу.