Научная статья на тему 'Архитектура инструментальной среды, ориентированной на решение задач извлечения знаний и понимания текста на естественном языке'

Архитектура инструментальной среды, ориентированной на решение задач извлечения знаний и понимания текста на естественном языке Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
39
21
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Минаков И. А.

Рассматривается задача интеллектуальной обработки информации, представленной в виде текста на естественном языке, с целью извлечения знаний, ориентированных на предметные интересы исследователя.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Минаков И. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Архитектура инструментальной среды, ориентированной на решение задач извлечения знаний и понимания текста на естественном языке»

При прессовании с постоянной скоростью V = 0.59 мм/мин (рис. 10) время прессования по сравнению с изотермическим прессованием (рис. 8) уменьшилось примерно в 2 раза, но перепад температуры по длине профиля равен 83°С, что приводит к неравномерности структуры и свойств металла по длине профиля. В результате качество пресс-изделия значительно снижается.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Рапопорт З.Я Оптимизация процессов индукционного нагрева металла. М.: Металлургия, 1993. С. 242-246.

2. Рапопорт Э Я. Математическое моделирование температурных полей деформируемого металла в процессе

прессования // Физика и химия обработки материалов. 1980. № 1. С. 29-39.

3. Гун Г.Я, П олухи и П.И.. Ганелин ДЮ. Математическое моделирование осесимметричных стационарных процессов обработки металла давлением. Сообщение 1 // Изв. вузов. Черная металлургия, 1976. № 5. С. 82-85.

4. Перлин И.Л., ГайтбаргЛ.Х. Теория прессования металлов. М.: Металлургия, 1975. 448 с.

5. Алексеев КВ Лысое В Е. Рапопорт ЭЯ. Структурный синтез процесса изотермического прессования алюми-

ниевых профилей // Технологии легких сплавов. 2003. № 1.

Статья поступила в редакцию 8 октября 2004 г.

УДК 004.382 И.А. Мичаков

АРХИТЕКТУРА ИНСТРУМЕНТАЛЬНОЙ СРЕДЫ, ОРИЕНТИРОВАННОЙ НА РЕШЕНИЕ ЗАДАЧ ИЗВЛЕЧЕНИЯ ЗНАНИЙ И ПОНИМАНИЯ ТЕКСТА НА ЕСТЕСТВЕННОМ ЯЗЫКЕ

В статье рассматривается задача интеллектуальной обработки информации, представленной в виде текста на естественном языке, с цаью извлечения знаний, ориентированных на предметные интересы исследователя, обсуждается архитектура системы, предназначенной для решения подобной задачи, и перспективы применения данного подхода, описываются основные блоки и возможности системы

Постановка проблемы

В современном информационном обществе темпы увеличения количества информационных материалов непрерывно возрастают. Большинство актуальных научно-технических проблем изучаются независимо как теоретическими исследователями в институтах и научных лабораториях, так и коммерческими предприятиями с целью их практического использования. И эксперту, желающему получить новую или систематизировать имеющуюся информацию об исследуемом объекте, потенциально доступно множество уже существующих источников информации, которая содержится в научных библиотеках, он-лайн-конференциях и статьях и других информационных источниках, включая и сам Интернет.

К сожалению, на текущий момент инструментальных средств, позволяющих с учетом знаний исследователя-эксперта корректно получить информацию, ориентированную на эксперта и затрагивающую интересующую его предметную область, практически не существует. Это связано с тем, что имеющиеся поисковые системы и системы документооборота работают с формальным текстом документов (анализируя ключевые слова, морфологию, грамматику и пр.). При этом они «не умеют» работать со смыслом текста и анализировать знания, представленные в текстовой форме, что и является главной неразрешенной проблемой анализа.

Формализации подобного рода знаний - сложный процесс, связанный с их неоднородностью и противоречивостью, устареванием и изменением, кроме того, зачастую даже человеку-эксперту трудно «извлечь» знания из собственного опыта и представить их как формализованное описание исследуемой предметной области (онтологию). Поэтому необходим инструмент, который мог бы помочь эксперту в построении подобного рода онтологий, создавая их первоначальный вариант автоматизированно, предлагая свои варианты и учитывая знания эксперта.

Но даже формализация знаний о предметной области - не итог, а только первый шаг в подобном анализе. Необходимо иметь возможность представлять все документы - результаты

исследований в терминах такой онтологии (создавая семантические дескрипторы), располагать механизмами для сравнения, поиска и анализа таких дескрипторов, а также возможностью их классификации согласно содержащимся в них знаниям, возможность интерактивного взаимодействия с экспертом при анализе, и даже механизмы уточнения разработанной онтологии согласно результатам анализа.

В данной работе предлагается общая архитектура инструментальной системы, ориентированная на решение указанных задач и основанная на предложенных в [3-5] технологиях понимания текстов на естественном языке и извлечения знаний, на основе мультиагентного подхода [1]. которая позволяет анализировать наборы документов научно-технического содержания, представленные в виде текста на естественном языке, и извлекать предметно-ориентированную информацию согласно требованиям исследователя.

Каждый из модулей данной системы может использоваться и независимо, для решения конкретной практической задачи (например, построение начальной онтологии логистики для определения типов объектов и их свойств перед процессом планирования, или семантический мета-поиск документов в Интернете), но все вместе они представляют собой завершенную среду анализа информации на естественном языке, реализуя все шаги, требуемые для такого анализа, - включая конструирование начальных знаний, анализ и систематизацию их, и замыкающее цикл пополнение новыми знаниями, полученными в результате анализа.

Процесс работы н архитектура системы

Предлагаемый подход к интеграции разнородных знаний, основанный на агентных взаимодействиях и заключающийся в совместном использовании агентных механизмов работы со знанием на естественном языке и мультиагентного кластерного анализа, позволил создать архитектуру работы со знанием для реализации предложенных методов автоматизированного конструирования онтологий, представления и обработки информации, анализа результатов и пополнения знаний, обеспечивая цикл познания, необходимый для эффективного и оперативного использования информации.

Разработанная среда включает в себя несколько программных комплексов: инструментарий инженерии знаний, предназначенный для создания онтологий предметной области и логики принятия решений агентов, и программный инструментарий, ориентированный на представление, анализ и обработку знаний, представленных в виде информации на естественном языке.

Архитектура системы показана на рис. 1.

Инструментарий инженерии знаний включает в себя конструктор онтологий, автоматизированную систему построения онтологий, систему понимания текста на естественном языке, систему извлечения знаний, модуль пополнения онтологических знаний и ряд дополнительных модулей, включая отладочную систему, интерфейсы работы с базами данных и внешними приложениями.

Таким образом, общая логика работы системы следующая.

Для получения новой информации об объекте исследования мы используем ряд документальных результатов исследования, полученных другими экспертами (к таким результатам относится любая информация на естественном языке, представленная в электронном виде, включая документы, таблицы, электронную почту и пр.).

Далее на основе этой информации мы автоматизированно строим онтологию предметной области, которая затем может быть уточнена и дополнена человеком-экспертом.

Все документы - результаты исследования на основе технологии анализа текстов на естественном языке преобразуются в вид семантических дескрипторов, позволяющих представить смысл документа в терминах онтологии предметной области, т.е. в виде, удобном для семантического анализа.

Теперь модуль кластерного анализа позволяет построить иерархические группы документов на основе их семантической близости, а модуль анализа дескрипторов позволяет пользователю с помощью интерфейса на естественном языке (также поддерживаются дескрипторы на основе онтологии) конструировать запросы и получать интересующую его информацию.

Далее применяется модуль пополнения онтологии. Он использует найденные модулем анализа семантически близкие группы для анализа и последующего уточнения имеющейся онто-

Основные модули инструментальной среды

Предлагаемая инструментальная система по работе со знанием включает следующие компоненты, каждый из которых может использоваться и независимо.

Конструктор онтологий представляет собой программу визуального проектирования семантических сетей, в которой пользователь может в удобной форме создавать и редактировать миры различных предметных областей, специфицируя свои концепты и устанавливая связи между ними, а также формируя сценарии действий (рис. 2) [2].

Конструктор онтологий предназначен для решения следующих задач:

- создание и редактирование дескрипторов (описателей) объектов и отношений предметной области, объединяемых в семантическую сеть;

- отображение семантической сети предметной области в графическом виде;

- отображение взаимозависимости между понятиями;

- сохранение построенных семантических сетей для последующей работы с ними исполняющей системы.

Таким образом, применение онтологий и их конструктора достигает несколько важных целей:

- выработка единого языка представления знаний;

- автоматизация процессов приобретения и использования знаний;

- поддержка логической целостности и взаимосвязанности знаний;

- извлечение новых знаний на основе опыта работы прикладных систем.

•г Ontology Constructor C:\MagentA\Ontology ConstructorXOntology Constructor 1\OC\tourism_eng.ont [_ «б1

flip ¥«ew -% • ■

• % Numer.

. • 4 BuWng

- Piece to* live 4ЙОЗ/Т.

o,*

In

Wl*i

P»oc#**Qci*ct

Common Link* Linked f.ooc*pU

Arfvaoceo room 4 Ui»Kocr»r Roof” Пост Obtecl*

Soul Objects Р»оое*е»

В Room Type

■ Smg'e

■ Double M Ho«*fType Я Room Oast ■ Artd*

Attributes

Lew»

P’ocesse* і. Hjrpen Process

♦ •* Live С Wnnt

•V Ob»eci Ptocess

♦ V Move Асйэл*

Rel ebons

Select eceve cn>Q>o?y ф Sent* ontology

ф Pragma ontology ф Grammar mto og.

Г* Soul Oo|«c*i

- r Prope»bet

• Smqle

ф Double Ф Simple ф Art de

ф The

- Г Procetse*

ф Hove Simple ' Dftji.i Г Action»

I - r Relator*

ф ln(7V} ф It (Fudge j

• m (Ио^Г,

#1п(Э*нсд*.: #m(4*Ho»e)

Ф In (Unknown Holel) ф In (live In Simo»*)

• WMifTV) ф v-іЄ (Fndge)

• Procet*Otv«ct (Want)

» Remove

Ргореле*

Ф Room Type ф Hoie< Type ф 3-**er ф 4-tier ф Room Сен Ф A^enced * P*oces*e»

Ф Ииггon Proceit ф Ob^ec* Procesf Ф L/Л

ф Warn ф Мел

ф Hove Advanced Object А нм SmcM Room ф Ил» Advanced Room ф L»we In Simpe # iweinA<*/eftced

Unlinked concept

■/

Р и с. 2. Конструктор онтологий Модуль автоматизированного конструирования онтологий

Данный модуль реализует подход, основанный на технологии понимания текстов на естественном языке [3], и позволяет на основе набора документов в автоматизированном режиме построить онтологию предметной области, включающую в себя основные термины, и описы-

вающую зависимости между ними, давая эксперту предметной области фундамент для работы с научно-техническими знаниями (см. рис. 3).

В дальнейшем такая онтология может как пополняться вручную по мере поступления новой информации, так и дополняться в автоматическом режиме, когда приходящие материалы компании будут пополнять онтологию, позволяя оперативно менять корпоративные знания, на основе анализа текущей деятельности предприятия.

Р и с. 3. Пример автоматического конструирования онтологии

Общая схема автоматизированного конструирования онтологии может быть представлена следующими этапами [5].

1. Выявление групп документов, относящихся к одной предметной области.

2. Выделение терминов предметной области на основе набора документов.

3. Определение типа концепта онтологии для данного термина - деление терминов на объекты, отношения, свойства и атрибуты.

4. Анализ зависимостей между терминами (выявление свойств объектов, участников отношений и т.п.).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5. Выделение атрибутов и их значений.

6. Построение иерархической модели объектов.

7. Построение отношений в онтологии.

8. Этап очистки онтологии от незначимых терминов.

9. Проверка онтологии путем построения семантических дескрипторов документов и анализа противоречий.

Итогом работы данного модуля будет построенная автоматизированным образом онтология, описывающая знания, представленные в документах в виде текстовой информации. Онтология далее и будет использоваться как семантическая основа для анализа этой информации.

Модуль понимания текста на естественном языке

Для обеспечения возможности обработки знаний, представленных в текстовых документах, а также гибкого и удобного взаимодействия с пользователем разработана система понимания текстов на естественном языке. Суть предлагаемого подхода состоит в том, что каждому слову языка ставятся в соответствие агенты его смыслов, которые на основе собственных баз знаний (онтологий) конкурируют между собой и кооперируются, договариваясь о том, какой именно конкретный смысл имеет каждое слово в предложении и каков его общий смысл. Таким образом, основной моделью процесса понимания смысла становится процесс самоорганизации смыслов слов при построении сцены контекста (рис. 4) [3].

В результате работы модуля каждый документ получает соответствующий семантический дескриптор, представляющий смысл данного документа в терминах онтологии предметной области. Набор таких дескрипторов обладает самостоятельной ценностью и может использоваться для интерактивного поиска информации с возможностью конструирования сложных запросов, основанных на онтологии, а может и поступать на вход модуля анализа знаний для выявления групп семантически схожих документов и их анализа.

Two pU С-derived vectors containing the piomoterless

Г Edit Scene

НПЕЗ

*

•! V ..

€>

*

v>

□ere (encoding catechof 2.3-dtoxygerla$e) o#

monas putida mi-2 were constructed T he Ho)

.ріюла/ terminator of phage lambda was placed

fream from the stop codon erf xyfc T he new

. pX 11 and pXT 2. contain xylE and fhe tloj

or within a cloning cassette which can be

with several endonucleases When insetted into

cnbed sequence, this xyE cassette reports

er activity and interrupts downstream transaction

of the target sequence

P и с. 4. Процесс раооты системы понимания текста

Кластеризации и извлечение знании

Модуль кластеризации позволяет на основе онтологического сравнения группировать по

семантической близости записи, каждая из которых представляет документ и описывается его

семантическим дескриптором.

Р и с. 5. Модуль кластеризации и извлечения знаний

Суть подхода, положенного в основу данного модуля, состоит в том, что приходящие записи и создаваемые кластеры рассматриваются как агенты, образующие виртуальный рынок. Вместо центратизованной последовательной обработки осуществляется распределенная обработка, в которой каждая запись и каждый кластер самостоятельно и на основе некоторых заданных стратегий в достаточно узко ограниченном контексте принимают решения о вхождении в кластер или выходе из него, расширении или сужении кластера или его удалении. Это позволяет обрабатывать записи в режиме он-лайн (поступающие по одной или порциями), гиб-

ко изменять стратегии принятия решений, легко распараллеливать процесс кластеризации и обрабатывать записи, представленные как семантические сети (вместо классической трактовки, где запись - точка в Ы-мерном пространстве) (рис. 5) [4].

Результатом данного этапа являются сгруппированные документы, представленные своими дескрипторами. Эти группы представляют для исследователя самостоятельную ценность, давая ем\ возможность изучить тематически схожие материалы, а также могут использоваться как входной материал для модуля пополнения онтологии.

Автоматизированное пополнение онтологии

Модуль автоматизированного пополнения онтологии позволяет на основе найденных групп семантически близких дескрипторов «выращивать» новые связи между существующими в онтологии квантами знаний [2] (рис. 6).

Р и с. 6. Пример работы модуля автоматизированного пополнения онтологии

Пополнение и уточнение онтологии основано на гипотезе взаимодействия: «если концепты онтологии всегда встречаются вместе в определенной ситуации, значит, они семантически связаны между собой, причем характер связи определяется ситуацией». Методы модуля позволяют проанализировать получившуюся структуру и дескрипторы кластеров и выделить необнаруженные ранее зависимости между концептами онтологии (например: два объекта в онтологии должны быть связаны неизвестным отношением, так как всегда встречаются вместе, или что два атрибута на самом деле являются дублем одного и того же свойства). Данный процесс может проходить как автономно, так и в интерактивном диалоге с пользователем.

Итогом работы данного модуля является ряд правил и дополнений в онтологию, который генерируется на основе сформированных кластеров семантически близких документов и предлагается пользователю для окончательного утверждения.

Затем новая версия онтологии может вновь использоваться в качестве исходного материала для создания более точных семантических дескрипторов исследуемых документов.

Заключение

Предложенный подход и разработанная инструментальная система, ориентированные на решение задач извлечения знаний и понимания текста на естественном языке, предоставляют исследователю удобные и развитые механизмы для анализа разнородной информации, представленной в виде электронных информационных ресурсов.

Инструмент получения информации и знаний, ориентированных на конкретного человека-эксперта, учитывающий как общие знания о предметной области, так и его личную модель понимания, является неоценимым подспорьем для любых научно-технических и коммерческих исследований.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Андреев В.. Батищев С., Виттих В., Ивкушкин К., Минаков И., Ржевский Г., Сафронов А., Скобелев П. Методы и средства создания открытых му.тьтиагентных систем для поддержки процессов принятия решений // Извест ия академии наук. Теория и системы управления. 2003. № 1.

2. Андреев В В., Ивкушкин КВ., Мичаков И.А., Ржевский И.А., Скобелев П.О. Конструктор онтологий для разработки мультиагентных систем // Тр. 3-й Междунар. конф. по проблемам управления и моделирования сложных систем. Самара. 4-9 сентября 2001. Самара: СНЦ РАН, 2001. С. 480-488.

3. Андреев В В, Ивкушкин К В.. Карягин Д.В.. Минаков И.А., Ржевский Г.А., Скобелев И.О.. Томин М.С. Разработка мультиагентной системы понимания текста // Тр. 3-й Междунар. конф. по проблемам управления и моделирования сложных систем. Самара, 4-9 сентября 2001. Самара: СНЦ РАН, 2001. С. 489-495.

4 Андреев В В Волхонцев Д.В. Ивкушкин К В., Карягин Д.В., Минаков И А., Ржевский Г.А., Скобелев П О. Муль-

тиагентная система извлечения знаний //Тр. 3-й Междунар. конф. по проблемам управления и моделирования ложных систем. Самара, 4-9 сентября 2001. Самара: СНЦ РАН, 2001. С. 206-212.

5. Минаков И.А. Разработка автоматизированной системы построения отологии предметной области на основе анализа текстов на естественном языке // Весгн. Самар, гос. техн. у-та. Сер. «Технические науки». Самара: СамГТУ, 2004. Вып. 20. С. 44-48.

6. Андреев В . Гельфанд М., Ивкушкин К., Казаков А., Новичков П., Томин М.. Вольман С.. Минаков И, Скобелев II. Мультиагентная система для интеллектуального поиска рефератов стачей по молекулярной биологии. // Тр. 4-й Междунар. конф. по проблемам управления и моделирования сложных систем. Самара, 17-24 июня 2002. Самара: СНЦ РАН. 2002. С. 338 - 345.

7. Андреев В.. Минаков П., Лахин О , Сальков А., Скобелев П. Развитие элементов самоорганизации и эволюции в мультиагентном кортале социокультурных ресурсов Самарской области // Тр. 6-й Междунар. конф. по проблемам управления и моделирования сложных систем Самара, 14-17 июня 2004. Самара: СНЦ РАН, 2004. С. 277281.

8. Алексеев А.. Вольман С., Минаков И., Орлов А., Томин М Создание мультиагентной системы автоматической обработки, преобразования и коррекции логистических сообщений стандартных форматов обмена бизнес-данными // Тр. 6-й Междунар. конф, по проблемам управления и моделирования сложных систем, Самара. 14-17 июня 2004. Самара: СНЦ РАН. 2004. С. 270-276.

9. Андреев В . Вольман С, Ивкушкин К, Карягин Д., Минаков И. Пименов А., Скобелев П., Томин М. Разработка мультиагентной системы интеллектуальной обработки и классификации документов // Тр. 5-й Междунар. конф. по проблемам управления и моделирования сложных систем. Самара, 17-21 июня 2003. Самара: СНЦ РАН. 2003. С. 317-323.

Статья поступила в редакцию 14.10.2004 г

УДК 621.865.8

В. Н. Нестеров, К. В.Жеребятьев

МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ ШЕСТИЗВЕННОГО МАНИПУЛЯТОРА УНИВЕРСАЛЬНОГО ПРОМЫШЛЕННОГО РОБОТА.

ПРЯМАЯ КИНЕМАТИЧЕСКАЯ ЗАДАЧА ДЛЯ РОБОТА ПР125

Получена кинематическая модель шестизвенного манипулятора универсального промышленного робота, необходимая для моделирования погрешностей и верификации алгоритмов систем управления манипуляторами.

К важнейшим задачам, возникающим в процессе разработки, проектирования и доводки универсальных промышленных роботов, относятся задачи создания и верификации алгоритмов систем управления манипуляторами. Решение первой из них требует исследования структу ры, геометрии и кинематики механической системы с пространственными многоподвижными ме-

i Надоели баннеры? Вы всегда можете отключить рекламу.