Научная статья на тему 'Рефлекторная система обработки естественноязыковых текстов в АСУ строительством сложных энергетических объектов'

Рефлекторная система обработки естественноязыковых текстов в АСУ строительством сложных энергетических объектов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
193
46
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Тесля Юрий Николаевич

Раскрыты особенности использования средств естественно-языкового общения в энергетическом строительстве. Предложен метод построения систем обработки естественно-языковых текстов на основе положений и выводов теории информационного взаимодействия. Представлены результаты опытной эксплуатации компилятора естественно-языковых текстов в АСУ строительством Южно-Украинской АЭС.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Тесля Юрий Николаевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The reflection system of handling is natural of the language texts in a automated control systems by construction of complicated power plants

The singularities of use of tools naturally of language dialogue in power construction are uncovered.The method of a construction of systems of handling naturally of language texts because of positions and conclusions of the theories of information interactions is offered. The outcomes of experimental maintenance of the compiler naturally of language texts in a automated control systems by construction South Ukrainian NPP are reduced.

Текст научной работы на тему «Рефлекторная система обработки естественноязыковых текстов в АСУ строительством сложных энергетических объектов»

12. Заключение

Мы рассмотрели работу одной из подсистем СППР — прогнозирующей подсистемы. Однако для достижения хороших результатов разработчики систем поддержки принятия решений должны максимально тесно интегрировать все ее структурные элементы. Во время своего функционирования элементы СППР активно взаимодействуют друг с другом, и удаление одного из них сделает невозможным функционирование других. На самом деле подсистема принятия решений активно использует как знания, полученные системой извлечения данных, так и сами данные, напрямую обращаясь к информационному хранилищу. Точно так же СИД не только постоянно исследует данные в ИХ, но и пользуется прогнозами, полученными от СПР и позволяющими отыскать большее количество закономерностей в предметной области. А информационное хранилище пополняется не только за счет данных, поступающих извне, но и за счет результатов работы СПР и СИД. Такие данные могут постепенно заполнять белые пятна предметной области.

Указанный подход не является единственно возможным. Кроме того, все описанное выше не есть строго определенный алгоритм — это в большей степени указание направлений, в которых движется работа, для построения строгой и адекватно функционирующей системы прогнозирования.

Поступила в редколлегию 25.11.1998 Рецензент: д-р техн. наук, проф. Петров Э.Г.

Ходаков Виктор Егорович, д-р. техн. наук, профессор, зав. кафедрой программного обеспечения ЭВМ Херсонского государственного технического университета. Научные интересы: информационное обеспечение

систем автоматизации производственных процессов и управления. Адрес: Украина, Херсон 8, Бериславское шоссе, 24, тел.(0552)55-17-31.

Шерстюк Владимир Григорьевич, канд. техн. наук, доцент кафедры программного обеспечения ЭВМ Херсонского государственного технического университета. Научные интересы: интеллектуальные системы представления знаний и моделирования рассуждений, распределенные базы данных и знаний. Адрес: Украина, Херсон-8, Бериславское шоссе, 24, тел. (0552)55-17-31.

Степанский Константин Григорьевич, аспирант Херсонского государственного технического университета. Научные интересы: интеллектуальные системы представления знаний. Адрес: Украина, Киев, ул. Артема, 77, тел. (044)216-82-30.

Дидык Алексей Александрович, аспирант Херсонского государственного технического университета. Научные интересы: распределенные интеллектуальные системы. Адрес: Украина, Херсон 8, Бериславское шоссе, 24, тел. (0552)55-17-31.

Козуб Наталья Александровна, ассистент кафедры ПО ЭВМ Херсонского государственного технического университета. Научные интересы: интеллектуальные системы представления знаний. Адрес: Украина, Херсон 8, Бериславское шоссе, 24, тел.: (0552)55-17-31.

Григорова Анжела Анатольевна, ассистент кафедры ПО ЭВМ Херсонского государственного технического университета. Научные интересы: интеллектуальные системы предсавления и извлечения знаний. Адрес: Украина, Херсон 8, Бериславское шоссе, 24, тел. (0552) 55-17-31.

Радванская Людмила Николаевна, соискатель кафедры ПО ЭВМ Херсонского государственного технического университета. Научные интересы: системы поддержки принятия решений. Адрес: Украина, Херсон 8, Бериславское шоссе, 24, тел.: (0552)55-17-31.

УДК 681. 335.001.53

РЕФЛЕКТОРНАЯ СИСТЕМА ОБРАБОТКИ ЕСТЕСТВЕННОЯЗЫКОВЫХ ТЕКСТОВ В АСУ СТРОИТЕЛЬСТВОМ СЛОЖНЫХ ЭНЕРГЕТИЧЕСКИХ ОБЪЕКТОВ

ТЕСЛЯ Ю.Н.

Раскрываются особенности разработки и использования средств естественно-языкового общения в энергетическом строительстве. Излагаются принципы и метод построения систем естественно-языкового общения на основе положений и выводов теории информационного взаимодействия.

1. Задачи естественно-языкового общения в АСУС сложных энергетических объектов

Эффективность построения автоматизированных систем управления во многом зависит от языковых средств описания объектов и процессов управления [1]. Поэтому адаптивность и мобильность языков общения с “компьютером”, непроцедурный характер описаний объектов и процессов управления, использование “контекстов” и “умолчаний” — непременное условие рациональной конструкции языковых средств.

Известные отечественные и зарубежные системы обработки естественно-языковой информации имеют или экспериментальный характер, или узкую специализацию и не удовлетворяют требованиям систем автоматизированной переработки информации в управлении строительством сложных энергетических объектов. Кроме того, и затраты на создание таких систем значительны, что не позволяет широко использовать их в энергетическом строительстве [2, 3].

Но тем не менее без таких средств значительно снижается производительность автоматизированных систем при наполнении информационной базы строительства, повышаются затраты на выполнение рутинных действий, таких как кодировка информации, поиск в информационной базе и др.

Использование систем естественно-языкового общения в энергетическом строительстве связано с рядом специфических особенностей объекта управления: значительной длительностью и сложностью производственного процесса, существенными изменениями в проектно-сметной документации по ходу выполнения строительно-монтажных работ, неполнотой документации, низкой надежностью источников информации, разнообразием выходной документации, формируемой по запросам различных пользователей, трудноформализуемостью большинства входных документов [4]. В соответствии с этим требования и ограничения к системам обработки естественно-языковых текстов определяются мо-

52

РИ, 1998, № 4

бильностью, надежностью, высокой производительностью, простотой изменения информационной базы, децентрализацией процесса обработки данных.

Разрабатываемые в среде данных требований и ограничений средства обработки естественно-языковых текстов должны быть низкозатратными, носить специализированный характер, обеспечивать обработку поступающей информации с формализацией основных элементов объектов информационной среды строительства и осуществлять диалог с пользователем на языке, близком к естественному.

Основой удовлетворения этих требований может служить научно-методическая база теории информационного взаимодействия [5]. Это обусловлено тем, что разрабатываемые с использованием положений и выводов теории информационного взаимодействия системы естественно-языкового общения характеризуются:

— отсутствием блоков морфологического и семантического анализа текста, что снижает затраты на разработку систем естественно-языкового общения (ЕЯО);

— фрагментной структурой тезауруса системы, что повышает ее устойчивость к ошибкам, позволяет использовать для обработки различных по природе текстов;

— простотой реализации;

— высокой надежностью распознавания семантической составляющей текста;

— адаптивностью к различным входным текстам.

Основная идея, что лежит в основе создания таких

средств, заключается в применении методов распознавания образов [6] к идентификации алгоритма и основных параметров запроса по комбинациям фрагментов входных естественно-языковых текстов [6,7].

Средства обработки естественно-языковых текстов в энергетическом строительстве применяются:

1. При обработке входной информации:

— определение по наименованию документа его структурного адреса (очередь, объект, узел);

— определение по наименованию строки сметы (работы): вида работы (физического объема работы); исполнителя; идентификатора информационного объекта работы.

2. При обработке запросов пользователей к информационной базе:

— определение алгоритма доступа;

— идентификация узла структуры материальных объектов строительства, исполнителя, вида работ;

—установление временного интервала для выходного документа;

— формальное представление запроса с получением подтверждения на его реализацию.

С целью создать эффективную автоматизированную технологию обработки естественно-языковых текстов автором разработана программно -информационная система естественно-языкового общения с компьютером — компилятор естественно-языковых текстов (КЕТ).

2.Компилятор естественно-языковых текстов

Компилятор естественно-языковых текстов обеспечивает формирование результирующего, формального представления семантической составляющей входного текста по его изображению и работает в двух режимах:

— обучение классификации входных текстов по выходным;

— классификация входных текстов.

Схема потоков информации в КЕТ показана на рис.1.

Рис.1. Схема информационных потоков в КЕТ

По сути КЕТ реализует рефлекторную модель поведения в неоднозначно трактуемой среде функционирования и является специализированным комплексом программ, обеспечивающих интерфейс между пользователем, информационной базой, ее средствами наполнения и информационно-поисковой системой АСУС, а также анализ и преобразование исходных данных при отображении семантики предложений входной информации в рамках предметной области энергетического строительства.

Морфологическая структура компилятора формируется совокупностью взаимодействующих информационных объектов КЕТ. Под информационным объектом КЕТ будем понимать такую совокупность элементов данных или знаний, которая воздействует или воспринимает воздействие в информационной среде как единое целое.

В качестве информационных объектов КЕТ выступают:

A={a1, a2,ax,,am} — фрагменты текстов;

R={r1, Г2,Гі,,гп} — описания реакций компилятора.

Конкретные формы реакций R определяются в процессе обучения—наполнения словарной системы S и системы определяющих связей входного текста U.

В основе компилятора лежит математическая модель взаимодействия в естественно-языковых текстах. Он обеспечивает формирование результирующего, формального представления семантической составляющей входного текста по его изображению. На основе математической модели информационного взаимодействия разработан алгоритм вычисления оценки совместной условной вероятности реакций компилятора по отклонениям в частных условных вероятностях.

Шаг 1. Вычисление величины информационного воздействия фрагментов текста на каждую из реакций:

vri,ax:i(ri/ax)=0,5sign(p(ri/ax)-p(ri);

p(r,/ax)+p(r,/-ax)-2 p(rJ-aX) p(r,/ax)- ,

РИ, 1998, № 4

53

где p(rj/ax) — безусловная вероятность реакции ц; p(ri/ax) — условная вероятность реакции r при появления фрагмента ax; p(rj/-ax) — условная вероятность реакции r при не появлении фрагмента ax;

sign(x)

1 при x>0; -1 при x<0.

Шаг 2. Вычисление суммарного воздействия на каждую реакцию:

k

vrieR: i(r,/axl, aX2...aXJ...axk) = £ i(r1/aX]) +i<1-k>(r1) ;

j=l

здесь i<1-k>(ri) — величина совместности действия (связности) фрагментов текста ax1, ax2...axk.

Шаг 3. Вычисление условной информационной меры возможности реакций:

V ГіЄ R:I(ri/axbaX2...aXj...axk)=i(r1).V i(r1/axi, ax2...aXj...axk)2+1+ + 1(ri/3xi, ax2...axj...axk).V1(ri)2+1 ,

где i(ri) — безусловная информационная мера возможности реакции ri.

Шаг 4. Выбор реакции компилятора: max(I(ri/axi, ax2...axj...axk)).

i

Представленный алгоритм формирования величины воздействия в текстах на естественном языке получил экспериментальное подтверждение [8,9] и реализован в КЕТ.

Э.Применение КЕТ для обработки естественноязыковой информации

Автором разработаны и экспериментально проверены в производственных условиях схемы обработки входной естественно-языковой информации (рис.2) и естественно-языкового доступа к информационной базе (рис.3) с использованием КЕТ [4,9].

Компилятор естественно-языковых текстов был разработан и использовался в рамках АСУ строительства Южно-Украинской АЭС (ЮУ АЭС) [10]. АСУ строительства ЮУ АЭС базируется на сложной программно-информационной системе, которая включает несколько сот тысяч хранимых документов (в основном чертежи и сметы), касающихся строительства АЭС. Обслуживание этого объема информации

Рис. 2. Схема формализации естественноязыковой информации в КЕТ

Рис. 3. Схема доступа к информационной

базе АСУС на основе естественно-языковых обращений пользователей

возлагается на несколько сотен управляющих и обрабатывающих информацию программных модулей.

Программно-информационная система АСУ включает в себя около 50 рабочих мест, с которыми непосредственно работают специалисты отделов и подразделений управления строительства^ 0]. Большое количество непрофессиональных пользователей, работающих с информационной базой, значительное количество трудноформализуемой информации в информационной среде строительства потребовало создать специализированные средства формализации входной естественно-языковой информации и средства доступа к информационной базе на естественном языке.

В постановке задачи было определено, что система должна получать четыре группы выходных документов (форм): по обеспечению документацией и стоимости работ; по планируемым физическим объемам работ; по выполненным объемам работ; по материалам и ресурсам. Все формы могут быть получены в разрезе: исполнителей работ; объектов, комплексов, узлов; периодов строительства.

Первая версия КЕТ была разработана и внедрена в промышленную эксплуатацию в 1989 году. На его основе был разработан специализированный комплекс программ обработки фактографической базы данных и получения необходимых форм, исходя из естественно-языкового обращения пользователя.

Использование программных средств ЕЯО с компьютером позволило сделать ряд выводов, касающихся и теоретических основ, и практической применимости данной разработки. Эти выводы условно можно разбить на три группы: соответствие результатов функционирования системы и теоретической модели информационного взаимодействия; практическая эффективность системы; затраты на систему.

І.Соответствие результатов функционирования системы и теоретической модели информационного взаимодействия. В процессе разработки и эксплуатации системы ЕЯО было проверено ряд вариантов реализации процедур информационного взаимодействия в среде естественно-языковых текстов. Некоторые практические результаты (например, определение величины совместности (связности) действия фрагментов текста привели к корректировке теоретической модели. Эффективность и наблюдаемая “информационная правильность понимания” компьютером сути запроса в значительной степени свидетельствует о соответствии искусственно со-

54

РИ, 1998, № 4

зданного и существующего механизма информационного взаимодействия и, следовательно, о значительной вероятности того, что принятые в работе предположения и посылки правильные.

Кроме рассматриваемой системы, теоретические выводы проверялись в рамках учебно-лабораторного комплекса, выполненного на основе КЕТ. Полученные в других предметных областях результаты (моделирование логических схем ЭВМ) свидетельствуют об универсальности принятого подхода.

2. Практическая эффективность системы. Процесс доступа пользователя к информационной базе АСУС заключается в формулировке некоторой задачи, связанной с получением информации из информационной базы и контроля за правильностью «понимания» запроса.

Простота получения форм, безусловно, относится к практическим достоинствам системы. Однако имеются и недостатки:

а) для решения этих задач одновременно активизировалось до четырех модулей системы КЕТ на один запрос, реализующих все процессы его обработки в оперативной памяти компьютера. Это приводило к значительным временным задержкам в решении других задач пользователей;

б) пользователям, особенно тем, кто часто работал с ЭВМ, было неудобно вводить полное (или почти полное, допускались сокращения) наименование объекта, исполнителя и др. Поэтому в системе предусматривалось указание кода любого элемента справочников АСУС.

3. Затраты на систему. Они состоят из затрат на разработку программных средств и на обучение системы (таблица).

Программные средства Затраты времени

фор м ализации естественно-я з ы к о в ы х тесто в 0,3 чел.лет

доступа к информационной базе 2 чел.лет

На обучение системы затрачено около 50 часов. При этом была организована система информационных объектов, состоящая из: тезаурус — 4096 информационных объектов; связи — 8128; реакций системы — 200.

УДК 681.513.6

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

АДАПТИВНОЕ СГЛАЖИВАНИЕ ДВУМЕРНЫХ ПОЛЕЙ НАБЛЮДЕНИЙ

ПЛИСС И.П., ПОПОВ с.в.

Рассматривается сглаживание двумерных полей наблюдений, которое производится на основе оригинальной матричной модели. Ее параметры настраиваются при помощи адаптивного алгоритма оценивания.

Данная работа является естественным развитием статьи [ 1], в которой рассмотрены вопросы адаптивной фильтрации и экстраполяции полей наблюдений на основе предложенного ранее одношагового адап-

Как видно, затраты на систему значительно ниже затрат на аналогичные разработки [1,3,7]. Это можно объяснить эффективностью подходов на базе теории информационного взаимодействия по сравнению с используемыми в других системах принципами и методами организации естественно-языкового общения с компьютером.

В целом, результаты опытной эксплуатации системы показали ее значительные возможности и, по мнению автора, данный подход может быть использован в широком спектре систем искусственного интеллекта.

Литература: 1.Белогонов Г.Г., Кузнецов Б.А. Языковые средства автоматизированных информационных систем. М.: Наука, 1983. 288 с. 2.Бушуев С.Д., Михайлов В.С., Лянко С.Д. Автоматизированные системы управления строительством. К.: Будівельник, 1989. 255 с. 3. Искуственный интеллект: Системы общения и экспертные системы: Справочник / Под ред. Э.В.Попова. М.: Радио и связь, 1990. 463с. 4. ТесляЮ.М., Тимченко А.А. Опыт разработки и применения в строительстве инструментальных программных средств естественно-языкового общения// К.: МГП «Тираж». С. 226-228. 5. ТесляЮ.М. Основи теорії інформаційної взаємодії. Філософсько-логічне та фізичне обгрунтування // Вісник ЧІТІ, 1998. №2. С. 62-68. 6. Тесля Ю.М. Застосування теорії інформаційної взаємодії до побудови систем класифікації образів // Праці сьомої міжнародної конференції «Укробраз 98», К., 1998. С.122-123. 7. Файн В.С. Распознавание образов и машинное понимание естественного языка. М.: Наука, 1987. 173 с. 8.Тесля Ю.М. Основи теорії інформаційної взаємодії. Експериментальне підтвердження//Вісник ЧІТІ, 1998. №2. С. 69-74. 9. Тесля Ю.М, Копил Д.В. Експериментальне підтвердження можливості застосування математичної моделі інформаційної взаемодії до задач природно-мовного спілкування// Праці 4-ї Української конференціі по автоматичному управлінню «Автоматика 97». Черкаси, 1997. Т.3. С. 77. Ю.Гриценко В.И., Тимченко А.А., Тесля Ю.Н. Подходы к информатизации объектов энергетического строительства. К., 1995. 32 с.

Поступила в редколлегию 16.12.1998 Рецензент: д-р техн. наук Тимченко А.А.

Тесля Юрий Николаевич, канд. техн. наук, доцент кафедры информатики Черкасского инженерно-технологического института. Научные интересы: автоматизированные информационные системы и технологии управления строительством сложных энергетических объектов; гипотетическая теория информационного взаимодействия. Увлечения: футбол. Адрес: Украина, 257006, Черкассы, ул. Чехова, 42, кв.428, тел. (0472)43-61-60.

тивного оптимального по быстродействию матричного алгоритма оценивания параметров поля.

Одношаговые алгоритмы, обладая хорошими следящими свойствами, тем не менее, плохо работают в условиях зашумленности наблюдений, что не позволяет использовать их в задачах сглаживания. В этих условиях целесообразно применять многошаговые процедуры типа фильтра Калмана или рекуррентного метода наименьших квадратов, обладающих выраженными сглаживающими свойствами.

Как и в предыдущей статье, для описания поля используется матричный аналог марковского дискретного случайного процесса

Xn+1 = AXnB + Wn+1, (1)

где Xn — (MxN)-матрица состояния поля в дискретный момент времени n; A и B — (MxM) и (NxN)-

РИ, 1998, № 4

55

i Надоели баннеры? Вы всегда можете отключить рекламу.