Научная статья на тему 'Семантическая технология проектирования интеллектуальных вопросно-ответных систем'

Семантическая технология проектирования интеллектуальных вопросно-ответных систем Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
326
61
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
вопросно-ответная система / интеллектуальная справочная система / интеллектуальный поиск / технология проектирования интеллектуальных систем

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — С. А. Самодумкин

Объектом рассмотрения являются интеллектуальные вопросно-ответные системы, которые дают ответы пользователям на широкий спектр вопросов по заданной предметной области. Предложена модель данного класса систем, а также семантическая технология их проектирования.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — С. А. Самодумкин

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SEMANTIC TECHNOLOGY OF INTELLIGENT QUESTIONS-AND-ANSWERS SYSTEMS

The article is devoted to intelligent question-and-answers systems that can give answers to wide range of user’s questions in selected area. A model of question-and-answering system and semantic technology of its design are considered.

Текст научной работы на тему «Семантическая технология проектирования интеллектуальных вопросно-ответных систем»

Доклады БГУИР

2009 № 7 (45)

УДК 004.822:004.891

СЕМАНТИЧЕСКАЯ ТЕХНОЛОГИЯ ПРОЕКТИРОВАНИЯ ИНТЕЛЛЕКТУАЛЬНЫХ ВОПРОСНО-ОТВЕТНЫХ СИСТЕМ

С.А. САМОДУМКИН

Белорусский государственный университет информатики и радиоэлектроники П.Бровки, 6, Минск, 220013, Беларусь

Поступила в редакцию 23 марта 2009

Объектом рассмотрения являются интеллектуальные вопросно-ответные системы, которые дают ответы пользователям на широкий спектр вопросов по заданной предметной области. Предложена модель данного класса систем, а также семантическая технология их проектирования.

Ключевые слова: вопросно-ответная система, интеллектуальная справочная система, интеллектуальный поиск, технология проектирования интеллектуальных систем.

Введение

В последнее десятилетие широко развиваются технологии, направленные на проектирование и разработку систем информационного поиска и справочных систем [1]. Типичными примерами информационно-поисковых систем [2] являются всевозможные поисковые машины в среде Internet и справочные системы, которые интегрируются практически во все программные продукты. Однако при видимой пользе таких систем обозначился и ряд проблем. Большинство поисковых машин (Google, Rambler, Yandex и др.), информационно-поисковых и справочных систем базируется на поиске релевантной информации на основе совпадения текстовых фрагментов (на уровне отдельных слов или предложений). В результате на запрос пользователя поисковые машины выдают большое количество ссылок, многие из которых не имеют прямого отношения к нужной теме. Как итог поиск необходимой информации отнимает все больше и больше времени в связи с растущими объемами информации.

Вопросно-ответные системы и их интеллектуализация

Предлагаемые подходы в оптимизации информационного поиска в настоящее время лежат в плоскости разработки вопросно-ответных систем (ВОС), в которых осуществляется сопоставление вопросов пользователей с требуемой информацией. Такие системы осуществляют диалог между пользователем и системой в виде процедуры «ВОПРОС-ОТВЕТ» в режиме, когда пользователь задает вопрос, а система отвечает [3]. Явным преимуществом ВОС является возможность лингвистической обработки вопросов пользователя [4-6], причем семантическая классификация вопросно-ответных текстов способствует выделению конкретных типов отношений, типов вопросов и классов ответов [3,7,8]. Концептуальной основой для формализации вопросов в ВОС является язык вопросов и эротетическая логика [6, 8], что позволяет задавать вопросно-ответные отношения [9]. Известными на сегодняшний момент ВОС, которые способны с помощью анализатора естественного языка осуществить разбор вопроса и сопоставить ответ, являются системы AllQuest (http://www.allquests.com) и AskNet Global Search (http://www.asknet.ru). Однако такие системы ориентированы только на анализ и выявление семантических отношений между объектами предметной области в проиндексированных текстах. Данное обстоятельство накладывает следующие ограничения: нет возможности строго фор-

мально установить семантические отношения между объектами в тексте; невозможно сгенерировать ответ пользователю, когда такого ответа нет в проиндексированных текстах (т.е. в текущем информационном состоянии системы); не поддерживаются вопросы на выявление соответствий и аналогий между объектами и понятиями.

Устранение перечисленных ограничений требует создания следующего поколения ВОС - интеллектуальных справочных систем (ИСС), или интеллектуальных вопросно-ответных систем (ИВОС). В таких системах акцент смещается с текстового представления информации на формирование и использование пространств знаний. Совокупность работ по представлению знаний в базе знаний ИВОС, обработка этих знаний специальными операциями машины обработки знаний [10] и взаимодействие конечного пользователя с ИВОС требует согласования всех трех этапов работ. Таким образом, для массовой разработки ИВОС по различным предметным областям необходима технология проектирования интеллектуальных вопросно-ответных систем, в которой согласованы все этапы проектирования, совместимы языки представления знаний с языками обработки знаний и языками общения пользователя с ИВОС. Технология, удовлетворяющая данным требованиям, нами названа семантической технологией проектирования интеллектуальных вопросно-ответных систем.

Основные понятия и принципы построения интеллектуальных вопросно-ответных систем

В основе ИВОС лежит унифицированная модель знаний - унифицированный способ кодирования семантических сетей, названный в соответствии с работой [11] SC-кодом (SC -Semantic Code). Использование такого SC-кода обеспечивает совместимость различных видов знаний и различных языков представления знаний, что в свою очередь необходимо для интеграции знаний, а также для интеграции различных языков представления знаний. ИВОС, в которых знания формализуются с помощью SC-кода, назовем вопросно-ответными sc-системами. В качестве ответа в таких системах является предоставление пользователю некоторой справочной информации по интересующей его области знаний, поэтому их будем также называть справочными sc-системами.

Эволюционное проектирование вопросно-ответных sc-систем предполагает их стадийное проектирование. В соответствии с задачно-ориентированной декомпозицией ИВОС по признаку наличия ответа в текущем состоянии системы выделяется две подсистемы: интеллектуальная информационно-поисковая система и подсистема генерации ответов, т.е. S = < Shhtc , Sro >, где S - вопросно-ответная sc-система, Smi^ - интеллектуальная информационно-поисковая система (ИИПС), Sro - подсистема генерации ответов на заданные пользователем вопросы.

В соответствии с данным принципом на первой стадии проектируется, в случае надобности, ИИПС. Назначение такой подсистемы - удовлетворять информационную потребность пользователей тогда, когда в системе явно имеется ответ на поставленный вопрос. В отличие от информационно-поисковых систем ИИПС позволяет обеспечить: 1) многообразие видов представления информации пользователю по запросу: выдача фактографической информации (только такой вид информации предоставляют информационно-поисковые системы), логических закономерностей, свойств, доказательств, утверждений и др.; 2) выдачу ответа, когда пользователь не может точно выразить свои информационные потребности (например, вопрос «Как город Нижний Новгород связан с Минском» может оказаться неточным по следующим причинам: во-первых, не указан нужный пользователю вид связи (экономическая или географическая связь, пути сообщения и т.д.); во-вторых, не определен уровень детализации и полноты ответа на вопрос; в-третьих, не указан способ отображения ответа пользователю (в виде визуализации указанных объектов на карте, в текстовом виде, в виде фрагмента семантической сети, описывающей данную связь и т.д.). Отметим, что для некоторых предметных областей не требуется решать задачу информационного поиска, а на ИВОС возложены только функции генерации ответа с использованием известных системе алгоритмов или способов решения задач.

В такой ситуации сразу переходят ко второй стадии, на которой проектируется подсистема генерации ответов на заданные пользователем вопросы. Подсистема Sro автоматически генерирует ответ в случае отсутствия ответов в текущем состоянии базы знаний. Например, на

вопрос «Сколько понадобится времени для передвижения из пункта А в пункт Б» в системе явно отсутствует ответ. Для его получения в системе необходимы знаний о способе решения данной задачи и алгоритме вычислений расстояний и времени, после чего сгенерируется ответ пользователю.

Информационная потребность пользователей для обеих подсистем формируется в виде вопроса. Для формулировки вопросов используется формализм - язык вопросов, описанный ниже.

Декомпозиция вопросно-ответной sc-системы на базу знаний, машину обработки знаний и интерфейс пользователя позволяет выделить три этапа проектирования системы.

Первый этап проектирования связан с формализацией знаний и представлением их в базе знаний (БЗ) вопросно-ответной sc-системы. Формализованные в соответствии с семантической технологией проектирования баз знаний интеллектуальных систем предметные знания и формулировки вопросов в виде SC-кода находятся в БЗ вопросно-ответной sc-системы.

Второй этап - это реализация операций обработки знаний, находящихся в системе, т.е. проектирование машины обработки знаний (МОЗ) в соответствии с семантической технологией проектирования машин обработки знаний интеллектуальных систем. В подсистеме SHnno для каждого семантического класса вопросов сопоставляются информационно-поисковые операции машины обработки знаний. В первом случае - предикатный вопрос, когда пользователь задает вопрос по шаблону. Результатом является ответ, сформированный при помощи базовых нави-гационно-поисковых операций. Во втором случае, когда нет четкого образца поиска, требуется специализированная процедура поиска в зависимости от семантического класса вопроса, а сам ответ имеет сложную процедуру локализации (это при том, что ответ явно имеется в текущем состоянии системы). В подсистеме Sro для каждого вопроса проектируется, в общем случае, множество операций МОЗ, позволяющих сгенерировать ответ пользователю на основе имеющихся в БЗ предметных знаний, логических закономерностей, способов решений задач определенного класса и алгоритмов вычислений.

Третий этап - реализация пользовательского интерфейса в соответствии с семантической технологией проектирования пользовательских интерфейсов интеллектуальных систем, т.е. реализация диалога конечного пользователя с системой. Интерфейс пользователя позволяет управлять диалогом пользователя при запросах к системе или ответах. В качестве базового способа визуализации вопросов пользователей и соответствующих им ответов выступает графическое представление семантического кода - SCg-код (Semantic Code graphic). Для визуализации ответов пользователю в ином виде требуется разработка специализированных пользовательских интерфейсов. В зависимости от характера предметной области вопросно-ответной sc-системы проектируются картографический, естественно-языковой, речевой и другие интерфейсы. Применяя так называемое кортежное определение, вопросно-ответную систему можно представить в виде следующей записи: S:{{Q},{A},{F},{UI}}, где S - вопросно-ответная sc-система; {Q} - совокупность вопросов; {А} - совокупность ответов, имеющихся в текущем состоянии системы; F - совокупность операций МОЗ, осуществляющих поиск и генерацию ответов на вопросы пользователей; UI - совокупность способов визуализации ответов пользователю.

Унифицирован способ задания пользователями вопросов и предоставление соответствующих им ответов. Каждый вопрос, т.е. информационная потребность пользователя (вне зависимости от способа его задания с помощью пользовательского интерфейса) имеет поисковое предписание (представление информационного вопроса в виде поискового образа вопроса и задание на поиск на языке вопросов). Данное поисковое предписание есть sc-конструкция [11], т.е. информационная конструкция, представленная в SC-коде. Это позволяет, во-первых, организовать многомодальный пользовательский интерфейс [12], когда имеются возможности эквивалентного построения вопроса пользователя различными интерфейсами, а, во-вторых, обеспечить совместимость со всеми компонентами системы. Ответ представляет собой результаты поиска и также представляется sc-конструкцией. Управление способом представления ответов и вопросов пользователей осуществляется пользовательским интерфейсом вопросно-ответной sc-системы.

Принцип многократного повторного использования компонентов системы позволяет сократить сроки проектирования вопросно-ответных sc-систем за счет возможности использо-

вания уже готовых типовых фрагментов баз знаний, операций и самих машин обработки знаний, пользовательских интерфейсов, оформленных в виде компонентов интеллектуальной собственности - ip-компонентов (intellectual property) и самих вопросно-ответных sc-систем, включенных в библиотеку sc-систем.

Язык вопросов

Язык вопросов относится к семейству совместимых семантических языков - 8С-языков и предназначен для формального описания поискового предписания вопросно-ответных 8с-систем с целью удовлетворения информационной потребности пользователя. Объектами анализа языка вопросов являются классы вопросов в соответствии с семантической типологией вопросов.

Приведем семантическую типологию вопросов, укажем способы их задания и возможные результаты ответов на них.

1. Вопросы, использующие фактографические данные. Данный тип вопросов относится к классу предикатных вопросов и задается с помощью образца (шаблона) поиска. В данный класс вопросов включаются вопросы, направленные на уточнение понятий и их характеристик: «Что такое X?», «Кто такой Х?», «Кто сделал X?», «Сколько X в У?», «Какова характеристика X?», «Когда произошло событие X?», «Куда направлен X?», «Откуда прибыл X?», «Где находится X?»

Например, задание вопроса: «Какие районные и областные центры Республики Беларусь упоминаются раньше 16-го века?» с помощью языка вопросов представлено на рис. 1.

□ □ О*0 "»>

(^Ьмныие*

Рис. 1. Задание вопросов пользователей на языке вопросов

2. Вопросы на зависимость между понятиями. В данный класс вопросов входят вопросы на сходство и различие между двумя понятиями, аналогию между двумя понятиями.

Например, к вопросу «Какая аналогия между прямой и плоскостью», в качестве ответа (результата поискового предписания) будет установленная зависимость между двумя понятиями, представленная на рис. 2.

®

®

е

е

е

Рис. 2. Результат поискового предписания в виде ответа

3. Вопросы на раскрытие причинно-следственных связей. В данный класс вопросов входят вопросы, раскрывающие причины наступления событий. Например, вопросы «Почему X вызывает У?»

4. Вопросы на обоснование или доказательство заданного высказывания или утверждения. Например, вопросы типа «Почему X?»

5. Вопросы на обоснование целей. Например, вопросы типа «Зачем X?»

Приведем алгоритм поисковой операции, дающей ответ на вопрос «В чем сходство между двумя объектами?».

Шаг 1. Найти в базе знаний связки тех отношений, в которые входят сравниваемые объекты (понятия).

Шаг 2. Выделить пары связок одинаковых отношений сравниваемых объектов. Если таких пар связок не найдено, то сходства между объектами (понятиями) не установлено.

Шаг 3. Для каждой выделенной пары связок одинаковых отношений при условии наличия пересечения множеств, являющихся вторыми компонентами связок, добавить результат пересечения и пару связок в формируемый ответ.

Методика проектирования интеллектуальных вопросно-ответных систем

Проектирование вопросно-ответной 8с-системы включает следующие этапы.

1. Составление оглавления базы знаний проектируемой ИВОС, структуризация базы знаний и разделение ее до элементарных фрагментов - атомарных разделов с указанием типов атомарных разделов.

2. Составление сборника вопросов, который включает запись на формальном языке вопросов всех типов вопросов, включаемых в систему.

3. Создание перечня ключевых объектов предметной области. В качестве объектов в различных предметных областях выступают понятия, определения, термины.

4. Создание онтологии базы знаний, т.е. полное описание всех входящих в систему объектов с указанием их свойств, отношений, примеров использования и т.д.

5. Запись всех исходных текстов базы знаний проектируемой ИВОС. Такие тексты включают ответы на все типы вопросов из сборника вопросов и тексты атомарных разделов базы знаний интеллектуальной системы.

6. Окончательная спецификация базы знаний ИВОС и сертификация разработанных ip-компонентов (компонентов интеллектуальной собственности, которые могут быть использованы в повторном проектировании).

7. Проектирование машины обработки знаний. На данном этапе специфицируются задачи предметной области и приводятся способы их решения. Решению каждой задачи ставится в соответствие набор операций машины обработки знаний, а далее реализация операций сводится к разработке программ (или набора программ) на языке программирования, предназначенном для обработки знаний. В итоге многообразие всех задач сводится к набору операций машины обработки знаний. Эти операции реализуются программами или подпрограммами.

8. Проектирование пользовательского интерфейса ИВОС.

9. Разработка комплекта документации на спроектированную ИВОС.

10. Сертификация ИВОС и помещение ее в библиотеку интеллектуальных вопросно-ответных систем.

Выводы

Предложенная в работе семантическая технология предназначена для проектирования класса интеллектуальных вопросно-ответных систем, использующих в качестве формальной основы универсальный семантический код. Наличие совместимых семантических технологий проектирования баз знаний, машин обработки знаний и пользовательского интерфейса позволяют сократить сроки проектирования рассматриваемого класса систем за счет унификации способов представления знаний и легкой интегрируемости указанных компонентов. Работа выполнена при поддержке БРФФИ - РФФИ (грант № Ф08Р-137).

SEMANTIC TECHNOLOGY OF INTELLIGENT QUESTIONS-AND-ANSWERS

SYSTEMS

S.A. SAMODUMKIN

Abstract

The article is devoted to intelligent question-and-answers systems that can give answers to wide range of user's questions in selected area. A model of question-and-answering system and semantic technology of its design are considered.

Литература

1. Захаров В.П. Информационные системы (документальный поиск). СПб., 2002.

2. Финн В.К. // Научно-техническая информация, сер. 2. 1981. №5. С. 5-15.

3. Сулейманов Дж.Ш. // Education Technology & Society. 2001. N. 4(3). C. 178-192.

4. Kwok С., Etzioni O, Weld D. // 10th World Wide Web Conf., Hong Kong, 1-5 May, 2001. [Electronic resource]. - Mode of access: http://www 10.org/cdrom/papers/120/. Date of access: 01.03.2009.

5. Emel'yanov G. M., Mikhailov D. V., Stepanova N. A. //Pattern Recognition and Image Analysis: Avances in Mathematical Theory and Applications. 2007. Vol. 17, No. 2. P.274-278.

6. Белнап Н., Стил Т. Логика вопросов и ответов. М., 1981.

7. Любарский Ю.Я. Интеллектуальные информационные системы. М., 1990.

8. Хант Э. Искусственный интеллект. М., 1978.

9. Sosnin P. // Collection of scientific paper "Complex Systems Concurrent Engineering". London, 2007. Part 3. P. 151-158.

10. Финн В.К. Логические проблемы информационного поиска. М., 1976.

11. Голенков В.В., Елисеева О.Е., Ивашенко В.П. и др. Представление и обработка знаний в графодинами-ческих ассоциативных машинах / Под ред. В.В. Голенкова. Минск, 2001.

12. Голенков В.В., Осипов Г.С., Гулякина Н.А. и др. Программирование в ассоциативных машинах / Под ред. В.В. Голенкова. Минск, 2001.

i Надоели баннеры? Вы всегда можете отключить рекламу.