Научная статья на тему 'Интеллектуализация пользовательского интерфейса базы данных'

Интеллектуализация пользовательского интерфейса базы данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
43
10
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Акимов О.М., Шапцев В.А.

Рассматривается задача перевода запроса, сформулированного на естественном языке, в стандартный запрос на языке СУБД. В статье описывается, как это можно выполнить на основе концептуальных графов. Интерфейс анализирует и интерпретирует ЕЯ-запрос и представляет его в виде концептуального графа. Затем этот граф модифицируется информацией из базы знаний о предметной области и структуре БД. Результирующий граф становится основой формирования SQL-запроса.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A task is examined to translate a query, formulated in human language, in a standard request for the language of the SUBD. In the article it is described as that can be executed on the basis of conceptual graphs. A NL-query analyses and interprets an interface and presents him as a conceptual graph. Then this graph is modified information from the base of knowledge about a subject domain and structure of DB. A resulting graph becomes the basis of some SQL-query forming.

Текст научной работы на тему «Интеллектуализация пользовательского интерфейса базы данных»

УДК 004.5+004.657

ИНТЕЛЛЕКТУАЛИЗАЦИЯ ПОЛЬЗОВАТЕЛЬСКОГО ИНТЕРФЕЙСА

БАЗЫ ДАННЫХ

© Акимов О.М., Шапцев В.А.

Тюменский Государственный Университет НИИ ИИС

ул. Семакова, 10, г. Тюмень, 625000, Россия e-mail: akimov-oleg@ya.ru

Abstract. A task is examined to translate a query, formulated in human language, in a standard request for the language of the SUBD. In the article it is described as that can be executed on the basis of conceptual graphs. A NL-query analyses and interprets an interface and presents him as a conceptual graph. Then this graph is modified information from the base of knowledge about a subject domain and structure of DB. A resulting graph becomes the basis of some SQL-query forming.

Введение

Усиливающаяся тенденция к хранению информации в СУБД, с одной стороны, и широкое распространение глобального Интернета и средств доступа к нему, с другой, делают вопрос быстрого и полного поиска информации, хранящейся в БД, одним из актуальных в современных информационных технологиях. Особенно остро этот вопрос стоит для класса пользователей, не являющихся специалистами в области информационных технологий, составляющие большинство современных пользователей Интернета.

Кроме того, большинство пользователей чаще всего:

• даже не специалисты в предметной области приложения или web-ресурса:

• не знают языка запросов SQL;

• не располагают структурой базы данных;

• редко используют расширенный поиск приложения или web-сервиса, предпочитая использовать быстрый поиск по одному-двум словам.

Соответственно такой поиск часто не дает полные и необходимые пользователю результаты. Естественный язык в данном контексте - предпочтительный способ общения человека с компьютером. Человек владеет своим родным языком куда лучше, чем искусственным - будь то языки программирования и разметки или языки визуального взаимодействия, например, язык кликов и окошек. Нам не приходится, зайдя в обычный магазин, рыться в каталоге товаров, мы просто спрашиваем у продавца-консультанта «а где...?» или «а у вас есть...?». Пользователя информационной системы также чаще всего интересует не функционал и возможности интерфейса, а информация необходимая ему.

Узким местом в разработке компьютерных систем, понимающих естественный язык, является получение адекватных по сути и объему знаний о предметной области. Эта проблема менее сложна при создании приложений, ориентированных на использование БД. Несмотря на то, что БД обычно содержат гигантские объемы информации, она (информация) посредством модели данных имеет достаточно

регулярную структуру, с одной стороны, и связана с узкой предметной областью, с другой. Более того, семантика БД четко определена,

В статье описывается метод, позволяющий перевести запрос с естественного языка на язык SQL. Данный подход создан на основе метода описанного в [4| для английского языка, по с модификацией для русского. Также приводится описание планируемого эксперимента, делыо которого является проверка работоспособности и эффективности полученной методики.

1. Роль концептуальных графов в понимании естественного языка

Основная задача естественно-языкового интерфейса (ЕЯ-интерфейса): перевести запрос на естественном языке в стандартный запрос на языке СУБД. Но этот перевод невозможно совершить напрямую, т.к. слова и даже целые выражения естественного языка обычно имеют несколько смыслов и требуют дополнительной интерпретации. Поэтому вопрос сначала необходимо перевести на более выразительный язык представления, в частности, язык концептуальных графов.

Концептуальный граф (КГ) - это конечный, связанный, двудольный граф G [1.

Ст = Gr(C. R. Д),

где С = С(с,\, с-2,..., сп) - множество понятий, R = R(r\, ?'2,..., rm) - множество концептуальных отношений, А = Д(о,!, ..., щ), гц = (гг /•/,). с j £ G R.

Каждый концептуальный граф представляет собой одно высказывание или предложение. Он задает смысл этого предложения. Например, па рисунке 1 изображен граф предложения «Памятник находится в Тюмени». При графическом изображении графов прямоугольниками обычно обозначают понятия, концепты, а эллипсами -концептуальные отношения.

Рис. 1. Концептуальный граф предложения «Памятник находится в Тюмени»

Для более удобного представления КГ в тексте существуют, так называемые, языки описания, среди которых наиболее популярен CGIF (Conceptual Graph Interchange Form) [2, 3|, Граф, изображенный па рисунке 1, в формате CGIF запишется следующим образом:

[Находиться: *х] [Местонахождение : Тюмень * у] [Памятник : *z]

(Место ?:г?у) (Объект ?х?z) (1)

Здесь х, у, £ - метки, присваиваемые понятиям.

При построении КГ особо важная роль отводится глаголам, поскольку они определяют отношения между подлежащим, дополнением и другими компонентами предложения. Каждый глагол можно представить с помощью падежного фрейма [4], определяющего следующие данные,

1, Лингвистические отношения (агент, объект, инструмент и т.д.), соответствующие данному глаголу,

2, Ограничения на значения, которые могут присваиваться любому компоненту падежного фрейма,

3, Используемые по умолчанию значения компонентов падежного фрейма.

Падежный фрейм для глагола находиться в формате (ЧЛК выглядит следующим образом:

Кроме падежных форм семантический интерпретатор, строящий концептуальный граф, использует иерархию понятий. Например, понятие объект является более общим, чем понятие памятник, т.е. понятие памятник является подтипом понятия объект. Эта информация также хранится в базе знаний о предметной области в виде подобного концептуального графа:

В настоящее время практически нет систем, позволяющих автоматически строить КГ по входному тексту на русском языке [3]. Но подобные англоязычные системы продвинулись дальше, и один из методов построения концептуального графа в узкой предметной области описан в [4]. Модификация этого метода для русского языка описана ниже.

Сначала, входное предложение разбирает синтаксический анализатор, строит дерево синтаксического разбора. Это дерево передается семантическому интерпретатору, Дальнейшая последовательность действий семантического интерпретатора выглядит следующим образом:

1, Главным элементом дерева является глагол, сказуемое. Интерпретатор в базе знаний находит падежный фрейм соответствующий этому глаголу,

2, По дереву определяется подлежащие предложения, В падежном фрейме оно соответствует понятию объект, связанному с глаголом через концептуальное отношение объект. Но слово, являющееся подлежащим, не обязательно слово объект, оно может быть совершенно другим. Поэтому, используя иерархию понятий и операции ограничения и объединения, существующие для КГ, можно связать падежный фрейм и понятие, являющиеся подлежащим предложения,

3, Похожие действия происходят и с прямым дополнением предложения, и с остальными элементами дерева,

В итоге, полученный концептуальный граф представляет значение предложения. Например, входной запрос: «Какой памятник находится в Тюмени?», с помощью (2)

[Находиться : *х] [Местонахождение : *у] [Объект : *г] (Место (Объект ?х?г)

(2)

[Памятник : *х] [Объект : *у] (Подтип?з;?у)

(3)

и (3) примет следующий вид:

[Находиться : *х] [Местонахождение : Тюмень * у] [Памятник : ? * z]

(Место ?х?у) (Объект ?х?z) (4)

2, Связь концептуального графа С БД

Вернемся к ЕЯ-иптерфейеу, Синтаксический анализатор и семантический интерпретатор позволяют перевести ЕЯ запрос на язык концептуальных графов. Дальше из него необходимо получить SQL-запрос для БД, При этом необходимо решить, где выполнять поиск в БД, какие выбрать имена нолей и ограничения для запроса. Этой информации нет в исходном запросе, но она есть в БД, вернее в сведениях об организации БД,

В реляционной БД данные связаны отношениями между сущностями различных доменов. Обычно такую взаимосвязь двух сущностей представляют в виде диаграммы «сущность-связь». На рисунке 2 представлены отношение object_ location и диаграмма «сущность-связь», отображающая взаимосвязь двух сущностей: объекты (object) и местонахождение (location).

object

object_location Ж

Памятник «Бо Церковь Иоан Памятник арх Братская мог

location

Рис. 2, Отношение из БД и диаграмма «сущность-связь»

Сущности из БД и понятия из базы знаний о предметной области прямо взаимосвязаны, Поэтому концептуальный граф, представляющий надежный фрейм глагола, можно расширить добавлением диаграммы «сущность-связь». Тогда расширенный концептуальный граф G^b примет вид:

Gdb = Gdb(C, R, А, Т, D),

где Т = T(t.\, t.-2,..., £.,) - множество отношений, таблиц, или представлений БД, D = D(d\, d-2,..., dv), di = (rr r/,. t,,). Cj G C,ck G C,tp G T - представляет собой диаграмму «сущность-связь».

Формат описания CGIF также можно расширить, включением информации о БД, И тогда запись базы знаний для глагола находиться можно представить в таком ви-

[Находитьея : *х] [Местонахождение : *у] [Объект : *z]

(Место ?х?у)(Объект ?;r?^){objoct_location ?y?z} (5)

t

location

Тюмень,ул.Ре.

с.Вагай ул.Ленинград. с.Елань

Объединяя теперь входной запрос (4) и запись базы знаний для глагола (5), получаем расширенный КГ запроса:

[Находиться : *х] [Местонахождение : Тюмень * у] [Объект : ? * z]

(Место (Объект ?a;?2:){object_location ?y?z} (6)

Как видно из (6) построить SQL запрос к базе данных по такому КГ не составляет особого труда,

3, Об эксперименте

В настоящее время заканчивается работа над экспериментальным прототипом ЕЯ-интерфейса для информационной системы «Реестр ОКН», Это разработка НИИ III 1С* ТюмГУ [5] для Комитета по охране и использованию объектов историко-культурного наследия администрации Тюменской области, «Реестр ОКН» представляет собой региональный цифровой информационный ресурс государственного реестра объектов культурного наследия народов РФ и поддерживает деятельность сотрудников государственных органов охраны памятников истории и культуры.

Целью экспериментальной работы с прототипом является проверка работоспособности подхода, описанного выше, и оценка границ его эффективного применения, В эксперименте планируется задействовать до 10 пользователей, работающих с этой информационной системой и являющихся специалистами в предметной области, В то же время будет организована работа с системой около 10 пользователей из вспомогательного персонала, знающего лишь только назначение системы.

Все участники эксперимента будут вводить в специальном поле интерфейса заданную совокупность из 20-25 запросов на естественном (русском) языке. Они же оценят результаты, выдаваемые системой, путем ввода в специальную таблицу-протокол по трехбалльной шкале. Все заданные и возможно придуманные пользователями запросы, соответствующие им концептуальные графы, расширенные концептуальные графы и итоговые SQL-запросы вместе с оценками пользователей будут фиксироваться в отельной БД,

Количественные характеристики плана эксперимента позволят обеспечить относительную статистическую устойчивость его результатов. Полученные в БД эксперимента данные ожидает тщательный многовариантный анализ.

Заключение

На текущем этапе исследования заявленной проблемы установлено следующее. Во-первых, использование ЕЯ-интерфейса снижает барьер освоения приложения или web-ресурса. Теперь пользователю для поиска информации становится достаточно ввести запрос в поле ввода. Это актуально для современных пользователей Интернета, большинство из которых не являются специалистами не только в области ИТ, но и в предметной области приложения.

Во-вторых, использование изложенной методики позволяет путь до нужных данных сократить до минимума, фактически до одного шага. Это обеспечивает дополнительную привлекательность и быстродействие ресурса,

В-третьих, в нашем случае пользователь сосредотачивается на том, что ему необходимо, что он или она хочет найти, а не на том, как же это сделать, В итоге, пользователь будет решать интересующие его задачи, а не разбираться в функционале и возможностях интерфейса информационной системы.

Результаты эксперимента покажут справедливость этих гипотез,

список литературы

1. A World of Conceptual Graphs - http://conceptualgraphs.org/

2. John F. Sowa Conceptual Graphs - http://www.jfsowa.com/cg/cgstand.htm

3. Богатырев М.Ю., Латов B.E., Столбовская И.А. Применение концептуальных графов в системах поддержки электронных библиотек // Электронные библиотеки: перспективные методы и технологии, электронные коллекции. Тезисы постерных докладов Девятой Всероссийской научной конференции RCDL'2007 (Переславль-Залесский, Россия, 15-18 октября 2007 г.). Переславль-Залеский: Изд-во «Университет города Переславля», 2007 г., С. 104-110.

4. Люгер Дж.Ф. Искусственный интеллект: стратегии и методы решения сложных проблем, 4-е издание.: Пер. с англ. - М.: Издательский дом «Вильяме», 2003 г. - 864 с.

5. Шапцев В.А., Широков A.B. и др. Информационные системы поддержки деятельности // Материалы П-й Всероссийской конференции «Муниципальные информационные системы». - Екатеринбург, октябрь 2004 г. - С. 45-56. - http://www.egd.ru/index.php?menu_id=23102&;show_id=23192.

Статья поступила в редакцию 20.04-2008

i Надоели баннеры? Вы всегда можете отключить рекламу.