Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 -Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6
РАЗРАБОТКА И ИСПЫТАНИЯ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИХ СИСТЕМ
УДК 004.89, 681.323
Работа выполнена при финансовой поддержке Министерства образования и науки РФ в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007 - 2013 гг.»,
государственный контракт № 07.514.11.4135.
Кониченко А.В., Миргалеев А.Т., Уваров А.Н.
РАЗРАБОТКА ЭКСПЕРИМЕНТАЛЬНОГО ОБРАЗЦА ПРОГРАММНОГО КОМПЛЕКСА ИНФОРМАЦИОННО-АНАЛИТИЧЕСКОЙ СИСТЕМЫ
Представлены порядок и результат разработки экспериментального образца программного комплекса информационноаналитической системы понимания неструктурированной текстовой информации на русском и английском языках.
Ключевые слова: экспериментальный образец, информационноаналитическая система, функции, структура, модуль.
Konichenko A.V., Mirgaleev A.T., Uvarov A.N. Development of an experimental prototype of the software complex
of information-analytical system
The procedure and result of the development of an experimental prototype, which is the software complex of information-analytical understanding system of unstructured information in Russian and English, are presented.
Keywords: experimental model, informational-analytical system, functions, structure, the module.
5
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 -Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6
В ходе выполнения первого этапа НИР «Исследование и разработка программного обеспечения понимания неструктурированной текстовой информации на русском и английском языках на базе создания методов компьютерного полного лингвистического анализа» (Шифр «2012-1.4-07-514-0018-001») одной из основных задач являлась разработка программного обеспечения, а именно реализация экспериментального образца программного комплекса информационно-аналитической системы (ЭО ПК ИАС).
Создание ЭО ПК ИАС осуществлялось не только с целью практического подтверждения полученных в ходе НИР научных результатов, опубликованых в работах [1 - 10], но и с целью дальнейшей коммерциализации программного продукта, его вывода на рынок и дальнейшего сопровождения. Последнее обстоятельство привело к необходимости достижения технических характеристик, соответсвующих современным требованям к производительности и качеству ЭО.
Одним из важнейших требований явилось документирование всех этапов процесса разработки программного обеспечения, начиная с постановки первоначальных требований и заканчивая вводом в эксплуатацию и дальнейшим сопровождением. Документы, возникающие в процессе разработки, такие, как руководства, спецификации, планы разработки, являются неотъемлемой частью программного продукта. Заказчик (Минобрнауки РФ) вместе с программным продуктом в соответствии с ТЗ должен получить всю документацию, связанную с разработкой продукта. Документирование процесса разработки велось с целью обеспечения процесса сопровождения, доработки и контроля качества продукта.
В ходе разработки особое внимание уделено качеству документации. Показано, что качество документации должно отвечать следующим критериям:
а) правильность:
1) соответствие (трассируемость) требований и спецификаций ЭО ПК ИАС;
2) последовательность в описании требований, спецификаций и функций;
б) полнота:
1) использование версий и дат документов для контроля изменений, доступность всех версий документов (в том числе рабочих);
6
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 -Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6
2) функциональность системы максимально полно описана в системных требованиях;
3) документация представляет информацию для всех категорий пользователей, операторов системы и разработчиков;
в) удобство и простота использования:
1) использование оглавлений, алфавитных указателей, глоссариев и кросс-ссылок;
2) логическая последовательность и непротиворечивость в использовании терминологии;
3) внешний вид документации (шрифты, формат).
Применительно к исходным кодам программ, которые являются документацией к системе, также должны выполняться вышеуказанные требования. Коды программ написаны с учетом дальнейшего сопровождения и возможного расширения функциональности ЭО ПК ИАС.
В общем случае утвержденные и используемыми всеми разработчиками стандарты кодирования содержат следующие составляющие:
а) принципы форматирования программного кода, включая использование структурированного расположения текста и отступов между строками кода для удобства считывания. Комментарии в коде дают краткое описание функциональности программ, модулей, классов, методов класса и т.п., а также описывают формат и назначение входных и выходных данных;
б) соглашения о стиле программирования, в частности, описывают стандарты именования переменных, констант, классов и т.д. Примене общий подход к использованию внутренних переменных, констант и структур данных (таких, как массивы). Это дало возможность создания предсказуемого и легко читаемого кода, с которым несложно работать как на этапе разработки, так и в ходе модификации и дальнейшего сопровождения;
в) общепринятые эффективные приемы написания эффективного кода. Эти правила связаны с использованием эффективных структур данных и алгоритмов, созданием максимально производительных запросов к базам данных и т.п.
Масштаб и степень следования стандартам разработки программного обеспечения зависели от размера и характера проекта, а также от того, какие инструменты разработки используются. Целью
7
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 -Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6
разработки ЭО ПК ИАС являлось повышение эффективности процессов аналитической обработки текстовой информации.
Процесс разработки программного обеспечения содержал этапы инициации (организации) проекта, оценки проекта, анализа и проектирования, конструирования и внедрения системы (экспериментальных исследований).
Этап инициации проекта, с точки зрения разработчика, включал подготовку заказчиком требований к ЭО ПК ИАС, описание его функций и структуры. В направлении дальнейшей детализации выбраны варианты реализации программного обеспечения и оценена стоимость каждого варианта, трудности, связанные с его осуществлением, время на осуществление, программные средства и инструменты, необходимые для проекта, исполнителей проекта, а также преимущества каждого варианта.
Этап анализа и прогнозирования включал в себя разработку проектной документации, в деталях описывающей работу ЭО ПК ИАС, ее структуру, технические и программные средства, необходимые для ее функционирования.
Итогом данного этапа являлась спецификация системы, которая содержит:
1) описание процессов и функций, которые должны быть автоматизированы :
а) детальное описание существующих процессов и каким образом они затронуты при экспериментальных исследованиях системы;
б) детальное описание новых процессов, которые созданы или получены при изменении существующих;
в) описание мер контроля, которые будут внедрены в ЭО ПК ИАС;
2) описание программно-аппаратного обеспечения, необходимого для функционирования ЭО ПК ИАС:
а) используемая операционная система;
б) сетевая среда, оборудование и протоколы;
в) средства разработки;
г) средства защиты информации;
д) как новые платформы будут включены в существующую информационную инфраструктуру;
8
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 -Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6
з) спецификация функциональности системы:
а) общее описание функциональности системы как в повествовательной форме, так и в виде диаграмм;
б) разбиение системы на модули;
в) соответствие модулей требованиям к системе;
д) модель данных, используемая в системе (диаграмма "сущность - связь" или аналогичные). Функциональность, вынесенная в серверную часть системы;
е) описание того, каким образом реализованы требования к информационной безопасности, производительности и надежности системы;
ж) детальное описание интерфейсов с другими системами;
и) список разрабатываемых модулей (включая вспомогательные) и параметры для их запуска;
к) список ошибок и предупреждений, генерируемых системой;
л) спецификация должна быть четко структурированной и содержать оглавление, алфавитные указатели, глоссарий и список используемых терминов.
Функциональность ЭО ПК согласована с формальными требованиями к ней, отраженными в ТЗ. В случае внесения существенных изменений в систему, не описанных в проектной документации, эти изменения вносятся в спецификации.
Программное обеспечение разработано с использованием структурного подхода, при этом соблюдены стандарты кодирования. Исходные коды содержат комментарии в количестве, необходимом для понимания структуры исходного кода и ее функциональности.
При разработке использована система контроля версий исходных кодов. При внесении изменений в исходный код описывалось, какие изменения и с какой целью вносились.
Разработываемое программное обеспечение ЭО ПК ИАС протестировано. Тестирование осуществлено согласно программе и методикам экспериментальных исследований. Тестовая среда, база данных и исполняемые модули были отделены от рабочей системы. Результаты тестирования были зафиксированы, ошибки исправлены разработчиком.
9
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 -Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6
В ходе выполнения НИР осуществлены теоретические исследования, результаты которых положены в основу создания ЭО ПК ИАС. К теоретическим результатам, которые реализованы на практике в виде моделей и алгоритмов в ЭО ПК ИАС, относятся:
а) метод формализации естественно-языковых данных, представленных в БД;
б) метод извлечения фактов из массивов естественно-языковых текстовых данных;
в) метод объединения фактов, представленных в различных текстовых документах;
г) метод формирования и корректировки онтологий;
д) метод формализации запросов, сформулированных на естественном языке;
е) метод формирования семантической сети;
ж) структурно-функциональная организация ЭО ПК ИАС;
и) метод формирования описаний ситуаций.
ЭО ПК ИАС предназначен для практической отработки разработанных в ходе НИР моделей, методов и алгоритмов, используемых для исследования заданных пользователем объектов и ситуаций путем целенаправленного автоматизированного сбора и обработки данных, представленных на русском языке в электронных источниках. ЭО ПК ИАС представляет собой комплекс программных модулей для обеспечения понимания текстов путем формирования описаний исследуемых ситуаций и объектов. Полученные в ходе НИР теоретические результаты реализованы в виде программных модулей:
а) БД - информационного хранилища ЭО ПК ИАС;
б) формализации естественно-языковых данных, представленных в базах данных;
в) извлечения фактов из массивов естественно-языковых текстовых данных;
г) объединения фактов, представленных в различных текстовых документах на русском и английском языках;
д) формирования и корректировки онтологий;
е) формализации запросов, сформулированных на естественном языке;
ж) формирования и обработки семантической сети;
и) формирования описаний ситуаций.
10
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 -Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6
ЭО ПК ИАС совместим с программным обеспечением, функционирующим в средах Windows и способным к обмену информацией в форматах xml, csv. Защита от несанкционированного доступа к информации осуществляется средствами операционной системы и используемой системы управления базами данных.
Структура ЭО ПК ИАС представлена на рисунке 1.
Рис. 1 - Структура ЭО ПК ИАС
БД - информационное хранилище ЭО ПК ИАС - представляет собой реляционную БД, функционирующую под управлением СУБД Microsoft SQL Server 2008 R2. БД обеспечивает формализованное представление и хранение данных, используемых программными модулями ЭО ПК ИАС.
Модуль формализации естественно-языковых данных, представленных в базах данных, представляет собой набор запрограммированных алгоритмов, обеспечивающих просмотр содержимого БД (текстов на ЕЯ) и преобразование неструктурированной информации в формальные структуры в соответствии с разработанным на первом этапе НИР методом формализации ЕЯ данных, представленных в БД. На вход указанный модуль получает текстовые документы, результатом функционирования являются формально представленные в виде «подлежащее-сказуемое-определение-дополнение» ЕЯ тексты.
11
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 -Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6
Модуль извлечения фактов из массивов естественно-языковых текстовых данных выполняет интеллектуальную обработку гра-фематической, морфологической и синтаксической структур текстов, выявляя данные по шаблонам «объект-отношение-объект» и «объект-атрибут-значение». Предназначен для формализации предложений русского языка и автоматического выявления основ предложений (подлежащее + сказуемое + определение или обстоятельство). Извлеченные факты представляются в модуле формирования отчетных документов в виде дайджеста, содержащего аннотации рассматриваемых текстов.
Модуль объединения фактов, представленных в различных текстовых документах на русском и английском языках, обеспечивает представление фактов, извлеченных из различных текстовых документов, в дайджесте, сформированном по заданной пользователем ЭО ПК ИАС тематике.
Модуль формирования и корректировки онтологий предназначен для создания моделей предметной области (онтологий). Обеспечивает интуитивно понятное представление ситуации в графическом виде с использованием сущностей (концептов) и отношений между ними, заданных в виде направленных связей и позволяет назначать весовые коэффициенты, указывающие степень (силу) влияния одной сущности на другую. Позволяет задавать функции принадлежности нечетких множеств и описывать их. На выходе модуля формируется описание объекта исследования и заносится в БД ЭО ПК ИАС.
Модуль формализации запросов, сформулированных на естественном языке, предназначен для автоматического определения смысла вопроса, задаваемого пользователем ЭО ПК ИАС. Модуль обеспечивает выделение вопросительной и смысловой части вопроса (объекта, к которому относится вопрос). На вход модуля подается вопрос, сформулированный на ЕЯ, по результатам его обработки пользователю представляется сниппеты (краткие аннотации), описывающие, в порядке уменьшения степени соответствия, область к которой относится вопрос.
Модуль формирования и обработки семантической сети обеспечивает визуализацию сгенерированного ЭО ПК ИАС дайджеста в виде связанного графа, узлами которого являются объекты вопроса и ключевые концепты онтологии. Модуль позволяет использовать сформированную семантическую сеть в качестве онтологии при функционировании ЭО ПК ИАС.
12
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 -Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6
Модуль формирования описаний ситуаций предназначен для управления процессом формирования отчетных документов путем определения запроса документов из БД ЭО ПК ИАС, определения документов, необходимых для формирования описания ситуации, анализа документов и разбиения их на предложения, выявления грамматических признаков слов предложений (падеж, число, род и т.д.), приведения слов к базовой форме и формирования формы слова из базовой формы с указанными грамматическими признаками, а также получения всех возможных грамматических форм слова. В дальнейшем указанный модуль управляет процессом извлечения фактов и осуществляет группировку извлеченных фактов в дайджесты (аннотации) и формирования отчетных документов по шаблону путем выборки документов из БД, а также визуализации и подготовки печатных версий сформированных аналитических документов. Позволяет пользователю вручную редактировать содержание подготовленных отчетных документов.
Согласно требованиям ТЗ ЭО ПК ИАС должен состоять из серверной и клиентской частей. Указанные части функционируют, соответственно, на сервере и клиенте стенда.
На рисунке 2 представлена функциональная структура разработанного ЭО ПК ИАС. Серверная часть ЭО ПК ИАС представлена на рисунке 1.
Клиентская составляющая ЭО ПК ИАС основывается на вебинтерфейсе, обеспечивающем визуальное интерактивное взаимодействие с пользователями. Кроме того, веб-интерфейс, обеспечивает доступ к большей части функций ЭО ПК ИАС. Следует отметить, что клиентская составляющая ЭО ПК ИАС функционирует на IBM PC-совместимой ПЭВМ под управлением операционной системы Windows 7 (64-разрядной).
На ПЭВМ клиентской части установлено следующее общее программное обеспечение:
а) браузер Internet Explorer версии 8.0;
б) платформа .Net framework 4.0.
13
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 -Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6
Рис. 2 - Функциональная структура ЭО ПК ИАС
Серверная составляющая ЭО ПК ИАС благодаря использованию 64-разрядной сетевой операционной системы Windows Server 2008 работает в многопоточном режиме с выделением необходимого количества ресурсов ПЭВМ сервера для минимизации времени аналитической обработки информации. Серверная составляющая основывается на программном интерфейсе с пользователями и администраторами, позволяющем осуществлять настройку и управление процессом аналитической обработки информации, администрирование БД и операционной системы.
На сервере установлено следующее общее программное обеспечение:
а) система управления базами данных Microsoft SQL Server 2008 R2;
б) веб сервер IIS 7.5;
14
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 -Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6
в) браузер Internet Explorer версии не ниже 8.0;
г) платформа .Net framework 4.0.
Информация, представленная и обрабатываемая в ЭО ПК ИАС, представлена в БД. Структура БД ЭО ПК ИАС представлена на рисунке 3.
Описание назначения таблиц БДиЗ приведено в таблице 1, а описание структуры таблиц БДиЗ - в таблице 2.
Таблица 1 - Описание назначения таблиц БД ЭО ПК ИАС
№ п/п Наименование таблицы Информационное содержимое
1 Documents Документы
2 Reports Отчёты
3 ReportsDocuments Отчётные документы
4 Areas Области
5 Sources Источники
6 File Файлы
7 Items Пункты
8 Roots Права доступа
9 RootsLinks Ссылки доступа
10 Elements Элементы
11 MemberRoles Роли участников
12 Members Участники
13 Roles Роли
14 DocumentsItems Пункты документов
15 Triples Тройки
16 TriplesItems Пункты троек
17 ConceptsLinks Множество связей между концептами
18 Concepts Концепт
19 ConceptsValues Значение Концептов
15
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 -Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6
Рис. 3 - Структура БД ЭО ПК ИАС Таблица 2 - Описание структуры таблиц БД ЭО ПК ИАС
№ Поле Тип данных Описание
Таблица Documents
1 Id nVarChar(96) Идентификатор
2 DataCreates nVarChar(96) Создание данных
3 DataModified nVarChar(256) Модификация данных
4 LastCheked nVarChar(256) Последняя проверка
5 Hash nVarChar(256) Хеш
6 Title nVarChar(96) Заголовок
7 Fileld nVarChar(96) Идентификатор файлов
Таблица ReportsDocuments
1 ReportId nVarChar(128) Идентификатор отчёта
2 DocumentId nVarChar(96) Идентификатор документа
16
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6
Продолжение таблицы 2
Таблица Reports
1 Id GUID Идентификатор
2 Title nVarChar(512) Заголовок
3 Data nVarChar(128) Данные
4 [user] DateTime Пользователь
5 [content] nVarChar(256) Контент
6 DataCreate BLOB Создание данных
7 DataFrom BLOB Данные от объекта
8 DataTo int16 Данные к объекту
9 SubjectId nVarChar(256) Идентификатор субъекта
10 Context Id nVarChar(256) Идентификатор контекста
11 ObjectId nVarChar(256) Идентификатор объекта
Таблица Areas
1 Id int32 Идентификатор
2 Name GUID Имя
3 Parent Id nVarChar(256) Родительский идентификатор
Таблица Sources
1 Id int16 Идентификатор
2 Name nVarChar(32) Имя
3 TypeId nVarChar(256) Идентификатор типа
4 Area Id nVarChar(256) Идентификатор области
5 TrustDegreeId nVarChar(32) Идентификатор степени доверия
6 Deep nVarChar(64) Глубокий анализ
Таблица Files
1 Id GUID Идентификатор
2 Path GUID Путь
3 [Contentl nVarChar(256) Контент
4 Binary nVarChar(256)
5 SourceId nVarChar(256) Идентификатор источника
6 DataCreate nVarChar(256) Создание данных
7 DataModified nVarChar(256) Модификация данных
8 DataParsed nVarChar(96) Разбор данных
9 DocumentId nVarChar(96) Идентификатор документа
Таблица Items
1 Id GUID Идентификатор
2 [Key] GUID Ключ
3 Value nVarChar(96) Значение
4 File Id nVarChar(256) Идентификатор файла
17
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6
Продолжение таблицы 2
Таблица Roots
1 Id GUID Идентификатор
2 Link GUID Ссылка
3 UseRegex nVarChar(256) Использование регулярных выражений
4 Source Id nVarChar(256) Идентификатор источника
Таблица RootLinks
1 Id int32 Идентификатор конъюнкута
2 Link nVarChar(96) Ссылка
3 Root Id nVarChar(256) Идентификатор доступа
Таблица Elements
1 Id int32 Идентификатор
2 Name GUID Имя
3 Xpath GUID Запрос к элементам XML-документа
4 Discriminator nVarChar(256) Дискриминатор
5 Region Id nVarChar(96) Идентификатор региона
6 Root Id nVarChar(96) Идентификатор доступа
Таблица MemberRoles
1 Member Id nVarChar(32) Идентификатор участника
2 Role Id nVarChar(256) Идентификатор роли
Таблица Members
1 Id GUID Идентификатор
2 Name BLOB Имя
3 LastLoginDate nVarChar(32) Последняя дата входа
4 PreviousLoginDate nVarChar(32) Предыдущая дата входа
5 Email nVarChar(256) Электронная почта
6 Password nVarChar(256) Пароль
7 PasswordFailures SincelastS... nVarChar(96) Ввод неверного пароля последний раз
8 LastPasswordFailures Date nVarChar(96) Дата последнего неверно введённого пароля
9 ConfirmationToken nVarChar(256) Подтверждение талона
10 CreateData nVarChar(256) Создание данных
11 PasswordChangedDate nVarChar(32) Дата изменения пароля
12 PasswordVerification Token nVarChar(256) Проверка пароля талона
13 PasswordVerification TokenE... nVarChar(256) Проверка пароля талона ...
14 PartitionKey nVarChar(32) Разделы ключа
15 Notes nVarChar(256) Примечания
18
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6
Продолжение таблицы 2
16 FullName nVarChar(32) Полное имя
Таблица Roles
1 RoleName int32 Название роли
2 Description GUID Описание
3 Id nVarChar(256) Идентификатор
Таблица Triples
1 Id int32 Идентификатор
2 UseSynonym int32 Использование синонима
3 Object Id GUID Идентификатор объекта
4 Predicate Id nVarChar(256) Идентификатор предиката
5 Subject Id nVarChar(96) Идентификатор субъекта
6 Synonym Id nVarChar(256) Идентификатор синонима
7 Source Id nVarChar(32) Идентификатор источника
8 Approved nVarChar(256) Утверждение
Таблица TriplesItem
1 Id int32 Идентификатор
2 Namespace GUID Пространство имён
3 Name nVarChar(256) Наименование
4 UseSynonym BLOB Использование синонима
5 Synonym Id nVarChar(256) Идентификатор синонима
6 FormalName nVarChar(256) Формальное имя
Таблица DocumentItems
1 Id GUID Идентификатор
2 Type GUID Тип
3 Value nVarChar(128) Значение
4 Binary nVarChar(256) Двоичное значение
5 DocumentId nVarChar(256) Идентификатор документа
6 Name int32 Наименование
7 Document Id int32 Идентификатор документа
Таблица ConceptsLinks
1 Id GUID Идентификатор
2 SourceId GUID Идентификатор концепта-причины
3 DestinationId GUID Идентификатор концепта-следствия
4 Description nVarChar(128) Описание
5 Value nVarChar(128) Значенда
6 LinkTypeId nVarChar(128) Идентификатор типа ссылки
Таблица Concepts
1 Id GUID Идентификатор
2 Top nVarChar(128) Верхняя граница
19
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6
Продолжение таблицы 2
3 Left nVarChar(128) Левая граница
4 Width nVarChar(128) Ширина
5 Height nVarChar(256) Высота
6 LeftParent nVarChar(256) Левый родитель
7 TopParent nVarChar(256) Верхний родитель
8 WidthParent nVarChar(128) Ширина родителя
9 Height Parent nVarChar(256) Высота родителя
10 Name nVarChar(256) Наименование
11 Descrtiption nVarChar(128) Описание
12 Value nVarChar(256) Значение
13 ParentConcept Id nVarChar(256) Родительская концепция
Таблица ConceptsValues
1 Id GUID Идентификатор концепта-причины
2 [Key] GUID Ключ
3 Value nVarChar(128) Значение связи
4 Concept Id nVarChar(128) Идентификатор концепта
Разработанная БД обеспечивает выполнение всех требуемых ТЗ функций ЭО ПК ИАС, то есть позволяет хранить, формализовы-вать и обрабатывать (реализовывать понимание) тексты, представленные на русском и английском языках.
Показано, что разработанные в НИР методы обработки данных и знаний являются базисом математического, информационнолингвистического и алгоритмического обеспечения создаваемого ЭО ПК ИАС. Разработанные в ходе исследований методы формализации естественно-языковых данных, извлечения фактов из массивов естественно-языковых текстовых данных, объединения фактов, формирования и корректировки онтологий, формализации запросов, формирования семантической сети, формирования описаний ситуаций, осуществляют сбор и итеративное пополнение данных о ситуации на основе компьютерного лингвистического анализа и обработки естественно-языкового запроса, а также синтез дайджеста, содержащего выявленный смысл обработанных текстовых документов в виде описания ситуации, представленного на русском и английском языках.
Разработанный ЭО ПК ИАС выполняет автоматический анализ неструктурированной текстовой информации на русском и английском языках путем морфологического, синтаксического, семантического и прагматического анализа на основе реализации
20
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6
компьютерного лингвистического анализа и выдавать пользователю результаты анализа в виде дайджеста.
Клиентская составляющая ЭО ПК ИАС основывается на интерфейсе, обеспечивающем визуальное интерактивное взаимодействие с пользователями. Вместе с этим клиентская составляющая содержит веб-интерфейс, обеспечивающий доступ к функциям ЭО ПК ИАС. Кроме того, клиентская составляющая ЭО ПК ИАС функционирует на IBM PC-совместимой ПЭВМ стенда под управлением операционных систем типа Windows XP или Windows 7 (32 или 64разрядных).
При функционировании ЭО ПК ИАС используется следующее стороннее программное обеспечение:
а) браузер Internet Explorer версии 8.0;
б) платформа .Net framework 4.0;
в) система управления базами данных Microsoft SQL Server 2008 R2;
г) веб сервер IIS 7.5.
Серверная составляющая ЭО ПК ИАС работает в многопоточном режиме под управлением серверной операционной системы Windows Server 2008 с выделением необходимого количества ресурсов ПЭВМ сервера для минимизации времени аналитической обработки информации. Серверная составляющая основывается на программном интерфейсе с пользователями и администраторами. Указанный интерфейс позволяет осуществлять настройку и управление процессом аналитической обработки информации, администрирование БД и операционной системы. При разработке ЭО ПК ИАС использован язык программирования С#.
Модули ЭО ПК ИАС обеспечивают выполнение следующих функций.
Программный модуль формализации естественно-языковых данных, представленных в БД, обеспечивает автоматическое определение тематики анализируемых текстовых документов, выделение семантически значимых конструкций в рассматриваемых документах.
Программный модуль извлечения фактов из массивов естественно-языковых текстовых данных обеспечивает формирование аннотаций, содержащих смысл каждого анализируемого текстового документа.
Программный модуль объединения фактов, представленных в различных текстовых документах на русском и английском языках, обеспечивает поиск и сопоставление семантически значимых конструкций, представленных в различных текстовых документах, и
21
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 -Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6
исключение дублирования одинаковых фактов. Программный модуль формирования и корректировки онтологий обеспечивает построение онтологии исследуемой предметной области, в виде иерархической структуры когнитивной карты, состоящей из концептов и формальных отношений («часть-целое», «синоним») между ними.
Программный модуль формализации запросов, сформулированных на естественном языке, обеспечивает автоматическое соотнесение тематики запроса с существующими в БД онтологиями и наборами текстовых документов. Программные модули формирования и обработки семантической сети и формирования описаний ситуаций обеспечивает представление неструктурированной текстовой информации в анализируемых текстовых документах в виде семантической сети, состоящей из объектов и отношений между ними.
В целом, разрабатываемый ЭО ПК ИАС обеспечивает достижение следующих технических характеристик:
а) общий объем индексируемой текстовой информации в одной базе проиндексированных документов не превышает 1 Гб;
б) скорость лингвистического анализа текста составляет не менее 2 Мбайт в минуту на серверной части ЭО ПК ИАС;
в) среднее время формализации запроса пользователя составляет не более 5 секунд;
г) максимальное число ответов в дайджесте ЭО ПК ИАС не превышает 200;
д) количество автоматически выделенных наиболее достоверных семантических ответов не превышает 5;
е) обеспечивается цветовая разметка текста в сформированном ЭО ПК ИАС дайджесте с выделением слов, совпадающих с ключевыми словами запроса пользователей.
Разрабатываемый ЭО ПК ИАС обеспечивает реализацию предварительного просмотра БД анализируемых документов, а также автоматический анализ информации и синтез дайджеста по запросам пользователей, заданным в форме:
а) предложений на английском или русском языках (в том числе смешанных предложений, состоящих из английских и русских слов);
б) произвольного набора ключевых слов английского и/или русского языков и цифр в различных вариантах их написания.
Общая длина произвольного запроса пользователя не превышает 512 символов (включая пробелы). Кроме того, автоматически определяются типы запросов пользователей, согласно заранее заданным шаблонам с использованием вопросительных слов («как», «сколько», «где», «почему»).
22
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 -Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6
Результатом функционирования ЭО ПК ИАС является автоматически генерируемый дайджест с учетом определенной тематики запроса и синонимов. Графематический анализ запросов и текстовых документов обеспечивает выделение не менее 10 шаблонов представления семантических объектов (телефонов, адресов, индексов, e-mail, основного текста, фамилий, имен, названий объектов, времени, количества). Морфологический анализ реализован на базе словаря и позволять определять морфологические характеристики слов естественно-языковых предложений. Синтаксический анализ обеспечивает выделение основ предложений в виде «объект-субъект-действие-время-место». Семантический анализ обеспечивает поддержку иерархического словаря семантических категорий с вложенностью четыре уровня. Прагматический анализ обеспечивает соответствие синтезированного ЭО ПК ИАС дайджеста запросу пользователя.
ЭО ПК ИАС обеспечивает возможность визуализации работы методов и алгоритмов обработки текстов на русском и английском языках, механизмов создания и сопровождения онтологий и словарей, выполняет обработку текстовых файлов форматов Microsoft Office (doc, dot, rtf, xls), а также html, pdf, txt. Реализована поддержка кодировки текстовых файлов: Windows-1251, 1252; Unicode UTF-16, UTF-8, UTF-7; KOI-8r; txt-866; ISO-8859-5, а также xml (в реализации RSS).
В ЭО ПК ИАС реализованы следующие функции:
а) загрузка и хранение неструктурированной текстовой информации на русском и английском языках в БД ЭО ПК ИАС;
б) автоматическое определение тематики анализируемых текстовых документов;
в) выделение семантически значимых конструкций в анализируемых текстовых документах;
г) автоматическое формирование аннотаций, содержащих смысл каждого анализируемого документа;
д) извлечение фактов из текстовых документов, представленных на русском и английском языках;
е) поиск семантически значимых конструкций, представленных в различных текстовых документах;
ж) сопоставление одинаковых семантически значимых конструкций, имеющих сходный смысл;
и) исключение дублирований фактов, устранение синонимии, омонимии и многозначности;
23
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 -Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6
к) автоматизированное формирование иерархической когнитивной карты, состоящей из концептов и формальных отношений («часть-целое», «синоним») между ними;
л) автоматизированная корректировка концептов и отношений онтологии;
м) автоматическое определение тематики запроса в соответствии с существующими в БД онтологиями и загруженными в БД наборами текстовых документов;
н) автоматизированное формирование семантической сети и представление неструктурированной текстовой информации в анализируемых текстовых документах в виде сети, состоящей из объектов и отношений между ними;
п) формирования описаний исследуемых с помощью ЭО ПК ИАС ситуаций или объектов в виде дайджеста, содержащего смысловой ответ на запрос пользователя.
Таким образом, задача разработки ЭО ПК ИАС решена, требуемые технические характеристики достигнуты, необходимое качество функционирования программного продукта достигнуто. Анализ функциональных возможностей разработанного ЭО ПК ИАС показал полное соответствие указанных возможностей требованиям ТЗ. Понимание текстов, представленных на русском и английском языках, реализовано путем применения разработанных в НИР моделей, методов и алгоритмов за счет автоматического определения смысла ЕЯ вопроса пользователя (формализации запроса), ситуационного анализа (онтологического моделирования, интеллектуальных процедур сбора данных, их обработки и формирования дайджестов), а также представления сформированных дайджестов пользователю с учетом определенной тематики его вопроса.
24
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6
Библиографический список
1. Промежуточный отчет о НИР «Выбор направлений исследований. Теоретические исследования поставленных перед НИР задач», Фонд по поддержке научно-технических и образовательных программ «Науком», Курск, 2012.
2. Миргалеев, А.Т., Захаренков, А.И., Уваров, А. Н. Пути формализации данных в системах мониторинга [Текст]/ А.ТМиргалеев, А.И.Захаренков, А. Н. Уваров// Информационно-измерительные и управляющие системы. -М.: Радиотехника. №2, т.11, 2013.
3. Соколов, А.В., Захаренков, А.И. Извлечение значимой информации из массивов неструктурированных текстов [Текст]/ А.И.Захаренков, А.В.Соколов // Информационно-измерительные и управляющие системы. -М.: Радиотехника. №2, т.11, 2013.
4. Бутов, А.Л., Сизов, А. С., Халин, Ю.А. Подход к объединению фактов в информационно-аналитических системах [Текст]/ А. Л. Бутов, А. С. Сизов, Ю. А. Халин //Информационно-измерительные и управляющие системы. -М.: Радиотехника. №2, т.11, 2013.
5. Уваров, А.Н. Метод формирования онтологий информационно-измерительных систем [Текст]/ А.Н.Уваров //Информационно-измерительные и управляющие системы. -М.: Радиотехника. №2, т.11, 2013.
6. Миргалеев, А.Т. Формирование семантической сети для получения знаний в информационно-аналитических системах [Текст]/ А.ТМиргалеев //Информационно-измерительные и управляющие системы. -М.: Радиотехника. №2, т.11, 2013.
7. Довбня, В. Г., Шельдешов, С.И. Метод представления знаний в системах понимания текстов [Текст]/ В. Г. Довбня, С.И.Шельдешов //Информационно-измерительные и управляющие системы. -М.: Радиотехника. №2, т.11, 2013.
8. Сизов, А.С, Шельдешов, С.И. Формализация многомерных слабоструктурированных данных на основе разреженных гиперкубов[Текст]// Инновации в информационно-аналитических системах: сб. научн. трудов. Вып.
5 - Курск: Науком, 2013. - с.5, ил. ISBN 978-5-4297-0009-0
9. Уваров, А.Н., Челышов, С.Ю. Подход к описанию обстановки в информационно-аналитических системах[Текст]// Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 - Курск: Науком, 2013. - с.23, ил. ISBN 978-5-4297-0009-0
10. Довбня, В.Г., Миргалеев, А.Т., Шельдешов, С.И. Метод формирования описаний ситуаций в системах понимания текстов[Текст]// Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 - Курск: Науком, 2013. - с.30, ил. ISBN 978-5-4297-0009-0
25