Научная статья на тему 'Концептуальная схема функционирования информационно-аналитической системы обработки естественного языка'

Концептуальная схема функционирования информационно-аналитической системы обработки естественного языка Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
324
59
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Миргалеев А. Т., Кониченко А. В., Головин С. В.

Разработаны предложения поструктуре и организациифункционирования класса информационно-аналитических систем, ориентированныхна обработку текстов, представленных наестественном языке.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Концептуальная схема функционирования информационно-аналитической системы обработки естественного языка»

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 4 Курск: Науком, 2012. - 128 с., ил. ISBN 978-5-4297-0004-5

УДК 004.91

Работа выполнена при финансовой поддержке Министерства образования и науки РФ в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007 - 2013 гг.», государственный контракт № 07.514.11.4115.

Миргалеев А.Т., Кониченко А.В., Головин С.В.

КОНЦЕПТУАЛЬНАЯ СХЕМА ФУНКЦИОНИРОВАНИЯ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКОЙ СИСТЕМЫ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА

Разработаны предложения по структуре и организации функционирования класса информационноаналитических систем, ориентированных на обработку текстов, представленных на естественном языке.

Информационно-аналитическая система (ИАС) должна состоять из следующих модулей - функциональных элементов:

а) базы данных (БД) - информационного хранилища;

б) формализации естественно-языковых данных, представленных в базах данных;

в) извлечения фактов из массивов естественно-языковых текстовых данных;

г) объединения фактов, представленных в различных текстовых документах на русском и английском языках;

д) формирования и корректировки онтологий;

е) формализации запросов, сформулированных на естественном языке;

ж) формирования и обработки семантической сети;

и) формирования описаний ситуаций.

БД представляет собой информационное хранилище, содержащее данные и знания, используемые ИАС.

К данным относятся:

а) служебная информация и параметры настроек ИАС;

16

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 4 -Курск: Науком, 2012. - 128 с., ил. ISBN 978-5-4297-0004-5

б) неструктурированные текстовые документы, представленные на русском и английском языках, используемые для формирования описаний ситуаций в ИАС.

К знаниям относятся:

а) онтологии различных уровней;

б) правила обработки текстовых документов.

Модульформализации естественно-языковых данных, представленных в базах данных,предназначен для обеспечения преобразования неструктурированных текстов на русском и английском языке в формальные структуры, пригодные для обработки с целью дальнейшего извлечения фактов. Содержит в себе правила обработки и сопоставления языковых конструкций со схемой RDF. Обеспечивает выполнение функций модулей извлечения фактов, формирования описаний ситуаций, онтологий, объединения фактов.

Модуль извлечения фактов из массивов естественно-языковых текстовых данных предназначен для выполнения интеллектуальной обра-боткиграфематической, морфологической и синтаксической структур текстов, а также для выявления данных по шаблонам «объект-отноше-ние-объект» и «объект-атрибут-значение». Предназначен для формализации предложений русского и английского языков и автоматического выявления основ предложений. Извлеченные факты представляются в модуле формирования описаний ситуаций в виде дайджеста, содержащего аннотации рассматриваемых текстов.

Модуль объединения фактов, представленных в различных текстовых документах на русском и английском языках, предназначен для реализации слияния одинаковых по смыслу или написанию сущностей в рамках сформированных аннотации или дайджеста. Позволяет выявлять и учитывать факты, относящиеся к одному и тому же событию, объекту, явлению.

Модуль формирования и корректировки онтологий предназначен для создания моделей предметной области (онтологий). Обеспечивает интуитивно понятное представление ситуации в графическом виде с использованием сущностей (концептов) и отношений между ними, заданных в виде направленных связей и позволяет назначать весовые коэффициенты, указывающие степень (силу) влияния одной сущности на другую. Позволяет задавать функции принадлежности нечетких множеств и описывать их. На выходе модуля формируется описание объекта исследования и заносится в (базу данных и знаний) БДиЗ ИАС.

Модуль формализации запросов, сформулированных на естественном языке предназначен для организации и представления правил обработки вопросительных предложений, представленных на русском и ан-

17

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 4 -Курск: Науком, 2012. - 128 с., ил. ISBN 978-5-4297-0004-5

глийском языке, в ЭО ИАС. Указанный модуль содержит визуальный интерфейс, позволяющий создавать, редактировать и удалять понятия и правила обработки вопросительных предложения, обеспечивает их интеграцию с модулем формализации естественно-языковых данных, представленных в БДиЗ ИАС.

Модуль формирования и обработки семантической сети предназначен для организации представления фактов, знаний, ситуаций и событий в виде семантической сети. В основе сети может быть использована НКК. Модуль должен выполнять автоматизированные поиск и обработку фактов, представленных модулем извлечения фактов, с целью формирования семантической сети, содержащей понятия, описывающие ситуацию, и типизированные связи между ними.

Модуль формирования описаний ситуаций предназначен для управления процессом формирования отчетных документов путем определения запроса документов из БДиЗ ИАС, определения документов, необходимых для формирования описания ситуаций, анализа документов и разбиения их на предложения, выявления грамматических признаков слов предложений (падеж, число, род и т.д.), приведения слов к базовой форме и формирования формы слова из базовой формы с указанными грамматическими признаками, а также получения всех возможных грамматических форм слова. В дальнейшем указанный модуль управляет процессом извлечения фактов и осуществляет группировку извлеченных фактов в дайджесты (аннотации) и формирование отчетных документов по шаблону путем выборки документов из БДиЗ, а также визуализации и подготовки печатных версий сформированных аналитических документов. Позволяет пользователю вручную редактировать содержание подготовленных отчетных документов.

С учетом предназначения модулей разработана функциональная схема организации ИАС. Она приведена на рис. 1.

Предполагается, что «эксперты» должны использоваться на этапе создания ИАС и обеспечивать формализацию знаний по предметным областям функционирующей ИАС.

«Аналитики» также используются на этапе создания ИАС в части формализации и алгоритмизации правил обработки неструктурированных текстов на русском и английском языках.

В результате анализа путей практической реализации ИАС и положений, рассмотренных в работах [1, 2], установлено, что потребуется поиск путей алгоритмизации решения ряда следующих задач:

а) автоматического (автоматизированного) сбора информации из распределенных источников;

18

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 4 -Курск: Науком, 2012. - 128 с., ил. ISBN 978-5-4297-0004-5

Рис. 1 - Функциональная схема ИАС

б) автоматической (автоматизированной) классификации и предварительного фактографического анализа собранных сведений;

в) автоматической (автоматизированной) обработки неструктурированной информации в текстовом виде, в частности, семантический анализ текстов;

19

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 4 -Курск: Науком, 2012. - 128 с., ил. ISBN 978-5-4297-0004-5

г) оперативного анализа неструктурированной и структурированной информации и извлечения фактов;

д) поддержки нечетких, неформализованных запросов пользователей на естественном русском и английском языках;

е) своевременного информирования пользователей о критически важных событиях;

ж) доступа к информационным хранилищам и их пополнения.

Для решения указанных задач потребуется разработка

программных алгоритмов, реализующих:

1) информационную модель и решение задачи понимания текстов путем формализации описания ситуации в виде дайджеста-ответа на вопрос;

2) организации объединения разнородных фрагментарно представленных неструктурированных текстовых данных и описанием ситуации на их основе;

з) методов и алгоритмов интеллектуального поиска и анализа семантически значимых и ценных фрагментов в неструктурированной текстовой информации.

На основе функциональной структуры ИАС разработана структурная схема ИАС, представленная на рис. 2. В соответствии с ней ИАС состоит из подсистем.

1. Подсистемы сбора данных.

2. БДиЗ - предметно-ориентированной информационной базы данных, специально разработанной и предназначенной для подготовки отчётов, анализа процессов с целью поддержки принятия решений.

3. Подсистемы обработки информации, обеспечивающей анализ документов, представленных на естественном языке, и формирование отчетных документов.

Подсистема сбора данных

Хранилище

данных

Подсистема обработки информации

Рис. 2 - Структурная схема ИАС

20

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 4 Курск: Науком, 2012. - 128 с., ил. ISBN 978-5-4297-0004-5

На основе структурной схемы разработана СФО предлагаемой ИАС, представленная на рис. 3.

Модуль формализации запросов, сформулированных на естественном языке

Модуль извлечения фактов из массивов естественно-языковых текстовых данных

Модуль объединения фактов, представленных в различных текстовых документах на русском и английском языках

Модуль формирования и обработки семантической сети

Модуль формирования описаний ситуаций

БД публикаций СМИ

БД

формализованных

текстовых

документов

БД

RSS публикаций

БД моделей вопросов, ответов, дайджестов

База данных и знаний ИАС

Подсистема обработки информации

Рис. 3 - СФО ИАС

Подсистема сбора данных осуществляет сбор, фильтрацию и загрузку информации из электронных источников.

21

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 4 -Курск: Науком, 2012. - 128 с., ил. ISBN 978-5-4297-0004-5

Модули загрузки электронных документов выполняет поиск и сохранение веб-страниц и других электронных документов из ГКС Интернет, осуществляют фильтрацию и рубрикацию всей собранной информации, реализуют поддержку работы с RSS-источниками данных.

БДиЗ представляет собой предметно-ориентированную информационную базу данных, разработанную и предназначенную для хранени-янеструктурированных данных и отчетных документов.БДиЗ состоит из БД публикаций СМИ, БД RSSпубликаций, БД формализованных текстовых документов, БД моделей вопросов, ответов, дайджестов, на основе которых формируются описания ситуаций, а также осуществляется понимание текстовой информации на ЕЯ.

Подсистема обработки информации - специализированная подсистема, предназначенная для автоматизированной обработки текстовой информации (формализации вопросов на ЕЯ, поиска и извлечения фактов, объединения фактов), формирования отчетных документов, их визуализации и представления пользователям. В подсистему обработки информации входят модули формализации естественно-языковых данных, формирования и корректировки онтологий, формализации запросов, формирования и обработки семантической сети, объединения фактов, которые в совокупности выполняемых ими функций по автоматизированной обработке текста составляют лингвистический процессор ИАС.

Таким образом, разработана концептуальная схема ИАС, включающая в себя структуру и СФО ИАС.

Библиографический список

1. Базаров Р. Конструктивная композиция [Текст] / Р. Базаров // «CIO». - 2006, № 6.

2. Электронное правительство: рекомендации по внедрению в Российской Федерации [Текст]. - Эко-Трендз, Москва. 2004.

22

i Надоели баннеры? Вы всегда можете отключить рекламу.