Научная статья на тему 'Подход к семантическому анализу текстовых баз данных в информационно-аналитических системах'

Подход к семантическому анализу текстовых баз данных в информационно-аналитических системах Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
157
63
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Миргалеев А.Т., Соколов А.В.

Представлен подход к семантическомуанализу текстовых баз данных винформационно-аналитических системах,позволяющий приступить к разработкеварианта формализации процессовавтоматического ситуационного анализаили «понимания» текстов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Миргалеев А.Т., Соколов А.В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Подход к семантическому анализу текстовых баз данных в информационно-аналитических системах»

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 4 Курск: Науком, 2012. - 128 с., ил. ISBN 978-5-4297-0004-5

УДК 004.91

Работа выполнена при финансовой поддержке Министерства образования и науки РФ в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007 - 2013 гг.», государственный контракт № 07.514.11.4115.

Миргалеев А.Т., Соколов А. В.

ПОДХОД К СЕМАНТИЧЕСКОМУ АНАЛИЗУ ТЕКСТОВЫХ БАЗ ДАННЫХ В ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИХ СИСТЕМАХ

Представлен подход к семантическому анализу текстовых баз данных в информационно-аналитических системах, позволяющий приступить к разработке варианта формализации процессов автоматического ситуационного анализа или «понимания» текстов.

В информационно-аналитических системах (ИАС), ориентированных на обработку естественно-языковых текстов (например, для ситуационного анализа), используются различные методы формализации языковых конструкций. В основе процедур формализации, применяемых в указанных методах, лежит лингвосемантический анализ, подходы к которому прямым образом влияют на эффективность функционирования ИАС. Показано, что существующие подходы не в полной мере обеспечивают возможность дальнейшей реализации ситуационного анализа в ИАС.

Показано, что в ИАС ситуационного анализа, целесообразно использовать предложенный в [1] алгоритм структурирования и лингвосемантического анализа естественно-языкового текста (рис. 1).

Сущность указанного алгоритма заключается в следующем. От пользователя поступает запрос на естественном языке. Система с использованием типового процесса, который в [1] называется «Лингвистический процессор», обрабатывает данный запрос и посылает свой запрос к БД на выбор необходимых текстов.

23

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 4 -Курск: Науком, 2012. - 128 с., ил. ISBN 978-5-4297-0004-5

Далее процесс «Лингвистический процессор» применяется уже к текстам, полученным из базы данных. Результат данной операции проходит процедуру интерпретации.

Исходные данные: тексты в БДиЗ ИАС (база фактов лингвистического обеспечения, база правил лингвистического обеспечения), семантическое обеспечение

Выходные данные: тезаурус, реферат текста

(^Конец

Рис. 1 - Алгоритм структурирования и лингвосемантического анализа естественно-языкового текста для его формализации в БД

На выходе алгоритма должен быть получен сформированный тезаурус по заданной предметной области и реферат текста в ответ на запрос пользователя.

Задача создания и обработки тезауруса является крайне сложной и нелинейной. В настоящее время полностью автоматическое создание не

24

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 4 -Курск: Науком, 2012. - 128 с., ил. ISBN 978-5-4297-0004-5

представляется возможным. Необходимо разделить задачи, которые эффективно выполнять в автоматическом режиме с применением алгоритмов обработки данных и те, которые эффективнее выполнять вручную.

Метод автоматизированного создания и обработки тезауруса состоит из нескольких этапов:

Этап 1. Предварительная обработка корпуса текстов: выполняются простейшие преобразования документов с целью представления их в виде пригодном для дальнейшей обработки с помощью методов машинного анализа текстовой информации.

Данный этап включает в себя:

1) извлечение слов и словосочетаний из корпуса текстов;

2) лемматизацию слов, то есть получение канонической формы

слов;

3) установление частей речи;

4) синтаксический анализ корпуса.

Этап 2. Кластеризация корпуса текстов. Требуется, если корпус текстов плохо структурирован и содержит документы, относящиеся к разным предметным областям.

Этап 3. Построение множества предпочтительных дескрипторов. Формирование множества слов и словосочетаний кандидатов для включения в тезаурус. Эксперт, руководствуясь множеством кандидатов, составляет список ключевых понятий предметной области.

Данный этап включает в себя:

а) построение базиса признаков;

б) вычисление координат дескрипторов в базисе признаков;

в) вычисление матрицы подобия дескрипторов;

г) построение множества отношений между дескрипторами.

Этап 4. Поиск в словаре синонимов отношений связей между дескрипторами тезауруса, редактирование экспертом автоматически найденных отношений и окончательное группирование дескрипторов в концепты.

Этап 5. Построение множества ассоциативных и иерархических отношений. Формирование множества не типизированных отношений кандидатов между дескрипторами тезауруса. Эксперт, используя построенное множество, определяет окончательное множество иерархических и ассоциативных связей между концептами тезауруса.

Технология автоматизированного создания и обработки тезауруса представлена на рис. 2.

25

ручная обработка

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 4 ■ Курск: Науком, 2012. - 128 с., ил. ISBN 978-5-4297-0004-5

ОЗ

ё

ю

ей

Он

ю

о

§

и

о

о

ЕГ

К

й

S

о

н

СО

аЗ

I

Рис. 2 - Технология автоматизированного создания и обработки

тезауруса

Таким образом, разработан подход к семантическому анализу текстовых баз данных в информационно-аналитических системах на основе создания и обработки тезауруса. Указанный подход позволяет перейти к

26

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 4 -Курск: Науком, 2012. - 128 с., ил. ISBN 978-5-4297-0004-5

формализации процессов извлечения фактов, ситуационному анализу, «пониманию» естественно-языковых текстов в ИАС.

Библиографический список

1. Семантическая нейронная сеть как формальный язык описания и обработки смысла текстов на естественном языке / З.В. Дударь, Д.Е. Шуклин //Радиоэлектроника и информатика. - Харьков: Изд-во ХТУРЭ, 2000. - №3.- С.72-76.

27

i Надоели баннеры? Вы всегда можете отключить рекламу.