Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 4 Курск: Науком, 2012. - 128 с., ил. ISBN 978-5-4297-0004-5
УДК 004.91
Работа выполнена при финансовой поддержке Министерства образования и науки РФ в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007 - 2013 гг.», государственный контракт № 07.514.11.4115.
Миргалеев А.Т., Соколов А. В.
ПОДХОД К СЕМАНТИЧЕСКОМУ АНАЛИЗУ ТЕКСТОВЫХ БАЗ ДАННЫХ В ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИХ СИСТЕМАХ
Представлен подход к семантическому анализу текстовых баз данных в информационно-аналитических системах, позволяющий приступить к разработке варианта формализации процессов автоматического ситуационного анализа или «понимания» текстов.
В информационно-аналитических системах (ИАС), ориентированных на обработку естественно-языковых текстов (например, для ситуационного анализа), используются различные методы формализации языковых конструкций. В основе процедур формализации, применяемых в указанных методах, лежит лингвосемантический анализ, подходы к которому прямым образом влияют на эффективность функционирования ИАС. Показано, что существующие подходы не в полной мере обеспечивают возможность дальнейшей реализации ситуационного анализа в ИАС.
Показано, что в ИАС ситуационного анализа, целесообразно использовать предложенный в [1] алгоритм структурирования и лингвосемантического анализа естественно-языкового текста (рис. 1).
Сущность указанного алгоритма заключается в следующем. От пользователя поступает запрос на естественном языке. Система с использованием типового процесса, который в [1] называется «Лингвистический процессор», обрабатывает данный запрос и посылает свой запрос к БД на выбор необходимых текстов.
23
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 4 -Курск: Науком, 2012. - 128 с., ил. ISBN 978-5-4297-0004-5
Далее процесс «Лингвистический процессор» применяется уже к текстам, полученным из базы данных. Результат данной операции проходит процедуру интерпретации.
Исходные данные: тексты в БДиЗ ИАС (база фактов лингвистического обеспечения, база правил лингвистического обеспечения), семантическое обеспечение
Выходные данные: тезаурус, реферат текста
(^Конец
Рис. 1 - Алгоритм структурирования и лингвосемантического анализа естественно-языкового текста для его формализации в БД
На выходе алгоритма должен быть получен сформированный тезаурус по заданной предметной области и реферат текста в ответ на запрос пользователя.
Задача создания и обработки тезауруса является крайне сложной и нелинейной. В настоящее время полностью автоматическое создание не
24
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 4 -Курск: Науком, 2012. - 128 с., ил. ISBN 978-5-4297-0004-5
представляется возможным. Необходимо разделить задачи, которые эффективно выполнять в автоматическом режиме с применением алгоритмов обработки данных и те, которые эффективнее выполнять вручную.
Метод автоматизированного создания и обработки тезауруса состоит из нескольких этапов:
Этап 1. Предварительная обработка корпуса текстов: выполняются простейшие преобразования документов с целью представления их в виде пригодном для дальнейшей обработки с помощью методов машинного анализа текстовой информации.
Данный этап включает в себя:
1) извлечение слов и словосочетаний из корпуса текстов;
2) лемматизацию слов, то есть получение канонической формы
слов;
3) установление частей речи;
4) синтаксический анализ корпуса.
Этап 2. Кластеризация корпуса текстов. Требуется, если корпус текстов плохо структурирован и содержит документы, относящиеся к разным предметным областям.
Этап 3. Построение множества предпочтительных дескрипторов. Формирование множества слов и словосочетаний кандидатов для включения в тезаурус. Эксперт, руководствуясь множеством кандидатов, составляет список ключевых понятий предметной области.
Данный этап включает в себя:
а) построение базиса признаков;
б) вычисление координат дескрипторов в базисе признаков;
в) вычисление матрицы подобия дескрипторов;
г) построение множества отношений между дескрипторами.
Этап 4. Поиск в словаре синонимов отношений связей между дескрипторами тезауруса, редактирование экспертом автоматически найденных отношений и окончательное группирование дескрипторов в концепты.
Этап 5. Построение множества ассоциативных и иерархических отношений. Формирование множества не типизированных отношений кандидатов между дескрипторами тезауруса. Эксперт, используя построенное множество, определяет окончательное множество иерархических и ассоциативных связей между концептами тезауруса.
Технология автоматизированного создания и обработки тезауруса представлена на рис. 2.
25
ручная обработка
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 4 ■ Курск: Науком, 2012. - 128 с., ил. ISBN 978-5-4297-0004-5
ОЗ
ё
ю
ей
Он
ю
о
§
и
о
о
ЕГ
К
й
S
о
н
СО
аЗ
I
Рис. 2 - Технология автоматизированного создания и обработки
тезауруса
Таким образом, разработан подход к семантическому анализу текстовых баз данных в информационно-аналитических системах на основе создания и обработки тезауруса. Указанный подход позволяет перейти к
26
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 4 -Курск: Науком, 2012. - 128 с., ил. ISBN 978-5-4297-0004-5
формализации процессов извлечения фактов, ситуационному анализу, «пониманию» естественно-языковых текстов в ИАС.
Библиографический список
1. Семантическая нейронная сеть как формальный язык описания и обработки смысла текстов на естественном языке / З.В. Дударь, Д.Е. Шуклин //Радиоэлектроника и информатика. - Харьков: Изд-во ХТУРЭ, 2000. - №3.- С.72-76.
27