Метод формализации естественно-языковых данных в системах мониторинга

Захаренков А.И.; Уваров А.Н.

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 -Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0

УДК 621.396.43

Работа выполнена при финансовой поддержке Министерства образования и науки РФ в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007 - 2013 гг.», государственный контракт № 07.514.11.4135.

Захаренков А.И., Уваров А.Н.

МЕТОД ФОРМАЛИЗАЦИИ ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ДАННЫХ В СИСТЕМАХ МОНИТОРИНГА

Предложен метод формализации естественно-языковых данных, представленных в базе данных информационно-аналитических систем, позволяющий формировать реферат, содержащий смысл текста в виде извлеченных фактов.

Ключевые слова: информационно-аналитическая система, естественно-языковые данные, формализация естественно-языковых данных, интеллектуальная обработка данных, лингвистический процессор.

Zaharenkov АХ, Uvarov А.К

Method of formalisation of the natural language data to monitoring systems

The method of formalisation of the natural language data presented in a database of information-analytical systems is offered. The presented method allows to form the digest (abstract) containing sense of the text in the form of the taken facts.

Keywords: information-analytical system, the natural language data, formalisation of the natural language data, intellectual data processing, the linguistic processor.

Метод формализации естественно-языковых данных, представленных в базе данных (БД) информационно-аналитических систем (ИАС), основан на алгоритме структурирования и лингвосемантического анализа естественноязыкового текста [1].

На начальном этапе, в качестве исходных данных формируется естественно-языковой (ЕЯ) запрос. Далее в ИАС, после обработки исходных данных, формируется запрос к БД на выбор необходимых текстов. По полученным из БД по запросу ЕЯ текстам проводится процедура их анализа и

16

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 -Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0

дальнейшая интерпретация. В результате на выходе алгоритма формируется тезаурус по заданной предметной области и реферат текста в ответ на поступивший ЕЯ-запрос.

Обобщенная схема метода формализации естественно-языковых данных показана на рисунке 1. Реализация метода формализации естественно-языковых конструкций включает следующие этапы:

1. Получение исходного текста на ЕЯ из БД.

2. Проведение анализа текста с использованием лингвистического процессора.

3. Интерпретация текста.

4. Генерация реферата текста.

Далее представлено описание этапов реализации метода формализации естественно-языковых конструкций.

Этап 1. Получение исходного текста на ЕЯ из БД

На данном этапе на вход ИАС подается текст на ЕЯ.

Этап 2. Проведение анализа текста с использованием лингвистического процессора

На данном этапе реализуется структурирование и анализ текста. Для анализа используется лингвистическое обеспечение, состоящее из базы фактов и базы правил.

Компоненты, применяемые на этапе 2 являются подсистемами-лингвистическими процессора, предназначенными для обработки ЕЯ-текста поступившего на вход ИАС.

В состав лингвистического процессора входят следующие компоненты:

- компонента графематический анализа (КГА);

- компонента морфологического анализа (КМА);

- компонента фрагментационного анализа (КФА);

- компонента синтаксического анализа (КСинА);

- компонента семантического анализа (КСинА);

Далее, рассмотрены особенности построения представленных компонент.

Графематический анализ.

КГА обеспечивает выполнение предварительных действий над текстом путем структурирования текста, выделения в тексте разделов, подразделов, предложений, разбиение сложных предложений на простые. Далее реализуется разбиение входного текста на минимально значимые элементы текста - слова (выделение последовательности лексем). Все символы входной последовательности разделяются на символы, принадлежащие каким-либо лексемам, и символы-разделители.

17

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0

Текст на естественном языке в БД

Реферат (дайджест) текста в БД

Рис. 1 - Обобщенная схема метода формализации ЕЯ данных

На вход КГА подается текст, на выходе строится графематическая таблица, в которой на каждой строке стоит слово или разделитель из входного текста. Компонент выделяет некоторые аббревиатуры, имена с инициалами, даты и т.д. В результате формируется множество лексем:

L = {l^i = 1 k, k—Mmecmeo лексемв тексте } . (1)

где

Каждой лексеме приписывается вектор значений:

Pi = (Pi, ni, ni, np, nf, n<i),

Pi - уникальный номер вектора лексемы; n'i - порядковый номер лексемы в предложении; ni - порядковый номер предложения в тексте; np - номер параграфа;

(2)

18

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 -Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0

ni - номер раздела;

c

nt - номер главы.

Графематическая таблица состоит из двух столбцов. В первом столбце стоит лексема, во втором столбце стоят графематические дескрипторы, характеризующие эту лексему. Дескрипторы создают формальное описание текста на уровне графематики, которое уже поддается дальнейшей автоматизированной обработке в терминах лингвистических теорий.

Морфологический анализ.

Входной информацией КМА является множество лексем (графематическая таблица) предложения, база фактов лингвистического обеспечения. Цель морфологического анализа (МА) на данном этапе состоит в том, чтобы для каждой лексемы определить:

а) полную морфологическую характеристику - морфологосинтаксический класс и полный набор значений для категорий, свойственных этому классу;

б) лемму - основную форму слова.

Поэтому МА представляется четверкой:

MMA = (SRW, PE, ICA, GMI, RSC)

(3) ’

где SRW - поиск готовой лексемы;

PE - выделение основы и окончания;

ICA - поиск флективного класса словоформы;

GMI - формирование вектора морфологической информации;

RSC - формирование конфликтного множества.

В КА реализуется следующая последовательность операций:

а) поиск лексем, выделенных в ходе графематического анализа, в словаре готовых словоформ;

б) поиск словоформы в словаре основ всех частей речи и определение окончания,

в) поиск основы без окончания в словаре основ;

г) определение флективного класса по готовой основе словоформы (одной основе может соответствовать несколько флективных классов);

д) формирование конфликтного множества флективных классов, если для одной словоформы найдено несколько флективных классов;

е) разрешение конфликтного множества флективных классов с использованием продукционных правил, в которых активизируется морфологическая информация словоформ;

ж) определение по окончанию и флективному классу по таблице совместимости вектора морфологической информации;

и) формирование конфликтного множества векторов морфологической информации, если для одной словоформы найдено несколько векторов морфологической информации.

По завершении МА для каждой лексемы может иметь место несколько векторов морфологической информации.

19

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0

Фрагментационный анализ.

Входной информацией для ФА являются вектора морфологической информации, приписанные лексемам исходного текста.

Задача ФА состоит в выделении в предложении синтаксических единств (фрагментов) больших или равных словосочетанию (синтаксической группе) и в установлении иерархии на множестве этих единств.

В ходе применения ФА можно выделить три группы продукционных правил:

а) правила, уничтожающие некоторые омонимы;

б) правила, устанавливающие иерархию;

в) правила, которые объединяют два дистантно расположенных фрагмента или группу контактных (непосредственных соседей). При этом все объединявшиеся фрагменты уничтожаются и создается один большой фрагмент. Его границы определяются стандартно из границ объединенных фрагментов; заполнение других полей в структуре фрагмента определяется каждым правилом отдельно.

Общий алгоритм процесса выделения фрагментов в тексте может быть описан следующим образом [4]. Пусть li - произвольное понятие текста, содержащее одну лексему, тогда x - цепочка из k подряд идущих лексем за лексемой l. , не прерываемых знаками препинания (т.е. фрагмент), W(у) -частота совместной встречаемости лексем цепочки в тексте.

В процессе ФА подсчитывается частота вхождения f (h) лексемы li, выраженной именем существительным, в текст. При этом формируется множество

L' = {((., f (lt)) f (lt) > 1, i = 1 У m, ткол во имен существительныхв тексте } .

Далее для каждой 1.е L строятся множества левосторонних и правосторонних фрагментов. При этом выделяют различные типы фрагментов:

а) глагольные: глагол + существительное или местоимение (с предлогом или без); глагол + инфинитив или деепричастие; глагол + наречие;

б) именные: субстантивные (согласуемое слово + существительное; существительное + существительное; существительное + наречие; существительное + инфинитив); адъективные (прилагательное + наречие; прилагательное + существительное или местоимение; прилагательное + инфинитив); с главным словом числительным; с главным словом местоимением;

в) наречные: наречие + наречие; наречие + существительное.

В тексте осуществляется поиск фрагментов всех типов и для каждого фрагмента У е X подсчитывается частота совместной встречаемости F(у).

Также в ходе ФА в тексте выделяются композиционные термины -специфические термины предметной области, состоящие из двух фрагментов. Выявление композиционных терминов происходит путем анализа их совместной встречаемости в тексте. Если они встречаются более одного раза,

20

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0

то можно считать, что такое сочетание фрагментов является композиционным термином y е Y, которое определяется как:

v. yk = xt 0X: оx ; i Ф j Фг; i, j,r =1 фп, n- кол - во простых фрагментов в тексте, □

□ .

г =1 Ф-q, q - кол - во двухсоставных терминов, xr - возможно пустойфрагмент □

Y

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Тогда общее множество композиционных терминов текста определяется по формуле (5.5):

I

(4)

где Z - множество лексем из стержневых слов фрагментов.

Таким образом, на выходе ФА - текст, состоящий из предложений, разбитых на линейно неразрывные фрагменты. На фрагментах установлена иерархия, т.е. про каждый фрагмент известно, какие фрагменты в него непосредственно вложены и в какие он непосредственно вложен. Каждому фрагменту приписано множество типов и список союзов и союзных слов, входящих в фрагмент.

Синтаксический анализ.

СинА на входе имеет линейно упорядоченное лексическое построение предложения, в котором все лексемы имеют информацию о типе и грамматических характеристиках. Результат СинА представляется в виде графа зависимостей. Формальное описание модели СинА имеет вид:

SA = (P, W,П, Q, G) (5)

где P - входное предложение;

П - промежуточное представление графа зависимостей;

W - правила перехода структуры предложения P к П ;

Q - правила определения итогового графа зависимостей;

G - граф зависимостей.

Входное предложение естественного языка P определяется как множество кортежей:

=□( l, р\ )| l е L, L - множество лексем предложения P, р\ - вектор морфологической □

□ информации; i =1 фп, n - количество лексем в предложении P □

Выполнение СинА обеспечивается посредствам грамматик входного и выходного языка, продукционных правил СинА, системы фильтров, грамматики преобразований, словарей, алгоритмов и способов выхода из нештатных ситуаций.

Выходное представление результатов проведения СинА G представляет собой множество простых синтаксических конструкций и имеет вид графа зависимостей:

G =< L'\ О, (6)

где L' - множество вершин графа G ;

С - множество дуг.

21

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 -Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0

Итоговый граф зависимостей G должен быть ацикличным связным графом. Он не может иметь петель, т.к. применяемые продукционные правила учитывают как морфологическую информацию лексем, так и порядок лексем в естественно-языковом предложении.

Если в результате МА сформировано конфликтное множество вектором морфологической информации, в КСинА строится несколько графов зависимостей и, соответственно, возникает конфликтное множество графов зависимостей. Для разрешения конфликтного множества графов зависимостей целесообразно использовать комбинацию способа, основанного на применении нейронной сети, и метода нечеткого регулирования Мамдани

[3].

Семантический анализ.

В КСемА реализуется функция согласования трех разных «языков»:

а) языка построенных системой лингвистических структур (входная информация);

б) языка предметной области, к которой относится текст и термины которой необходимо использовать при построении реферата текста (выходная информация);

в) языка пользователя, для которого строится реферат текста.

Данная функция обеспечивается посредствам метаязыка семантических структур, общей стратегии СемА, общесемантического словаря, правил интерпретации входных структур, правил вывода.

Последовательность операций СемА следующая:

а) «прямая» интерпретация результатов СинА - создание семантического представления каждого предложения текста;

б) анализ лексических валентностей (сильных связей). При этом под сильными понимаются те семантические отношения, которые входят в описание значений лексем в качестве их валентностей в семантическом словаре;

в) интерпретация слабых связей;

г) создание первичного ситуационного представления. При этом под ситуационным представлением понимается структура, репрезентирующая понимание минимального текстового высказывания в терминах и в соответствии с грамматикой заданного семантического языка.

Этап 3. Интерпретация текста.

На данном этапе путем семантической и прагматической (проблемную) интерпретации из анализируемого текста извлекается его прагматическое содержание.

Интерпретация (понимание) текста на ЕЯ - это механизм, включающий сложные, непрерывные и соподчиненные процессы: преобразование

морфологически и синтаксически правильных, семантически связанных и прагматически полных фрагментов текста на естественном языке в последовательность внутренних образов; организация взаимодействия последовательности внутренних образов с компьютерной системой знаний;

22

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 -Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0

формирование образа фрагмента текста; выполнение некоторых действий в соответствии с целями человеко-машинного общения и контекстом фрагмента.

На данном этапе происходит сопоставление семантического графа с семантической сетью. В результате сопоставления происходит следующее:

а) выявление контекста (подграфа), соответствующего запросу, и получение из него содержательной информации;

б) формирование запроса к БД.

Этап 4. Г енерация реферата текста.

Данный этап включает в себя:

1 Автоматическое выделение словосочетаний и формирование частотных словарей в каждом документе подкластера. Проводится разделение текста на предложения, определение предварительных границ словосочетаний в предложениях и формирование поисковых образов словосочетаний, осуществляется подсчет количества слов в словосочетаниях. Далее производится сортировка списка словосочетаний и исключение из этого списка словосочетаний с совпадающими поисковыми образами.

2 Определение значимых предложений из каждого документа подкластера. Из частотных словарей выбираются слова и словосочетания с частотой более 1. Всем словарным единицам присваивается вес. Слова и словосочетания проверяются на вхождение в каждое предложение текста и определяется вес каждого предложения, на основе которого проводится отбор наиболее значимых предложений.

3 Формирование общего списка тем подкластера. Предложения, выбранные из каждого текста подкластера, объединяются в один список, в котором с использованием тезауруса выявляются близкие по смыслу предложения. Из двух тождественных предложений убирается то, которое полностью входит в другое предложение.

4 Построение итогового реферата текста (дайджеста). Производится сортировка всех документов в порядке уменьшения в них количества тем, а в случае одинакового количества - в порядке уменьшения размера документа. Из упорядоченного текста выбирается первый документ, из которого в реферат выводятся темы в порядке их расположения в документе. Для каждой выведенной темы находятся все документы, в которых она встречается. Выбранные документы сортируются и убираются дубли, затем исключаются рассмотренные документы. Из оставшихся документов в реферат выбираются те темы, которые еще не встречались.

Приведенная последовательность действий повторяется для каждого документа из подкластера.

Таким образом, разработанный метод формализации ЕЯ конструкций в ИАС, позволяет осуществлять представление неструктурированных текстов, хранящихся в реляционных БД, в виде рефератов (дайджестов).

Библиографический список

23

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 -Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0

1. Шатуновский И. Б. "Основные когнитивно-коммуникативные типы общих вопросов в русском языке", Академия наук СССР институт русского языка «Русская грамматика» — М.: Наука, 1980.

2. Леонтьева Н.Н. Автоматическое понимание текстов: системы, модели, ресурсы: учеб. пособие для студ. лингв. фак. вузов [Текст] / Н.Н. Леонтьева. - М.: Издательский центр «Академия», 2006. - 304 с.

3. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие [Текст] / Большакова Е.И., Клы-шинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. - М.: МИЭМ, 2011. - 272 с.

4. Кониченко, А.А., Соколов, А.В. Классификация последовательностей сигналов, основанная на кодах[Текст]/ А.А. Кониченко, А.В. Соколов // Информационно-измерительные и управляющие системы. -М.: Радиотехника. №2, 2012.

24

Метод формализации естественно-языковых данных в системах мониторинга Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Захаренков А. И., Уваров А. Н.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Захаренков А. И., Уваров А. Н.

Method of formalisation of the natural language data to monitoring systems

Текст научной работы на тему «Метод формализации естественно-языковых данных в системах мониторинга»