Научная статья на тему 'Метод извлечения информации из массивов неструктурированных текстов'

Метод извлечения информации из массивов неструктурированных текстов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1071
197
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
информационно-аналитическая система / естественно-языковые данные / сущности / аналитические документы / рубрикация / база правил / information-analytical system / the natural language data / essence / analytical documents / a rubrication / base of rules.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Захаренков А.И., Соколов А.В.

Предложен метод извлечения фактов измассивов естественно-языковых текстовыхданных информационно-аналитических систем,позволяющий производить автоматическое извлечение фактов из текстовых данных для последующего автоматического формированияоценки (описания) ситуаций и построения аналитических документов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Method of

The method of extraction of the facts from files of the natural language text given informationanalytical systems is offered. The presented method allows to make automatic facts extraction from the text data for the subsequent automatic formation of an estimation (description) of situations and analytical documents construction.

Текст научной работы на тему «Метод извлечения информации из массивов неструктурированных текстов»

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0

ИЗВЛЕЧЕНИЕ ДАННЫХ ИЗ ИНФОРМАЦИОННЫХ РЕСУРСОВ

УДК 681.5.01+51-74

Работа выполнена при финансовой поддержке Министерства образования и науки РФ в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007 - 2013 гг.», государственный контракт № 07.514.11.4135.

Захаренков А.И., Соколов А.В.

МЕТОД ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ ИЗ МАССИВОВ НЕСТРУКТУРИРОВАННЫХ ТЕКСТОВ

Предложен метод извлечения фактов из массивов естественно-языковых текстовых данных информационно-аналитических систем, позволяющий производить автоматическое извлечение фактов из текстовых данных для последующего автоматического формирования оценки (описания) ситуаций и построения аналитических документов.

Ключевые слова: информационно-аналитическая система, естественно-языковые данные, сущности, аналитические документы, рубрикация, база правил.

Zaharenkov A.I., Sokolov A.V.

Method of еxtraction of the information from files of not structured

texts

The method of extraction of the facts from files of the natural language text given information-analytical systems is offered. The presented method allows to make automatic facts extraction from the text data for the subsequent automatic formation of an estimation (description) of situations and analytical documents construction.

Keywords: information-analytical system, the natural language data, essence, analytical documents, a rubrication, base of rules.

44

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 -Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0

В основу предлагаемого метода положена итеративное выполнение следующих основных функций:

- структуризация естественно-языкового (ЕЯ) текста;

- структуризация предложений;

- выявление объектов и предикатов (формирование из предложений сущностей);

- поиск фактов (формирование отношений между сущностями);

- описание фактов (формирование отношений для аннотации);

- формирование результирующего документа.

Схема метода извлечения фактов из текстовых документов, представленных на русском и английском языках, приведена на рисунке 1.

Для реализации метода извлечения фактов из текстов предварительно должна быть сформирована база, определяющая правила извлечения сущностей и отношений между ними.

При формировании сущностей осуществляется следующее.

1 Определяются все числовые значение, имена собственные, объекты исследования и т.п., затем удаляются лишние пробелы.

2 Выявляются предикаты объектов, предложных групп и даты/времени.

Рис. 1 - Метод извлечения фактов из текстовых документов,

представленных на русском и английском языках

Ключевым элементом на данном этапе являются правила поиска сущностей. Каждое правило описывается посредством одной из следующих функций:

а) SSiRE - функция определения соответствия входного элемента правилу отбора сущностей;

45

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 -Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0

б) SSwRE - функция поиска во множестве входных данных хотя бы одного элемента, удовлетворяющего правилу отбора сущностей;

в) SGrRE - функция перебора во множестве элементов входных данных, при этом одновременно все элементы должны соответствовать правилу отбора сущностей.

Входные данные функции SSiRE, SSwRE, SGrRE - некоторое выражение (правило отбора сущностей) и исходные данные.

Входные данные функции SSiRE, SSwRE, SGrRE - логическое значение соответствия или несоответствия данных выражению (правилу отбора сущностей).

Для реализации потенциала функций необходимы следующее:

1) последовательность операций для проверки соответствия;

2) минимальное количество совпадений;

3) максимальное количество совпадений.

Для выполнения операций над данными каждая функция может вызывать другие функции. На рисунке 2 представлен алгоритм поиска сущности в ЕЯ текстовом документе на русском и английском языках в соответствии с задаваемыми правилами.

Рис. 2 - Алгоритм поиска сущности в ЕЯ текстовом документе на русском и английском языках

46

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 -Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0

(I_EAJ - структура данных, содержащая порядковые индексы начала и конца последовательности входных элементов.

{OEA}- структура данных типа «список», каждый элемент которого содержит верхнюю и нижнюю границы найденного соответствия.

Основными сущностями (с соответствующими им правилами), которые позволяют реализовать извлечение отношений являются:

а) сущность-предикат (pr) - множество элементов, состоящих из глагола (причастие, деепричастие) или краткого прилагательного и дополняющих слов (наречий). На рисунке 3 представлен пример программной реализации (на языке c#) одного из правил поиска pr;

private RuleGetPredicateRuleVerbsQ()

{

getNotElement(); getAdverbs(); getVerbsRule();

newGroupRuleElement[newBaseElements.RuleElement] = getNotElement(getVerbsRule,1,1); return newRule ("Предикат из HE и нескольких глаголов", newBaseElemenfcsRu.leElern.ent [ ] , newSwifcciiRuleElement(newBaseElementsRuleElemenfc[ ] ) , newGroupRuleElement(newBaseElementsRuleElemenfc[]));

}

private getNotElement()

{

return newWordRuleElement("He", null, 0,1);

}

private getAdverbs()

{

return newGroupRuleElement (newBaseElements.RuleElement,

newSwitchRuleElement(newBaseElementsRuleElement), getPronominalAdverb(), b, 2);

}

private getVerbsRule()

{

return newGroupRuleElement (newBaseElements/RuleElement[]<newWordRuleElement("Глагол"( null, 1, 1));

}

Рис. 3 - Пример программной реализации одного из правил поиска pr

б) сущность-дата/время (d/t) - множество элементов, которые все вместе обозначают дату и (или) время;

в) числовое значение (num) - множество элементов, представляющее численное значение;

г) сущность-объект (obj) - множество элементов, обозначающее одну сущность (явление, процесс) реального мира;

д) предложная группа (p gr) - множество элементов, состоящее из предлога и объекта (объектов).

Стереотипные ситуации из ЕЯ текстов описываются множеством специфичных отношений, зависящих от объекта и предмета исследования, и, по которым строится описание ситуации в информационно-аналитичесаких системах (ИАС). Наиболее значимыми объектами являются объекты из множества O (множество описаний объектов исследования, в качестве которых выступают организации, персоны, страны, области, города, реки и т.п., выражаемые в тексте именами собственными). Следует отметить, что каждая стерео-

47

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 -Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0

типная ситуация является частным случаем одного из следующих более общих (неспецифичных) отношений:

1) Объект - Предикат - Объект (O_Pr_O) - множество элементов, обозначающее взаимодействие между несколькими объектами;

2) Объект - Предикат - Свойство (OPrPrp) - множество элементов, обозначающее свойство объекта.

После выявления отношений между сущностями осуществляется редукция сущностей, входящих в состав отношений: каждая сущность трансформируется в минимально необходимое множество слов, необходимое для описания сущности. Правила редукции описываются отдельно для каждого типа сущности. Тезаурус T используется как для редукции сущностей, так и для формирования отношений таким образом, чтобы одинаковые сущности в одном и том же тексте имели одинаковое текстовое представление.

Алгоритм поиска сущности итеративно вызывает функцию поиска возможной позиции сущности в ЕЯ текстовом документе. Алгоритм соответствующей функции представлен на рисунке 4.

В представленном алгоритме приняты следующие обозначения:

а) c_i - это индекс текущего обрабатываемого элемента входной последовательности, переменная;

б) s i - это нижняя граница предполагаемого соответствия.

На рисунке 5 представлен алгоритм обработки правила, обеспечивающий рекурсивный вызов обработчиков элементов для сложных правил отбора сущностей.

Функция SSiRE, обрабатывает простые условия соответствия, налагаемые на один элемент входной последовательности (алгоритм представлен на рисунке 6). Функция SSwRE, обрабатывает условия соответствия хотя бы одного элемента из заданных правилом элементу входной последовательности (алгоритм представлен на рисунке 7). Функция SGrRE, обрабатывает условия соответствия одновременно нескольких элементов правила заданной входной последовательности (алгоритм представлен на рисунке 8).

Функции f re, f_se и f_gr представленные на рисунках 6 - 8 - это функции-элементы правила поиска сущности. Счетчик c предназначен для накопления количества совпадений обрабатываемой функции.

При формировании отношений между сущностями (поиск фактов) создаются Sl0tP между: Объект-Предикат-Объект, Объект-Предикат-Свойство.

Формировании отношений для аннотации (описание фактов) проводится отбор S Pr ed с использованием следующих критериев (по уменьшению приоритета):

а) наличие важного ключевого предикативного слова (глагола, причастия, деепричастия, краткого прилагательного);

б) наличие важного ключевого слова-существительного;

в) наличие ключевой фразы, заданной пользователем.

48

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 -Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0

Рис. 4 - Алгоритм поиска возможной позиции сущности в ЕЯ текстовом документе

49

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0

Рис. 5 - Алгоритм обработки правила, обеспечивающий рекурсивный вызов обработчиков элементов для сложных правил отбора сущностей

50

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 -Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0

Рис.6 - Алгоритм функции SSiRE, при обработке простых условий соответствия, налагаемых на один элемент входной последовательности

51

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0

Рис. 7 - Алгоритм функции SSwRE обработки условий соответствия одного элемента из заданных правилом элементу входной последовательности

52

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0

Рис. 8 - Алгоритм функции SGrRE обработки условий соответствия одновременно нескольких элементов правила заданной входной последовательности

53

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 -Курск: Науком, 2013. - 92 с., ил. ISBN 978-5-4297-0009-0

При формировании аннотации размером 5-10% от оригинального текста используется комбинирование критериев. По достижении желаемого объема применение критериев для отбора отношений прекращается, а аннотация считается сформированной.

Проверка наличия неопределенности в найденных фактах осуществляется при наличии одинаковых фактов F, полученных из различных источников информации. При этом определяется какому из извлеченных фактов стоит доверять, а, следовательно, поместить в формируемый отчетный документ (ОИД). ОИД содержит множество сгруппированных фактов.

Разработанный метод позволит производить автоматическое извлечение фактов из текстовых данных для последующего автоматического формирования оценки (описания) ситуаций и построения аналитических документов. Новизна предложенного метода состоит в обеспечении возможности автоматического извлечения фактов из текстовых данных в форме, пригодной для оценки ситуаций пользователем.

Разработанный метод извлечения фактов из текстовой информации, представленной на русском языке и английском языках позволяет автоматически формировать аннотации из рассматриваемых текстовых документов путем выделения на основе специальных правил сущностей и связей между ними, и учитывает возможность устранения неопределенности в извлекаемых фактах [5 - 7].

Библиографический список

1 Sunita Sarawagi - Information Extraction - Foundations and Trends in Databases^^^// Vol. 1, 2007. No. 3.-p. 261-377.

2 Hamish Cunningham - Automatic Information Extraction, 2004.-р. 22.

3 Fabian M. Suchanek - Information Extraction, 2011, [Электронный ресурс] - Режим доступа: suchanek.name/work/ teaching/IE2011a.pdf. - Загл. с экрана.

4 Fabian M. Suchanek - Natural Language Processing, 2011, [Электронный ресурс] - Режим доступа: http://suchanek.name/work/teaching/-

NLP2011senegal/NLP2011senegaLpdf. - Загл. с экрана.

5 Кониченко, А.А., Соколов, А.В. Классификация последовательностей сигналов, основанная на кодах[Текст]/ А.А. Кониченко, А.В. Соколов // Информационно-измерительные и управляющие системы. -М.: Радиотехника. №2, 2012.

6 Бутов, А.Л., Миргалеев, А.Т. Метод извлечения фактов в информационно-аналитических системах из информации, представленной на естественном языке[Текст]/ А.Л. Бутов, А.Т. Миргалеев //Информационно-измерительные и управляющие системы. -М.: Радиотехника. №2, 2012.

7 Миргалеев, А.Т., Теплова, В.В. Подход к формализации задачи оценки времени эвакуации людей с этажа образовательного учреждения в информационно-аналитических системах пожарной безопасности[Текст]/ А.Т. Миргалеев, В.В. Теплова // Информационно-измерительные и управляющие системы. -М.: Радиотехника. №2, 2012.

54

i Надоели баннеры? Вы всегда можете отключить рекламу.