Научная статья на тему 'Метод автоматизированного извлечения понятий и парадигматических отношений тезауруса из текстов на естественном языке на базе лексико-синтаксических шаблонов'

Метод автоматизированного извлечения понятий и парадигматических отношений тезауруса из текстов на естественном языке на базе лексико-синтаксических шаблонов Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
193
41
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СЕМАНТИКА / АНАЛИЗ ТЕКСТА / ЛЕКСИКО-СИНТАКСИЧЕСКИЙ ШАБЛОН / SEMANTICS / TEXT ANALYSIS / LEXICAL AND SYNTACTIC TEMPLATE

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Диковицкий Владимир Витальевич, Шишаев Максим Геннадьевич, Пимешков Вадим Константинович

Работа посвящена проблеме автоматизации извлечения знаний из неструктурированного текста с целью их прикладного использования в задачах извлечения фактов, формирования и пополнения тезауруса, анализа согласованности документов. Для извлечения и структурирования знаний используются методы статистического и лингвистического анализа.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Диковицкий Владимир Витальевич, Шишаев Максим Геннадьевич, Пимешков Вадим Константинович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

METHOD OF AUTOMATED EXTRACTION OF CONCEPTS AND PARADIGMATIC RELATIONS OF THESAURUS FROM TEXTS IN NATURAL LANGUAGE ON THE BASIS OF LEXICO-SYNTACTIC TEMPLATES

The work is devoted to the problem of automating the extraction of knowledge from unstructured text with the aim of their application in the tasks of extracting facts, the formation and replenishment of a thesaurus, analysis of document consistency. To extract and structure knowledge, methods of statistical and linguistic analysis are used.

Текст научной работы на тему «Метод автоматизированного извлечения понятий и парадигматических отношений тезауруса из текстов на естественном языке на базе лексико-синтаксических шаблонов»

DOI: 10.25702/KSC.2307-5252.2019.9.91-97 УДК 004.047, 004.912

В. В. Диковицкий, М. Г. Шишаев, В. К. Пимешков

Институт информатики и математического моделирования ФИЦ КНЦ РАН

МЕТОД АВТОМАТИЗИРОВАННОГО ИЗВЛЕЧЕНИЯ ПОНЯТИЙ И ПАРАДИГМАТИЧЕСКИХ ОТНОШЕНИЙ ТЕЗАУРУСА ИЗ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ НА БАЗЕ ЛЕКСИКО-СИНТАКСИЧЕСКИХ ШАБЛОНОВ

Аннотация

Работа посвящена проблеме автоматизации извлечения знаний из неструктурированного текста с целью их прикладного использования в задачах извлечения фактов, формирования и пополнения тезауруса, анализа согласованности документов. Для извлечения и структурирования знаний используются методы статистического и лингвистического анализа. Ключевые слова:

Семантика, анализ текста, лексико-синтаксический шаблон.

V.V. Dikovitskiy, M.G Shisaev, V.K. Pimeshkov

METHOD OF AUTOMATED EXTRACTION OF CONCEPTS AND PARADIGMATIC RELATIONS OF THESAURUS FROM TEXTS IN NATURAL LANGUAGE ON THE BASIS OF LEXICO-SYNTACTIC TEMPLATES

Abstract

The work is devoted to the problem of automating the extraction of knowledge from unstructured text with the aim of their application in the tasks of extracting facts, the formation and replenishment of a thesaurus, analysis of document consistency. To extract and structure knowledge, methods of statistical and linguistic analysis are used.

Keywords:

Semantics, text analysis, lexical and syntactic template. Введение

С ростом объемов текстовых данных, подлежащих обработке в рамках различных прикладных проблем, становится все более актуальной задача автоматического извлечения и обработки формализованных знаний. В настоящее время существует множество методов и подходов к автоматизированному анализу текста. Семейство технологий глубинного анализа текстов их смысла и представления его в базах знаний объединено общим названием Text Mining [1]. Разрабатываемые на основе статистического и лингвистического анализа, методов искусственного интеллекта, эти технологии предназначены для проведения смыслового анализа. [2] Методами обработки текстов на естественном языке, в основе которых лежит формирование и использование ассоциативно-онтологического представления данных [3] успешно решаются задачи выделения признаков текста для построения поисковых индексов, автоматического реферирования научных и технических документов, отнесения текста к предметной области, поиска в коллекции документов.

Интегральный подход к анализу структуры предложения с точки зрения функционально-коммуникативной грамматики предложен Г. А. Золотовой [4] и реализован в работе [5]. В работе [6] представлен семантический анализ

предложений с использованием падежных грамматик и семантических валентностей. При этом семантика предложения задается через связи главного слова (глагола) с его семантическими актантами. Моделирование синтаксиса и семантики на основе нейросетевого подхода получило широкое распространение в связи с ростом вычислительной мощности, развитием моделей и методов параллельной обработки данных (Mapreduce, Hadoop), и методов машинного обучения (Keras, Tensorflow, CatBoost). В проекте SyntaxNet представлен опыт использования рекуррентных нейронных сетей для морфологического и синтаксического анализа предложений без использования словарей и грамматик. Одной из главнейших проблем в данной области до недавнего времени являлась размерность данных и семантическая разреженность текстовой информации. Данная проблема решается алгоритмами векторного представления слов. Например, в наборе библиотек Word2Vec [7] реализованы подходы дистрибутивной семантики, позволяющие отразить слова языка в многомерное векторное пространство. Подобное отражение позволяет производить оценку близости слов и контекста их употребления.

Многоуровневый анализ текста использован для поиска высказываний деонтической логики в работе [8]. Многоуровневый анализ текста предполагает совместное использование результатов синтаксического, ассоциативного, дистрибутивного анализа текста для построения семантической сети, в форме взвешенного мультиграфа.

Многоуровневый анализ текста

Задачи анализа текста многоаспектна и включает отдельные подзадачи, в частности: Извлечение сущностей (entity recognition), извлечение признаков (feature extraction), определение отношений между объектами. Объединение решения всех перечисленных задач позволяет извлекать формализованные знания о предметной области в виде понятий и структуры их взаимосвязей.

В данной работе используется автоматическое извлечение объектов, и их свойств и отношений путем многоуровнего анализа тематических текстов предметной области. Многоуровновость анализа заключается в комбинации статистических и лингвистических методов с целью взаимного уточнения результатов анализа. На первом этапе применяются методы дистрибутивного анализа текста — определение частотных характеристик каждого слова в рассматриваемой коллекции документов, учет статистики совместного употребления, определение контекстной близости слов.

Формируется взвешенная ассоциативная семантическая сеть[8], весовой коэффициент формируется исходя из частотных характеристик совместного употребления слов. Векторизация слов используется на данном этапе для оценки контекстной близости слов с целью определения устойчивых словосочетаний и денотатов каждого слова. Также векторизация позволяет проводить анализ относительно небольших наборов текстовых документов, уточняя результаты ассоциативного отношения. Показателем контекстной близости является косинусная близость между векторами слов, полученными дистрибутивными моделями на основе больших корпусов текстов.

На втором уровне производится формирование синтаксических деревьев исходных текстов, и последующая интеграция полученных деревьев в модель

семантической сети с множественными связями. Для синтаксического и морфологического анализа использована основанная на машинном обучении библиотека SyntaxNet[9], включающая синтаксическую модель русского языка. Синтаксическую разметку составляют 44 отношения Universal Dependencies[10] (UD). UD разметка упорядоченно представляет межъязыковые соответствия и основаннана на существующих стандартах разметки.

Рис. 1 Пример синтаксической разметки предложения.

Рис. 2 Многоуровневый анализ текста

Интеграция результатов синтаксического анализа осуществляется путем вычисления составной оценки семантической близости понятий на основе сходства понятий, смежных понятий, а также их морфологических и синтаксических свойств. Результатом интеграции является семантическая сеть в виде ориентированного взвешенного мультиграфа, вершинами которого являются лексемы, а бинарные отношения обозначают синтаксическую роль лексем.

Определение парадигматических отношений основано на предположении о существовании связи лексико-семантического и синтаксического уровней языка при актуализации оценочных значений языковых единиц. Интерпретация оценочных предикатов как особых лексико-грамматических классов слов предложена в работах Г.А. Золотовой.

Для определения морфологических и синтаксических характеристик, определяющих парадигматические отношения, было произведено построение взвешенной семантической сети, полученной на наборе аннотаций русскоязычных статей Википедии. Для определения и систематизации синтаксические, морфологические и статистические характеристики понятий мультиграфа, выражающих одно парадигматическое отношение, были сгруппированы. В качестве эталона парадигматических отношений общеупотребительной лексики использован тезаурус WordNet. Для приведения к

формату списка двуместных отношений синонимичные ряды тезауруса были разложены на множества двуместных отношений. Парадигматические отношения тезауруса над синонимичными рядами при этом были установлены между каждой парой слов из различных синонимичных рядов. Далее получено пересечение множеств слов присутствующих в тезаурусе и семантической сети, а также двуместные отношения между словами. В результате было получено 2534 бинарных отношений.

В таблице представлена статистика использования двуместных синтаксических отношений в различной роли парадигматических отношений тезауруса.

Таблица 1. Статистика использования двуместных синтаксических отношений в _различной роли парадигматических отношений_

UD \ WordNet Элемент группы Антоним Мероним Гипероним Ассоциация Гипоним Атрибут

conjunct 1 263 30 694 5 360 2

adverbial clause modifier 2 1

adjectival modifier 19 2 9 10 39

nominal modifier 36 14 30 268 464 4

nominal subject 6 7 9 53 80

oblique nominal 2 4

appositional modifier 5 9 10 7

determiner 2 2

clausal subject 1

clausal complement 1

object 1 2

case marking 1

open clausal complement 1

Из таблицы следует превалирование определенных групп синтаксических отношений текста википедии для некоторых парадигматических отношений тезауруса. Гипонимы в 39% выполняют синтаксическую роль «conjunct» и в 51% случаев роль «nominal modifier». Гиперонимам в 68% случаев соответствует синтаксическая роль «conjunct» и в 26% «nominal modifier». Для разделения гипонимов и гиперонимов учитывается направление двуместного отношения. Отличить парадигматические отношения в рамках одной синтаксической роли предложено также за счет учета определенной Word2Vec контекстной близости. Также различные синтаксические роли имеют различные связи с другими вершинами семантической сети, в частности применимы с различными предлогами и пунктуацией. Пример антонимов («автомобиль, а не самолет», «автомобиль и другие транспортные средства»). Учитываются и морфологические свойства слов, определенные SyntaxNet. Получены классы объектов, связанные одним и тем же парадигматическим отношением и определенные в множество по схожим морфологическим признакам. В таблице 3 представлены примеры гиперонимов и меронимов, полученных при анализе аннотаций статей Википедии.

Таблица 2. Морфологические свойства слов в парадигматических бинарных

отношениях

conjunct - Гипероним Кол -во % conjunct - Гипоним Кол -во %

существительное -существительное 663 663 существительное -существительное 329 329

76, 45,

Число=Мн.ч. 506 3 Род=Жен. 149 3

66, NOUN_Одушевленность=Неоду 41,

OreneHb=Pos 440 4 ш. 137 6

64, 39,

Падеж=Винительный 424 0 Число=Ед.ч. 130 5

62, 35,

ADJ_Одушевленность=Неодуш. 413 3 CCONJ_ 115 0

21, 33,

Род=Жен. 141 3 Падеж=Именительный 109 1

NOUN_Одушевленность=Неоду 20, 13,

ш. 133 1 Число=Мн.ч. 45 7

14,

Падеж=Именительный 97 6

11,

Число=Ед.ч. 75 3

глагол - глагол 27 27 глагол - глагол 26 26

44, 30,

VERB_Вид=1тр 12 4 VERB_Вид=1тр 8 8

44, 30,

VerbForm=Inf 12 4 VerbForm=Inf 8 8

44, 26,

Залог=Действительный 12 4 CCONJ_ 7 9

33, 26,

CCONJ_ 9 3 Число=Ед.ч. 7 9

14, 26,

ADV_OreneHb=Pos 4 8 Залог=Действительный 7 9

Таблица 3. Примеры меронимии и гиперонимии

Гипонимия

река волга

змей горыныч

армия махди

университет организация

бог гор

лингвист чарльз

река свислочь

государство израиль

марка электроника

Меронимия

губерния империя

митрополия церковь

слово словосочетание

текст модуль

история философия

алфавит язык

буква слово

масса атом

столица империя

вид род

буква алфавит

состояние вещество

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

семейство вид

Заключение

Среди общего количества пересекающихся слов, присутствующих, как в тезаурусе, так и анализируемых текстах аннотаций Википедии, было получено 2534 бинарных отношений. Были отмечены верно относительно тезауруса WordNet 1697 прагматических отношений, что составляет 67% от общего количества. Метод имеет потенциал к повышению точности результатов за счет разработки интегрированной оценки наличия прагматических отношений и учета в ней всех доступных характеристик. Систематизация которых является направлением дальнейшей работы.

Литература

1. Berry M.W. Survey of Text Mining. Clustering, Classification, and Retrieval. Berlin: Springer-Verlag, 2004. 244 p.

2. Капитонов О. А., Тютюнник В.М. Логико-лингвистическая модель семантической разметки веб-страниц // Фундаментальные исследования. -2013. № 1-3. С. 714-717.

3. Кулешов С. В., Зайцева А. А., Марков В. С. Ассоциативно-онтологический подход к обработке текстов на естественном языке // Интеллектуальные технологии на транспорте. 2015. № 4.

4. Золотова Г. А., Онипенко Н. К., Сидорова М. Ю. Коммуникативная грамматика русского языка. // Институт русского языка им. В. В. Виноградова РАН. 2004. 44 с. ISBN: 5-88744-050-3.

5. Осипов Г. С. Методы искусственного интеллекта. 2011 г. ISBN: 978-5-92211323-6.

6. Барышникова Н. Ю. Обработка запросов на естественном языке на основе семантических сетей и шаблонов // Вестник АГТУ. Серия: Управление, вычислительная техника и информатика. 2016. № 4.

7. Collobert R., Weston J., Bottou L., Karlen M., Kavukcuoglu K. and Kuksa P. (2011) Natural Language Processing (Almost) from Scratch. J. // Mach. Learn. Res. 12 (November 2011), 2493-2537. WordToVec URL: https://arxiv.org/pdf/1103.0398.pdf.

8. V. V. Dikovitsky, M. G. Shishaev. Automated Extraction of Deontological Statements Through a Multilevel Analysis of Legal Acts // Computational and Statistical Methods in Intelligent Systems, pp. 102-110.

9. Библиотека программного обеспечения с открытым исходным кодом для Machine Intelligence TensorFlow. URL: https://www.tensorflow.org.

10. Фреймворк для кросс-лингвистически последовательной грамматической аннотации на 60 языках. URL: http://universaldependencies.org.

Сведения об авторах

Диковицкий Владимир Витальевич

к.т.н, старший научный сотрудник е-mail: [email protected] Vladimir V. Dikovitskiy Ph.D. (Tech. Sci.), researcher

Шишаев Максим Геннадьевич

д.т.н., главный научный сотрудник е-mail: shishaev@iimm. ru Maxim G. Shishaev Dr.Sci (Tech.), lead researcher

Пимешков Вадим Константинович

стажер-исследователь е-mail: [email protected] Vadim K. Pimeshkov

research assistant

DOI: 10.25702/KSC.2307-5252.2019.9.97-108 УДК 004.89

О. В. Фридман

Институт информатики и математического моделирования ФИЦ КНЦ РАН

ЛОГИЧЕСКИЕ НЕЙРОННЫЕ СЕТИ: МЕТОДЫ АВТОМАТИЧЕСКОГО КОСТРУИРОВАНИЯ, РЕДУКЦИИ, ИЗВЛЕЧЕНИЯ ПРАВИЛ*

Аннотация

Рассмотрен класс логических нейронных сетей. Представлен обзор методов и алгоритмов, применяемых при построении нейронных сетей, методы извлечения правил. Рассматриваются вопросы применения логических нейронных сетей для решения различных задач. Ключевые слова:

логические нейронные сети, моделирование, методы и алгоритмы построения нейронных сетей, извлечение правил, применение логических нейронных сетей.

* Работа выполнена в рамках темы НИР «Развитие методологии построения интеллектуальных мультипредметных систем информационной поддержки регионального развития на примере территорий Арктической зоны Российской Федерации (АЗРФ)» (№ 0226-2019-0036).

i Надоели баннеры? Вы всегда можете отключить рекламу.