Научная статья на тему 'ИЗВЛЕЧЕНИЕ ОТНОШЕНИЙ ТЕЗАУРУСА ИЗ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ С ИСПОЛЬЗОВАНИЕМ СТАТИСТИЧЕСКИХ И ЛИНГВИСТИЧЕСКИХ МЕТОДОВ'

ИЗВЛЕЧЕНИЕ ОТНОШЕНИЙ ТЕЗАУРУСА ИЗ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ С ИСПОЛЬЗОВАНИЕМ СТАТИСТИЧЕСКИХ И ЛИНГВИСТИЧЕСКИХ МЕТОДОВ Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
108
21
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АВТОМАТИЗИРОВАННОЕ ИЗВЛЕЧЕНИЕ ЗНАНИЙ / ДИСТРИБУТИВНАЯ СЕМАНТИКА / ТЕЗАУРУС / СЕМАНТИЧЕСКАЯ СЕТЬ / AUTOMATED KNOWLEDGE EXTRACTION / DISTRIBUTION SEMANTICS / THESAURUS / SEMANTIC NETWORK

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Пимешков В.К., Диковицкий В.В., Шишаев М.Г.

Работа посвящена автоматизации извлечения знаний из неструктурированного текста с целью их прикладного использования в задачах извлечения фактов, формирования и пополнения тезауруса, анализа согласованности документов. Для извлечения и структурирования знаний используются методы статистического и лингвистического анализа.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Пимешков В.К., Диковицкий В.В., Шишаев М.Г.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

EXTRACTION OF RELATION FROM NATURAL LANGUAGE TEXTS USING STATISTICAL AND LINGUISTIC METHODS

The work is devoted to the automated extraction of knowledge from unstructured text with the aim of their application in fact extraction, the formation and replenishment of a thesaurus, analysis of document consistency. To extract and structure knowledge, methods of statistical and linguistic analysis are used.

Текст научной работы на тему «ИЗВЛЕЧЕНИЕ ОТНОШЕНИЙ ТЕЗАУРУСА ИЗ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ С ИСПОЛЬЗОВАНИЕМ СТАТИСТИЧЕСКИХ И ЛИНГВИСТИЧЕСКИХ МЕТОДОВ»

Y.S. Popkov

Moscow, Institute for Systems Analysis, RAS

ELEMENTS OF RANDOMIZED PREDICTION WITH APPLICATION TO FORECASTING OF DAILY ELECTRICAL LOAD IN ENERGY SYSTEMS

Abstract

A new method of randomized prediction based on generation of ensemble of entropy-optimal predictive trajectories has been developed. They are generated by randomized dynamic regression models with random parameters, measurement noises and random input.

Keywords:

randomized machine learning, entropy, dynamic regression, electrical load

Функции плотности распределения вероятностей случайных параметров и измерительных шумов оцениваются с использованием реальных данных в рамках процедуры рандомизированного машинного обучения. Генерация ансамблей прогнозных траекторий осуществляется путем сэмплирования энтропийно-оптимальных ПРВ.

Предлагаемая процедура применяется для рандомизированного прогнозирования суточной нагрузки региональной энергетической системы. Синтезирована стохастическая предсказательная модель колебательной динамической регрессии со случайным входом. Метод рандомизированного оценивания адаптирован к данному классу моделей. Произведена первичная обработка реальных данных об изменениях суточной нагрузки энергетической системы GFS2014. Получены оценки функций распределения вероятностей параметров модели и входных шумов. Построены одно-, двух- и трехсуточные прогнозы и исследованы их погрешности.

DOI: 10.37614/2307-5252.2020.8.11.028 УДК 004.9, 681.518

В.К. Пимешков, В.В. Диковицкий, М.Г. Шишаев

Апатиты, Институт информатики и математического моделирования ФИЦ КНЦ РАН

ИЗВЛЕЧЕНИЕ ОТНОШЕНИЙ ТЕЗАУРУСА ИЗ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ С ИСПОЛЬЗОВАНИЕМ СТАТИСТИЧЕСКИХ И ЛИНГВИСТИЧЕСКИХ МЕТОДОВ*

Аннотация

Работа посвящена автоматизации извлечения знаний из неструктурированного текста с целью их прикладного использования в задачах извлечения фактов, формирования и пополнения тезауруса, анализа согласованности документов. Для извлечения и структурирования знаний используются методы статистического и лингвистического анализа.

* Работа частично поддержана РФФИ, номер проекта 20-07-00754.

Ключевые слова:

Автоматизированное извлечение знаний, дистрибутивная семантика, тезаурус, семантическая сеть

V.K. Pimeshkov, V.V. Dikovitsky, M.G. Shishaev

Apatity, Institute for Informatics and Mathematical Modelling, KSC RAS

EXTRACTION OF RELATION FROM NATURAL LANGUAGE TEXTS USING STATISTICAL AND LINGUISTIC METHODS

Abstract

The work is devoted to the automated extraction of knowledge from unstructured text with the aim of their application in fact extraction, the formation and replenishment of a thesaurus, analysis of document consistency. To extract and structure knowledge, methods of statistical and linguistic analysis are used.

Keywords:

Automated knowledge extraction, distribution semantics, thesaurus, semantic network.

С ростом объемов текстовых данных, подлежащих обработке в рамках различных прикладных проблем, становится все более актуальной задача автоматического извлечения и обработки формализованных знаний. Задачи анализа текста многоаспектна и включает отдельные подзадачи, в частности: Извлечение сущностей (entity recognition), извлечение признаков (feature extraction), определение отношений между объектами. Объединение решения всех перечисленных задач позволяет извлекать формализованные знания о предметной области в виде понятий и структуры их взаимосвязей.

В данной работе используется автоматическое извлечение объектов, и их свойств и отношений путем многоуровнего анализа тематических текстов предметной области. Процедура анализа текста включает комбинацию статистических и лингвистических методов с целью взаимного уточнения результатов. На первом этапе применяются методы дистрибутивного анализа -определение частотных характеристик каждого слова в рассматриваемой коллекции документов, учет статистики совместного употребления, определение контекстной близости слов. Формируется взвешенная ассоциативная семантическая сеть[1], весовой коэффициент формируется исходя из частотных характеристик совместного употребления слов. Векторизация слов используется на данном этапе для оценки контекстной близости слов с целью определения устойчивых словосочетаний и денотатов каждого слова. Также векторизация позволяет проводить анализ относительно небольших наборов текстовых документов, уточняя результаты ассоциативного отношения. Показателем контекстной близости является косинусная близость между векторами слов, полученными дистрибутивными моделями на основе больших корпусов текстов.

На втором уровне производится формирование синтаксических деревьев исходных текстов, и последующая интеграция полученных деревьев в модель семантической сети с множественными связями. Для синтаксического и морфологического анализа использована основанная на машинном обучении библиотека SyntaxNet[2], включающая синтаксическую модель русского языка. Синтаксическую разметку составляют 44 отношения Universal Dependencies[3]

(UD). UD разметка упорядоченно представляет межъязыковые соответствия и основана на существующих стандартах разметки

Определение парадигматических отношений основано на предположении о существовании связи лексико-семантического и синтаксического уровней языка при актуализации оценочных значений языковых единиц. Интерпретация оценочных предикатов как особых лексико-грамматических классов слов предложена в работе [6].

Для определения морфологических и синтаксических характеристик, определяющих синтагматические и парадигматические отношения, было произведено построение взвешенной семантической сети, полученной на наборе аннотаций русскоязычных статей Википедии. Для определения и систематизации синтаксические, морфологические и статистические характеристики понятий мультиграфа, выражающих одно парадигматическое отношение, были сгруппированы. В качестве эталона парадигматических отношений общеупотребительной лексики использован тезаурус WordNet. Для приведения к формату списка двуместных отношений синонимичные ряды тезауруса были разложены на множества двуместных отношений. Парадигматические отношения тезауруса над синонимичными рядами при этом были установлены между каждой парой слов из различных синонимичных рядов. Далее получено пересечение множеств слов присутствующих в тезаурусе и семантической сети, а также двуместные отношения между словами.

В результате было получено 2534 бинарных отношений, в ходе анализа которых было отмечено превалирование определенных групп синтаксических отношений текста википедии для некоторых парадигматических отношений тезауруса. Гипонимы в 39% выполняют синтаксическую роль «conjunct» и в 51% случаев роль «nominal modifier». Гиперонимам в 68% случаев соответствует синтаксическая роль «conjunct» и в 26% «nominal modifier». Для разделения гипонимов и гиперонимов учитывается направление двуместного отношения.

Отличить парадигматические отношения в рамках одной синтаксической роли предложено также за счет учета определенной Word2Vec контекстной близости. Также различные синтаксические роли имеют различные связи с другими вершинами семантической сети, в частности применимы с различными предлогами и пунктуацией. Пример антонимов («автомобиль, а не самолет», «автомобиль и другие транспортные средства»). Учитываются и морфологические свойства слов, определенные SyntaxNet. Были получены классы объектов, связанные одним и тем же отношением и определено множество схожих морфологических признаков. В результате применения алгоритма, основанного на рассматриваемой эвристике, 1697 прагматических отношений были правильно отмечены в отношении тезауруса WordNet, что составляет 67% от общего числа случаев. Полученные результаты указывают на перспективы подхода, используемого для выявления парадигматических отношений в текстах на естественном языке. В то же время точность эвристического алгоритма может быть увеличена, как за счет использования улучшенных процедур идентификации, так и за счет расширения пространства признаков. Далее был построен классификатор отношений тезауруса WordNet, на основе нейронной сети.

Набор признаков, характеризующих экземпляры для распознавания, состоит из морфологических признаков главного и зависимого слов, соответствующих этим словам 300-мерных векторов Word2Vec, семантического (косинусного) расстояния между ними, типа соединяющего их UD-отношения и

также параметры пары слов из тезауруса WordNet Векторизация осуществлялась моделью ruwikirus-corpora_upos_skipgram_300_2_2019 [4]. Число определенных классов отношений в WordNet равно 16. Образованный таким образом обучающий набор включает в себя 3680 векторов по 627 параметров.

В качестве инструмента для реализации искусственной нейронной сети использовалась библиотека Кегаз [5]. Приемлемые результаты были получены для сети, состоящей из четырех полносвязных слоев. Функции активации, используемые на каждом слое, были выбраны опытным путем - зойтах, ReLu, сигмоид.

Обучение проводилось в 20 эпох на 2069 образцах и оценивалось на 690 образцах. Для оценки качества классификатора используются метрики точности полноты. Также была оценена F-мера - среднее гармоническое точности и отзыва ^-мера достигает максимума с полнотой и точностью, равной единице, и близка к нулю, если один из аргументов близок к нулю). На контрольном наборе точность составила 79%. Графики характеристик точности, полноты, F-меры и функций ошибок представлена на рисунке 1.

Поведенные эксперименты продемонстрировали в целом эффективность предложенного подхода к автоматической идентификации предметных отношений из текстов на естественном языке, основанного на комплексе синтаксических, частотных и семантических характеристик. В то же время, использование дистрибутивной семантики текста в рамках нейросетевого подхода к анализу позволило значительно повысить точность распознавания, что подтверждает перспективу объединения лингвистического и распределительного анализа в задачах автоматического понимания текста.

Рис. 1. Характеристики точности, полноты, F-меры и функций ошибок Литература

1. Dikovitsky V.V., Shishaev M.G.. Automated Extraction of Deontological Statements Through a Multilevel Analysis of Legal Acts. Computational and Statistical Methods in Intelligent Systems, pp. 102-110

2. Библиотека программного обеспечения с открытым исходным кодом для Machine Intelligence TensorFlow: https://www.tensorflow.org/

3. Фреймворк для кросс-лингвистически последовательной грамматической аннотации на 60 языках. URL: http://universaldependencies.org

4. Semantic models for the Russian language. https://rusvectores.org/ru/models/

5. Keras: The Python Deep Learning library. https://keras.io/

6. Золотова, Г.А.; Онипенко, Н.К. Сидорова, М.Ю. Коммуникативная грамматика русского языка. Институт русского языка им. В.В. Виноградова РАН. 544 с., 2004. ISBN: 5-88744-050-3

DOI: 10.37614/2307-5252.2020.8.11.029 УДК 004.9

А.Л. Щур, И.О. Датьев, А.М. Фёдоров

Апатиты, Институт информатики и математического моделирования ФИЦ КНЦ РАН

АНАЛИЗ ОНЛАЙНОВЫХ СОЦИАЛЬНЫХ СЕТЕЙ: ОСНОВНЫЕ СЛОЖНОСТИ И ОБЛАСТИ ПРИЛОЖЕНИЯ

Аннотация

Сервисы онлайновых социальных сетей являются одним из самых популярных видов социальных медиа в мире. В докладе рассматриваются некоторые области исследований, построенных на задействовании информации, получаемой из соцсетей, а также основные проблемы, возникающие у при попытке экстракции этих массивов данных.

Ключевые слова:

информационные технологии, социальные сети, обработка данных, электронное участие, big data.

A.L. Shchur, I.O. Datyev, A.M. Fedorov

Apatity, Institute for Informatics and Mathematical Modelling, KSC RAS

SOCIAL NETWORKING SERVICES ANALYSIS: MAIN CHALLENGES AND APPLICATION AREAS

Abstract

Online social networking services are one of the most popular types of social media in the world. The report discusses some areas of research built on the use of information obtained from social networks, as well as the main difficulties that arise during the extraction of these data arrays.

Keywords:

information technologies, social networking services, data processing, e-participation, big data Введение

На сегодняшний день сервисы онлайновых социальных сетей являются одним из самых популярных и обширных по набору функций видов социальных медиа. Они позволяют практически любому пользователю, даже обладающему минимумом технических знаний, не только быстро получать интересующую его

i Надоели баннеры? Вы всегда можете отключить рекламу.