Научная статья на тему 'ТЕХНОЛОГИЯ ИЗВЛЕЧЕНИЯ И ВИЗУАЛИЗАЦИИ ПРОСТРАНСТВЕННЫХ ДАННЫХ, ПОЛУЧЕННЫХ ПРИ АНАЛИЗЕ ТЕКСТОВ'

ТЕХНОЛОГИЯ ИЗВЛЕЧЕНИЯ И ВИЗУАЛИЗАЦИИ ПРОСТРАНСТВЕННЫХ ДАННЫХ, ПОЛУЧЕННЫХ ПРИ АНАЛИЗЕ ТЕКСТОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
152
33
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АНАЛИЗ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ / ИЗВЛЕЧЕНИЕ ФАКТОВ ИЗ ТЕКСТОВ / КАРТОГРАФИЧЕСКИЙ ИНТЕРФЕЙС / ГЕОВИЗУАЛИЗАЦИЯ / ANALYSIS OF NATURAL LANGUAGE TEXTS / EXTRACTING FACTS FROM TEXTS / CARTOGRAPHIC INTERFACE / GEOVISUALIZATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Вицентий А.В., Диковицкий В.В., Шишаев М.Г.

В работе рассмотрена проблема извлечения геоданных из текстов и их визуализации в форме, удобной для восприятия и последующего анализа. Предлагается информационная технология, позволяющая извлекать геоданные из текстов на естественном языке и строить на их основе картографический интерфейс на базе готовых геосервисов. Для извлечения топонимов из текста использовались методы синтаксического, морфологического и семантического анализа, а для геокодирования и визуализации - возможности современных веб-геосервисов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Вицентий А.В., Диковицкий В.В., Шишаев М.Г.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE TECHNOLOGY OF EXTRACTION AND VISUALIZATION OF SPATIAL DATA OBTAINED BY TEXTS ANALYSIS

This work considers the problem of extracting geodata from natural language texts and visualizing it in a form convenient for perception and subsequent analysis. The information technology for extracting geodata from texts in natural language and building a cartographic interface based on them on the basis of ready-made geoservices is proposed. Syntactic, morphological and semantic analysis methods were used to extract toponyms from texts. For implementation of geocoding and visualization procedures the possibilities of modern web-geoservices were used.

Текст научной работы на тему «ТЕХНОЛОГИЯ ИЗВЛЕЧЕНИЯ И ВИЗУАЛИЗАЦИИ ПРОСТРАНСТВЕННЫХ ДАННЫХ, ПОЛУЧЕННЫХ ПРИ АНАЛИЗЕ ТЕКСТОВ»

DOI: 10.37614/2307-5252.2020.8.11.012 УДК 004.5, 004.9

А.В. Вицентий12, В.В. Диковицкий1, М.Г. Шишаев1,2

1 Апатиты, ИИММ ФИЦ КНЦ РАН

2 Апатиты, Филиал ФГБОУ ВО «МАГУ» в г. Апатиты, Россия

ТЕХНОЛОГИЯ ИЗВЛЕЧЕНИЯ И ВИЗУАЛИЗАЦИИ ПРОСТРАНСТВЕННЫХ ДАННЫХ, ПОЛУЧЕННЫХ ПРИ АНАЛИЗЕ ТЕКСТОВ*

Аннотация

В работе рассмотрена проблема извлечения геоданных из текстов и их визуализации в форме, удобной для восприятия и последующего анализа. Предлагается информационная технология, позволяющая извлекать геоданные из текстов на естественном языке и строить на их основе картографический интерфейс на базе готовых геосервисов. Для извлечения топонимов из текста использовались методы синтаксического, морфологического и семантического анализа, а для геокодирования и визуализации - возможности современных веб-геосервисов.

Ключевые слова:

анализ текстов на естественном языке, извлечение фактов из текстов, картографический интерфейс, геовизуализация.

A.V. Vicentiy, V.V. Dikovitsky, M.G. Shishaev

1 Apatity, Institute for Informatics and Mathematical Modelling, KSC RAS

2 Apatity, Murmansk Arctic State University

THE TECHNOLOGY OF EXTRACTION AND VISUALIZATION OF SPATIAL DATA OBTAINED BY TEXTS ANALYSIS

Abstract

This work considers the problem of extracting geodata from natural language texts and visualizing it in a form convenient for perception and subsequent analysis. The information technology for extracting geodata from texts in natural language and building a cartographic interface based on them on the basis of ready-made geoservices is proposed. Syntactic, morphological and semantic analysis methods were used to extract toponyms from texts. For implementation of geocoding and visualization procedures the possibilities of modern web-geoservices were used.

Keywords:

analysis of natural language texts, extracting facts from texts, cartographic interface, geovisualization.

В работе рассмотрена информационная технология извлечения и визуализации геоданных из текстов на естественном языке для автоматизированного синтеза когнитивных картографических интерфейсов. В основе разработанной технологии лежат методы синтаксического, морфологического и семантического анализа текстов. Анализ текстов на естественном языке проводится с целью выявления упоминаемых в них топонимов и других объектов, имеющих географическую привязку. Визуализация

* Исследование выполнено при частичной финансовой поддержке РФФИ в рамках научного проекта грант РФФИ № 20-07-00754

в виде цифровой карты обеспечивается последовательным применением процедур геокодирования и геовизуализации к извлеченным из текстов данным с использованием возможностей современных геосервисов и сервисов геокодирования [1-3].

Учитывая тот факт, что значительная часть цифровых данных в настоящее время представлена неструктурированными текстами, а также то, что почти 60 процентов всех данных, так или иначе, связаны с геопространственными данными, [4] исследования в области выявления пространственных данных в текстах и создания методов и средств их обработки являются актуальными, а результаты анализа тектов могут найти применение в различных прикладных задачах. В связи с этим, разработанная информационная технология визуализации пространственных данных на основе анализа текстов на естественном языке для автоматического построения картографических интерфейсов является актуальной и направлена на удовлетворение информационных потребностей пользователей при решении широкого спектра задач управления региональным развитием.

Задача извлечения геоданных из текстов относится к классу задач обработки естественного языка (Natural Language Processing, NLP) [5]. В рамках NLP процесс анализа естественного языка рассматривается как последовательность нескольких уровней обработки. Основными уровнями являются: синтаксис, морфология, семантика, прагматика. [6] Более общими задачами по отношению к NLP являются задачи распознавания именованных сущностей (Named-Entity recognition, NER) и задачи автоматического извлечения содержимого (Automatic Content Extraction, ACE). Различные системы распознавания именованных сущностей предназначены для поиска и классификации упоминаемых именованных сущностей в неструктурированных или полуструктурированных текстах. Для повышения качества распознавания используются заранее заданные категории сущностей. В качестве таких категорий могут выступать, например, названия организаций, геообъектов, различные топонимы и т.д. [7]

Описываемая в работе технология включает в себя три основных этапа, которые разбиты на более мелкие шаги. Первый этап связан с подготовкой корпуса документов, подлежащих дальнейшему анализу. Полнота и релевантность сформированного тематического корпуса документов, определяет качество результатов всех последующих этапов технологии.

Второй этап связан с анализом текстов и обработкой полученных результатов. Отличительной чертой данной информационной технологии, обуславливающей ее новизну, является то, что анализ тематического корпуса документов проводится параллельно как на основе синтактико-морфологических, так и на основе семантических методов анализа текстов. Такой подход позволяет повысить точность выявления топонимов и других объектов реального мира, имеющих географическую привязку в текстах на естественном языке за счет того, что результаты различных методов анализа текстов используются для дополнения и проверки друг друга.

Третий этап технологии связан непосредственно с геокодированием и визуализацией множества выявленных объектов, имеющих пространственную привязку, и построением картографического интерфейса на основе существующих геоинформационных сервисов. Таким образом, на входе информационной технологии визуализации используются тематические текстовые источники на естественном языке, а на выходе синтезируется геоизображение (цифровая карта). Общая схема

информационной технологии визуализации пространственных данных на основе анализа текстов на естественном языке представлена на рисунке 1. На рисунке отображены основные этапы и шаги технологии, а также входные и выходные данные для каждого шага.

Рис. 1. Обобщенная схема информационной технологии извлечения и визуализации пространственных данных на основе анализа текстов на естественном языке

Синтактико-морфологический анализ осуществляется на основе использования парсинга текста и проводится совместно с семантическим анализом. Результатом синтактико-морфологического анализа является список топонимов и других геообъектов, выявленных в процессе парсинга. Семантический анализ является многоуровневым и состоит в сочетании статистического и лингвистического подходов с целью взаимного уточнения результатов анализа каждого этапа.

Для апробации информационной технологии, оценки ее достоверности и полноты полученных результатов, были проанализированы тексты описаний проектов развития транспортной логистики в АЗРФ. Для корпуса размером в 24322 слова был построен мультиграф из 15345 концептов и 32424 отношений. Среди полученных концептов число обстоятельств места составило 73%, топонимов из них - 61%. В результате применения фильтра было выделено 35 концептов, из которых 23 оказались топонимами. Средняя точность автоматического анализа составила 66%. Одним из перспективных способов увеличения точности является уточнение характеристик концептов и отношений при фильтрации взвешенного мультиграфа, что является одним из направлений дальнейшей работы и требует проведения дополнительных исследований.

С точки зрения практического применения технология полезна для визуального представления данных, извлеченных при интеллектуальном анализе проблемно-ориентированных текстов, пользователям, которые не в полной мере представляют себе пространственное соотношение различных географических объектов в силу сложности, протяженности и большого количества элементов рассматриваемых природно-технических систем, например, транспортно-логистической системы региона. Частным случаем практического использования технологии может быть ее применение в системах информационной поддержки принятия решений. В этом случае визуальное представление гео-ассоциированных семантических компонентов текста будет полезно лицу, принимающему решения для быстрого понимания «географического смысла» взаимного расположения гео-объектов.

Литература

1. Vicentiy A.V., Dikovitsky V.V., Shishaev M.G. Automated Extraction and Visualization of Spatial Data Obtained by Analyzing Texts About Projects of Arctic Transport // Advances in Intelligent Systems and Computing. - 2019. pp. 419-433

2. Vicentiy A.V., Dikovitsky V.V., Shishaev M.G. The Semantic Models of Arctic Zone Legal Acts Visualization for Express Content Analysis // Advances in Intelligent Systems and Computing. — 2019. - vol. 763. - pp. 216-228

3. Vicentiy A.V., Shishaev M.G., Oleynik A.G. Dynamic Cognitive Geovisualization for Information Support of Decision-Making in the Regional System of Radiological Monitoring, Control and Forecasting // Advances in Intelligent Systems and Computing. - 2016. - vol. 466. - pp. 483-495

4. Hahmann, S., Burghardt, D.: How much information is geospatially referenced? Networks and cognition. International Journal of Geographical Information Science. - 2013. - vol. 27. - pp. 1171-1189

5. Khurana D et al Natural Language Processing: State of The Art, Current Trends and Challenges. - 2017. - pp. 1-12

6. Reshamwala A, Pawar P. Review on natural language processing, Engineering Science and Technology: An International Journal. - 2013. - vol. 3. - pp. 113-115.

7. Huang H et al European Handbook of Crowdsourced Geographic Information. -2016. - pp. 196-197.

DOI: 10.37614/2307-5252.2020.8.11.013 УДК 917.997.03

А.А. Галяев, Е.Я. Рубинович

Москва, ИПУ РАН

ПЛАНИРОВАНИЕ МАРШРУТОВ АНПА В КОНФЛИКТНОЙ СРЕДЕ* Аннотация

В работе рассматриваются предложенные в ИПУ РАН постановки и решения ряда основных и вспомогательных задач, связанных с планированием движения автономных необитаемых подводных аппаратов (АНПА) при уклонении от систем однородных и/или разнородных наблюдателей, определяющих конфликтную среду. Приводятся примеры аналитического и численного построения маршрутов движения.

Ключевые слова:

уклонение подвижного объекта, конфликтная среда, система разнородных наблюдателей, оптимальный закон уклонения от обнаружения

A.A. Galyaev, E.Ya. Rubinovich

Moscow, Institute of Control Sciences, RAS

AUUV PATH PLANNING IN THREAT ENVIRONMENT

Abstract

The paper considers the proposed statements and solutions of a number of main and auxiliary problems proposed at Trapeznikov Institute of Control Scientes RAS related to the planning of the movement of autonomous uninhabited underwater vehicles (AUUV) when evading systems of homogeneous and/or heterogeneous observers that determine the threat environment. Examples of analytical and numerical construction of traffic routes are given.

Keywords:

mobile object evasion, threat environment, system of heterogeneous observers, optimal law of evasion from detection

Конфликтная среда - это совокупность объектов, сближение с которыми нежелательно для автономного необитаемого подводного аппарата (АНПА) в ходе выполнения миссии.

Целью управления АНПА при его движении в конфликтной среде является минимизация ее негативного воздействия. В зависимости от конкретной задачи, факторами негативного воздействия могут считаться: обнаружение

* Работа выполнена при частичной поддержке Программы 7 Президиума РАН

i Надоели баннеры? Вы всегда можете отключить рекламу.