Труды Кольского научного центра РАН. Информационные технологии. Вып. 12. 2021. Т. 12, № 4. С. 50-56.
Transactions of the Ко1а Science Centre. Information technologies. Series 12. 2021. Vol. 12, no. 5. P. 50-56.
Научная статья УДК 004.9
DOI: 10.37614/2307-5252.2021.5.12.004
РАСПОЗНАВАНИЕ ПРОСТРАНСТВЕННЫХ ДАННЫХ ИЗ ЕСТЕСТВЕННО ЯЗЫКОВЫХ ТЕКСТОВ С ЦЕЛЬЮ ВИЗУАЛИЗАЦИИ
Пилецкий Борис МихайловичP
Институт информатики и математического моделирования ФИЦ КНЦ РАН, Апатиты, Россия
gideon. stl@gmail. comP, https://orcid.org/0000-0003-3141-9595 Аннотация
В работе описан один из возможных вариантов реализации распознавания пространственных данных из текстов на естественном языке. Предложенный вариант основан на лексико-синтаксическом анализе текстов, что требует использования специальных грамматик и словарей. Распознавание пространственных данных проводится для их последующего геокодирования и визуализации. Практическая реализация распознавания пространственных данных выполнена с помощью бесплатного, свободно распространяемого программного средства. Также в работе рассмотрены некоторые области применения пространственных данных и приведены предварительные результаты распознавания пространственных данных. Ключевые слова:
распознание именованных сущностей, извлечение фактов из текстов, анализ текстов на естественном языке, картографический интерфейс, геовизуализация Финансирование
Работа выполнена в рамках государственного задания Министерства науки и высшего образования РФ (тема НИР № 0226-2019-0036).
Для цитирования: Пилецкий Б. М. Распознавание пространственных данных из естественно языковых текстов с целью визуализации // Труды Кольского научного центра РАН. Информационные технологии. Вып. 12. 2021. Т. 12, № 5. С. 50-56. http://dx/doi.org/ 10.37614/2307-5252.2021.5.12.003.
Original article
RECOGNITION OF SPATIAL DATA FROM NATURAL LANGUAGE TEXTS FOR THE PURPOSE OF VISUALIZATION Boris M. PileckiyP
Institute for Informatics and Mathematical Modeling Kola Science Centre of the Russian Academy of Sciences, Apatity, Russia
gideon.stl@gmail.comP, https://orcid.org/0000-0003-3141-9595 Abstract
This paper describes one of the possible implementation options for the recognition of spatial data from natural language texts. The proposed option is based on the lexico-syntactic analysis of texts, which requires the use of special grammars and dictionaries. Spatial data recognition is carried out for their subsequent geocoding and visualization. The practical implementation of spatial data recognition is done using a free, freely distributed software tool. Also, some applications of spatial data are considered in the work and preliminary results of spatial data recognition are given.
Keywords:
named-entity recognition, text fact extraction, natural language text analysis, mapping
interface, geovisualization Funding
The work was carried out within the framework of the state assignment of the Ministry of
Science and Higher Education of the Russian Federation (research topic No. 0226-20190036).
For citation: Pileckiy B. M. recognition of spatial data from natural language texts for the purpose of visualization // Transactions of the Kola Science Centre. Information Technologies. Series 12. 2021. No 5. Vol. 12. P. 50-56. http://dx/doi.org/10.37614/2307-5252.2021.5.12.003.
Введение
Решение задач управления регионом, социально-экономического развития территорий, обеспечения безопасности природно-промышленных кластеров и других задач, связанных с управлением и развитием больших пространственно распределенных систем, требуют значительных ресурсов и достаточное количество квалифицированных кадров. Особенную сложность такие задачи приобретают если объектом управления является регион с экстремальными природно-климатическими условиями. [1,2] Разработка и применение современных интеллектуальных систем поддержки принятия решений с геоинтерфейсом является одним из путей снижения сложности решения задач управления пространственно-распределёнными социо-экономическими системами. [3]
Управление подобными системами требует от лица, принимающего решения, учитывать и оценивать взаимное влияние множества факторов, включая и географический контекст решаемых задач. [4] Для того, чтобы наиболее эффективно осуществлять планирование использования имеющихся территорий, вносить корректировки с учётом особенностей конкретного региона, определять адекватную стратегию развития инфраструктурных проектов лицам, принимающим решения, необходимо иметь возможность оперативно получать информационную поддержку. При этом для арктических территорий и территорий Крайнего Севера характерна более высокая сложность планирования, в силу природно-климатических особенностей. [5]
Основная часть
Под «геоданными» (или пространственными данными) понимаются цифровые данные о пространственных объектах. К ним относятся сведения об их местоположении, свойствах и иных атрибутах. В таких данных могут быть выделены и рассмотрены взаимосвязанные части: описание пространственного положения или «позиционные данные», а также их тематическое содержание или «непозиционные данные». Таким образом, полное описание подобных данных будет состоять из взаимосвязанных описаний топологии, геометрии и атрибутики рассматриваемых геообъектов. В основе информационного обеспечения географических информационных систем (ГИС) лежат именно такие пространственные данные, с учетом их семантического окружения. Если учитывать изменчивость пространственных данных, то данный концепт может быть расширен.
С учётом того, что в настоящее время более половины всех цифровых данных обладают геопривязкой [6], то в таком случае становится перспективным использование геоданных в системах поддержки принятий решений. Однако,
стоит отметить, что значительная доля информации представляется в неструктурированном виде. Зачастую это могут быть тексты на естественном языке, например официальные документы, статьи, записи в социальных сетях и т.п. В таких условиях актуальной становится задача создания модуля системы поддержки принятия решений для визуализации пространственных данных.[7]
Высокую степень важности применения пространственных данных при управлении обширными территориями отмечается многими авторами. Так в работах [8,9] приводится анализ эффективности и роль применения геоинформации в системах поддержки принятия решений, как фактора управления пространственной информацией. Помимо этого, уделяется внимание рассмотрению вопроса использования такой информации в экономико-статических методах моделирования, а также исследуется синергетический эффект применения подобного типа информации при управлении экономической деятельностью.
Геоданные могут быть использованы при управлении различными видами транспорта. В частности, в работе [10-12] рассматриваются некоторые особенности подходов при решении логистических задач. В частности, выделяют подходы к управлению транспортными потоками, а также предлагаются пути решения задачи маршрутизации транспортных средств.
Широкое применение геоданные нашли в кадастре [13]. Например, в ряде работ подобный тип данных рассматривается как основной ресурс, при помощи которого разрабатываются кадастровые системы и осуществляется учёт земель, создаются методы их оценки, а также ищутся решения задачи стратификации земель.
В связи с этим, можно утверждать, что для успешного решения различных научных и прикладных задач могут быть применены пространственные данные. Стоит отметить, что большая часть ныне существующих систем поддержки принятия решений (СППР) и географических информационных систем не включают в стандартный инструментарий средства обработки текстов на естественном языке с целью выявлениях в них геоданных. Помимо этого, как в ГИС, так и в СППР зачастую нет инструментов автоматического выявления, структурирования, хранения, и визуализации геоданных, которые получаются посредством проведения анализа текстов на естественном языке. В этой связи, актуальной научно-прикладной задачей становится создание метода, технологии и программно-алгоритмического обеспечения для извлечения геодданых из текстов на естественном языке.
Отличительной особенность предлагаемых методов и технологий является извлечение геоданных из текстов на естественном языке. Для этого используется инструмент для анализа текстов на естественном языке «Томита-парсер». Он был выбран в результате рассмотрения проблематики извлечениях именованных сущностей из текстов на естественном языке.
Материалом для анализа послужил корпус текстов на естественном языке по арктической тематике. Большая часть таких текстов была собрана на предыдущих этапах исследовательских работ, направленных на создание методов, технологий и программно-алгоритмического обеспечения для визуализации пространственных данных, извлеченных из текстов на естественном языке.
На рис. 1 представлена общая схема работы «Томита парсера», подключаются словари и наборы правил называемые грамматики для анализа.
Рис. 1. Общая схема работы «Томита парсера»
Парсером выявляется геоинформация в исследуемых текстах на естественном языке. В результате работы формируется набор слов и словосочетаний, которым противопоставляется их географическая привязка.
Извлечённые из текстов на естественном языке пространственные данные в дальнейшем могут быть визуализированы и для визуализации и поддержки принятия решений по управлению территориями. Геовизуализация в контексте решения управленческих задач, может стать достаточно эффективным инструментом для принятия оптимальных решений при реализации проектов в таких сферах как: энергетика, строительство, освоение месторождений полезных ископаемых, и иных. Помимо этого, наглядное представление пространственных данных позволяет повысить понимание уровня социально-экономического развития региона, распределения населения и объектов промышленности по подведомственной территории.
На данном этапе проводимого исследования были получены следующие результаты. Была разработана структура файлов для инструмента «Томита-парсер» от компании Яндекс, который используется для извлечения структурированных данных из текста на естественном языке. Такие данные извлекаются для дальнейшего использования в системах поддержки принятия решений по управлению территориями. Предложенная в работе файловая структура на данный момент позволяет проводить анализ текстов по арктической тематике. Были разработаны контекстно-свободные грамматики (правила) с целью повышения эффективности, проводимого при помощи «Томита-парсера» лексико-синтаксического анализа текстов на естественном языке. Такие грамматики используются для выделения фактов. Помимо этого, создан список типовых структур, которые могут быть использованы при проведении исследований текстов на естественном языке иной тематики.
На начальном этапе анализа на вход необходимо подавать корпус анализируемых текстов на естественном языке. Затем осуществляется анализ текста, результатом которого являются леммы и грамматические признаки. Для «Томита парсера» был создан газеттир (специальный словарь), в которой были добавлены различные статьи, содержащие информацию о геообъектах, например
топонимы Мурманской области. Содержащиеся в газеттире ключи ищутся в процессе анализа, что в результате повышает точность определения искомых геообъектов в тексте. Структура статей в газеттире «Томита парсера» является типовой, что позволяет использовать его в других исследованиях при условии доработки.
Извлекаемые цепочки из текста интерпретируются в факты, согласно разработанным грамматикам. Например, следующее правило: «S -> Place interp(EventFact.Place)» используется для интерпретации цепочки в факт о местоположении события, о котором упоминается в тексте. Структуру фактов была задана отдельно. Используется такое поле факта: «required string EventPlace = 1;».
Проведённые на ограниченном наборе данных испытания показали, что в текущем состоянии точность извлечения геообъектов в текстах на естественном языке находится в диапазоне 85-88%.
Заключение
В дальнейшем планируется расширить список контекстно-свободных грамматик. В частности, исследовать методы разрешения неоднозначностей, при совпадении наименований геообъектов разной природы. Также рассматривается возможность переработки структуры извлекаемых «Томита-парсером» фактов, с целью унификации списка получаемых геообъектов для упрощения дальнейшей обработки. В качестве инструмента геовизуализации может быть выбрана облачная геоинформационная система Arc GIS, а для определения пространственной привязки геообъектов могут быть использованы различные геокодеры. Поскольку структура газеттира достаточно типовая, то процесс его заполнения можно автоматизировать, если использовать скрипт. На данный момент рассматривается вариант разработки скрипт для формирования газеттира на языках программирования C и Python.
Список сокращений
ГИС - географическая информационная система СППР - система поддержки принятия решений
Список литературы
1. Sentsov A., Bolsunovskaya Y., Melnikovich E. The Arctic zone: Possibilities and risks of development // IOP Conference Series: Earth and Environmental Science, 2016, DOI 10.1088/1755-1315/43/1/012100.
2. Bondareva N. N. Modern Approaches to Arctic Development in View of Synergy Potential in the New Risks and challenges Environment // Modernization Innovation Research. -2021.-№12(1). -P.23-33, DOI:10.18184/2079-4665.2021.12.1.23-33.
3. Vicentiy, A. V. The Geoimage Generation Method for Decision Support Systems Based on Natural Language Text Analysis // Lecture Notes in Networks and Systems. -2021. - vol. 230. - P. 609-619.
4. Watkins C. The geographical context // Disclosing Church, 2020. - P. 71-81, DOI: 10.4324/9781315142531-8.
5. Vicentiy A.V., Shishaev M.G. The Technology of Spatial Relations Visualization Based on the Analysis of Natural Language Texts // Lecture Notes in Networks and Systems. -2021. vol 232. - P. 971-980.
6. Hahmann S., Burghardt D. How much information is geospatially referenced? Networks and cognition // International Journal of Geographical Information Science. - 2013. - vol. 27. - P. 1171-1189.
7. Бахарева Н.А. Поддержка принятия решений при оценке земель // Государственный советник.- 2015.-№1.- С. 50-56.
8. Deravignone L. GIS data and Territorial Management Approach // Urban coastal area conflicts analysis methodology, 2013. - P. 267-280.
9. Цветков В.Я., Алпатов А.Н. Управление распределенными транспортными потоками // Государственный советник. - 2014. - №3. - С. 55-60.
10. Vicentiy A.V., Dikovitsky V.V., Shishaev M.G. Automated Extraction and Visualization of Spatial Data Obtained by Analyzing Texts About Projects of Arctic Transport // Advances in Intelligent Systems and Computing. - 2019. P. 419433.
11. Wallentin G., Graser A., Scholz J. GIS and Transport Modeling—Strengthening the Spatial Perspective // International Journal of Geo-Information. -2016.-№5(6). -P.84-107, D0I:10.3390/ijgi5060084
12. Amar I., Karrar A., Adrees M. A Proposed Framework for Using GIS to Enhance Traffic Safety in Sudan: A Case Study // American Journal of Traffic and Transportation Engineering. -2016.-№1(1).
13. Бахарева Н.А. Геоданные в земельном кадастре // Образовательные ресурсы и технологии. -2016-.-№3 (15). -С. 69-79.
References
1. Sentsov A., Bolsunovskaya Y., Melnikovich E. The Arctic zone: Possibilities and risks of development // IOP Conference Series: Earth and Environmental Science, 2016, DOI 10.1088/1755-1315/43/1/012100.
2. Bondareva N. N. Modern Approaches to Arctic Development in View of Synergy Potential in the New Risks and challenges Environment // Modernization Innovation Research. -2021.-№12(1). -P.23-33, D0I:10.18184/2079-4665.2021.12.1.23-33.
3. Vicentiy, A. V. The Geoimage Generation Method for Decision Support Systems Based on Natural Language Text Analysis // Lecture Notes in Networks and Systems. -2021. - vol. 230. - P. 609-619.
4. Watkins C. The geographical context // Disclosing Church, 2020. - P. 71-81, DOI: 10.4324/9781315142531-8.
5. Vicentiy A.V., Shishaev M.G. The Technology of Spatial Relations Visualization Based on the Analysis of Natural Language Texts // Lecture Notes in Networks and Systems. -2021. vol 232. - P. 971-980.
6. Hahmann S., Burghardt D. How much information is geospatially referenced? Networks and cognition // International Journal of Geographical Information Science. - 2013. - vol. 27. - P. 1171-1189.
7. Bakhareva N.A. Decision-making support in land assessment // Gosudarstveniy Vestnik. - 2015. - 1. - P. 50-56.
8. Deravignone L. GIS data and Territorial Management Approach // Urban coastal area conflicts analysis methodology, 2013. - P. 267-280.
9. Tsvetkov V.Y., Alpatov A.N. Management of Distributed Transport Flows // Gosudarstveniy Vestnik. - 2014. - №3. - С. 55-60.
10.Vicentiy A.V., Dikovitsky V.V., Shishaev M.G. Automated Extraction and Visualization of Spatial Data Obtained by Analyzing Texts About Projects of Arctic Transport // Advances in Intelligent Systems and Computing. - 2019. P. 419-433.
11.Wallentin G., Graser A., Scholz J. GIS and Transport Modeling—Strengthening the Spatial Perspective // International Journal of Geo-Information. -2016.-№5(6). -P.84-107, DOI: 10.3390/ijgi5060084.
12.Amar I., Karrar A., Adrees M. A Proposed Framework for Using GIS to Enhance Traffic Safety in Sudan: A Case Study // American Journal of Traffic and Transportation Engineering. - 2016. - №1(1).
13.Bakhareva N.A. Geodata in the land cadaster // Obrazovatelniye resursi I tehnologii. - 2016. - №3 (15). - С. 69-79.
Сведения об авторах
Б. М. Пилецкий — аспирант ИИММ КНЦ РАН.
Information about the authors
B. M. Pileckiy — post-graduate student of the Institute for Informatics and Mathematical
Modeling Kola Science Centre of the Russian Academy of Sciences.
Статья поступила в редакцию 15.11.2021; одобрена после рецензирования 20.11.2021;
принята к публикации 08.12.2021.
The article was submitted 15.11.2021; approved after reviewing 20.11.2021; accepted
for publication 08.12.2021.