Труды Кольского научного центра РАН. Информационные технологии. Вып. 12. 2021. Т. 12, № 5. С. 35-49.
Transactions of the Ко1а Science Centre. Information technologies. Series 12. 2021. Vol. 12, no. 5. P. 35-49.
Научная статья УДК 004.5, 004.9
DOI: 10.37614/2307-5252.2021.5.12.003
ТЕХНОЛОГИЯ ИЗВЛЕЧЕНИЯ ГЕОАТРИБУТИРОВАННЫХ СУЩНОСТЕЙ ДЛЯ ВИЗУАЛЬНОГО ПРЕДСТАВЛЕНИЯ ПРОСТРАНСТВЕННОЙ СВЯЗНОСТИ ОБЪЕКТОВ НА ОСНОВЕ АВТОМАТИЗИРОВАННОЙ ГЕНЕРАЦИИ КАРТОСХЕМ
Вицентий Александр ВладимировичШишаев Максим Геннадьевич2
12 Институт информатики и математического моделирования ФИЦ КНЦ РАН, Апатиты, Россия
1 [email protected], https://orcid.org/0000-0003-1331-4749
2 [email protected], https://orcid. org/0000-0001-7070-7878
Аннотация
В данной работе рассматривается проблема извлечения геоатрибутированных сущностей из текстов на естественном языке для визуального представления пространственной связности географических объектов с помощью использования технологии автоматизированной генерации картосхем, как предметно-ориентированных компонентов географических информационных систем. В работе описана информационная технология, которая позволяет извлекать геоатрибутированные сущности из текстов на естественном языке с помощью комбинирования нескольких подходов. Это нейросетевой подход, подход на основе правил и подход на основе использования лексико-семантических шаблонов для анализа естественно языковых текстов. Для визуализации данных предлагается использовать автоматизированные средства геокодирования в совокупности с возможностями современных географических информационных систем. Результатом работы этой технологии является картосхема, отображающая пространственную связность объектов, упомянутых в тексте. Ключевые слова:
обработка естественного языка, распознавание именованных сущностей, картографический интерфейс, геовизуализация, картосхема Финансирование
Работа выполнена в рамках выполнения гос. задания по теме НИР № 0226-2019-0036. Для цитирования: Вицентий А. В., Шишаев М. Г. Технология извлечения геоатрибутированных сущностей для визуального представления пространственной связности объектов на основе автоматизированной генерации картосхем // Труды Кольского научного центра РАН. Информационные технологии. Вып. 12. 2021. Т. 12, № 5. С. 35-49. http://dx/doi.org/10.37614/2307-5252.2021.5.12.003
Original article
THE GEOATTRIBUTED ENTITY EXTRACTION TECHNOLOGY FOR VISUAL REPRESENTATION OF OBJECTS SPATIAL RELATIONS BASED ON AUTOMATED SCHEMATIC MAP GENERATION
Alexander V. VicentiyMaxim G. Shishaev2
1 2 Institute for Informatics and Mathematical Modeling Kola Science Centre of the Russian Academy of Sciences, Apatity, Russia
1 [email protected], https://orcid.org/0000-0003-1331-4749
2 [email protected], https://orcid. org/0000-0001-7070-7878
Abstract
This paper considers the problem of extracting geoattributed entities from natural language texts to visualize the spatial relations of geographical objects. For visualization we use the technology of automated generation of schematic maps as subject-oriented components of geographic information systems. The paper describes the information technology that allows extracting geoattributed entities from natural language texts by combining several approaches. These are the neural network approach, the rule-based approach and the approach based on the use of lexico-syntactic patterns for the analysis of natural language texts. For data visualization we propose to use automated geocoding tools in conjunction with the capabilities of modern geographic information systems. The result of this technology is a cartogram that displays the spatial relations of the objects mentioned in the text. Keywords
natural language processing, named entity recognition, cartographic interface, geovisualization, schematic map
Funding
The article was supported by the federal budget to carry out the state task of the FRC KSC RAS No. 0226-2019-0036.
For citation: Vicentiy A. V., Shishaev M. G. The geoattributed entity extraction technology for visual representation of objects spatial relations based on automated schematic map generation // Transactions of the Kola Science Centre. Information technologies. Series 12. 2021. Vol. 12, no. 5. P. 35-49. http://dx/doi.org/10.37614/2307-5252.2021.5.12.003.
1. Введение
В настоящее время в свободном доступе находится огромное количество текстовой информации. Как правило, это неструктурированные или слабо структурированные тексты на естественном языке. Причем в различных отчетах и обзорах, касающихся оценки аудитории Интернет и связанных с этим вопросов, отмечается, что в 2021 году количество пользователей сети Интернет росло особенно быстро. Некоторые исследователи связывают этот факт с пандемией Covid-19. Интенсивный приток пользователей Интернет, как абсолютно новых, так и просто создающих новые аккаунты, явился одним из «побочных эффектов» пандемии.
В любом случае, вне зависимости от причин, увеличение пользователей будет способствовать дальнейшему увеличению количества естественноязыковых текстов в информационном пространстве. А увеличение количества и разнообразия свободно доступных текстов, в свою очередь, будет способствовать повышению их привлекательности в качестве источника для автоматического извлечения данных и знаний с помощью современных методов обработки текстов на естественном языке (Natural Language Processing, NLP) [1, 2].
Учитывая тот факт, что большая часть данных в сети Интернет в явном или неявном виде ассоциирована с геоданными, например, имеет географическую привязку, геотеги, или содержит указание на географические объекты [3], создание новых и развитие существующих подходов и методов для распознавания географических сущностей и извлечения геоданных из текстов будет становиться все более важной и актуальной задачей.
Кроме того, развитие методов автоматизированного извлечения данных, включая геоданные, и знаний (семантики) из естественно-языковых текстов имеет большое прикладное значение. Эти данные и знания, преобразованные в удобный для решения конкретной задачи вид, находят применения в таких областях как поддержка принятия решений [4], анализ текстов [5-7],
логистические задачи [8, 9], разработка и наполнение онтологий [10, 11], исследование социальных сетей [12, 13], анализ медицинских документов [14], поиск географической информации [15, 16] и других.
В этой работе описывается информационная технология, которая позволяет извлекать геоатрибутированные сущности из текстов на естественном языке, а затем, на основе извлеченных данных, генерировать картосхемы, отображающие пространственную связность геоатрибутированных сущностей, упомянутых в тексте.
2. Материалы и методы
Для извлечения именованных географических сущностей из текстов на естественном языке применяются методы, используемые для решения задач информационного поиска [17], распознавания именованных сущностей [18], и поиска географической информации [19]. Реализованные в современных программных средствах методы и алгоритмы для извлечения геоданных из текстов основаны, как правило, на более общих методах распознавания именованных сущностей [20-22]. Однако, все разнообразие подходов в области распознавания именованных сущностей можно разделить на три категории: подходы, основанные на использовании нейронных сетей и машинного обучения; подходы, основанные на использовании правил; гибридные подходы [23, 24].
На сегодняшний день практически все state-of-the-art решения задачи распознавания именованных сущностей основаны на нейросетевом подходе. Именно этот подход показывает наилучшие результаты при относительно небольших трудозатратах при разработке. Кроме того, за последние годы было создано большое количество различных фреймворков, библиотек и обучающих выборок, которые значительно облегчают создание готовых решений. Подходы на основе правил находят применение в основном при работе со сложными или специфическими предметными областями [25-27], для создания систем, работающих с языками с богатой морфологией или восточными и азиатскими языками [28, 29], а также в гибридных системах, объединяющих достоинства обоих подходов.
Предварительная оценка возможностей современных инструментов распознавания именованных сущностей (SpaCy, Google Cloud NLP, Natasha, и других) с точки зрения решения задачи извлечения геоатрибутированных сущностей для визуального представления пространственной связности показала, что ни один из этих инструментов не может обеспечить распознавание пространственных отношений в текстах на естественном языке. Эксперименты проводились как для русскоязычных, так и для англоязычных текстов.
В связи с этим, нами была предложена гибридная информационная технология извлечения геоатрибутированных сущностей, позволяющая распознавать в текстах на естественном языке не только географические именованные сущности, но и информацию о пространственных связях (связях, имеющих географический смысл) распознанных географических объектов. Гибридная информационная технология объединяет возможности нейросетевого подхода, подхода на основе правил и анализа текста на основе лексико-семантических шаблонов. Данные, полученные в результате обработки текстов с помощью предложенной технологии извлечения геоатрибутированных
сущностей, визуализируются в виде картосхем. Генерация картосхем реализована на основе модификации методик и программных модулей геокодирования и визуализации описанных в наших предыдущих работах [30].
Материалами для анализа послужили русскоязычные тексты арктической тематики. Основными источниками текстов служили новостные ресурсы в сети Интернет, официальные сайты органов исполнительной власти и муниципалитетов, а также электронных средств массовой информации. Значительная часть текстов была собрана на предыдущих этапах исследования [31, 32] и в том или ином виде связана с описанием транспортно-логистической системы арктической зоны Российской Федерации.
3. Результаты
Как было сказано выше, технологию извлечения геоатрибутированных сущностей для визуального представления пространственной связности объектов на основе автоматизированной генерации картосхем можно разделить на две основные стадии - I) стадия распознавания геоатрибутированных сущностей и II) стадия геокодирования и геовизуализации.
В данной работе в качестве рабочего определения геоатрибутированной сущности мы используем следующее определение. Геоатрибутированная сущность (ГаС) это некоторый объект реального (физического) мира, имеющий географические координаты и географический смысл в рамках решаемой задачи. В естественно языковых текстах геоатрибутированная сущность может быть названа как «прямым способом» (например, «Хибины», «Мурманск», и т.д.), так и «описательным» («железнодорожная линия станция Выходной - мостовой переход через р. Тулома - станция Мурмаши 2 - станция Лавна», «дорога от Мурманска до Белокаменки»). Распознавание геоатрибутированных сущностей, определяемых в текстах описательным способом, является сложной задачей, не имеющей стандартного решения в настоящее время.
Таким образом, под геоатрибутированной сущностью в этой работе мы понимаем как «стандартные» географические именованные сущности (например, топонимы), так и пространственные отношения между ними. Например, в предложении «Новая автодорога будет проложена между Мурманском и Белокаменкой.» мы можем выделить три геоатрибутированные сущности. «Мурманск» и «Белокаменка» являются именованными сущностями типа местоположение (топоним), а «автодорога» является геоатрибутированной сущностью типа пространственное отношение [33]. Следует отметить, что сущности типа местоположение довольно хорошо распознаются существующими средствами распознавания именованных сущностей, а для распознавания сущностей типа пространственное отношение нет стандартных общепринятых подходов и готовых решений. Поэтому для распознавания пространственных отношений в текстах на естественном языке приходится применять комбинацию нескольких подходов обработки естественного языка. При этом, как правило, приходится учитывать особенности предметной области.
Стадию распознавания геоатрибутированных сущностей рассматриваемой технологии можно разделить на три основных этапа.
На первом этапе выполняется обработка предварительно подготовленных текстов с помощью искусственной нейронной сети. Русский язык обладает рядом
особенностей, которые осложняют распознавание именованных сущностей [34, 35]. Эти особенности необходимо учитывать при выборе инструмента обработки русскоязычных текстов. Поэтому в качестве инструмента для распознавания именованных сущностей мы выбрали библиотеку Natasha [36] реализованную на основе дистилляции языковой модели BERT от компании Google [37] и обученную на корпусе русскоязычных текстов. Эксперименты показали, что с помощью библиотеки Natasha удается распознать около 97 - 98 % именованных сущностей (топонимов), что соответствует заявленным характеристикам библиотеки и возможностям современных инструментов распознавания именованных сущностей.
Особенностью описываемой гибридной информационной технологии является то, что в результате работы первого этапа анализа текста мы получаем не только распознанные именованные сущности, но также формируем и сохраняем в отдельные текстовые блоки, включающие предложения, в которых они были найдены, и окрестность этих предложений для обработки на последующих этапах технологии. Окрестность формируется с помощью метода «скользящего окна». Таким образом, окрестностью предложения, содержащего именованную сущность, является одно или несколько предложений, находящихся в тексте справа и (или) слева от него. Размер окрестности задается размером скользящего окна.
Окрестность необходима для того, чтобы учитывать контекст при распознавании геоатрибутированных сущностей типа пространственное отношение на следующих этапах анализа текста в рамках предложенной гибридной технологии. Чем больший размер окна будет выбран, тем большая окрестность будет сформирована и тем более широкий контекст может быть учтен при последующем анализе текста. Однако, необоснованное расширение окрестности повышает количество ошибок при распознавании пространственных отношений. Это связано с тем, что при чрезмерно большом размере окрестности происходит захват контекстов, не имеющих отношения к анализируемому предложению. На основе нескольких проведенных экспериментов эмпирическим путем был выбран наиболее эффективный размер окна [-1; +1]. Это значит, что в качестве окрестности сохранятся одно предложение слева от предложения с распознанным топонимом и одно предложение справа от него.
Ввиду того, что современные нейросетевые инструменты обработки естественных языков плохо справляются с распознаванием сложных топонимов и пространственных отношений географических объектов, вторым этапом гибридной информационной технологии извлечения геоатрибутированных сущностей является этап синтаксико-морфологического анализа текста на основе применения правил и словарей. Этот этап позволяет повысить полноту распознавания геоассоциированных сущностей, а также распознавать в тексте указания на пространственные отношения между различными географическими объектами, например, за счет использования ключевых слов, собранных в словари.
В качестве инструмента анализа текста на втором этапе мы используем Yargy-парсер [38], реализующий алгоритм синтаксического анализа Earley [39]. Yargy-парсер позволяет использовать пользовательские грамматики и словари для анализа текста, благодаря чему появляется возможность распознавать, например, такие сложные топонимы, как «Путевая Усадьба 9 км железной дороги
Луостари-Никель», распознавание которых с помощью нейросетевых подходов практически невозможно. Каждый текстовый блок (предложение + окрестность), полученный на первом этапе, обрабатываются парсером отдельно, в рамках «локального контекста» каждого блока. Это позволяет повысить точность распознавания геоатрибутированных сущностей типа пространственное отношение, а также определить тип пространственного отношения (автомобильная дорога, зимник, переправа, авиарейс, железная дорога, и так далее.) и его атрибуты, если они указаны в тексте.
Эффективность анализа текстов на втором этапе сильно зависит от предметной области, а также качества разработанных правил и словарей. Основная сложность подхода, основанного на словарях и правилах, заключается с том, что учесть все возможные варианты геоатрибутированных сущностей, имеющих значение для визуализации пространственных отношений очень сложно. Поэтому третьим этапом анализа текста в рамках гибридной информационной технологии извлечения геоатрибутированных сущностей является анализ текстов с использованием лексико- семантических шаблонов.
В контексте решения задач обработки естественного языка под лексическим шаблоном понимается декларативная структура, некоторый структурный образец языковой конструкции, который отображает её лексические и синтаксические свойства. То есть это описание некоторого смыслового явления, например такого, как пространственная связь объектов, в виде некоторой «устойчивой фразы» или «языковой формулы». Такие шаблоны называют также лексико-синтаксическими или лексико-семантическими [40].
В работе [41] лексико-семантический шаблон определяется как структурный образец целевой языковой конструкции с указанным составом и лексико-семантическими свойствами, а в случае успешного сопоставления шаблона с фрагментом анализируемого текста формируется лексический объект, которому могут быть приписаны формальные (позиционные) и семантические (класс и свойства) характеристики. Таким образом, лексико-семантический шаблон состоит из логической структуры и семантического описания. Лексико-семантические шаблоны представляют собой характерные выражения (словосочетания), конструкции из определенных элементов языка (коллокации) и позволяют построить семантическую модель, соответствующую тексту, к которому они применяются [42].
Мы считаем, что, используя лексические шаблоны можно распознавать в текстах такие лексические конструкции, которые описывают пространственные связи между географическими объектами. В рамках разработки гибридной информационной технологии извлечения геоатрибутированных сущностей мы предлагаем оригинальный подход к решению задачи распознавания пространственной связности географических объектов. Отличительной чертой этого подхода является создание и использование лексико-семантических шаблонов, представляющих собой устойчивые словосочетания нескольких слов, имеющих грамматическую и смысловую связь в раках локального контекста текстовых блоков, выделенных на предыдущих этапах технологии.
Для анализа текстов с помощью лексико-семантических шаблонов был разработан набор первичных шаблонов, соответствующих предметной области. Этот набор был задан эвристически, что является относительно трудоемким процессом и требует знания предметной области. Однако, конструктивно точное
описание состава и структуры лексико-синтаксических шаблонов позволяет распознавать в текстах геоатрибутированные сущности типа пространственное отношение, которые сложно распознать с помощью других подходов.
Разработанные шаблоны описывают коллокации двух и более слов [43] и составлены с учетом как грамматических шаблонов, характерных для русского языка в целом [44], так и рамок валентностей для отдельных лексем [45].
Помимо повышения точности распознавания геоатрибутированных сущностей, одной из задач, которая решается с помощью применения разработанных нами лексико-семантических шаблонов в данной работе, является определение семантических свойств (атрибутов), а также классификация геоатрибутированных сущностей. Набор семантических атрибутов описывается на уровне класса сущности, но, при необходимости, может быть переопределен. Например, такие геоатрибутированные сущности как «дорога», «автострада», «автодорога», «автомагистраль» и т.п. будут отнесены к классу «автомобильная дорога». Класс геоатрибутированной сущности определяет набор её атрибутов (например, одним из атрибутов класса «автомобильная дорога» является атрибут «тип покрытия»), а также используется для выбора способа отображения для визуализации при генерации картосхем.
Первичный набор лексико-семантических шаблонов был разработан с использованием модифицированной версии языка LSPL [46], и предназначен для формального описания наиболее часто встречающихся языковых конструкций русского языка, для целей извлечения информации о геоатрибутированных сущностях в анализируемых текстах. Базовый синтаксис описания шаблонов удалось существенно упростить за счет учета особенностей рассматриваемой предметной области, а также за счет того, что шаблон применяется не ко всему тексту, а к текстовом блокам, выделенным на предыдущих этапах технологии. Например, простой шаблон, описывающий одну из наиболее распространенных синтаксических конструкций, характерных для рассматриваемой предметной области, представленной несколькими идущими подряд адъективами и именной группой (или отдельным существительным) может быть описан следующим образом: ЬБР1 = {А _ог_ Р} Щ{ст}) <А = N Р = N А = Р>, где ЬБР1 - имя шаблона; {А _ог_ Р} - множество идущих подряд адъективов, количество которых не фиксировано; N({сw}) - существительное (или именная группа) из множества «якорных слов», являющихся подмножеством ключевых слов, соответствующих предметной области и определенных на втором этапе технологии; <А = N Р = N А = Р> - оператор грамматического согласования частей речи. С помощь такого шаблона из фразы «Новая асфальтовая автодорога будет проложена между Мурманском и Белокаменкой.» будет выделена геоатрибутированная сущность «автодорога» класса «автомобильная дорога», а также значение «асфальтовая» атрибута «тип покрытия». Для адъективов, распознанных с помощью шаблона, но не относящихся ни к одному из определенных атрибутов введен дополнительный атрибут «прочие характеристики», куда, в данном случае, будет записано значение «новая».
Вторая стадия технологии, реализующая процедуры автоматического геокодирования и геовизуализации, описана в предыдущей работе по данной тематике [47] и в рамках данной статьи подробно рассматриваться не будет. Отметим только, что для оперативной генерации картосхем используются возможности современной ГИС, что позволяет синтезировать картосхемы почти
в режиме реального времени, то есть без значимых с точки зрения человека, задержек при синтезе геоизображения.
4. Заключение
В данной работе рассмотрена технология извлечения геоатрибутированных сущностей для визуального представления пространственной связности объектов на основе автоматизированной генерации картосхем. Предложенная технология позволяет решать задачу извлечения геоатрибутированных сущностей из текстов на естественном языке для визуального представления пространственной связности географических объектов. Особенностью данной технологии является последовательное использование трех различных подходов для обработки текста: нейросетевого, на основе правил, на основе лексико-семантических шаблонов. Таким образом, технология сочетает в себе эффективность нейросетевого подхода для решения задачи распознавания именованных сущностей, гибкость подхода на основе правил, позволяющего учесть особенности предметной области, а также возможность анализа отдельных сложных лексических конструкций с помощью лексико-семантических шаблонов.
Дальнейшим направлением развития описанной технологии может стать генерация более детализированных и «персонализированных» картограмм, учитывающих особенности задачи, для решения которой генерируется геоизображение. Предложенная технология или её часть также может могут быть использованы в качестве элементов мультипредметных интеллектуальных информационных систем или систем поддержки принятия решений для информационной поддержки управления развитием пространственно-организованных биосоциоэкономических региональных систем, в том числе Арктической зоны Российской Федерации.
Список литературы
1. Agarwal, M.: An Overview of Natural Language Processing. In: International Journal for Research in Applied Science and Engineering Technology (IJRASET), Vol. 7, 2019. - pp. 2811-2813
2. Khurana D et al Natural Language Processing: State of The Art, Current Trends and Challenges. - 2017. - pp. 1-12
3. Hahmann, S., Burghardt, D.: How much information is geospatially referenced? Networks and cognition. International Journal of Geographical Information Science. — 2013. — vol. 27. — pp. 1171-1189
4. Бахарева Н.А. Поддержка принятия решений при оценке земель // Государственный советник. 2015. № 1. С. 50-56
5. Dikovitsky V.V. Automated Extraction of Deontological Statements Through a Multilevel Analysis of Legal Acts / V.V. Dikovitsky, M.G. Shishaev // Computational and Statistical Methods in Intelligent Systems: Advances in Intelligent Systems and Computing / eds. R. Silhavy, P. Silhavy, Z. Prokopova. -Cham: Springer International Publishing, 2019. - P. 102-110.
6. Dikovitsky V.V. Automated Extraction of Paradigmatic Relationships from Natural Language Texts on the Basis of the Complex of Heterogeneous Features / V.V. Dikovitsky, M.G. Shishaev // Intelligent Algorithms in Software Engineering:
Advances in Intelligent Systems and Computing / ed. R. Silhavy. - Cham: Springer International Publishing, 2020. - pp. 531-541
7. Shishaev M.G. Concept and Preliminary Testing of the Two-Stage Technology of Terminology Extraction on the Basis of Topic Modeling and Context Analysis. / Shishaev M.G., Dikovitsky V.V., Lomov P.A. // Lecture Notes in Networks and Systems, vol 228. Springer, 2021. - pp. 636-644
8. Цветков В.Я., Алпатов А. Н. Управление распределенными транспортными потоками // Государственный советник. - 2014. - №3. - с. 55-60
9. Vicentiy A.V. Automated Extraction and Visualization of Spatial Data Obtained by Analyzing Texts About Projects of Arctic Transport Logistics Development / A.V. Vicentiy, V.V. Dikovitsky, M.G. Shishaev // Intelligent Systems Applications in Software Engineering: Advances in Intelligent Systems and Computing / eds. R. Silhavy, P. Silhavy, Z. Prokopova. - Cham: Springer International Publishing, 2019.
- pp. 419-433.
10.Shishaev M. Automating Implementation of Business Logic of Multi Subject-Domain IS on the Base of Machine Learning, Data Programming and Ontology-Based Generation of Labeling Functions / Shishaev M., Lomov P. // Communications in Computer and Information Science, vol 1401. Springer, - pp. 177-190
11.Al-Aswadi F.N. Automatic ontology construction from text: a review from shallow to deep learning trend / F.N. Al-Aswadi, H.Y. Chan, K.H. Gan // Artificial Intelligence Review, 2020. - Vol. 53. - № 6. - pp. 3901-3928
12.Dikovitsky V.V. Topic Clustering of Social Media Using Multilayer Text Analysis / Dikovitsky V.V., Fedorov A.M. // Advances in Intelligent Systems and Computing, vol 1294. Springer, 2020. - pp. 931-938
13.Datyev I.O. Framework for Civic Engagement Analysis Based on Open Social Media Data / I.O. Datyev, A.M. Fedorov, A.L. Shchur // Artificial Intelligence and Bioinspired Computational Methods: Advances in Intelligent Systems and Computing / ed. R. Silhavy. - Cham: Springer International Publishing, 2020. - pp. 586-597.
14.Pedrosa, J., Oliveira, D. M., Meira, W., Ribeiro, A. L. Automated classification of cardiology diagnoses based on textual medical reports In: Proceedings of the 8th Symposium on Knowledge Discovery, Mining and Learning. 2020, - pp. 185-192
15.Grishman, R.: Information Extraction. In: The Handbook of Computational Linguistics and Natural Language Processing. Ed. By Alexander Clark, Chris Fox, and Shalom Lappin. Malden, MA: Wiley-Blackwell. 2010, - pp. 515-530
16.Purves, R. S., Clough, P., Jones, C. B., Hall, M. H., Murdock, V.: Geographic Information Retrieval: Progress and Challenges in Spatial Search of Text. In: Foundations and Trends in Information Retrieval. Now Publishers Inc. Vol. 12, 2018
- pp.164-318
17.Doddington, G.R., Mitchell, A., Przybocki, M., Ramshaw, L., Strassel, S., Weischedel, R.: The Automatic Content Extraction (ACE) Program - Tasks, Data, and Evaluation, http://www.lrec-conf.org/proceedings/lrec2004/pdfZ5.pdf
18.Sun P., X. Yang, X. Zhao and Z. Wang An Overview of Named Entity Recognition / Sun P., Yang X., Zhao X., Wang Z. //, 2018 International Conference on Asian Language Processing (IALP), 2018, pp. 273-278
19.Campelo C.E.C., De Souza Baptista C. A model for geographic knowledge extraction on Web documents // Lecture Notes in Computer Science (including
subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). Springer, Berlin, Heidelberg. Vol. 5833 LNCS, 2009 - pp. 317-326
20.Acheson, E., Volpi, M., Purves R., S.: Machine learning for cross-gazetteer matching of natural features. In: International Journal of Geographical Information, Vol.34, 2019.- pp.1-27
21.Zenasni, S. Spatial information extraction from short messages. / Zenasni, S., Kergosien, E., Roche, M., Teisseire, M. // Expert Systems with Applications Vol. 95, 2018. - pp. 351-367
22.Capineri, C., Haklay, M., Huang, H., Antoniou, V., Kettunen, J., Ostermann, F. and Purves, R. European Handbook of Crowdsourced Geographic Information. London: Ubiquity Press, 2016. - 474 p.
23.Stock, K.: Mining location from social media: A systematic review // Computers, Environment and Urban Systems, Vol.71, - 2018. - pp. 209-240
24.Yadav, V., Bethard, S.: A Survey on Recent Advances in Named Entity Recognition from Deep Learning models. In: Proceedings of the 27th International Conference on Computational Linguistics, 2018. - pp. 2145-2158
25.Song, H.J. Comparison of named entity recognition methodologies in biomedical documents / Song, H.J., Jo, B.C., Park, C.Y., Kim, J.D., Kim, Y.S. // Biomed. Eng. Online, Vol. 17, 2018. - P 158.
26.Eftimov, T. A rule-based named-entity recognition method for knowledge extraction of evidence-based dietary recommendations. / Eftimov, T., Seljak, B.K., Korosec, P. // PLoS One, Vol.12, 2017. https://doi.org/10.1371/journal.pone.0179488
27.I§iklar, Y.E. A TV content augmentation system exploiting rule based named entity recognition method. / Içiklar, Y.E., Çiçekli, N. // Lecture Notes in Electrical Engineering, Springer, 2016. - pp. 349-357
28.Richa Sharma Named entity recognition for Hindi language: A survey / Richa Sharma, Sudha Morwal, Basant Agarwal // Journal of Discrete Mathematical Sciences and Cryptography, Vol. 22, 2019. - pp. 569-580
29.Ivanitskiy, R. Russian Named Entities Recognition and Classification Using Distributed Word and Phrase Representations / Ivanitskiy, R., Shipilo, A., Kovriguina, L. // Proceedings of the 3rd Annual International Symposium on Information Management and Big Data - SIMBig 2016, Cusco, Peru, September 13, 2016. pp. 150-156.
30.Вицентий, А. В. Технология извлечения и визуализации пространственных данных, полученных при анализе текстов / А. В. Вицентий, В. В. Диковицкий, М. Г. Шишаев // Труды Кольского научного центра РАН. - 2020. - Т. 11. -№ 8(11). - С. 115-119
31.Vicentiy A.V. The Semantic Models of Arctic Zone Legal Acts Visualization for Express Content Analysis / A.V. Vicentiy, V.V. Dikovitsky, M.G. Shishaev // Software Engineering and Algorithms in Intelligent Systems: Advances in Intelligent Systems and Computing / ed. R. Silhavy. - Cham: Springer International Publishing, 2019. - pp. 216-228.
32.Vicentiy A., Vicentiy I. The Method of Dynamic Visualization of Spatial Data for Cognitive Interfaces of Information Systems Supporting Regional Management // International Multidisciplinary Scientific GeoConference "Surveying Geology and Mining Ecology Management". - 2019. - vol. 19. - pp. 667-672
33.Vicentiy A.V. The Technology of Spatial Relations Visualization Based on the Analysis of Natural Language Texts / Vicentiy A.V., Shishaev M.G. // Lecture Notes in Networks and Systems, vol 232. Springer, 2021. - pp. 971-980
34.Piskorski, J. The Second Cross-Lingual Challenge on Recognition, Normalization, Classification, and Linking of Named Entities across Slavic Languages. / Piskorski, J., Laskova, L., Marcinczuk, M., Pivovarova, L., Priban, P., Steinberger, J., Yangarber, R. // Proceedings of the 7th Workshop on Balto-Slavic Natural Language Processing. Association for Computational Linguistics, Stroudsburg, 2019. - pp. 6374.
35.Piskorski, J. The First Cross-Lingual Challenge on Recognition, Normalization, and Matching of Named Entities in Slavic Languages. / Piskorski, J., Pivovarova, L., Snajder, J., Steinberger, J., Yangarber, R. // Proceedings of the 6th Workshop on Balto-Slavic Natural Language Processing. Association for Computational Linguistics, Stroudsburg, 2017. - pp. 76-85.
36. Официальный сайт проекта Natasha: https://natasha.github.io/
37.Официальная страница проекта BERT на github: https://github.com/google-research/bert
38. Официальный сайт проекта Yargy: https://github.com/natasha/yargy
39.Earley, J. An efficient context-free parsing algorithm. // Communications of the ACM, 13, 1970. - pp. 94 - 102
40.Наместников, А. М. Онтологический подход к сентимент-анализу программных систем / А. М. Наместников, И. В. Арзамасцева // Автоматизация процессов управления. - 2021. - № 2. - С. 34-39.
41.Тимофеев, П. С. Лексико-семантические шаблоны как инструмент декларативного описания языковых конструкций и лингвистического анализа текста / П. С. Тимофеев, Е. А. Сидорова // Системная информатика. - 2018. -№ 13. - С. 35-48.
42.Рабчевский Е.А. Автоматическое построение онтологий на основе лексико-синтаксических шаблонов для информационного поиска // Труды 11 -й Всероссийской научой конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL'2009. Петрозаводск, 2009. - С. 69-77.
43.Ненаусников, К. В. Алгоритм автоматического выделения коллокаций из текста / К. В. Ненаусников, С. В. Кулешов // Известия высших учебных заведений. Приборостроение. - 2019. - Т. 62. - № 11. - С. 976-981
44.Найханова Л.В. Технология создания методов автоматического построения онтологий с применением генетического и автоматного программирования: Монография // Федеральное агентство по образованию, Государственное образовательное учреждение высшего профессионального образования "Восточно-Сибирский государственный технологический университет". -Улан-Удэ: Изд-во БНЦ СО РАН, 2008. - 244 с.
45.Апресян, Ю. Д. Трехуровневая теория управления: лексикографический аспект / Ю. Д. Апресян // Теоретические проблемы русского синтаксиса: Взаимодействие грамматики и словаря / ответственный редактор Ю. Д. Апресян. - Москва, 2010. - С. 281-377
46. Официальный сайт проекта LSPL: http://www.lspl.ru/index.php
47.Vicentiy, A. V. The Geoimage Generation Method for Decision Support Systems Based on Natural Language Text Analysis / A. V. Vicentiy // Lecture Notes in Networks and Systems. - 2021. - Vol. 230. - pp. 609-619
References
1. Agarwal M. An Overview of Natural Language Processing. International Journal for Research in Applied Science and Engineering Technology (IJRASET), 2019, Vol. 7,pp.2811-2813.
2. Khurana D., Koli A., Khatter K., Singh S. Natural Language Processing: State of The Art, Current Trends and Challenges. ArXiv, 2017, pp. 1-12.
3. Hahmann, S., Burghardt, D. How much information is geospatially referenced? Networks and cognition. International Journal of Geographical Information Science, 2013, Vol. 27, pp. 1171-1189.
4. Bahareva N.A. Podderzhka prinyatiya reshenij pri ocenke zemel' [Decision support for land valuation]. Gosudarstvennyjsovetnik [State Counselor], 2015, No 1, pp. 5056. (In Russ.).
5. Dikovitsky V.V., Shishaev M.G. Automated Extraction of Deontological Statements Through a Multilevel Analysis of Legal Acts. Computational and Statistical Methods in Intelligent Systems. Advances in Intelligent Systems and Computing, 2019, Vol. 859, pp. 102-110.
6. Dikovitsky V.V., Shishaev M.G. Automated Extraction of Paradigmatic Relationships from Natural Language Texts on the Basis of the Complex of Heterogeneous Features. Intelligent Algorithms in Software Engineering. Advances in Intelligent Systems and Computing, 2020, Vol. 763, pp. 531-541.
7. Shishaev M.G., Dikovitsky V.V., Lomov P.A. Concept and Preliminary Testing of the Two-Stage Technology of Terminology Extraction on the Basis of Topic Modeling and Context Analysis. Lecture Notes in Networks and Systems, 2021, Vol 228, pp. 636-644.
8. Cvetkov V .YA., Alpatov A. N. Upravlenie raspredelennymi transportnymi potokami [Distributed Transport Stream Management]. Gosudarstvennyj sovetnik [State Counselor], 2014, No 3, pp. 55-60 (In Russ.).
9. Vicentiy A.V., Dikovitsky V.V., Shishaev M.G. Automated Extraction and Visualization of Spatial Data Obtained by Analyzing Texts About Projects of Arctic Transport Logistics Development. Intelligent Systems Applications in Software Engineering: Advances in Intelligent Systems and Computing, 2019, Vol. 232, pp. 419-433.
10.Shishaev M., Lomov P. Automating Implementation of Business Logic of Multi Subject-Domain IS on the Base of Machine Learning, Data Programming and Ontology-Based Generation of Labeling Functions. Communications in Computer and Information Science, 2021, Vol 1401, pp. 177-190.
11.Al-Aswadi F.N., Chan H.Y., Gan K.H. Automatic ontology construction from text: a review from shallow to deep learning trend. Artificial Intelligence Review, 2020, Vol. 53, No 6, pp. 3901-3928.
12.Dikovitsky V.V., Fedorov A.M. Topic Clustering of Social Media Using Multilayer Text Analysis. Advances in Intelligent Systems and Computing, 2020, Vol 1294, pp. 931-938.
13.Datyev I.O., Fedorov A.M., Shchur A.L. Framework for Civic Engagement Analysis Based on Open Social Media Data. Artificial Intelligence and Bioinspired
Computational Methods: Advances in Intelligent Systems and Computing, 2020, Vol. 1225, pp. 586-597.
14.Pedrosa J., Oliveira D. M., Meira W., Ribeiro A. L. Automated classification of cardiology diagnoses based on textual medical reports. Proceedings of the 8th Symposium on Knowledge Discovery, Mining and Learning, 2020, pp. 185-192.
15.Grishman R. Information Extraction. The Handbook of Computational Linguistics and Natural Language Processing, 2010, - pp. 515-530.
16.Purves R. S., Clough P., Jones C. B., Hall M. H., Murdock V. Geographic Information Retrieval: Progress and Challenges in Spatial Search of Text. Foundations and Trends in Information Retrieval, 2018, Vol. 12, pp. 164-318.
17.Doddington G.R., Mitchell A., Przybocki M., Ramshaw L., Strassel S., Weischedel R. The Automatic Content Extraction (ACE) Program - Tasks, Data, and Evaluation. http://www.lrec-conf.org/proceedings/lrec2004/pdf75.pdf.
18.Sun P., Yang X., Zhao X., Wang Z. An Overview of Named Entity Recognition. International Conference on Asian Language Processing (IALP), 2018, pp. 273-278.
19.Campelo C.E.C., De Souza Baptista C. A model for geographic knowledge extraction on Web documents. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2009, Vol. 5833, pp. 317-326.
20.Acheson E., Volpi M., Purves R. Machine learning for cross-gazetteer matching of natural features. International Journal of Geographical Information, 2019, Vol.34, pp. 1-27.
21.Zenasni S., Kergosien E., Roche M., Teisseire M. Spatial information extraction from short messages. Expert Systems with Applications, 2018, Vol. 95, pp. 351-367.
22.Capineri C., Haklay M., Huang H., Antoniou V., Kettunen J., Ostermann F., Purves R. European Handbook of Crowdsourced Geographic Information. London: Ubiquity Press, 2016. - 474 p.
23.Stock K. Mining location from social media: A systematic review. Computers, Environment and Urban Systems, 2018, Vol.71, pp. 209-240.
24.Yadav V., Bethard S. A Survey on Recent Advances in Named Entity Recognition from Deep Learning models. Proceedings of the 27th International Conference on Computational Linguistics, 2018, pp. 2145-2158.
25.Song, H.J., Jo, B.C., Park, C.Y., Kim, J.D., Kim, Y.S. Comparison of named entity recognition methodologies in biomedical documents. Biomed. Eng. Online, 2018, Vol. 17, - pp 158.
26.Eftimov, T., Seljak, B.K., Korosec, P. A rule-based named-entity recognition method for knowledge extraction of evidence-based dietary recommendations. PLoS One, 2017, Vol.12, https://doi.org/10.1371/journal.pone.0179488
27.I§iklar, Y.E., Çiçekli, N. A TV content augmentation system exploiting rule based named entity recognition method. Lecture Notes in Electrical Engineering, 2016, Vol. 363, pp. 349-357.
28.Richa Sharma, Sudha Morwal, Basant Agarwal Named entity recognition for Hindi language: A survey. Journal of Discrete Mathematical Sciences and Cryptography, 2019, Vol. 22, pp. 569-580.
29.Ivanitskiy R., Shipilo A., Kovriguina L. Russian Named Entities Recognition and Classification Using Distributed Word and Phrase Representations. Proceedings of the 3rd Annual International Symposium on Information Management and Big Data - SIMBig, 2016, pp. 150-156.
30.Vitsentiy A.V., Dikovitskiy V.V., Shishayev M.G. Tekhnologiya izvlecheniya i vizualizatsii prostranstvennykh dannykh, poluchennykh pri analize tekstov [Technology of extraction and visualization of spatial data obtained in the analysis of texts]. Trudy Kol'skogo nauchnogo tsentra RAN [Proceedings of the Kola Scientific Center of the Russian Academy of Sciences], 2020, No 8, pp. 115-119. (In Russ).
31.Vicentiy A.V., Dikovitsky V.V., Shishaev M.G. The Semantic Models of Arctic Zone Legal Acts Visualization for Express Content Analysis. Software Engineering and Algorithms. Intelligent Systems: Advances in Intelligent Systems and Computing, 2019, Vol. 763, pp. 216-228.
32.Vicentiy A., Vicentiy I. The Method of Dynamic Visualization of Spatial Data for Cognitive Interfaces of Information Systems Supporting Regional Management. International Multidisciplinary Scientific GeoConference "Surveying Geology and Mining Ecology Management", 2019, Vol. 19, pp. 667-672.
33.Vicentiy A.V., Shishaev M.G. The Technology of Spatial Relations Visualization Based on the Analysis of Natural Language Texts. Lecture Notes in Networks and Systems, 2021, Vol 232, pp. 971-980.
34.Piskorski J., Laskova L., Marcinczuk M., Pivovarova L., Priban P., Steinberger J., Yangarber R. The Second Cross-Lingual Challenge on Recognition, Normalization, Classification, and Linking of Named Entities across Slavic Languages. Proceedings of the 7th Workshop on Balto-Slavic Natural Language Processing. Association for Computational Linguistics, Stroudsburg, 2019, pp. 63-74.
35.Piskorski J., Pivovarova L., Snajder J., Steinberger J., Yangarber R. The First Cross-Lingual Challenge on Recognition, Normalization, and Matching of Named Entities in Slavic Languages. Proceedings of the 6th Workshop on Balto-Slavic Natural Language Processing. Association for Computational Linguistics, Stroudsburg, 2017, pp. 76-85.
36.https://natasha.github.io/
37. https://github.com/google -research/bert
38.https://github.com/natasha/yargy
39.Earley J. An efficient context-free parsing algorithm. Communications of the ACM, 1970, Vol. 13, pp. 94 - 102.
40.Namestnikov A.M., Arzamasceva I.V., Ontologicheskij podhod k sentiment-analizu programmnyh system [Ontological approach to sentiment analysis of software systems]. Avtomatizaciyaprocessov upravleniya [Automation of control processes], 2021, No 2, pp. 34-39. (In Russ.).
41.Timofeev P. S., Sidorova E.A. Leksiko-semanticheskie shablony kak instrument deklarativnogo opisaniya yazykovyh konstrukcij i lingvisticheskogo analiza teksta [Lexico-semantic templates as a tool for declarative description of language constructions and linguistic analysis of text]. Sistemnaya informatika [System Informatics], 2018, No 13, pp. 35-48. (In Russ.).
42.Rabchevskij E.A. Avtomaticheskoe postroenie ontologij na osnove leksiko-sintaksicheskih shablonov dlya informacionnogo poiska [Automatic construction of ontologies based on lexical and syntactic templates for information retrieval]. Trudy 11-j Vserossijskoj nauchoj konferencii «Elektronnye biblioteki: perspektivnye metody i tekhnologii, elektronnye kollekcii» - RCDL'2009. [Proceedings of the 11th All-Russian Scientific Conference "Digital Libraries: Advanced Methods and Technologies, Digital Collections" - RCDL'2009], 2009, pp. 69-77. (In Russ.).
43.Nenausnikov K.V., Kuleshov S.V. Algoritm avtomaticheskogo vydeleniya kollokacij iz teksta [Algorithm for automatic selection of collocations from the text]. Izvestiya vysshih uchebnyh zavedenij. Priborostroenie [Proceedings of higher educational institutions. Instrumentation], 2019, No 11, pp. 976-981. (In Russ.).
44.Najhanova L.V. Tekhnologiya sozdaniya metodov avtomaticheskogo postroeniya ontologij s primeneniem geneticheskogo i avtomatnogo programmirovaniya: Monografiya [Technology of creating methods for automatic construction of ontologies using genetic and automatic programming: Monograph]. Federal'noe agentstvo po obrazovaniyu, Gosudarstvennoe obrazovatel'noe uchrezhdenie vysshego professional'nogo obrazovaniya "Vostochno-Sibirskij gosudarstvennyj tekhnologicheskij universitet", Ulan-Ude, Izd-vo BNC SO RAN, 2008, 244 s. (In Russ).
45.Apresyan YU. D. Trekhurovnevaya teoriya upravleniya: leksikograficheskij aspekt [Three-level control theory: lexicographic aspect]. Teoreticheskie problemy russkogo sintaksisa: Vzaimodejstvie grammatiki i slovarya [Theoretical problems of Russian syntax: The interaction of grammar and vocabulary], 2010, pp. 281-377. (In Russ).
46.http://www.lspl.ru/index.php
47.Vicentiy A. V. The Geoimage Generation Method for Decision Support Systems Based on Natural Language Text Analysis. Lecture Notes in Networks and Systems, 2021, Vol. 230, pp. 609-619.
Сведения об авторах
А. В. Вицентий—кандидат технических наук, старший научный сотрудник ИИММ КНЦ РАН; М. Г. Шишаев — доктор технических наук, главный научный сотрудник ИИММ КНЦ РАН.
Information about the authors
A. V. Vicentiy — Candidate of Science (Tech.), Senior Research Fellow of the Institute for Informatics and Mathematical Modeling Kola Science Centre of the Russian Academy of Sciences;
M. G. Shishaev — Doctor of Science (Tech.), Chief Researcher of the Institute for Informatics and Mathematical Modeling Kola Science Centre of the Russian Academy of Sciences.
Статья поступила в редакцию 15.11.2021; одобрена после рецензирования 20.11.2021; принята к публикации 08.12.2021.
The article was submitted 15.11.2021; approved after reviewing 20.11.2021; accepted for publication 08.12.2021.