Научная статья УДК 004.912
doi:10.37614/2949-1215.2022.13.2.003
МЕТОДЫ ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ТЕКСТОВ
Вадим Константинович Пимешков1^, Максим Геннадьевич Шишаев2
12Институт информатики и математического моделирования имени В. А. Путилова Кольского научного центра Российской академии наук, Апатиты, Россия 1pimeshkov@}imm.ruB, https://orcid.org/0000-0001-7010-230X 2shishaev@iimm.ru, https://orcid. org/0000-0001-7070-7878
Аннотация
Рассматриваются методы извлечения знаний из естественно-языковых текстов. Дается формальное определение задачи, выделяются две основные подзадачи: извлечение концептов и извлечение отношений. Проанализирована классификация методов с точки зрения языка и языковых ресурсов, с точки зрения постановки задачи, а также с точки зрения подходов к решению задач извлечения концептов и отношений. Ключевые слова:
извлечение знаний, интеллектуальный анализ текста, извлечение концептов, извлечение отношений Благодарности:
исследование выполнено в рамках государственного задания Института информатики и математического моделирования имени В. А. Путилова Кольского научного центра Российской академии наук от Министерства науки и высшего образования Российской Федерации, тема научно-исследовательской работы «Методология создания информационно-аналитических систем поддержки управления региональным развитием, основанных на формирующем искусственном интеллекте и больших данных» (регистрационный номер 122022800551-0). Для цитирования:
Пимешков В. К., Шишаев М. Г. Методы извлечения знаний из естественно-языковых текстов // Труды Кольского научного центра РАН. Серия: Технические науки. 2022. Т. 13, № 2. С. 31-45. doi:10.37614/2949-1215.2022.13.2.003
Original article
METHODS OF KNOWLEDGE EXTRACTION FROM NATURAL LANGUAGE TEXTS Vadim K. PimeshkovMaxim G. Shishaev2
1, 2Putilov Institute for Informatics and Mathematical Modeling of the Kola Science Centre of the Russian Academy of Sciences, Apatity, Russia 1pimeshkov@}imm.ruB, https://orcid.org/0000-0001-7010-230X 2shishaev@iimm.ru, https://orcid. org/0000-0001-7070-7878
Abstract
The paper considers methods for knowledge extraction from natural language texts. A formal definition of the task is given, two main subtasks are distinguished: concept extraction and relationship extraction. The classification of methods is considered from the point of view of the language and language resources, from the point of view of setting the problem, as well as from the point of view of solving problems of extracting concepts and relations. Keywords:
knowledge extraction, text mining, concept extraction, relation extraction Acknowledgments:
the study was carried out within the framework of the Putilov Institute for Informatics and Mathematical Modeling of the Kola Science Centre of the Russian Academy of Sciences state assignment of the Ministry of Science and Higher Education of the Russian Federation, research topic "Methodology for creating information and analytical systems to support the management of regional development based on formative artificial intelligence and big data" (registration number of the research topic 122022800551-0). For citation:
Pimeshkov V. K., Shishaev M. G. Methods of knowledge extraction from natural language texts // Transactions of the Kola Science Centre of RAS. Series: Engineering Sciences. 2022. Vol. 13, No. 2. P. 31-45. doi:10.37614/2949-1215.2022.13.2.003
Введение
Создание и эксплуатация информационных систем, основанных на знаниях, постепенно становится повседневной практикой. Ключевой проблемой (в особенности в условиях динамичности структуры и состава знаний, используемых в рамках системы) является формирование баз знаний, адекватных текущим представлениям экспертов и пользователей о предметной области. В таких условиях всё большую актуальность приобретают методы и технологии автоматизированного извлечения знаний из текстов на естественном языке, поскольку в текстовых источниках «естественным» образом аккумулируются актуальные представления специалистов о той или иной предметной области.
Несмотря на достаточно длительную историю развития методов и технологий извлечения знаний из текстов, данная проблемная область остается динамично развивающейся: с появлением новых инструментов анализа текстов (прежде всего, основанных на машинном обучении (МО)) создаются новые методы и технологии их применения к задаче извлечения знаний. В данной работе предпринята попытка систематизации сформировавшихся на сегодняшний день подходов к автоматизированному извлечению знаний из текстовых источников. При этом представленный в статье обзор не претендует на полноту: в работе рассмотрены лишь некоторые примеры реализации тех или иных подходов к решению задачи.
Извлечение знаний
В общем виде извлечение знаний представляет собой процесс преобразования данных в знания, необходимые для решения последующих, иерархически вышестоящих (прикладных) задач. Под термином «данные» в этом случае подразумевается любой естественно-языковой текст. Под знаниями же будем понимать упорядоченные и формализованные сведения, необходимые для решения конкретных прикладных задач. Таким образом, понятие «знание» обусловлено содержательным аспектом метазадачи, в рамках которой осуществляется обработка текстовой информации.
Процесс извлечения знаний можно формально записать в виде РКЕ: {Оос1,1 = 1,... ^ К, где РКЕ — это оператор, осуществляющий преобразование множества текстовых данных {Оос^,1 = 1, в знания К.
Строго говоря, сначала из данных извлекается информация, которая затем встраивается в заданную систему знаний, что и дает возможность решать иерархически вышестоящие задачи в рамках рассматриваемой метазадачи (рис. 1). Под информацией понимаются некоторые сведения и факты в рамках определенного контекста [1]. В рамках задачи интеллектуального анализа текста, извлечение информации — это процесс распознавания в тексте некоторых сущностей, отношений, событий или другой фактографической информации, то есть получение из текста структурированных данных, пригодных для включения в целевую систему знаний и машинной интерпретации [2].
Текст Информация Знания
Рис. 1. Процесс извлечения знаний
В качестве способа представлений знаний рассматриваются объектные, в частности сетевые, модели, представляющие предметную область как множество понятий, связанных отношениями из заданного набора. В общем случае сетевую модель можно представить в виде множества троек, задающих факты или истинные утверждения (эквивалент ребра в сетевой модели, связывающего пару вершин): (С(, гк, с^), где С[, сI — понятия; гк — некоторое семантическое отношение (не обязательно симметричное), имеющее место между ними.
Отметим, что формально в роли семантического отношения могут выступать различные связи между понятиями; степень «семантичности» отношения определяется его применимостью для решения прикладных задач, на которые ориентирована формируемая семантическая модель. Как правило, к категории семантических относят такие отношения, как «эквивалентность», «класс — подкласс», «часть — целое» и другие, устанавливающие систему понятий, пригодную для организации полезного в контексте решения прикладных задач машинного вывода [3, 4].
Факты в виде троек позволяют удобно организовывать знания о мире. Они выступают в качестве замены человеческого знания для машины, и они явно или неявно сокрыты в естественно-языковом тексте.
Также стоит заметить, что отношения могут быть комплексными, и, хотя комплексные отношения могут быть разбиты на бинарные и для них можно будет применить методы извлечения бинарных отношений, это приведет к соответствующему падению точности [5].
Методы извлечения знаний
В соответствии с описанными выше концепциями представления знаний, процесс их извлечения может быть разделен на два основных этапа: извлечение концептов (concept extraction) и извлечение отношений между ними (relation extraction). Говоря дальше о системах извлечения знаний, подразумевается комбинация систем извлечения концептов и отношений.
Системы извлечения знаний могут быть разделены в контексте постановки задачи и в отношении рассматриваемого естественного языка (или языков) (рис. 2). В контексте постановки задачи системы можно разделить на открытые, извлекающие все возможные отношения между концептами в корпусе, и закрытые, извлекающие, соответственно, только отношения из заданного заранее набора.
Методы извлечения знаний
Открытая
Закрытая
Количество языков
Языковые ресурсы
Рис. 2. Общая классификация методов извлечения знаний из естественно-языковых текстов
В отношении рассматриваемого естественного языка (или языков) системы извлечения знаний можно дополнительно разделить по двум признакам. Первый — это количество языков, в рамках которого возможно разделение систем на моноязыковые, биязыковые и мультиязыковые, которые работают с одним, двумя или множеством языков соответственно. Количество рассматриваемых языков, как и объемы доступных для них ресурсов (под ресурсами в данном случае понимаются источники и носители данных о языке, которые могут быть тем или иным образом использованы при анализе, — тезаурусы, размеченные датасеты, эксперты и т. п.), играют важную роль в рамках задачи извлечения знаний. Говоря о количестве рассматриваемых языков, нужно принимать во внимание, что языки могут функционировать по совершенно разным правилам. Как следствие, мультиязыковые системы стремятся использовать методы, не зависящие от языка, или комбинации методов, позволяющие работать со всеми рассматриваемыми естественными языками.
Второй признак классификации по характеру рассматриваемого языка ссылается на наличие у языка (или языков) определенных языковых ресурсов, в зависимости от объемов которых возможна классификация систем на работающие с малоресурсными языками (low-resource languages) и работающие с высокоресурсными языками (high-resource language). Для малоресурсных языков, в отличие от высокоресурсных, как правило, мало или вообще нет наборов для МО, нет достаточного количества носителей этого языка или экспертов [6]. Объемы доступных ресурсов также играют важную роль в рамках рассматриваемой задачи, так как их наличие может являться необходимым для реализации того или иного метода извлечения знаний.
Поскольку используемые методы и признаки (лингвистические, статистические), по которым идентифицируются концепты и отношения, могут различаться в зависимости от решаемой практической задачи, могут различаться и требования к реализуемой системе извлечения знаний в отношении различных языковых ресурсов. Например, для реализации любых методов, использующих различные морфологические, синтаксические или семантические признаки, как правило, необходимы инструменты разметки текста этими признаками, а для реализации методов на основе правил обычно необходимо привлечение языковых экспертов для составления набора правил.
Извлечение концептов
Под задачей извлечения концептов понимается поиск в неструктурированном тексте и последующая интерпретация лексических обозначений некоторых ментальных конструктов, используемых в целевой модели знаний [7]. В рамках извлечения концептов также могут использоваться инструменты извлечения терминологии (terminology extraction) и инструменты извлечения именованных сущностей (named entity recognition).
Задача извлечения терминологии заключается в извлечении релевантных терминов из заданного корпуса. При этом под термином обычно подразумевают некоторое текстовое представление концепта. В зависимости от постановки задачи требования к системам извлечения терминов могут меняться. Например, авторами [8] предлагается следующая классификация систем извлечения терминов. По частоте появления термина авторы разделяют системы на рассматривающие каждое отдельное появление термина или не делающие различия между появлениями одно и того же термина в разных контекстах. По количеству распознаваемых терминов разделяют на системы, распознающие определенное заранее заданное количество терминов, и системы, в которых алгоритм сам определяет количество распознаваемых терминов для каждой входной коллекции. По длине терминов-кандидатов выделяют системы, работающие с терминами длинной в одно слово, два, множество или любой длины.
Задача распознавания именованных сущностей может рассматриваться как задача распознавания и классификации имен собственных из корпуса. Под именованными сущностями, как правило, понимают имена собственные, выделяющие именуемый объект из ряда подобных. В зависимости от поставленной практической задачи различаются как классы распознаваемых имен собственных (например, в классической постановке задачи это могут быть имена людей и/или телефонные номера, а в контексте биомедицины — наименования белков), так и применяемые методы [9].
Концепты в рамках рассматриваемых задач можно разделить на два класса: общие, не относящиеся к какой-то конкретной предметной области, используемые повсеместно, и предметно-ориентированные, используемые в рамках определенных предметных областей.
Применяемые для решения задач извлечения концептов методы могут быть разделены на методы на основе: правил, статистики, внешних источников, МО, а также гибридные методы (рис. 3). Приведенный порядок не случаен и соответствует хронологии развития соответствующих технологий. С развитием технологий обработки естественного языка и наращиванием объемов языковых ресурсов заметен постепенный переход от методов на основе правил, составляемых языковыми экспертами, к методам на основе МО, которые используют большие объемы данных для обучения моделей [9, 10].
Рис. 3. Классификация методов извлечения концептов
Методы на основе правил полагаются на составленные экспертами вручную правила или шаблоны, основанные на различных лексических, морфологических или контекстуальных особенностях слов и/или словосочетаний.
Так, например, в работе [11] используется подход к извлечению многословных терминологий для сербского языка на основе правил, полагающихся на электронные словари и местную грамматику. В ходе работы авторами были разработаны 14 конечных автоматов с выходами, которые извлекают наиболее часто встречающиеся синтаксические структуры, выявленные в результате анализа нескольких сербских терминологических словарей и сербского электронного словаря (рис. 4).
Рис. 4. Архитектура системы извлечения многословных терминологий на основе правил
В работе [12] используется подход на основе составленных вручную правил для извлечения именованных сущностей для языка урду. В своей работе авторы используют правила, реализуемые с помощью конечных автоматов, основанные на лексических признаках. Их правила основаны на используемом ими корпусе, эвристике или грамматике.
Статистические методы. Отличительной особенностью методов данной группы является использование статистического анализа большого количества наблюдений для идентификации концептов (терминов). Следует отметить, что чисто статистический метод, не включающий какой-либо этап синтаксического или лексического анализов, используется редко, в виду того что такой подход может приводить к большому количеству нежелательной терминологии [13].
Так, например, метод, используемый в работе [14], основан на простом извлечении двух стоящих рядом слов с их последующим взвешиванием на основе Tf-Idf-метрики, а в работе [15] сначала извлекаются последовательности слов различной длины и затем оцениваются с помощью эмпирической меры, основанной на длине и частоте терминов.
Методы на основе внешних источников используют внешние источники знаний, такие как Википедия, DBpedia, YAGO и т. д., что позволяет полностью или частично заместить эксперта предметной области за счет извлечения из этих источников некоторой априори имеющейся структуры знаний о предметной области, которые затем расширяются на основе данных из естественно-языковых текстов.
Например, в работе [16] используется Википедия для идентификации и классификации именованных сущностей с целью создания размеченного корпуса для МО. Такой подход позволяет обойтись без человека-эксперта для разметки текстового корпуса. Также авторы предлагают метод, использующий данные на английском языке, для воссоздания процесса распознавания именованных сущностей на других языках.
В работе [17] предлагается метод, использующий данные DBpedia, для расширения и обогащения составленного вручную лексикона товаров. Авторы работы начинают с небольшого, составленного вручную словаря и, используя данные DBpedia и формат SKOS для представления знаний, расширяют словарь с дюжины до около двух тысяч терминов (рис. 5).
Рис. 5. Архитектура системы расширения лексикона [17]
Методы на основе МО. Суть методов данной группы заключается в создании (тренировке) модели МО, способной распознавать сущности на основе множества различных признаков. Для решения задач распознавания именованных сущностей [18-21] или задач извлечения терминологий [22-24] применяется практически весь спектр различных архитектур моделей и методов МО. Ниже приведены примеры использования МО для извлечения терминов и именованных сущностей.
Например, в работе [25] рассматривается опыт применения семи методов МО с обучением с учителем (supervised learning) для классификации N-грамм на термины и нетермины на основе предположения о том, что термины, специфичные для какой-либо предметной области, имеют признаки (морфологические, дистрибутивные, контекстные, предметно-областные и т. д.), отличающие их от обычных слов.
Авторы работы [26] используют метод на основе ансамблевого обучения без учителя для классификации имен собственных на имена людей, организаций и локаций, полагаясь на форму написания имен и контекст, в котором они появляются. Предлагаемая модель принимает во внимание синтаксические отношения в предложении для устранения семантической неоднозначности и использует три различных метода обучения в ансамбле: модель на основе принципа максимальной энтропии
(maximum entropy model), модель обучения на основе памяти (memory-based learning) и SNoW (sparse network of windows) [27]. Для построения обучающего набора авторы использовали словарь именованных сущностей и корпус, размеченный частями речи, что позволило автоматизировать процесс. Отобранный авторами корпус состоял из 1500 экземпляров для каждого из трех классов. Для того чтобы учитывать контекст, использовалась информация о совместном употреблении категории целевого и заглавного слов (в контексте синтаксического дерева). Предложенный авторами метод продемонстрировал точность в 73,16 % и полноту в 72,98 % и в целом продемонстрировал возможность построения системы классификации именованных сущностей без затрат на создание большого размеченного корпуса или большого набора правил.
Гибридные методы. Помимо вышеперечисленных методов, также используются и их произвольные комбинации. Как правило, такое комбинирование используется для повышения общей производительности систем или для преодоления каких-либо трудностей, связанных с нехваткой ресурсов в контексте малоресурсных языков.
Так, например, в работе [28] используется комбинация методов на основе правил и МО для создания системы распознавания именованных сущностей на арабском языке. Такой подход позволил авторам повысить общую производительность предлагаемого метода, а также преодолеть проблемы, связанные с нехваткой языковых ресурсов для их языка.
В работе [29] авторы используют модель на основе принципа максимальной энтропии, языковые правила и географические справочники для распознавания именованных сущностей на индийском языке. Вначале они обучают базовую модель для распознавания именованных сущностей на размеченном корпусе, затем дополняют ее языковыми правилами для выявления конкретных классов имен собственных, а также в последствии дополняют полученную модель географическими справочниками и контекстными шаблонами для повышения производительности.
В рамках международного семинара по семантическому анализу Semeval 5 авторы [30] используют решающие деревья для создания ранжированного списка терминов-кандидатов на основе трех различных наборов признаков. Первый набор был получен с помощью модуля системы GROBID (представляющей из себя библиотеку МО для извлечения, анализа и реструктурирования документов [31]), который использовался для извлечения структурных признаков. Второй набор был получен с помощью различных статистических методов и включал фразеологические и информативные признаки. Третий набор был получен с помощью таких внешних источников знаний, как GRISP [32] и Википедия, и содержал лексические и семантические признаки. Разработанная авторами система заняла первое место среди 19 участников.
Извлечение отношений
Задача извлечения отношений возможна как в открытой, так и в закрытой (когда набор искомых отношений задан априори) постановках. В первом случае постановка задачи идентична задаче извлечения терминов: найти в тексте лексические представления, обозначающие некоторые отношения между понятиями. При второй постановке задача может трактоваться как задача классификации, при этом подразумевается, что сущности, связь между которыми классифицируется, распознаны заранее. Для классификации отношений используют методы на основе шаблонов или правил, статистические методы и МО.
Более ранние работы по извлечению отношений использовали методы на основе правил или шаблонов, статистические методы, но со временем более популярными и доступными стали методы на основе МО [33].
Методы на основе шаблонов или правил. В таких методах используют составленные вручную / автоматически правила или шаблоны на основе синтаксических и морфологических признаков. Как правило, такие методы требуют большого объема работы экспертов для составления правил или шаблонов, однако в процессе эксплуатации они демонстрируют наилучшую эффективность в смысле скорости работы.
Например, в работе [34] авторы используют составленные вручную синтаксические правила, реализуемые на платформе GATE (программный набор инструментов, решающий разнообразные задачи обработки текста [35]), с помощью компонента JAPE (механизм шаблонов аннотаций Java [36]) для автоматического извлечения пространственных отношений в китайском языке. Дополнительно они
используют набор размеченных вручную пространственных отношений для проверки точности их системы (рис. 6). Разработанная авторами система способна с высокой точностью извлекать отношения, когда они в явной форме присутствуют в тексте, но она страдает от неполноты набора правил, ограниченности механизма их формального представления и отсутствия фоновых знаний.
Рис. 6. Схематичное представление системы на основе синтаксических правил [34]
Или, например, в работе [37] авторы используют шаблоны, основанные на метках частей речи и/или синтаксической структуре предложений для извлечения отношений между концептами в предложениях. Предлагаемая авторами система использует в качестве отправной точки концепты и отношения из банка данных DBpedia. В начале текст обрабатывается с помощью авторской системы распознавания именованных сущностей, основанной на онтологии (состоящей из концептов, полученных из DBpedia) и включающей в себя также лингвистическую предобработку текста и правила, реализованные с помощью JAPE. Параллельно с этим текст обрабатывается синтаксическим парсером Fips [38], который создает синтаксические структуры с бинарными отношениями. Именованные сущности, полученные на первом этапе, передаются в справочник отношений (состоящий из отношений, полученных из DBpedia), который идентифицирует известные отношения между переданными именованными сущностями, после чего с помощью шаблонов JAPE идентифицируются другие бинарные отношения (рис. 7).
Процесс формирования шаблонов может быть автоматизирован. Например, в работе [39] представлена основанная на МО система, напрямую извлекающая шаблоны, которые способны распознавать отношения между ключевыми элементами, полагаясь на локальный синтаксис.
Рис. 7. Архитектура системы, использующей шаблоны на основе частеречевой разметки и синтаксической структуры предложений
Статистические методы. Одним из примеров реализации статистического подхода является subsumption method, использующийся для формирования иерархических систем понятий. Метод опирается на предположение, что «концепт А включает В, если документы, в которых встречается В, являются (или почти являются) подмножеством документов, в которых встречается А» [40]: DKL(A II В) — DKL(B II А) < THN, где в левой части неравенства — сравнение взаимных условных вероятностей двух терминов, а в правой — некоторый порог чувствительности или «шума». Так же как и в случае методов на основе правил, в основе статистического подхода лежат эвристические предположения о статистических свойствах коллекций данных, индицирующих наличие искомого отношения, что затрудняет их широкое применение для извлечения произвольных отношений между концептами. Вместе с тем, статистические методы предъявляют повышенные требования к объему доступных данных (наблюдений) для получения статистически значимых результатов.
Методы на основе внешних источников используют знания (то есть используют не просто текст из внешнего источника, но и структуру этого источника) из различных внешних источников для решения поставленной задачи.
Например, в работе [41] авторы используют структуру Википедии для отбора кандидатов отношений с помощью шаблонов и добавления новых отношений в граф знаний. В основе авторского метода лежит предположение, что между концептами, представленными двумя страницами Википедии р0 и рг, может присутствовать некоторое отношение R, если аннотация страницы р0 ссылается на р1 и соответствующие сущности е0 и ег из онтологии DBpedia по типам удовлетворяют требованиям отношения R к субъекту и объекту. В результате своей работы авторы демонстрируют, что аннотации Википедии и, соответственно, ее структура могут использоваться как значимый источник знаний для расширения графа знаний.
Методы на основе МО. Обзор методов извлечения отношений на основе МО можно найти во многих работах, например в [2, 33, 42, 43]. Выигрышной стороной МО является универсальность используемого алгоритма с точки зрения вида извлекаемых отношений, проблема лишь в формировании достаточно большого корпуса так или иначе размеченных текстов и выборе набора признаков, эффективно индицирующих наличие искомого отношения между понятиями.
Например, в работе [44] используется многозадачное обучение (multi-task learning, которое также можно встретить под названием joint learning) для совместного извлечения биомедицинских концептов и отношений между ними. Вначале авторы трансформируют задачу совместного извлечения в задачу разметки, в рамках которой предлагается новая схема разметки и правила для извлечения пересекающихся отношений в биомедицинских текстах. С помощью предложенной схемы разметки авторы создают обучающий корпус. Затем на этом корпусе авторы тренируют модель BiLSTM-CRF, использующую механизм внимания. Модель тренируют с использованием статичных эмбендингов (векторных представлений) слов и знаков и дополнительно с использованием контекстуализированных эмбендингов ELMo для проверки их эффективности в рамках решаемой задачи. Затем обученная модель используется для разметки текста, из которого с помощью предлагаемых авторами правил извлекаются отношения (рис. 8).
В работе [45] авторы объединяют предварительно обученную модель BERT со стратегией многозадачного обучения для совместного извлечения полезных в контексте решаемой задачи концептов (распознавание именованных сущностей) и отношений между ними (извлечение отношений) из протоколов медицинских исследований. Авторы используют BERT в качестве эмбендингового слоя, после которого следует слой распознавания именованных сущностей, состоящий из входного полносвязного и выходного слоев. За этим слоем следует слой классификации отношений, использующий результаты работы слоя распознавания именованных сущностей и BERT-слоя для решения задачи извлечения отношений.
Рис. 8. Схема извлечения биомедицинских концептов и отношений на основе многозадачного обучения
Гибридные методы. Аналогично методам извлечения концептов, гибридные методы извлечения отношений используют различные комбинации других методов для повышения производительности или преодоления каких-либо проблем, в частности, связанных с недостатком языковых ресурсов.
Например, в работе [46] представлен гибридный подход, комбинирующий МО и правила, для извлечения отношений между героями рассказов. Предлагаемая авторами система (рис. 9.) начинает работу с предобработки текста (удаление специальных символов, токенезация, разметка частей речи), распознавания именованных сущностей (имен персонажей, организаций и локаций) и разрешения анафоры. Затем система трансформирует обрабатываемый текст в набор предложений и выбирает те, которые содержат определенные пары персонажей (полагаясь на набор распознанных ранее именованных сущностей).
Рис. 9. Схема предлагаемого авторами гибридного метода [46]
Дальше отобранные предложения классифицируются на заранее определенные авторами классы с помощью байесовского классификатора, обученного на авторском датасете и состоящего из предложений, их классов и рейтингов. Обученный классификатор присваивает каждому предложению в наборе (для выбранных пар персонажей) определенный класс и рейтинг. Если больше половины предложений относятся к одному и тому же классу, то считается, что выбранная пара персонажей находится в отношении соответствующего класса. Если же классифицировать отношение
не получилось, то система дополнительно принимает во внимание рейтинг, выставленный классификатором, и выбирает класс по следующему правилу: если большинство предложений определенного класса имеют рейтинг больше выставленного порога, а другие наборы предложений в других классах имеют рейтинги ниже этого порога, то отношению персонажей присваивается первый (имеющий больший рейтинг) класс. Если же классифицировать отношение снова не получилось, предпринимается попытка классификации с помощью правил, на основе схожести отобранных предложений по отношению к тренировочному датасету. С помощью стороннего сервиса производится оценка схожести отобранных предложений с предложениями из тренировочного датасета. Отношению персонажей присваивается класс, соответствующий классу тренировочного предложения, набравшего наибольшее количество наиболее схожих (по отношению к нему) предложений из текста. В результате работы системы выявляются персонажи и отношения между ними в рамках рассматриваемого текста.
Заключение
Приведенный обзор показывает, что спектр методов, применяемых для решения задач извлечения знаний, весьма обширный. Применяются различные методы на основе правил или шаблонов, статистические методы, методы на основе внешних источников, МО и их различные комбинации в виде гибридных методов.
Во многих случаях довольно сложно провести четкую границу между различными категориями методов извлечения понятий и отношений. Так, методы МО в конечном итоге базируются на статистических оценках имеющихся наблюдений. Кроме того, как правило, используемые для тренировки соответствующих моделей МО признаки являются результатом некоторой предобработки исходных данных с применением тех же лингвистических (на основе шаблонов) или статистических методов.
Формализация задачи и построение классификации усложняется также и тем, что сами ключевые в контексте рассматриваемой задачи понятия — «данные», «информация» и «знания» — так и не имеют устоявшихся определений и могут трактоваться по-разному в зависимости от предметной области или взглядов автора. Знания, помимо всего, необходимо еще и структурировать, и в этом вопросе тоже нет единого мнения о том, как структурировать человеческие знания в вид, пригодный и удобный для машинной обработки.
Выбор конкретного метода в большей степени определяется решаемой практической задачей, рассматриваемыми языками и доступными в текущем контексте языковыми ресурсами.
Список источников
1. Musaev A. A., Grigoriev D. A. Extracting knowledge from text messages: overview and state-of-the-art // Computer Research and Modeling. 2021. Vol. 13, № 6. P. 1291-1315.
2. A Survey of Information Extraction Based on Deep Learning / Y. Yang [et al.] // Applied Sciences. 2022. Vol. 12, № 19. P. 9691.
3. Диковицкий В. В., Шишаев М. Г., Пимешков В. К. Метод автоматизированного извлечения понятий и парадигматических отношений тезауруса из текстов на естественном языке на базе лексико-синтаксических шаблонов // Труды Кольского научного центра РАН. 2019. Т. 10, № 9-9.
4. Пимешков В. К., Диковицкий В. В., Шишаев М. Г. Извлечение отношений тезауруса из текстов на естественном языке с использованием статистических и лингвистических методов // Труды Кольского научного центра РАН. 2020. Т. 11, № 8 (11).
5. Zhou D., Zhong D., He Y. Biomedical Relation Extraction: From Binary to Complex // Computational and Mathematical Methods in Medicine. 2014. Vol. 2014. P. e298473.
6. Magueresse A., Carles V. Heetderks E. Low-resource Languages: A Review of Past Work and Future Challenges. 2020.
7. Clinical concept extraction: A methodology review / S. Fu [et al.] // Journal of Biomedical Informatics. 2020. Vol. 109. Clinical concept extraction. P. 103526.
8. Astrakhantsev N. A., Fedorenko D. G., Turdakov D. Yu. Methods for automatic term recognition in domain-specific text collections: A survey // Programming and Computer Software. 2015. Vol 41, № 6. P. 336-349.
9. An Overview of Named Entity Recognition / P. Sun [et al.] // 2018 International Conference on Asian Language Processing (IALP). Bandung, Indonesia: IEEE, 2018. P. 273-278.
10. Chiticariu L., Li Y., Reiss F. R. Rule-Based Information Extraction is Dead! Long Live Rule-Based Information Extraction Systems! // Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing EMNLP 2013. Seattle, Washington, USA: Association for Computational Linguistics, 2013. P. 827-832.
11. Rule-based Automatic Multi-word Term Extraction and Lemmatization / S. Ranka [et al.] // Proceedings of the 10th International Conference on Language Resources and Evaluation, LREC 2016 (Portoroz, Slovenia, 23-28 May 2016). 2016. P. 507-514.
12. Riaz K. Rule-Based Named Entity Recognition in Urdu // Proceedings of the 2010 Named Entities Workshop. Uppsala, Sweden: Association for Computational Linguistics, 2010. P. 126-135.
13. Maria Teresa P., Pennacchiotti M., Zanzotto F. M. Terminology Extraction: An Analysis of Linguistic and Statistical Approaches // Knowl Mining / journalAbbreviation: Knowl Mining. 2006. Vol. 185. P. 255-279.
14. Salton G., Yang C. S., Yu C. T. A theory of term importance in automatic text analysis // Journal of the American Society for Information Science. 1975. Vol. 26. № 1. P. 33-44.
15. Jones L. P., Gassie Jr. E. W., Radhakrishnan S. INDEX: The statistical basis for an automatic conceptual phrase-indexing system // Journal of the American Society for Information Science. 1990. Vol. 41. INDEX, № 2. P. 87-97.
16. Richman A. E., Schone P. Mining Wiki Resources for Multilingual Named Entity Recognition // Proceedings of ACL-08: HLT ACL-HLT 2008. Columbus, Ohio: Association for Computational Linguistics, 2008. P. 1-9.
17. Klein E., Alex B. Clifford J. Bootstrapping a historical commodities lexicon with SKOS and DBpedia // Proceedings of the 8th Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities (LaTeCH). Gothenburg, Sweden: Association for Computational Linguistics, 2014. P. 13-21.
18. Neural Architectures for Named Entity Recognition / G. Lample [et al.] // arXiv:1603.01360 [cs]. arXiv, 2016.
19. A Survey on Deep Learning for Named Entity Recognition / J. Li [et al.] // arXiv: 1812.09449 [cs]. arXiv, 2020.
20. Deep Active Learning for Named Entity Recognition / Y. Shen [et al.] // arXiv:1707.05928 [cs]. arXiv, 2018.
21. Yadav V., Bethard S. A Survey on Recent Advances in Named Entity Recognition from Deep Learning models // arXiv:1910.11470 [cs]. arXiv, 2019.
22. Conrado M., Pardo T., Rezende S. A Machine Learning Approach to Automatic Term Extraction using a Rich Feature Set // Proceedings of the 2013 NAACL HLT Student Research Workshop. Atlanta, Georgia: Association for Computational Linguistics, 2013. P. 16-23.
23. Foo J. Term extraction using machine learning. 2009.
24. Shi L., Campagne F. Building a protein name dictionary from full text: a machine learning term extraction approach // BMC Bioinformatics. 2005. Vol. 6. Building a protein name dictionary from full text. № 1. P. 88.
25. Yuan Y., Gao J., Zhang Y. Supervised learning for robust term extraction // 2017 International Conference on Asian Language Processing (IALP) 2017 International Conference on Asian Language Processing (IALP). 2017. P. 302-305.
26. Kim J.-H., Kang I.-H., Choi K.-S. Unsupervised Named Entity Classification Models and their Ensembles. 2002.
27. Roth D. Learning to Resolve Natural Language Ambiguities: A Unified Approach. P. 8.
28. Shaalan K., Oudah M. A hybrid Approach to Arabic Named Entity Recognition // Journal of Information Science. 2014. Vol. 40. P. 67-87.
29. A Hybrid Approach for Named Entity Recognition in Indian Languages / S. Kumar [et al.].
30. Lopez P., Romary L. HUMB: Automatic Key Term Extraction from Scientific Articles in GROBID // Proceedings of the 5th International Workshop on Semantic Evaluation SemEval 2010. Uppsala, Sweden: Association for Computational Linguistics, 2010. HUMB. P. 248-251.
31. Home — GROBID Documentation [Электронный ресурс]. URL: https://grobid.readthedocs.io/en/latest/ (дата обращения: 10.10.2022).
32. Lopez P., Romary L. GRISP: A Massive Multilingual Terminological Database for Scientific and Technical Domains. P. 9.
33. More Data, More Relations, More Context and More Openness: A Review and Outlook for Relation Extraction. More Data, More Relations, More Context and More Openness / X. Han [et al.] // arXiv:2004.03186 [cs]. arXiv, 2020.
34. Rule-Based Extraction of Spatial Relations in Natural Language Text / C. Zhang [et al.] // 2009 International Conference on Computational Intelligence and Software Engineering 2009 International Conference on Computational Intelligence and Software Engineering. 2009. P. 1-4.
35. GATE.ac.uk — index.html [Электронный ресурс]. URL: https://gate.ac.uk/ (дата обращения: 19.10.2022).
36. Cunningham H., Maynard D., Tablan V. JAPE: a Java Annotation Patterns Engine. 2000. JAPE.
37. Nebhi K. A Rule-Based Relation Extraction System using DBpedia and Syntactic Parsing // Proceedings of the NLP-DBPEDIA-2013 Workshop co-located with the 12th International Semantic Web Conference (ISWC 2013). 2013.
38. Wehrli E. Fips, A "Deep" Linguistic Multilingual Parser // ACL 2007 Workshop on Deep Linguistic Processing. Prague, Czech Republic: Association for Computational Linguistics, 2007. P. 120-127.
39. Huffman S. B. Learning information extraction patterns from examples // Proceedings of the 1995 IJCAI Workshop on New Approaches to Learning for Natural Language Processing. 1995.
40. Sanderson M., Croft W. Deriving Concept Hierarchies from Text // Annual ACM Conference on Research and Development in Information Retrieval. 1999.
41. Heist N., Hertlich S., Paulheim H. Language-Agnostic Relation Extraction from Abstracts in Wikis // Information. 2018. Vol. 9, № 4. P. 75.
42. Kumar S. A Survey of Deep Learning Methods for Relation Extraction. 2017.
43. Nasar Z., Jaffry S. W., Malik M. Named Entity Recognition and Relation Extraction: State of the Art // ACM Computing Surveys. 2021. Vol. 54. Named Entity Recognition and Relation Extraction.
44. A neural network-based joint learning approach for biomedical entity and relation extraction from biomedical literature / L. Luo [et al.] // Journal of Biomedical Informatics. 2020. Vol. 103. P. 103384.
45. Joint Learning with Pre-trained Transformer on Named Entity Recognition and Relation Extraction Tasks for Clinical Analytics / M. Chen [et al.] // Proceedings of the 3rd Clinical Natural Language Processing Workshop Clinical NLP-EMNLP 2020. Online: Association for Computational Linguistics, 2020. P. 234-242.
46. Devisree V., Raj P. C. R. A Hybrid Approach to Relationship Extraction from Stories: International Conference on Emerging Trends in Engineering, Science and Technology (ICETEST — 2015) // Procedia Technology. 2016. Vol. 24. P. 1499-1506.
References
1. Musaev A. A., Grigoriev D. A. Extracting knowledge from text messages: overview and state-of-the-art. Computer Research and Modeling, 2021, vol. 13, no. 6, pp. 1291-1315.
2. Yang Y, Wu Z, Yang Y, Lian S, Guo F, Wang Z. A Survey of Information Extraction Based on Deep Learning. Applied Sciences, 2022, vol. 12, no. 19, pp. 9691.
3. Dikovickij V. V., Shishaev M. G., Pimeshkov V. K. Metod avtomatizirovannogo izvlechenija ponjatij i paradigmaticheskih otnoshenij tezaurusa iz tekstov na estestvennom jazyke na baze leksiko-sintaksicheskih shablonov [Method of automated extraction of concepts and paradigmatic relations of thesaurus from texts in natural language on the basis of lexico-syntactic templates]. Trudy Kol'skogo nauchnogo centra RAN [Transactions of the Кок Science Centre RAS], 2019, vol. 10, no. 9-9. (In Russ.).
4. Pimeshkov V. K., Dikovickij V. V., Shishaev M. G. Izvlechenie otnoshenij tezaurusa iz tekstov na estestvennom jazyke s ispol'zovaniem statisticheskih i lingvisticheskih metodov [Extraction of relation from natural language texts using statistical and linguistic methods]. Trudy Kol'skogo nauchnogo centra RAN [Transactions of the Кок Science Centre RAS], 2020, vol. 11, no. 8 (11). (In Russ.).
5. Zhou D., Zhong D., He Y. Biomedical Relation Extraction: From Binary to Complex. Computational and Mathematical Methods in Medicine, 2014, vol. 2014, pp. e298473.
6. Magueresse A., Carles V., Heetderks E. Low-resource Languages: A Review of Past Work and Future Challenges, 2020.
7. Fu S., Chen D., He H., Liu S., Moon S., Peterson K. J., Shen F., Wang L., Wang Y., Wen A., Zhao Y., Sohn S., Liu H. Clinical concept extraction: A methodology review. Journal of Biomedical Informatics, 2020, vol. 109, pp. 103526.
8. Astrakhantsev N. A., Fedorenko D. G., Turdakov D. Yu. Methods for automatic term recognition in domain-specific text collections: A survey. Programming and Computer Software, 2015, vol. 41, no. 6, pp. 336-349.
9. Sun P., Yang X., Zhao X. and Wang Z. An Overview of Named Entity Recognition. 2018 International Conference on Asian Language Processing (IALP), Bandung, Indonesia: IEEE, 2018, pp. 273-278.
10. Chiticariu L., Li Y., Reiss F. R. Rule-Based Information Extraction is Dead! Long Live Rule-Based Information Extraction Systems! Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing EMNLP 2013. Seattle, Washington, USA: Association for Computational Linguistics, 2013, pp. 827-832.
11. Ranka S., Cvetana K., Ivan O., Biljana L., Aleksandra T. Rule-based Automatic Multi-word Term Extraction and Lemmatization. Proceedings of the 10th International Conference on Language Resources and Evaluation, LREC 2016, Portoroz, Slovenia, 23-28 May 2016, 2016, pp. 507-514.
12. Riaz K. Rule-Based Named Entity Recognition in Urdu. Proceedings of the 2010 Named Entities Workshop. Uppsala, Sweden: Association for Computational Linguistics, 2010, pp. 126-135.
13. Maria Teresa P., Pennacchiotti M., Zanzotto F. M. Terminology Extraction: An Analysis of Linguistic and Statistical Approaches. Knowl Mining, journal Abbreviation: Knowl Mining, 2006, vol. 185, pp. 255-279.
14. Salton G., Yang C. S., Yu C. T. A theory of term importance in automatic text analysis. Journal of the American Society for Information Science, 1975, vol. 26, no. 1, pp. 33-44.
15. Jones L. P., Gassie Jr. E. W., Radhakrishnan S. INDEX: The statistical basis for an automatic conceptual phrase-indexing system. Journal of the American Society for Information Science, 1990, vol. 41, no. 2, pp. 87-97.
16. Richman A. E., Schone P. Mining Wiki Resources for Multilingual Named Entity Recognition. Proceedings of ACL-08: HLT ACL-HLT 2008, Columbus, Ohio: Association for Computational Linguistics, 2008, pp. 1-9.
17. Klein E., Alex B., Clifford J. Bootstrapping a historical commodities lexicon with SKOS and DBpedia. Proceedings of the 8th Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities (LaTeCH), Gothenburg, Sweden: Association for Computational Linguistics, 2014, pp. 13-21.
18. Lample G., Ballesteros M., Subramanian S., Kawakami K., Dyer C. Neural Architectures for Named Entity Recognition. arXiv:1603.01360 [cs], arXiv, 2016.
19. Li J., Sun A., Han J., Li C. A Survey on Deep Learning for Named Entity Recognition. arXiv: 1812.09449 [cs], arXiv, 2020.
20. Shen Y., Yun H., Lipton Z.C., Kronrod Y., Anandkumar A. Deep Active Learning for Named Entity Recognition. arXiv: 1707.05928 [cs], arXiv, 2018.
21. Yadav V., Bethard S. A Survey on Recent Advances in Named Entity Recognition from Deep Learning models. arXiv:1910.11470 [cs], arXiv, 2019.
22. Conrado M., Pardo T., Rezende S. A Machine Learning Approach to Automatic Term Extraction using a Rich Feature Set. Proceedings of the 2013 NAACL HLT Student Research Workshop, Atlanta, Georgia, Association for Computational Linguistics, 2013, pp. 16-23.
23. Foo J. Term extraction using machine learning, 2009.
24. Shi L., Campagne F. Building a protein name dictionary from full text: a machine learning term extraction approach. BMCBioinformatics, 2005, vol. 6, no. 1, pp. 88.
25. Yuan Y., Gao J., Zhang Y. Supervised learning for robust term extraction. 2017 International Conference on Asian Language Processing (IALP), 2017, pp. 302-305.
26. Kim J.-H., Kang I.-H., Choi K.-S. Unsupervised Named Entity Classification Models and their Ensembles, 2002.
27. Roth D. Learning to Resolve Natural Language Ambiguities: A Unified Approach, pp. 8.
28. Shaalan K., Oudah M. A hybrid Approach to Arabic Named Entity Recognition. Journal of Information Science, 2014, vol. 40, pp. 67-87.
29. Kumar S., Sanjay S., Dandapat C. S., Sarkar S., & Mitra P. A hybrid approach for named entity recognition in Indian languages. 2008.
30. Lopez P., Romary L. HUMB: Automatic Key Term Extraction from Scientific Articles in GROBID. Proceedings of the 5th International Workshop on Semantic Evaluation SemEval 2010, Uppsala, Sweden, Association for Computational Linguistics, 2010, HUMB, pp. 248-251.
31. Home — GROBID Documentation, Available at: https://grobid.readthedocs.io/en/latest/ ^cessed 10.10.2022).
32. Lopez P., Romary L. GRISP: A Massive Multilingual Terminological Database for Scientific and Technical Domains, pp. 9.
33. Han X., Gao T., Lin Y., Peng H., Yang Y., Xiao C., Liu Z., Li P., Sun M., Zhou J. More Data, More Relations, More Context and More Openness: A Review and Outlook for Relation Extraction. More Data, More Relations, More Context and More Openness. arXiv:2004.03186 [cs], arXiv, 2020.
34. Zhang, C., Zhang, X., Jiang, W., Shen, Q., & Zhang, S. Rule-Based Extraction of Spatial Relations in Natural Language Text. 2009 International Conference on Computational Intelligence and Software Engineering, 2009, pp.1-4.
35. GATE.ac.uk — index.html. Available at: https://gate.ac.uk/ (accessed 19.10.2022).
36. Cunningham H., Maynard D., Tablan V. JAPE: a Java Annotation Patterns Engine, 2000, JAPE.
37. Nebhi K. A Rule-Based Relation Extraction System using DBpedia and Syntactic Parsing. Proceedings of the NLP-DBPEDIA-2013 Workshop co-located with the 12th International Semantic Web Conference (ISWC 2013), 2013.
38. Wehrli E. Fips, A "Deep" Linguistic Multilingual Parser. ACL 2007 Workshop on Deep Linguistic Processing, Prague, Czech Republic: Association for Computational Linguistics, 2007, pp. 120-127.
39. Huffman S. B. Learning information extraction patterns from examples. Proceedings of the 1995IJCAI Workshop on New Approaches to Learning for Natural Language Processing, 1995.
40. Sanderson M., Croft W. Deriving Concept Hierarchies from Text. Annual ACM Conference on Research and Development in Information Retrieval, 1999.
41. Heist N., Hertling S., Paulheim H. Language-Agnostic Relation Extraction from Abstracts in Wikis. Information, 2018, vol. 9, no. 4, pp. 75.
42. Kumar S. A Survey of Deep Learning Methods for Relation Extraction, 2017.
43. Nasar Z., Jaffry S. W., Malik M. Named Entity Recognition and Relation Extraction: State of the Art. ACM Computing Surveys, 2021, vol. 54.
44. Luo L., Yang Z., Cao M., Wang L., Zhang Y., Lin H. A neural network-based joint learning approach for biomedical entity and relation extraction from biomedical literature. Journal of Biomedical Informatics, 2020, vol. 103, pp. 103384.
45. Chen M., Lan G., Du F., Lobanov V. Joint Learning with Pre-trained Transformer on Named Entity Recognition and Relation Extraction Tasks for Clinical Analytics. Proceedings of the 3rd Clinical Natural Language Processing Workshop Clinical NLP-EMNLP 2020, Online: Association for Computational Linguistics, 2020, pp. 234-242.
46. Devisree V., Raj P. C. R. A Hybrid Approach to Relationship Extraction from Stories: International Conference on Emerging Trends in Engineering, Science and Technology (ICETEST-2015). Procedia Technology, 2016, vol. 24, pp. 1499-1506.
Информация об авторах
В. К. Пимешков — аспирант, стажер-исследователь;
М. Г. Шишаев — доктор технических наук, главный научный сотрудник.
Information about the authors
V. K. Pimeshkov — PhD student, Research Assistant;
M. G. Shishaev — Doctor of Science (Tech.), Chief Researcher.
Статья поступила в редакцию 15.10.2022; одобрена после рецензирования 07.11.2022; принята к публикации 14.11.2022.
The article was submitted 15.10.2022; approved after reviewing 07.11.2022; accepted for publication 14.11.2022.