ДВУХЭТАПНАЯ ТЕХНОЛОГИЯ ВЫДЕЛЕНИЯ ЗНАЧИМЫХ ПОНЯТИЙ ИЗ ТЕКСТОВ, ОСНОВАННАЯ НА ТЕМАТИЧЕСКОМ МОДЕЛИРОВАНИИ И АНАЛИЗЕ КОНТЕКСТА

Шишаев Максим Геннадьевич; Диковицкий Владимир Витальевич; Ломов Павел Андреевич

Труды Кольского научного центра РАН. Информационные технологии. Вып. 12. 2021. Т. 12, № 5. С. 10-21.

Transactions of the Ко1а Science Centre. Information technologies. Series 12. 2021. Vol. 12, no. 5. P. 10-21.

Научная статья УДК 004.8

DOI: 10.37614/2307-5252.2021.5.12.001

ДВУХЭТАПНАЯ ТЕХНОЛОГИЯ ВЫДЕЛЕНИЯ ЗНАЧИМЫХ ПОНЯТИЙ ИЗ ТЕКСТОВ, ОСНОВАННАЯ НА ТЕМАТИЧЕСКОМ МОДЕЛИРОВАНИИ И АНАЛИЗЕ КОНТЕКСТА*

Максим Геннадьевич ШишаевВладимир Витальевич Диковицкий 2, Павел Андреевич Ломов 3

1■2■3 Институт информатики и математического моделирования ФИЦ КНЦ РАН, Апатиты, Россия

1 [email protected], https://orcid.org/0000-0001-7070-7878 [email protected], https://orcid.org/0000-0003-0329-9979 [email protected], https://orcid.org/0000-0002-0924-0188

Аннотация

В работе рассматривается задача автоматизированного извлечения значимых понятий предметной области из текстов на естественном языке. Предложена двухэтапная технология ее решения, основанная на моделировании тематики и анализе контекста употребления лексических единиц. Представлены результаты экспериментальной проверки технологии и перспективы ее дальнейшего развития. Ключевые слова:

семантический анализ текста, выделение понятий, машинное обучение, моделирование тематики, анализ контекста Финансирование

Работа выполнена в рамках выполнения гос. задания по теме НИР № 0226-2019-0036. При поддержке Российского фонда фундаментальных исследований, проект № 20-0700754 А.

Для цитирования: Шишаев М. Г., Диковицкий В. В., Ломов П. А. Двухэтапная технология выделения значимых понятий из текстов, основанная на тематическом моделировании и анализе контекста // Труды Кольского научного центра РАН. Информационные технологии. Вып. 12. 2021. Т. 12, № 5. С. 10-21. http://dx/doi.org/10.37614/2307-5252.2021.5.12.001.

Original article

TWO-STAGE TECHNOLOGY OF AUTOMATED TERMINOLOGY EXTRACTION BASED ON TOPIC MODELING AND CONTEXT ANALYSIS

Maksim G. ShishaevVladimir V. Dikovitsky 2, Pavel A. Lomov 3

12 3 Institute for Informatics and Mathematical Modeling Kola Science Centre of the Russian Academy of Sciences, Apatity, Russia

1 [email protected], https://orcid.org/0000-0001-7070-7878

2 [email protected], https://orcid.org/0000-0003-0329-9979

3 [email protected], https://orcid.org/0000-0002-0924-0188

Abstract

The paper deals with the task of automated terminology extraction. A two-stage technology for its solution is proposed, based on topic modeling and analyzing the context of the use of lexical units. The results of experimental verification of the technology and the prospects for its further development are presented. Keywords:

semantic text analysis, terminology extracting, machine learning, topic modeling, context analysis

Funding

The article was supported by the federal budget to carry out the state task of the FRC KSC

RAS No. 0226-2019-0036. The study was funded by RFBR, project number 20-07-00754 A.

For citation: Shishaev M.G., Dikovitsky V.V., Lomov P.A. Two-stage technology of automated terminology extraction based on topic modeling and context analysis // Transactions of the Kola Science Centre. Information technologies. Series 12. 2021. Vol. 12, no. 5. P. 10-21. http://dx/doi.org/10.37614/2307-5252.2021.5.12.001.

Введение: краткая характеристика задачи «terminology extraction» и общее описание технологии

Выделение значимых понятий (терминов1) является одной из первоочередных задач семантического анализа текста, ориентированного на автоматизированное формирование предметных (проблемно-ориентированных) моделей знаний (онтологий). В теоретико-модельной интерпретации это - задача построения сигнатуры модели [1], где понятия представлены множеством непредикатных символов. В лингвистике, выделение понятий можно рассматривать как часть более общей задачи определения семантических ролей лексических единиц (Semantic Role Labeling).

Задача автоматизированного выделения понятий из текстов (terminology extraction, automatic term recognition) исследуется довольно давно, ключевые работы в этой области появились еще в конце прошлого века (см., например [2] [З]). Подходы к решению задачи, в зависимости от характера используемых признаков лексических конструкций, принято разделять на лингвистические и статистические, на практике также применяются смешанные подходы [4] [5]. Для выделения понятий используют как методы машинного обучения с учителем, основанные на размеченных данных, так и обучение без учителя. Вторые являются более предпочтительными, но в общем случае уступают по эффективности (скорости и точности работы) методам, использующим размеченные данные. Создание методов извлечения терминов с помощью моделей обучения без учителя относится к актуальной современной проблематике. Например, в [б] авторы предлагают технологию извлечения понятий без учителя, при этом рассматривают контекст употребления понятия в терминах POS, это дает возможность сделать модель (выявляющую понятия), универсальную для разных предметных областей.

В целом, для выделения значимых понятий нужно ответить на два ключевых вопроса: 1) какая языковая конструкция (слово или словосочетание) обозначает понятие и 2) относится ли данное понятие к значимым в контексте рассматриваемой предметной области. В рамках второй задачи также приходится решать проблему разделения специфичных (предметных) и общеупотребимых понятий.

Как правило, ответ на первый вопрос ищется путем решения задачи выделения именных групп (noun phrases), в том числе - вырожденных, состоящих из одного слова. Для этого имеется достаточно хорошо проработанный арсенал методов, основанных на лексическом и синтаксическом анализе текста. Одним из подходов, основанном на построении дерева зависимостей, (в том числе, использованном в данной работе) является использование нейросетевых синтаксических анализаторов. В данной работе использовался анализатор SyntaxNet [7].

В работе [8] предложен теоретико-модельный подход к выделению понятий, в рамках которого каждое предложение подвергается разбору и интерпретируется как атомарная диаграмма целевой модели. Формирование сигнатуры модели (в том числе - констант) происходит по эвристическим правилам с учетом номинализации существительных.

В рамках существующих подходов к определению семантических ролей осуществляется не только выделение лексических единиц, обозначающих понятия, но и идентификация с ними некоторых семантических или тематических ролей из заданного множества. Общий подход к решению этой задачи основан на контролируемом машинном обучении, а в качестве основы для обучающей выборки используются библиотеки размеченных текстов [9]. Наиболее известными проектами, предлагающими такие библиотеки, являются PropBank [10] и FrameNet [11]. В первом проекте семантическими ролями аннотируются отдельные слова, во втором - более сложные конструкции - семантические фреймы [12].

Как правило, в рассмотренных подходах в итоговую модель потенциально попадают все термины, упоминаемые в тексте, без учета их значимости в контексте рассматриваемой предметной области, что приводит к «замусориванию» целевой онтологической модели. Поэтому становится актуальным второй упомянутый выше вопрос. Ответ на него гораздо менее однозначен и зависит от используемого понимания значимости понятия. При этом, в практических целях необходимо не только достаточно точное понимание, но и подходящее для использования в автоматизированных вычислительных процедурах - операционное определение (operational definition) понятия «термин». Единого способа определения, судя по всему, не существует; так или иначе, идентификация значимости основывается на статистических свойствах слов-претендентов, способ расчета которых зависит от задачи [3]. Если важны репрезентативные свойства термина (насколько он значим для отражения темы документа), то расчет ведется без учета встречаемости во всей коллекции; если же важны дискриминативные свойства (насколько значим данный термин для выделения некоторой группы документов, например по некоторой одной предметной области, среди всей коллекции), то значимость термина определяется соотношением его статистических свойств внутри и за пределами группы (см., например, [13]).

В данной работе критерием значимости понятия полагается активность его использования в описании прикладных задач, характерных для рассматриваемой предметной области. Например, можно предполагать, что в контексте рассмотрения арктических транспортно-логистических систем, понятие «ледовая обстановка» будет значимым, а понятие «литературная проза об Арктике» - нет. В то же время, «ледовая обстановка», значимая для арктической логистики - не значима в контексте рассмотрения экваториальных судоходных маршрутов.

Одним из довольно простых и очевидных подходов к определению значимости понятия является использование статистических признаков, характеризующих частоту использования понятия в некотором наборе текстов [14]. Недостатком такого подхода является то, что точность (и корректность) оценки значимости зависит от объема анализируемого текста. Для получения хорошего результата необходимо располагать качественными (в смысле

максимально возможной тематической сфокусированности на рассматриваемой предметной области) предметными текстами больших объемов. Кроме того, возникает проблема дифференциации общеупотребимых и предметных (специальных) понятий.

Данная проблема также находится в фокусе внимания современных исследователей и разработчиков. Например, в работе [13] предлагается техника предсказания уровня предметности (technicality) терминов, извлекаемых из текстов, основанная на формировании и сравнении векторных представлений лексических единиц в тематическом (предметном) пространстве и в пространстве общеупотребимой лексики.

В данной работе предлагается технология идентификации в тексте понятий, значимых в контексте некоторой предметной области, основанная на моделях машинного обучения (конкретно - на искусственных нейронных сетях). Технология предполагает двухэтапный процесс выделения значимых понятий, описанный в следующем разделе. Реализуемый в рамках технологии подход к решению поставленной задачи позволяет фокусироваться только на значимых понятиях предметной области и использовать при этом, в том числе, короткие предметные тексты произвольной тематики.

Г

Набор предметных текстов

(1) Topic modelling

Базовые понятия

ЗЕ

П

Произвольные тексты

1Z.

Ак

(2) Анализ контекста

Значимые понятия предметной области

Рис. 1. Общая схема технологии выделения понятий

На первом этапе осуществляется формирование базового набора значимых понятий предметной области. При этом главная задача - обеспечить максимально возможную точность идентификации значимых понятий, полнота и размер итогового набора - второстепенны. Для этих целей формируется набор текстов, соответствующих тематике предметной области, который подвергается анализу с помощью специализированного метода моделирования тематики (Topic modeling), основанного на кластеризации и анализе статистических свойств и дистрибутивной семантики текста. Результирующее множество ключевых тем,

получаемое на данном этапе, соответствует базовому набору понятий, априори значимых в рамках рассматриваемой предметной области.

На втором этапе осуществляется пополнение состава значимых понятий с помощью анализа контекста. Используемый при этом подход основан на простом предположении, что если некоторое априори значимое понятие w1 используется в некотором контексте c(w1) и имеется понятие w2, используемое в схожем контексте, т.е. c(w2) ~ c(w1), то понятие w2 также значимо в рамках рассматриваемой предметной области. В качестве «стартовых» понятий используются элементы множества ключевых тем (topics), выявленные на первом этапе.

За счет такого подхода потенциально удастся решить ряд проблем:

- Избежать замусоривания онтологии малозначимыми или общеупотребимыми понятиями

- Обеспечить включение в понятийную базу редко-используемых, синонимичных терминов произвольной длины, в том числе -жаргонизмов и слов общеупотребимой лексики, используемых в контексте некоторой предметной области как понятие.

- Обеспечить возможность анализа в том числе коротких текстов произвольной тематики.

1. Технология выделения базовых значимых понятий на основе Topic modeling

В данной работе тематическое моделирование используется в постановке задачи, отличной от классической, поскольку целью является не идентификация тематики документов или их классификация в соответствии с заданным набором тем, а выявление значимых понятий, которыми оперирует автор документа. Список значимых понятий формируется в результате анализа текстов дистрибутивными и синтаксическими методами анализа в два этапа. На первом определяются частотные и синтаксические характеристики слов, выявление словосочетаний в рассматриваемой коллекции. На данном этапе отсекаются общеупотребительные слова. Для этого используются частотные характеристики слов - TF-IDF мера, а также синтаксический анализ для определения части речи. Для определения понятий, выраженных биграммами, используется отфильтрованная разреженная матрица n х m (n = количество документов коллекции, m = количество уникальных слов и пар слов в корпусе), полученная на коллекции. Дистрибутивные методы позволяют удалить семантически незагруженные слова и идентифицировать устойчивые словосочетания.

На втором этапе учитывается статистика совместного использования значимых понятий. Для этого формируется векторная модель Word2Vec предварительно очищенного корпуса тематических текстов: вследствие малого размера корпуса (относительно размера корпусов, используемых для обучения векторных представлений текстов общей лексики) из него удаляются слова, частотно определенные как незначимые, а также объединяются в одно понятие устойчивые словосочетания. Модель Word2Vec используется для оценки контекстной близости слов, чтобы определить фраземы, коннотации и контекст использования понятий. Для определения значимых понятий применяется кластеризация пространства Word2Vec алгоритмом k-средних. В качестве индикатора контекстной близости используется косинусная близость между

векторами слов. Похожий подход реализован в библиотеке Top2Vec [15], где одним из критериев идентификации темы является равноудаленность от других тем.

В результате, в кластер попадают схожие по смыслу (в контексте рассматриваемой коллекции текстов) термины. В предположении что кластер задает некоторый класс понятий, центр кластера будет соответствовать предполагаемому значимому термину, наиболее точно обозначающему класс. Тогда, сравнивая контексты полученного «эталонного» понятия и понятий-кандидатов (на 2 этапе) мы сможем отыскать в тексте другие экземпляры данного класса, также являющиеся значимыми понятиями предметной области.

Способ формирования словаря Word2Vec

Для формирования словаря Word2Vec исходный набор текстов подвергся лемматизации, удалению стоп слов, морфологической фильтрации (оставлены только существительные и связанные с ним качественные прилагательные). Устойчивые словосочетания сохранены как одно слово. Далее на полученном наборе произведено построение модели Word2Vec. размер словаря модели составил 13597 слов, применен алгоритм CBOW, размерность пространства 200.

На рисунке 2 представлено двухмерное представление модели Word2Vec, полученное с помощью алгоритма ^КЕ. T-SNE использовался для построения подмножества похожих слов из обученной модели Word2Vec. Во-первых, были найдены схожие слова и каждое из похожих слов было добавлено к матрице. Во-вторых, t-SNE был применен к матрице для проецирования каждого слова в двумерное пространство (т.е. уменьшения размерности). На первом (рис^) изображении представлен фрагмент модели Word2Vec (кластера слов «исследования», «этнография», «добыча») построенный без частотного и морфологического фильтра. На втором (рис.2Ь) - после применения описанных преобразований набора (кластера слов «закон», «этнография», «Арктика», «освоение», «безопасность», «наука»).

(а) (Ь)

Рис.2. Двумерная визуализация пространства Word2Vec до (а) и после (Ь)

преобразований

Затем к полученной модели применялась кластеризация с использованием алгоритма ^средних. Было получено 100 кластеров, состоящих из смежных тем. В качестве критерия использовалось косинусное расстояние, в 5 проходов с наличием пустого кластера. Словарь для составления списка значимых тем был

сформирован на основе словаря W2V путем ограничения по частоте встречаемости слова или словосочетания и ограничен 2000 слов. Топ 20 тем: народ, год, культура, север, человек, язык, малочисленныйнарод, развитие, Арктика, Россия, район, шаман, регион, мир, территория, жизнь, население, работа, деятельность, время. Для определения значимого термина, наиболее точно обозначающего тему, использовался алгоритм усреднения векторных представлений слов кластера, встроенный в библиотеку Word2Vec.

2. Технология идентификации значимых понятий предметной области на основе анализа контекста

Применение данной технологии на втором этапе предполагает предварительное обучение используемой в рамках нее языковой модели, которая далее применяется для выявления значимых понятий на основе анализа контекстов. Обучение языковой модели осуществляется на основе обучающей выборки, которая автоматически формируется путем поиска в наборе текстов предметной области предложений, содержащих отдельные лексемы и именные группы, соответствующие понятиям из базового набора, сформированного на первом этапе.

Основной принцип генерации образцов обучающей выборки состоит в анализе предложений текстов предметной области с целью выявления тех предложений, которые содержат понятия базового набора. В результате анализа для каждого такого предложения создается метка, определяющее содержащееся в предложении понятие и границы его положения. Например, для предложения <(Альтернативный путь через Санкт-Петербург вокруг Скандинавии решает проблему со вместимостью судна (можно сразу взять большую партию), но возникают сложности с таможенным сопровождением, а также увеличивается транзитное время и растет бюджет доставки.», содержащего понятие «Санкт-Петербург» создается метка вида (26, 41, "CITY").

Реализация данного принципа может потребовать существенное количество времени так как для каждого понятия базового набора требуется перебрать все предложения текста. Для оптимизации временных затрат на этапе подготовки корпуса для каждого текста формируется хэшированный набор входящих в него лексем. При этом каждая лексема приводится к нормальной форме. Это позволяет перед выполнением процедуры поиска предложений текста, содержащих понятие из базового набора, быстро проверить факт наличия в нем соответствующей понятию лексемы и лишь в случае успеха осуществлять последующий перебор его предложений. С целью оптимизации также выполняется сегментирование текстового корпуса с последующей параллельной обработкой нескольких секций.

Основной проблемой при таком способе формирования обучающей выборки стало определение границ понятий, состоящих из нескольких лексем. В таком случае в предложениях лексемы одного понятия могли быть представлены частично и/или не следовать в порядке, заданном понятием, а перемежаться с другими лексемами предложения. На данном этапе развития технологии рассматриваются понятия, состоящие из одной или двух лексем, следующих друг за другом, при этом границы устанавливаются по первому и последнему вхождению лексем понятия в предложение. Для дальнейшего совершенствования определения границ их поиск был вынесен в отдельный подпроцесс.

После формирования обучающей выборки на ее основе производится обучение языковой модели. В качестве последней выступает языковая модель на основе сверточной нейронной сети из распространенной Python-библиотеки для анализа естественно-языковых текстов SpaCy [16]. Результативность использования данной технологии определяется качеством обученной модели, на которое влияет объем обучающей выборки, а также разнообразие и правильность разметки ее образцов.

После обучения модели она применяется в рамках 2 этапа - для обнаружения в текстах предметной области новых понятий, которые встречаются в контекстах, сходных с контекстами употребления понятий базового набора. Обнаруженные таким образом понятия предъявляются эксперту в качестве кандидатов для пополнения набора важных понятий.

Экспериментальная оценка технологии

В рамках проверки эффективности предложенной технологии было проведено обучение с помощью обучающей выборки, сформированной на основе набора из 157 текстов. Данные тексты были собраны из открытых интернет-сайтов пространственно-логистической тематики. В результате их анализа был получен обучающий набор, содержащий около 97 000 размеченных предложений. Наряду с обучающим набором, был также сформирован тестовый набор, представляющий эталонный результат извлечения важных понятий. Его создание производилось вручную экспертом на основе текстов, не использованных на этапе обучения.

В ходе проверки эффективности оценивалась способность модели обнаруживать, как исходные значимые понятия из базового набора, так и новые понятия, используемые в сходных с исходными контекстах. В качестве ориентира в эксперименте также оценивалась мультиязычная модель из фреймворка SpaCy, предназначенная для извлечения именованных сущностей (персон, локаций, организаций) из текстов общей тематики.

Эксперимент 1. Обнаружение моделью исходных значимых понятий в тестовом наборе:

- обученная модель: точность = 0.88, полнота = 0.15.

- мультиязычная модель: точность = 0.104, полнота = 0.077

Эксперимент 2. Обнаружение моделью новых важных понятий, использованных в схожих контекстах:

- обученная модель: точность = 0.067, полнота = 0.3.

- мультиязычная модель: точность = 0.08, полнота = 0.3

Из результатов первого эксперимента можно видеть, что модель лучше справилась с излечением специфических понятий, чем мультиязычная. Тем самым, можно отметить некоторый позитивный эффект обучения. Низкий результат по полноте вероятно вызван небольшим размером сформированной обучающей выборки. Второй эксперимент показал отсутствие какой-либо результативности в отношении извлечения новых понятий. Это является закономерным следствием низких результатов первого эксперимента, так как модель потенциально может выявлять новые понятия в известных контекстах лишь в том случае, когда сможет обучиться

распознаванию данных контекстов. Однако результаты первого эксперимента указывают, что этого добиться не удалось.

Отсутствие результатов во втором эксперименте также связано с тем, что исходная гипотеза о наличии новых понятий в одних контекстах с исходными понятиями будет работать в том случае, если исходные понятия будут связаны с некоторыми "категориями". При этом анализируемые тексты должны содержать понятия, соответствующие этим "категориям". Например, таким понятием, относящимся к "категории", может быть некоторый тип транспортного средства. В этом случае, если тексты будут включать описания транспортных средств, то можно предположить, что гипотеза будет срабатывать чаще. Отсюда также можно сделать вывод о том, что необходимо определить и другие виды гипотез, позволяющих определять контексты новых понятий на основе имеющихся. Это позволит потенциально увеличить размер и вариативность (частота встречаемости термина) обучающей выборки за счет извлечения большего числа предложений из анализируемых текстов.

Таким образом, в рамках следующего этапа исследования планируется увеличить размер текстового корпуса, а также дополнить процедуру формирования обучающей выборки реализацией новых гипотез обнаружения контекстов новых понятий.

Заключение

Задача автоматизированного извлечения значимых понятий предметной области из текстов на естественном языке, несмотря на актуальность и уделяемое большое внимание, остается не до конца решенной. Основными проблемами являются создание эффективных методов ее решения, основанных на обучении без учителя, дифференциация значимых и общеупотребимых понятий, выделение редко используемых понятий, возможность извлечения значимых предметных понятий из коротких текстов произвольной тематики.

В данной работе предложена двухэтапная технология извлечения предметных понятий, основанная на специальных (основанных на моделях машинного обучения) алгоритмах тематического моделирования и анализа контекста, имеющая потенциал к решению вышеназванных проблем. На данном этапе работ проведена экспериментальная проверка работоспособности технологии и определены перспективы ее дальнейшей разработки.

Примечания

* Адаптированный перевод статьи: Shishaev M.G. Concept and Preliminary Testing of the Two-Stage Technology of Terminology Extraction on the Basis of Topic Modeling and Context Analysis / M.G. Shishaev, V.V. Dikovitsky, P.A. Lomov // Informatics and Cybernetics in Intelligent Systems: Lecture Notes in Networks and Systems / ed. R. Silhavy. - Cham: Springer International Publishing, 2021. - P. 636-644

1 В контексте данной статьи мы не будем делать различия между словами «термин» и «понятие», имея в виду под «термином» лексическое обозначение понятия предметной области. Строго говоря, здесь и далее речь идет о выявлении именно лексических единиц, соответствующих понятиям предметной области, то есть сигнификатов.

Список литературы

1. Корсун И.А. Теоретико-модельные методы извлечения знаний о смысле понятий из текстов естественного языка / Корсун И.А., Пальчунов Д.Е. // Вестник Новосибирского государственного университета. Серия: Информационные технологии. - 2016. - Т. 14. - № 3. - С. 34-48.

2. Frantzi K.T. The C-Value/NC-Value Method of Automatic Recognition for MultiWord Terms / K.T. Frantzi, S. Ananiadou, J. Tsujii // Proceedings of the Second European Conference on Research and Advanced Technology for Digital Libraries : ECDL '98. - Berlin, Heidelberg: Springer-Verlag, 1998. - С. 585-604.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3. Kageura K. Methods of Automatic Term Recognition: A Review / K. Kageura, B. Umino // Terminology. - 1996. - Т. 3. - № 2. - С. 259-289.

4. Pazienza M.T. Terminology extraction: an analysis of linguistic and statistical approaches / M.T. Pazienza, M. Pennacchiotti, F.M. Zanzotto // Knowledge mining. - Berlin, Heidelberg: Springer, 2005. - С. 255-279.

5. Astrakhantsev N.A. Methods for automatic term recognition in domain-specific text collections: A survey / N.A. Astrakhantsev, D.G. Fedorenko, D.Yu. Turdakov // Programming and Computer Software. - 2015. - Т. 41. - № 6. - С. 336-349.

6. A Unsupervised Method for Terminology Extraction from Scientific Text / W. Shao [и др.] // EEKE@JCDL. - 2020.

7. Weiss D. An Upgrade to SyntaxNet, New Models and a Parsing Competition / D. Weiss, S. Petrov. - 2017.

8. Махасоева О.Г. Автоматизированные методы построения атомарной диаграммы модели по тексту естественного языка / Махасоева О.Г., Пальчунов Д.Е. // Вестник Новосибирского государственного университета. Серия: Информационные технологии. - 2014. - Т. 12. - № 2. - С. 64-73.

9. Jurafsky D. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Т. 2 / D. Jurafsky, J. Martin. - 2008.

10.Palmer M. The Proposition Bank: An Annotated Corpus of Semantic Roles / M. Palmer, P. Kingsbury, D. Gildea // Computational Linguistics. - 2005. - Т. 31. -С. 71-106.

11.About FrameNet | fndrupal [Электронный ресурс]. - URL: https://framenet.icsi.berkeley.edu/fndrupal/about (дата обращения: 05.12.2020).

12.Boas H.C. From Theory to Practice: Frame Semantics and the Design of FrameNet / H.C. Boas // Semantisches Wissen im Lexikon / ред. S. Langer, D. Schnorbusch. -Tübingen: Narr., 2005.

13.Predicting Degrees of Technicality in Automatic Terminology Extraction / A. Hatty [и др.] // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. - Online: Association for Computational Linguistics, 2020. - С. 2883-2889.

14.Белая Т.И. Выделение ключевых понятий в текстовом содержимом с использованием статистической оценки / Белая Т.И., Пасечник П.А. // Современные проблемы науки и образования (научный журнал). - 2014. -№ 3.

15.Angelov D. Top2Vec: Distributed Representations of Topics / D. Angelov // arXiv:2008.09470 [cs, stat]. - 2020. - Top2Vec.

16.SpaCy [Электронный ресурс]. - URL: https://spacy.io (дата обращения: 12.01.2021).

References

1. Korsun I.A., Pal'chunov D.E. Teoretiko-model'nye metody izvlecheniya znanij o smysle ponyatij iz tekstov estestvennogo yazyka [Model-theoretic methods for extracting knowledge about the meaning of concepts from natural language texts]. Vestnik Novosibirskogo gosudarstvennogo universiteta. Seriya: Informacionnye tekhnologii. [Novosibirsk State University Bulletin. Series: Information Technology.]. - 2016. - vol. 14. - № 3. - pp. 34-48. (In Russ.).

2. Frantzi K.T. The C-Value/NC-Value Method of Automatic Recognition for MultiWord Terms / K.T. Frantzi, S. Ananiadou, J. Tsujii // Proceedings of the Second European Conference on Research and Advanced Technology for Digital Libraries : ECDL '98. - Berlin, Heidelberg: Springer-Verlag, 1998. - С. 585-604.

3. Kageura K. Methods of Automatic Term Recognition: A Review / K. Kageura, B. Umino // Terminology. - 1996. - Т. 3. - № 2. - С. 259-289.

4. Pazienza M.T. Terminology extraction: an analysis of linguistic and statistical approaches / M.T. Pazienza, M. Pennacchiotti, F.M. Zanzotto // Knowledge mining. - Berlin, Heidelberg: Springer, 2005. - С. 255-279.

5. Astrakhantsev N.A. Methods for automatic term recognition in domain-specific text collections: A survey / N.A. Astrakhantsev, D.G. Fedorenko, D.Yu. Turdakov // Programming and Computer Software. - 2015. - Т. 41. - № 6. - С. 336-349.

6. A Unsupervised Method for Terminology Extraction from Scientific Text / W. Shao [et al.] // EEKE@JCDL. - 2020.

7. Weiss D. An Upgrade to SyntaxNet, New Models and a Parsing Competition / D. Weiss, S. Petrov. - 2017.

8. Mahasoeva O.G., Pal'chunov D.E. Avtomatizirovannye metody postroeniya atomarnoj diagrammy modeli po tekstu estestvennogo yazyka [Automated methods for constructing an atomic diagram of a model from a natural language text] // Vestnik Novosibirskogo gosudarstvennogo universiteta. Seriya: Informacionnye tekhnologii. [Novosibirsk State University Bulletin. Series: Information Technology.]. - 2014. - vol. 12. - № 2. - pp. 64-73. (In Russ.).

9. Jurafsky D. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Т. 2 / D. Jurafsky, J. Martin. - 2008.

10.Palmer M. The Proposition Bank: An Annotated Corpus of Semantic Roles / M. Palmer, P. Kingsbury, D. Gildea // Computational Linguistics. - 2005. - Т. 31. -С. 71-106.

11.About FrameNet | fndrupal. - Available at: https://framenet.icsi.berkeley.edu/ fndrupal/about Accessed: 05.12.2020).

12.Boas H.C. From Theory to Practice: Frame Semantics and the Design of FrameNet / H.C. Boas // Semantisches Wissen im Lexikon / ред. S. Langer, D. Schnorbusch. -Tübingen: Narr., 2005.

13.Predicting Degrees of Technicality in Automatic Terminology Extraction / A. Hatty [и др.] // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. - Online: Association for Computational Linguistics, 2020. - С. 2883-2889.

14. Belaya T.I., Pasechnik P.A. Vydelenie klyuchevyh ponyatij v tekstovom soderzhimom s ispol'zovaniem statisticheskoj ocenki [Highlighting key concepts in text content using statistical evaluation]. Sovremennye problemy nauki i obrazovaniya (nauchnyj zhurnal) [Modern problems of science and education (scientific journal)]. - 2014. - № 3. (In Russ.).

15.Angelov D. Top2Vec: Distributed Representations of Topics / D. Angelov //

arXiv:2008.09470 [cs, stat]. - 2020. - Top2Vec. 16.SpaCy. Available at: https://spacy.io (accessed: 12.01.2021).

Сведения об авторах

М. Г. Шишаев — доктор технических наук, главный научный сотрудник ИИММ КНЦ РАН;

В. В. Диковицкий — кандидат технических наук, старший научный сотрудник ИИММ КНЦ РАН;

П. А. Ломов — кандидат технических наук, старший научный сотрудник ИИММ КНЦ РАН.

Information about the authors

M. G. Shishaev — Doctor of Science (Tech.), Chief Research Fellow of the Institute for Informatics and Mathematical Modeling Kola Science Centre of the Russian Academy of Sciences;

V. V. Dikovitsky — Candidate of Science (Tech.), Senior Research Fellow of the Institute for Informatics and Mathematical Modeling Kola Science Centre of the Russian Academy of Sciences;

P. A. Lomov— Candidate of Science (Tech.), Senior Research Fellow of the Institute for Informatics and Mathematical Modeling Kola Science Centre of the Russian Academy of Sciences.

Статья поступила в редакцию 15.11.2021; одобрена после рецензирования 20.11.2021; принята к публикации 08.12.2021.

The article was submitted 15.11.2021; approved after reviewing 20.11.2021; accepted for publication 08.12.2021.

TWO-STAGE TECHNOLOGY OF AUTOMATED TERMINOLOGY EXTRACTION BASED ON TOPIC MODELING AND CONTEXT ANALYSIS

Текст научной работы на тему «ДВУХЭТАПНАЯ ТЕХНОЛОГИЯ ВЫДЕЛЕНИЯ ЗНАЧИМЫХ ПОНЯТИЙ ИЗ ТЕКСТОВ, ОСНОВАННАЯ НА ТЕМАТИЧЕСКОМ МОДЕЛИРОВАНИИ И АНАЛИЗЕ КОНТЕКСТА»