ПРИМЕНЕНИЕ ЯЗЫКОВЫХ МОДЕЛЕЙ В ЗАДАЧЕ ИЗВЛЕЧЕНИЯ ОЦЕНОЧНЫХ ОТНОШЕНИЙ

Русначенко Н.Л.

DOI: 10.15514/ISPRAS-2021-33(3)-14

Применение языковых моделей в задаче извлечения оценочных отношений

Н.Л. Русначенко, ORCID: 0000-0002-9750-5499 <kolyarus@yandex.ru> Московский государственный технический институт им. Н.Э.Баумана, 105005, Россия, г. Москва, ул. 2-я Бауманская, д. 5, стр. 1

Аннотация. Объемные тексты могут содержать источники взаимосвязанной информации различных типов, передаваемых посредством отношений, некоторые из которых могут быть оценочными. Проведение анализа таких текстов требует установление подобных связей, определении их участников: событий, сущностей, и т.д. В данной работе исследуется применение языковых моделей BERT в задаче извлечения оценочных отношений. Для произвольного документа и списка размеченных в нем именованных сущностей, такая задача предполагает составление списка оценочных отношений между ними. Эффективность применения языковых моделей напрямую зависит от объема обучающих данных. Для увеличения объема обучающего множества применяется подход опосредованного обучения. Такое обучение подразумевает применение алгоритма автоматической разметки оценочных отношений из сторонних источников. Предложенный подход разметки оценочных отношений основан на двухэтапном применении FRAME-BASED фактора в анализе новостных документов, для: (1) составления списка оценочных пар (PAIR-BASED), (2) разметки документов с использованием PAIR-BASED и FRAME-BASED факторов. Полученная на основе такого алгоритма коллекция получила название RuAttitudes2017. Для проведения экспериментов с моделями использовался корпус новостных текстов на русском язык е RuSentRel-1.0. Применение опосредованного обучения с использованием коллекции RuAttitudes2017 повысило качество моделей на 10-13% по метрике F1, и на 25% при сравнении с наилучшими результатами моделей на основе нейронных сетей.

Ключевые слова: анализ тональности; извлечение отношений; опосредованное обучение; нейронные сети; языковые модели

Для цитирования: Русначенко Н. Л. Применение языковых моделей в задаче извлечения оценочных отношений. Труды ИСП РАН, том 33, вып. 3, 2021 г., стр. 199-222. DOI: 10.15514ASPRAS-2021-33(3)-14

Благодарности: Данная работа выполнена при поддержке гранта РФФИ 20-07-01059

Language Models Application in Sentiment Attitude Extraction Task

N.L. Rusnachenko, ORCID: 0000-0002-9750-5499 <kolyarus@yandex.ru> Bauman Moscow State Technical University, 5, Building 1, 2-nd Baumanskaya Str., Moscow, 105005, Russia.

Abstract. Large text can convey various forms of sentiment information including the author's position, positive or negative effects of some events, attitudes of mentioned entities towards to each other. In this paper, we experiment with BERT based language models for extracting sentiment attitudes between named entities. Given a mass media article and list of mentioned named entities, the task is to ex tract positive or negative attitudes between them. Efficiency of language model methods depends on the amount of training data. To enrich training data, we adopt distant supervision method, which provide automatic annotation of unlabeled texts using an additional lexical resource. The proposed approach is subdivided into two stages FRAME-BASED: (1) sentiment pairs list completion (PAIR-BASED), (2) document annotations using PAIR-BASED and FRAME-BASED factors. Being applied towards a large news collection, the method generates

RuAttitudes2017 automatically annotated collection. We evaluate the approach on RuSentRel-1.0, consisted of mass media articles written in Russian. Adopting RuAttitudes2017 in the training process results in 10-13% quality improvement by F1-measure over supervised learning and by 25% over the top neural network based model results.

Keywords: Sentiment Analysis; Relation Extraction; Distant Supervision; Neural Networks; Language Models For citation: Rusnachenko N.L. Language Models Application in Sentiment Attitude Extraction Task. Trudy ISP RAN/Proc. ISP RAS, vol. 33, issue 3, 2021, pp. 199-222. DOI: 10.15514/ISPRAS-2021-33(3)-14

Acknowledgements. This work was supported by a grant from the RFBR 20-07-01059.

1. Введение

Анализ тональности, т.е. выделение мнения автора о предмете обсуждения в тексте, является одним из наиболее востребованных приложений автоматической обработки текстов за последние годы. Одной из подзадач анализа тональности является задача извлечения оценочных отношений [1], которая предполагает классификацию взаимоотношений между упоминаемыми в тексте именованными сущностями. Извлечение оценочных отношений существенно для анализа тональности новостных и аналитических текстов, поскольку сложным образом влияет на анализ авторской позиции в тексте. В следующем примере приводится фрагмент новостного сообщения, оценочные отношения возникают между сущностями «Россия» и «НАТО» (сущности подчеркнуты): ... Москвае неоднократно подчеркивала, что ее активность на Балтике,,является ответом именно на действия НАТО,, и эскалацию враждебного подхода к Россииe вблизи ее восточных границ ... Многие задачи анализа тональности решаются на основе методов машинного обучения, которые, однако, требуют значительного объема обучающих данных. Одним из подходов, направленным на снижение объема ручной разметки данных, является подход опосредованного обучения (Distant Supervision). Опосредованное обучение предполагает выполнение автоматической разметки объемных текстовых коллекций [2] на основе некоторых дополнительных ресурсов, полученная размеченная коллекция далее используется в качестве данных для методов машинного обучения. Несмотря на большое число проведенных исследований подобного подхода разметки документов [3, 4] для задачи анализа тональности и извлечения отношений, область остается изученной лишь частично [5].

В данной работе исследуется применение языковых моделей для извлечения оценочных отношений, предобученных на основе большого автоматического размеченного корпуса извлеченных оценочных отношений по методу опосредованного обучения. Подход основан на использовании лексикона RuSentiFrames [6], который содержит описание оценочных отношений между аргументами слов-предикатов русского языка. Таким образом, вклад настоящей работы следующий:

• исследованы методы машинного обучения для извлечения оценочных отношений из русскоязычных аналитических текстов на уровне документа;

• предложен подход к автоматическому порождению обучающей коллекции для извлечения оценочных отношений, включающий: (1) предварительный этап обработки коллекции для автоматического порождения списка оценочных пар, (2) автоматическую разметку нейтральных отношений;

• проведены исследования извлечения отношений на основе корпуса RuSentRel-1.0 для языковых моделей BERT [7] с применением предложенного подхода порождения обучающей коллекции; согласно полученным результатам исследования, применение опосредованного обучения улучшает качество извлечения оценочных отношений языковыми моделями на 10-13% (трехклассовая классификация) по Б1-мере и на 25% при сравнении результатов русскоязычных языковых моделей с аналогичными результатами других архитектур нейронных сетей (кросс-валидационное тестирование).

2. Языковые модели для извлечения отношений

Применение архитектуры трансформера [8], оказала огромное влияние в решении многих задач автоматической обработки естественного языка. основана на независимом применении кодировщика [7] и декодировщика [9] трансформера. Применение таких компонентов подразумевает выполнение этапов: (1) предварительного обучения на большом объеме неразмеченных данных и (2) дообучение под конкретную задачу обработки текстов на естественном языке. По завершении первого этапа, модели на основе таких компонентов могут быть интерпретированы как языковые модели - вероятностные распределения над последовательностями слов.

Основополагающей моделью на основе декодировщика стала GPT [9]. Актуальной на настоящий момент версией является модель GPT-3 [10]. Дообученная версия такой модели на русскоязычных данных получила название ruGPT-31. В работе [11] авторы представляют модель для извлечения отношений, которая основывается на классической архитектуре трансформера [8] и дообучении GPT [9], что привело к модели под названием TRE [11]. В случае кодировщиков, основополагающей моделью стала BERT [7]. Такая модель предполагает в качестве входной информации последовательность, опциально разделенную специальным символом [SEP] на две независимые последовательности: TextA и TextB. Учет всех слов контекста достигается благодаря введению задачи предсказания маскированных токенов (от англ. Masking Language Modeling): предсказание случайного маскированного слова входной последовательности. Дополнительной задачей, призванной установить связь между TextA и TextB, стала Natural Language Inference (NLI), в которой требуется определить2, является ли TextB продолжением TextA. Применение языковых моделей BERT в задачах классификации выполняется с введением классификационного слоя, отвечающего за сопоставление входной последовательности множеству выходных классов задачи. В области аспектно-ориентированного анализа тональности, авторы [12] предлагают подход применения модели BERT в постановке вопросно-ответный (Q/A, составление вопроса в TextB для последовательности TextA), и NLI (указание ожидаемой информации в TextB, которая должна быть выведена из TextA).

Одним из направлений в развитии BERT-производных архитектур стала публикация предобученных моделей. Исходно доступный набор предобученных моделей3 делится на: ориентированные под конкретные языки (английский, китайский) и мультиязыковые. Из множества мультиязыковых моделей выделим модель mBERT4, которая предобучена на текстовых данных 104 языков и поддержкой регистра букв в представлении входных последовательностей [7]. Модель mBERT доступна и распространена только в формате base. Для русского языка, авторами проекта DeepPavlov опубликована модель RuBERT [13] -дообученная версия mBERT на русскоязычных новостных данных и статьях энциклопедии «Википедия». Модель SentRuBERT5 является дообученной версией RuBERT коллекциями: (1) переведенных на русский язык текстами корпуса SNLI [14] сервисом Google-Translate; (2) русскоязычных текстов корпуса XNLI [15].

Другим направлением в развитии BERT-архитектур стала модификация используемых задач этапа предобучения. В модели Electra [16] задача предсказания маскированного слова модифицирована в задачу выявления в контексте специально подмененного слова. RoBERTa [17] представляет собой улучшение предобучения (задач на этапе предобучения моделей).

1 https://github.com/sberbank-ai/ru-gpts

2 Для проведения классификации в модели предусмотрен специальный токен [СЬБ] перед началом входной последовательности

3 https://github.com/google-research/bert

4 https://huggingface.co/bert-base-multilingual-cased

5 https://huggingface.co/DeepPavlov/rubert-base-cased-sentence

Построение модели кросс-языкового кодировщика предложений на основе набора текстов ста различных языков [18] стало одним из применений модели RoBERTa. Такая модель получила название XLM-R6. SpanBERT [19] представляет собой модификацию BERT, ориентированную под задачу извлечения отношений (Relation Extraction) [20], посредством изменения алгоритма маскирования частей текста последовательности. Архитектура классификационного слоя может быть также специфична для конкретной задачи. Например, для задачи извлечения отношений модель R-BERT [21] учитывает информацию об объектах отношения входной последовательности.

3. Используемые ресурсы

В подразделах 3.1-3.2 рассматриваются ресурсы, которые использовались для разметки коллекции с целью проведения опосредованного обучения моделей. Основная идея подхода состоит в следующем. Лексикон оценочной лексики RuSentiFrames [6] используется для автоматической разметки оценочных отношений в заголовках большой неразмеченной новостной коллекции. Извлечение отношений производится из заголовков, поскольку они обычно короче, содержат меньше именованных сущностей. Далее размеченные отношения в заголовках фильтруются и используются для разметки отношений внутри текстов новостей.

3.1 Лексикон фреймов RuSentiFrames

Лексикон RuSentiFrames-2.0 описывает оценки и коннотации, передаваемые предикатом в форме отдельного слова (существительного, глагола) или словосочетания. Структура фреймов включает в себя набор специфичных для предикатов ролей и набор различных измерений (характеристик) для описания фреймов. Для обозначения ролей семантические аргументы предикатов нумеруются, начиная с нуля. Для конкретного предиката Arg0 - это, как правило, аргумент (Agent), демонстрирующий свойства агента (активного участника) ситуации [22], в то время как Argl это объект (Theme). В основной части лексикона представлены следующие измерения:

• отношение автора текста к указанным участникам (Roles);

• polarity - положительная или отрицательная оценка между участниками отношений;

• effect - положительный или отрицательный эффект для участников;

• state - положительное или отрицательное эмоциональное состояние участников, связанных с описанной ситуацией.

Все утверждения включают доверительную оценку, которая в настоящее время имеет два значения: 1 - утверждение почти всегда верно, или 0.7 - разметка по-умолчанию. Утверждения о нейтральной оценке, эффекте или состоянии участников не учитываются в лексиконе.

Табл. 1. Пример описания фрейма «Одобрить» в лексиконе RuSentiFrames Table 1. An example of the «Approve» frame description in the RuSentiFrames lexicon

Измерения фрейма «Одобрить» Описание

roles A0: тот, кто одобряет A1: то, что одобряется

polarity A0^A1 , pos, 1.0 A1^A0, pos, 0.7

effect A1, pos, 1.0

state A0, pos, 1.0 A1, pos, 1.0

6 https://github.com/pytorch/fairseq/tree/master/examples/xlmr 202

Табл. 2. Распределение вхождений отношений в лексиконе RuSentiFrames-2.0 Table 2. Distribution of occurrences of relations in the RuSentiFrames-2.0 lexicon

polarity Класс тональности Количество

A0^A1 pos 2558

A0^A1 neg 3289

author^AO pos 170

author^A0 neg 1581

author^ A1 pos 92

author^ A1 neg 249

Созданные фреймы связаны также с «семейством» слов и выражений (лексических единиц), которые имеют одинаковые тональности. Лексические единицы, связанные с фреймом, могут быть отдельными словами или словосочетаниями.

RuAttitudes-2.0 сохраняет общую структуру лексикона версии 1.0. В ресурсе описано 311 фреймов, связанных с 7034 лексическими единицами, среди которых 6788 уникальных. Среди уникальных вхождений, 48% составляют глаголы, 14% - существительные, и оставшиеся 38% - словосочетания. Общее число фреймов увеличено на 12% при сравнении с версией 1.0. Пример формата описания фрейма «Одобрить» приведен в Табл. 1. В Табл. 2 представлено распределение вхождений различных типов отношений в RuSentiFrames. Для проведения автоматической разметки в методе опосредованного обучения моделей используется только отношения агента ситуации к объекту (A0^-A1).

3.2 Новостные коллекции

Коллекции NEWSBase (2,8 млн. новостных текстов) и NEWSLarge (8,8 млн. новостных текстов), используемые для извлечения отношений, состоят из русскоязычных статей и новостей крупных новостных источников, специализированных политических сайтов, опубликованных в 2017 году. Каждая статья разделена на заголовок и содержание.

4. Описание подхода

Основные предположения подхода состоят в следующем:

• отношения между сущностями, упоминаемыми в новости, в большинстве случаев наиболее четко и просто выражаются в заголовке новости;

• появление предиката из RuSentiFrames (FRAME-BASED) в заголовке позволяет достаточно надежно извлечь отношения между именованными сущностями;

• суммирование выделенных отношений по большой коллекции позволяет выделить основную тональность отношений между сущностями (PAIR-BASED фактор);

• для формирования автоматически размеченной коллекции выбираются заголовки новостей, в которых тональность отношений между сущностями, выделенная на основе фреймов (FRAME-BASED) совпадает с насчитанной тональностью по коллекции для этих сущностей (PAIR-BASED) - так называемые доверенные отношения;

• в размеченную коллекцию также включаются предложения из тела новости с выбранным заголовком, поскольку предполагается, что в среднем тональность отношения между сущностями внутри новости соответствует тональности отношения в заголовке. При этом предложения из тела новости имеют более разнообразную структуру.

Полученный набор данных с автоматически размеченными оценочными отношениями получил название RuAttitudes2017. Рис. 1 иллюстрирует процесс автоматической разметки7 новостной коллекции.

7 https://github.eom/nicolay-r/RuAttitudes/tree/v2.0

Рис. 1. Диаграмма рабочего процесса извлечения оценочных отношений; прямоугольники - источники информации; кружки - модули обработки потока данных; стрелки - передача информации между модулями с указанием её типа в подписи; для пары q, \Aq\ - абсолютная разница вероятностей принадлежности положительному и отрицательному классам (\Д^\ £ [0,1]), и \q\ - число

соответствующих отношений Fig. 1. Diagram of a workflow for extracting value relationships; rectangles - sources of information; circles - data flow processing modules; arrows - transfer of information between modules with an indication of its type in the signature; for a pair q, |Aq| is the absolute difference in the probabilities of belonging to the positive and negative classes ( Aq | £ [0,1 ]), and |q| - the number of relevant relationships

4.1 Извлечение оценочных отношений из новостных статей

Процесс извлечения оценочных отношений включает выполнение двух последовательных этапов обработки новостной коллекции:

• этап 1 - автоматическое составление списка пар сущностей с превалирующей тональностью отношений из заголовков новостей из неразмеченного корпуса текстов;

• этап 2 - применение собранного списка пар сущностей с выявленной тональностью отношений для отбора достоверных отношений из новостных заголовков и текстов новостей для формирования автоматически размеченной коллекции RuAttitudes.

Рассмотрим общие компоненты потока обработки информации обеих этапов для заголовка некоторого документа новостной коллекции.

Модуль разбора текста подразумевает выполнение преобразования заголовка представленного последовательностью символов в последовательность термов. Содержимое заголовка разбивается на слова с выделением знаков препинания.

Модуль NER выполняет задачу извлечения именованных сущностей из последовательности термов. Для этого используется предобученная модель BERTмult-ontoNotes библиотеки DeepPavlov . Модель обучена на коллекции OntoNotes [23], разметка которой включает 19 типов сущностей. Результатом такого модуля обработки является список Сущностей Е = [е1,..., е^], каждый элемент которого представлен последовательностью термов и типом. Модуль группировки сущностей использует множество Е для пополнения списка синонимов. Пара сущностей еу 6 Е, \ Ф } являются синонимами, если совпадают их нормальные формы. Для получения нормальной формы именованной сущности используется:

• лемматизированная форма значения (последовательности термов)8;

• ресурс RuWordNet [24] для получения названия синонимичной группы лемматизированной формы (если значение найдено).

Табл. 3. Список доверенных пар, извлеченных из новостной коллекции NEWSLarge, при ограничениях |Д?| > 0.8, IAql > 150, где q - произвольная достоверная пара; содержимое упорядочено по Aq; пары с одинаковым значением Дцупорядочены относительно |Aq|: по-убыванию (Дц > 0), по-возрастанию Table 3. The list of trusted pairs retrieved from the NEWSLarge news collection, subject to the constraints |A_q| > 0.8, | Aq | > 150, where q is an arbitrary valid pair; content is ordered by Aq; pairs with the same value of A q are ordered relative to \A_ql: descending (A_q> 0), ascending

АО А1 № ^pos

МВД России Российская Федерация 1.00 256

Путин Министерство внутренних дел 0.91 150

Канада Украина 0.90 218

Пентагон Украина 0.90 147

Порошенко НАТО 0.88 244

Порошенко Совет национальной безопасности и обороны 0.87 173

Путин Макрон 0.86 186

Афганистан Россия 0.85 166

Европейский Украина 0.84 273

Парламент

Украина МВФ 0.80 204

Трамп ИГИЛ -0.79 24

Россия ИГИЛ -0.79 60

Гройсман Донбасс -0.82 23

Турция ИГИЛ -0.83 14

Россия Siemens -0.83 19

Израиль ООН -0.85 12

Азербайджан Армения -0.93 14

Карабах Азербайджан -0.94 10

ЕС Siemens -1.00 0

В результате можно автоматически сгруппировать такие синонимы, как: (США, Соединенные Штаты), (Россия, Российская Федерация, РФ).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Модуль FRAME-BASED выполняет задачу извлечения достоверных отношений из новостного заголовка с использованием лексикона RuSentiFrames. Для этого на первом шаге из последовательности термов извлекаются вхождения фреймов. Далее составляется множество достоверных пар сущностей. Пара (е^е^), где e^ej Е Е считается достоверной, если выполнены следующие условия:

• именованная сущность et упомянута раньше ej;

• участники и е^ не являются синонимами;

• участники и все именованные сущности между ними принадлежат множеству Ovalid, которое включает: организации (ORG), людей (PER), геополитические сущности (GPE);

• для всех фреймов, входящих между участниками отношений, определена полярность типа A0^A1.

• отсутствуют предлоги9 «в» и «на» перед участниками отношений.

8 Применяется пакет Yandex Mystem

9 Условие является результатом проведения дополнительного анализа ошибочных результатов.

Касательно условия п. 5, наличие предлогов «в» и «на» в большинстве случаев связано с месторасположением, которое обычно не является субъектом или объектом отношения:

Крыме бросит вызов Киевуе: «в» ООНе представят резолюцию о преступлениях против людей «на» Украинее, включающая убийства и похищения.

Этап 1. Заполнение списка пар. Для некоторого новостного заголовка c множеством размеченных в нем оценочных фреймов, пусть Р - множество извлеченных достоверных отношений (результат применения модуля FRAME-BASED, рис. 1). Тогда, каждая пара (e¿,ej) Е Р отправляется в список пар в следующем формате:

а = (d,gi,gj,l) gbgj Е G (1)

где d Е N - индекс документа рассматриваемого заголовка в новостной коллекции, g0 g¡ Е N - индексы синонимичных групп участников в списке синонимов, а I - оценка пары, которая назначается следующим образом: pos (если для всех вхождений фреймов между e¿ и ej оценка Л0^Л1 одинакова, и равна pos), neg (иначе).

Таким образом, результирующий список пар (см. рис. 1) представляет собой множество достоверных пар А = {а^а^^.а^}, извлеченных из всех заголовков документов новостной коллекции.

Извлечение доверенных пар. Из составленного списка пар (см. рис. 1), представленного множеством A, можно выделить наиболее положительно и отрицательно ориентированные пары. Ориентация некоторой пары q = (g¿,gj) к классу с Е {pos,neg} вычисляется по формуле:

р№) = ШЦМ (2)

где Aq- подмножество множества А, элементы которого соответствуют паре q. Оценочная ориентация пары q определяется по формуле:

Aq = p(qlpos) - р^пед) (3)

Результирующая оценка для q определяется на основе знака выражения формулы 3: pos (Aq > 0), neg (Aq< 0). Таким образом, для извлечения и составления множества доверенных пар A необходимо задать пороговые значения для |АЧ| и |ЛЧ|. Формат представления доверенной пары q в множестве A следующий:

q =(gi,gj,àq) (4)

В табл. 3 приведены примеры доверенных пар в результате анализа новостной коллекции NEWSLarge при IAql > 0.8 и |лч|>150.

Этап 2. Извлечение оценочных отношений. Для некоторого новостного заголовка, пусть Р - множество извлеченных достоверных отношений (результат применения модуля FRAME-BASED, рис. 1). Модуль фильтрации отношений выполняет отбор оценочных отношений среди множества достоверных пар Р. Пара (e¿,ej) Е Р считается оценочным отношением, если (gi,gj) содержится во множестве доверенных пар А и оценка (е^е^) совпадает с оценочной ориентацией доверенной пары.

Отобранные оценочные отношения далее передаются на вход модулю фильтрации предложений для поиска таких же отношений в предложениях новости. Оценочное отношение заголовка присутствует в предложении новости, если предложение содержит упоминание обеих участников. На рис. 2 рассмотрено применение второго этапа процесса извлечения оценочных отношений для заголовка: «СШАе не снимут санкцииneg с РФе до возвращения Крымае».

Заголовок

Гиллерсонр; США? не снимут санкцнип^с РФ^до возвращения Крыма?

. с ша-эроссияnegt сша->крыии^

Список доверенных пар \Aq | > 0.3, |i4q| > 25

Запрос Результат поиска

сша-эроссия,,,,.- пара найдена, оценки совпадают: «сша» -а «россия» (роз 32%, neg: 68%)

сша—'крым,,:.. пара не найдена

.США-? РФ д?^

Предаожение

Госсекретарь СШАе Рекс Тиллерсона выступая в Брюсселее н а встрече глав МИДа входящих в состав НАГОа заявил, что санкции с России?будут сняты только после возвращения Крыма>, сообщает CNN»

Рис. 2. Применение метода PAIR-BASED для извлечения достоверных пар из заголовка с последующим выполнением фильтрации отношений и поиском доверенных пар (США^РФте) в предложениях

новости

Fig. 2. Application of the PAIR-BASED method to extract valid pairs from the header, followed by filtering relations and searching for trusted pairs (USA —^ RFneg) in news sentences Для каждого документа новостной коллекции дополнительно проводится разметка нейтральных отношений. Для некоторого документа с множеством размеченных именованных сущностей Е, пара (е1,е2), е1,е2 £ Е заголовка или предложения считается нейтральной, если выполнены следующие условия:

• сущность е1 упомянута в тексте перед е2 и имеет тип из множества Ovaiid;

• сущность е2 имеет тип LOC и не находится в списке стран/столиц;

• участники е1 и е2 не принадлежат одной синонимичной группе, а также отношения <е1, е2) и (е2, е1) не содержатся в разметке оценочных отношений.

4.2 Автоматическая разметка отношений и анализ результатов

Поэтапная оценка количества извлеченных данных в результате применения потока обработки (см. рис. 1) к новостным коллекциям приведена в таблице 4. Результатом применения подхода автоматической разметки новостных статей стали коллекции RuAttitudes2017, созданные в различных вариантах независимо в результате обработки NEWSßase и NEWSbarge. Рассмотрим подробнее каждый этап обработки новостных текстов. На первом этапе список пар заполняется отношениями, которые были извлечены методом FRAME-BASED. Среди всех заголовков отбираются отношения, участники которых имеют тип из множества Ovalid. Далее, процент отвергнутых отношений относительно такого числа составил 65%, где: 38% отношений без вхождений фреймов между сущностями, 12% отношений, для которых существуют вхождения фреймов с неопределенной полярностью Aö^Al, и 15% c наличием предлогов «в» и «на». Таким образом, 35% отношений от начального количества были отобраны как «достоверные» и переданы в список пар. На втором этапе производится фильтрация отношений из заголовков и предложений новостей (см. табл. 4). Для извлечения доверенных пар были выбраны параметры: |Aq| > 0.3, |q| > 25. В результате, 22-24% достоверных отношений из заголовков были сопоставлены с доверенными парами, среди которых 79% отношений совпадали с оценочной ориентацией соответствующих пар. Новости с такими отношениями в заголовках передавались на этап фильтрации предложений. Дополнительный выбор новостных предложений позволил увеличить объем разметки на 89%.

Объем нейтрально размеченных отношений составил 5-6% от общего числа оценочных отношений коллекций RuAttitudes2017. Расширенные версии коллекций получили названия 2017-Base и 2017-Large для NEWSBase и NEWSbarge соответственно. Среди объектов таких пар,

в большинстве случаев, к сущности типа LOC относятся: моря, озера, острова, реки, и т.д. (см. табл. 5).

Табл. 4. Количественная оценка данных автоматической разметки текстов новостных коллекций NEWSBase и NEWSbarge; выделенные зеленым цветом результаты соответствуют количественной оценке ресурсов, порожденных в результате обработки новостных коллекций двумя этапами и применения разметки нейтральных отношений

Table 4. Quantification of the data of automatic marking of texts of news collections NEWSBase and NEWSbarge; the results highlighted in green correspond to a quantitative estimate of the resources generated as a result ofprocessing news collections in two stages and applying the markup of neutral relations

Этап Параметр

Коллекция Тип новостной коллекции NEWSBase NEWSLarge

Документы 2.8 ■ 106 8.8 ■ 106

FRAME-BASED Отношений с участниками между объектами 867481 2481426

Отношений без фреймов между участниками 38% 39%

Отношений без A0^A1 12% 12%

Отношений, перед участниками которых предлоги «в» и «на» 15% 15%

Отношений из заголовков 302319 843799

Список пар Число пар Доверенных пар ЦАЧ1 > 0.3,1АЧ1 > 25) 100329 247876

887 2372

1% 1%

Отношений сопоставленных с доверенными парами 65588 200009

22% 24%

Фильтрация отношений заголовка Извлечено - Разная оценка - Одинаковая оценка 65588 200009

13583 42627

21% 21%

52005 157382

79% 79%

Фильтрация Извлечено предложений 39152 117791

RuAttitudes Версия 2017-Base 2017-Large

Новостей 44017 134442

Отношений на новость 2.28 2.26

Предложений на новость 0.89 0.88

Нейтральные отношения Версия 2017-Base 2017-Large

Добавлено отношений 5428 17790

5.72% 6.23%

Отношений на новость 0.12 0.13

Отношений на предложение 0.03 0.03

Табл. 5. Примеры наиболее частотных, нейтрально размеченных отношений из корпуса RuAttitudes2017Large

Tab. 5. Examples of the most frequent, neutrally marked relations from the corpus RuAttitudes201 7li

А0 А1 Вхождений Процент

КНДР корейский полуостров 301 1.7%

Россия ближний восток 232 1.3%

США Баренцево море 204 1.1%

Иран ближний восток 189 1.1%

Япония Курилы 172 1.0%

США ближний восток 166 0.9%

РФ Курилы 163 0.9%

Волгоград река волга 155 0.9%

Правительство РФ Волга 120 0.7%

Япония Южный Курилы 115 0.6%

КНДР Тихий Океан 103 0.6%

Сирия Тивериадский Озеро 93 0.5%

НАТО Североатлантический 92 0.5%

Гуам Тихий Океан 79 0.4%

Израиль Тивериадский Озеро 74 0.4%

Россия Арктика 73 0.4%

5. Эксперименты 5.1 Корпус RuSentRel

Корпус представляет собой 75 больших аналитических текстов по международной политике с портала ИНОСМИ (insomi.ru), размеченных с выделением порядка 2000 оценочных отношений между упомянутыми в текстах сущностями. Табл. 6 приводит количественные данные корпуса по фиксированным разделениям документов на обучающее и тестовое множества. В текстах статей автоматически размечены именованные сущности по четырем классам: личности (PER), организации (ORG), места (LOC), геополитические сущности (GEO). Общее число размеченных именованных сущностей составляет 15.5 тысяч. Разметка отношений поделена на два типа: (1) отношение автора к упомянутой именованной сущности; (2) отношения субъектов, переданное от одних именованных сущностей к другим именованным сущностям. Отношения фиксируются тройками, и рассматриваются не для каждого предложения, а для документа в целом. Оценка отношения может быть отрицательной (neg), либо положительной (pos); например: (Автор, США, neg), (США, Россия, neg). Нейтральные, а также отсутствующие отношения в корпусе не зафиксированы. Табл. 6. Параметры корпуса RuSentRel-1.0 с фиксированным разбиением на обучающую и тестовые коллекции

Table 6. Parameters of the RuSentRel-1.0 corpus with a fixed division into training and test collections

Коллекция Обучающая Тестовая

Документов 44 29

Предложений (ср./док.) 74.5 137

Упомянутых сущностей (МБ) (ср./док.) 194 300

Сущностей (ср. на документ) 33.3 59.9

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Положительных пар сущностей (ср./док.) 7.23 14.7

Негативных пар (ср./док.) 9.33 15.6

Расстояние между МБ в предложении (в словах) 10.2 10.2

Нейтральных пар (ср./док.) 120 276

5.2 Описание эксперимента

Пусть задано подмножество документов коллекции RuSentRel, в котором каждый документ представлен парой: (1) текст, (2) список выделенных именованных сущностей E. Используя методы машинного обучения, для каждого документа требуется составить список оценочных отношений между парами сущностей множества E. Оценка отношения может быть отрицательной (neg), либо положительной (pos) (согласно п. 5.1). Составление списка выполняется в двух независимых экспериментах:

• двуклассовый [5] - необходимо определить оценки заведомо известных пар;

• трехклассовый - необходимо извлечь оценочные отношения из документа.

Контекст

Говорить о разделении кавказского региона из-за конфронтации России^, и Турццло;-. пока не приходится, хотя опасность есть.

I

Представление последовательностей для языковых моделей TextA: Говорить о разделении Е_из-за конфронтации Елй/и Еоь/не-приходится , хотя опасность есть <DOT>.

TextBQA: EsubjKEobjB контексте « E;11i,и Е,,«,»

TextBrii,:: Что вы думаете по поводу отношения Е^д. к E^t/B контексте : « Ешь/ и E0t/» ?

Рис. 3. Пример обработки контекста в последовательности (TextA) и представлений вспомогательной информации (TextB) для подачи на вход языковым моделям BERT; для TextB используются форматы: задание вопроса (QA), вывод по контексту (NLI) Fig. 3. An example ofprocessing context in sequence (TextA) and representations of auxiliary information (TextB) for input to BERT language models; for TextB, the following formats are used: question asking (QA),

output by context (NLI)

Описание подхода. Основное предположение о наличии оценочного отношения между парой сущностей в тексте документа - относительно короткое расстояние между ними. Контекст - ограниченный по длине фрагмент предложения, содержащий не менее двух именованных сущностей, в котором выделена пара (es,e0) сущностей «субъект^объект». Таким образом, для некоторой пары сущностей можно составить множество контекстов. Контекст рассматривается как оценочный, если соответствующая пара (es,e0), для которой такой контекст был составлен, присутствует в разметке документа.

Обработка и извлечение контекстов. Пример обработки контекстов для подачи на вход языковым моделям BERT приведен на рис. 3. Входная последовательность может состоять из одной (TextA) или двух последовательностей (TextA+TextB), соединенных разделителем. Если основная часть (TextA) используется для форматированного представления исходного контекста, то дополнительная последовательность TextB может быть использована для передачи вспомогательной информации. В работе рассмотрены следующие форматы входных последовательностей [12]:

Таким образом, процесс извлечения оценочных отношений может быть сведен к классификационной задаче на уровне контекстов с последующим отображением контекстных отношений на уровень документа. Оценка контекста с выделенным в нем парой (es,e0) может быть отрицательной (neg), положительной (pos), или нейтральной (neu). Для отображения контекстных отношений на уровень документов используется вычисление среднего значения среди полученных оценок по всем контекстам рассматриваемого отношения методом голосования [25].

• С - использование последовательности без разделения (TextA);

• QA - дополнение TextA вопросом в TextB;

• NLI - дополнение TextA выводом отношения по контексту в TextB.

В случае нейронных сетей используется контекст без добавления вспомогательной информации. Для контекста применяются дополнительные преобразования: лемматизация термов, разметка знаков препинания, разметка вхождений фреймов [26, 27]. В целях устранения возможности принятия решения моделями на основе слов и словосочетаний сущностей и участников отношения, применяется маскирование сущностей. Используются следующие типы масок: Esubj (субъект и его синонимы), Eobj (объект и его синонимы), и E для

остальных сущностей. Табл. 7 приводит количественные данные для извлеченных контекстов10 из коллекций RuSentRel и RuAttitudes. В опосредованном обучении используются две версии размеченных корпусов: 2017-Base, 2017-Large.

Табл. 7. Число контекстов, извлеченных на этапе подготовки данных из коллекций RuAttitudes и обучающего множества коллекции RuSentRel; максимально допустимое число термов в контексте ограничено значением 50

Table 7. The number of contexts extracted at the stage of data preparation from the RuAttitudes collections and the training set of the RuSentRel collection; the maximum number of terms in a context is limited to 50

Коллекция pos neg neu

RuSentRel (обучающее множество) 551 727 6530

RuAttitudes (2017-Base) 38809 55725 4723

RuAttitudes (2017-Large) 123281 161275 15429

Оценка качества разметки. Для некоторого документа коллекции, оценка качества разметки основана на подсчете метрик точности (Р), полноты (Д), и Р1-меры для каждого из оценочных классов в отдельности. Для оценки результата на множестве документов размера п фиксируется показатель Р[—теап, который в свою очередь основан на вычислении макроусреднений Р1—тасго над документами по каждому из оценочных классов в отдельности:

= K-Lcro = (5)

i=i 1=1

(ppos + рпед \ (r1-macro + г1—macro )

1—тасгоу 1 пп (

-1—шеип 2--100 (6)

Форматы обучения моделей. Обучение моделей проводилось в следующих режимах:

• обучение с учителем - обучение на составленных контекстах оценочных отношений ручной разметки коллекции RuSentRel обучающего множества документов (см. таблицу 6);

• применение опосредованного обучения - обучение моделей на основе контекстов оценочных отношений коллекций RuSentRel (обучающее множество документов) и КиАШгМеБ.

Опосредованное обучение выполняется в форматах:

• предобучение с последующим дообучением - модели изначально обучались с использованием опосредованного обучения RuAttitudes, после которого следует дообучение контекстами коллекции RuSentRel;

• объединенное обучение - процесс обучения с объединенным набором данных коллекций RuAttitudes и RuSentRel (только нейронные сети);

Перед обучением применяется балансировка данных по числу контекстов классов

тональности методом дублирования (Oversampling) для достижения объема, равного числу

контекстов наибольшего класса11.

Для объединенного обучения, алгоритм объединения зависит от формата оценки моделей.

При кросс-валидационном, в каждом разбиении объединяется коллекция RuAttitudes с

каждым обучающим блоком RuSentRel. При фиксированном, обучающий набор представляет

10 Параметр, отвечающий за максимально допустимое расстояние в термах между участниками отношений контекста [26, 27] не рассматривается, так как такое ограничение оказывает влияние на результирующую разметку и отсутствие в ней некоторых контекстов.

11 В случае объединенного обучения на коллекциях Ки8е1Же1 и RuAttitudes, балансировка применяется после объединения извлеченных контекстов обеих коллекций.

собой комбинацию RuAttitudes с фиксированным обучающим множеством документов RuSentRel.

Параметры обучения моделей. Для нейронных сетей измерение средних значений точности проводилось каждые 5 эпох. Оценка моделей производится на основе результатов последней эпохи обучения. Процесс обучения завершается в случае превышения лимита в 200 эпох. Для избежания проблем переобучения моделей предусмотрено использование механизма dropout. В качестве параметров нейронных сетей используются настройки работы [26]. Выбор коэффициента скорости обучения зависел от формата обучения: 0.1 (объединенное и предварительное обучение), 0.01 (дообучение). Предварительное обучение языковых моделей составляет 5 эпох. В качестве настроек обучения языковой модели используются параметры по-умолчанию [7], за исключением параметра прогрева модели (применение повышенной скорости обучения на начальном этапе). Значение такого коэффициента равно 1 на этапе предобучения модели, и 0.1 на этапе дообучения (по-умолчанию). Ограничение по длине входной последовательности выбрано в 128 токенов. Такое ограничение позволяет покрыть ~95% примеров без проведения усечений длин контекстов.

б.Э Описание моделей и результаты их применения

Список моделей нейронных сетей, выбранных для экспериментов:

• CNN, PCNN - модели сверточных нейронных сетей [28];

• AttCNNe, AttPCNNe - модели с кодировщиками на основе механизма внимания; e указывает на применения участников отношения (Eotj, Esutj) в качестве аспектов в механизме внимания [26] ;

• LSTM, BiLSTM, Att-BLSTM [26] - модели с кодировщиками на основе рекуррентных нейронных сетей LSTM [29].

Список используемых языковых моделей: mBERT [7], RuBERT, SentRuBERT. Обучение с учителем и дообучение моделей исследовалось форматов {G, NLI, QA}, рассмотренных в п. 5.2. Предобучение моделей выполнялось только на контекстах, представленных в формате NLI (далее обозначено как NLb). Результаты фиксировалась в следующих форматах:

• F1çV - усредненный показатель Fl-mean в рамках 3-кратной кросс-валидационной проверки; разбиения проведены с точки зрения сохранения одинакового числа предложений в каждом из них;

• F1t - показатель F1—mean на тестовом множестве (см. таблицу 6).

Для результатов моделей, обученных с применением опосредованного обучения (Fla) и обучения с учителем (Flt), оценка прироста качества опосредованного обучения подразумевает вычисление процентного соотношения по формуле:

Результаты нейронных сетей. В табл. 8 представлены результаты экспериментов для моделей нейронных сетей12. Средний результат по всем моделям при обучении с учителем приведен в последнем ряду таблицы. Результаты на фиксированном Flt выше, чем по метрике F1^v на 4% в случае двуклассового эксперимента на 10% при трехклассовой классификации. При дообучении моделей, прирост качества варьируется в диапазоне 2-5% и ~0.4-7% для двух и трех-классовых форматов соответственно. При совместном обучении такой показатель увеличивается двое в случае двуклассовой классификации (5 -9%) и более

(6)

12 https://github. com/nicolay-r/neural-networks-for-attitude-extraction/tree/0.20. 5 212

чем в 3 раза при трехклассовой классификации: ~ 10.5% по F1cv и ~23% по метрике Fit. Наибольший прирост качества достигается при использовании RuAttitudes2017Large.

Табл. 8: Результаты применения опосредованного обучения для моделей с кодировщиками на основе сверточных и рекуррентных нейронных сетей, а также моделей с механизмом внимания; результаты обучения с учителем отмечены прочерком в колонке «Версия RA»; наилучший результат по каждой модели выделен жирным шрифтом; результаты опосредованного обучения, превосходящие аналогичные при обучении с учителем отмечены подчеркиванием Table 8. Results of the application of distant supervising for models with encoders based on convolutional and recurrent neural networks, as well as models with an attention mechanism; supervised learning outcomes are marked with a dash in the RA version column; the best result for each model is shown in bold; outcomes

Дообучение Объединенное обучение

Двуклассовая Трехклассовая Двуклассовая Трехклассовая

Модель Версия RA F1a F1t F1a F1t F1a F1t F1a F1t

CNN 2017-Large 68.2 69.8 28.6 36.1 70.0 74.3 32.8 39.6

CNN 2017- Base 67.0 66.8 29.8 33.1 62.8 67.2 31.1 40.3

CNN — 63.6 65.9 28.7 31.4 63.6 65.9 28.7 31.4

PCNN 2017-Large 66.1 70.8 29.8 32.1 69.5 70.5 31.6 39.7

PCNN 2017- Base 66.9 69.4 30.5 33.6 65.8 71.2 31.9 38.3

PCNN — 64.4 63.3 29.6 32.5 64.4 63.3 29.6 32.5

LSTM 2017-Large 69.9 70.4 30.5 33.7 68.0 75.4 31.6 39.5

LSTM 2017- Base 66.1 64.6 27.6 32.7 65.2 69.9 31.5 37.2

LSTM — 61.9 65.3 27.9 31.6 61.9 65.3 27.9 31.6

BiLSTM 2017-Large 62.1 64.0 28.4 35.4 71.2 68.4 32.0 38.8

BiLSTM 2017- Base 65.6 66.4 28.0 31.8 68.0 68.4 32.0 39.5

BiLSTM — 62.3 71.2 28.6 32.4 62.3 71.2 28.6 32.4

AttCNNe 2017-Large 65.9 67.5 28.0 35.0 66.8 72.7 30.9 39.9

AttCNNe 2017- Base 62.6 65.7 28.4 33.5 68.0 69.2 31.3 37.6

AttCNNe — 65.0 66.2 27.6 29.7 65.0 66.2 27.6 29.7

AttPCNNe 2017-Large 66.8 69.6 27.9 32.5 70.2 67.8 32.2 39.9

AttPCNNe 2017- Base 63.3 69.9 30.0 34.8 68.2 68.9 31.8 38.9

AttPCNNe — 64.3 63.3 29.9 32.6 64.3 63.3 29.9 32.6

IANe 2017-Large 64.5 65.7 28.5 30.7 69.1 72.6 30.7 36.7

IANe 2017- Base 64.5 66.9 27.5 33.5 69.8 70.6 30.7 36.7

IANe — 60.8 63.5 30.8 32.2 60.8 63.5 30.8 32.2

Att- BLSTM 2017-Large 70.3 67.0 28.8 33.3 66.2 71.2 31.0 37.3

Att- BLSTM 2017- Base 65.7 65.7 28.5 33.7 65.7 69.7 31.8 40.1

Att- BLSTM — 65.7 68.2 27.5 32.3 65.7 68.2 27.5 32.3

Среднее A(F1) 2017-Large +5.3% +4.1% +0.4% +6.5% +8.7% +8.9% +10.6% +23.4%

Среднее A(F1) 2017- Base +3.0% +1.8% +0.4% +6.0% +5.3% +5.5% +10.1% +22.2%

Среднее — 63.5 65.9 28.8 31.8 63.5 65.9 28.8 31.8

Языковые модели. Результаты экспериментов приведены в табл. 9. Средний результат по всем моделям при обучении с учителем приведен в последнем ряду таблицы. Сравнивая такие показатели с аналогичными результатами табл. 8, замена нейронных сетей на языковые модели повышает качество оценки на 7.8% (Fl^) в двуклассовом, и на 9.7% (F1'^v) и 12% (Fit) в трехклассовом. Смена формата обучения в языковых моделях на опосредованное оказывает прирост в ~2-5% в двуклассовом, и 10-13% в случае трехклассового эксперимента. Преимущество в использовании русскоязычно -ориентированных моделей перед mBERT особенно наблюдается в трехклассовых экспериментах: дообученная версия RuBERT показывает наилучший результат при использовании формата NLI для TextB. Табл. 9. Результаты применения опосредованного обучения для моделей BERT с различными представления контекста TextB; символ «Р» указывает тип предобученной модели; результаты обучения с учителем отмечены прочерком в колонке «Версия RA»; наилучший результат по каждой модели выделен жирным шрифтом; результаты опосредованного обучения, превосходящие аналогичные при обучении с учителем отмечены подчеркиванием

Tab. 9. Results of applying distant supervising for BERT models with different TextB context representations; the "P" symbol indicates the type of pretrained model; supervised learning outcomes are marked with a dash in the RA version column; the best result for each model is shown in bold; outcomes of distant supervising that are superior to those in supervised learning are underlined

Дообучение

Двухклассовая Трехклассовая

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Модель Версия RA Fla Flt Fla Flt

mBERT (NLIp + С) 2017-Large 68.9 67.7 30.5 31.1

mBERT (NLIp + С) 2017-Base 72.9 71.5 30.3 37.6

mBERT (C) — 67.0 68.9 26.9 30.0

mBERT (NLIp + QA) 2017-Large 69.6 65.2 30.1 35.5

mBERT (NLIp + QA) 2017-Base 74.4 71.4 29.5 32.4

mBERT (QA) — 66.5 65.4 28.6 33.8

mBERT (NLIp + NLI) 2017-Large 69.4 68.2 33.6 36.0

mBERT (NLIp + NLI) 2017-Base 69.2 69.6 31.1 37.5

mBERT (NLI) — 67.8 58.4 29.2 37.0

RuBERT (NLIp + C) 2017-Large 70.0 69.8 35.6 35.4

RuBERT (NLIp + C) 2017-Base 68.2 68.4 34.9 35.6

RuBERT(C) — 67.8 66.2 36.8 37.6

RuBERT (NLIp + QA) 2017-Large 69.6 68.2 34.8 37.0

RuBERT (NLIp + QA) 2017-Base 68.6 68.5 38.0 39.1

RuBERT (QA) — 69.5 66.2 32.0 35.3

RuBERT (NLIp + NLI) 2017-Large 71.0 68.6 36.8 39.9

RuBERT (NLIp + NLI) 2017-Base 67.0 66.9 36.1 39.4

RuBERT (NLI) — 68.9 66.4 29.4 39.6

SentRuBERT (NLIp + C) 2017-Large 70.0 69.8 37.9 39.8

SentRuBERT (NLIp + C) 2017-Base 70.3 68.1 38.5 39.0

SentRuBERT (C) — 69.3 65.5 34.0 35.2

SentRuBERT (NLIP + QA) 2017-Large 69.6 64.2 38.4 41.9

SentRuBERT (NLIp + QA) 2017-Base 68.6 67.5 35.5 33.6

SentRuBERT (QA) — 70.2 67.1 34.3 38.9

SentRuBERT (NLIp + NLI) 2017-Large 70.2 67.7 39.0 38.0

SentRuBERT (NLIp + NLI) 2017-Base 70.6 69.0 35.4 40.6

SentRuBERT (NLI) — 69.8 67.6 33.4 32.7

Среднее-A(F1) 2017-Large +1.8% +3.7% +13.5% +10.0%

Среднее- A(F1) 2017-Base +2.8% +4.6% +11.4% +11.7%

Среднее — 68.5 65.7 31.6 35.6

Модель SentRuBERT (NLIp + NLI) по качеству разметки сопоставима с качеством нейронных сетей объединенного формата обучения, при этом демонстрирует сохранение результата при переходе от фиксированного на кросс-валидационный формат тестирования (35.6-39.0). Такие результаты на 25% выше аналогичных результатов моделей нейронных сетей. Сохранение высоких оценок при разных форматах разбиения указывают на более высокую стабильность в результирующем состоянии в случае языковых моделей. Оценка производительности языковых моделей. Обучение моделей проводилось на сервере с двумя процессорами Intel® Xeon® CPU E5-2670 v2 с частотой 2.50Ггц, 80 Гб ОЗУ (DDR-3), с двумя видеоускорителями Nvidia GeForce GTX 1080 Ti (11.2Гб); операционная система Ubuntu 18.0.4; обучение моделей выполнялось в контейнерах Docker версии 19.03.5. Применялись следующие параметры оценки: (1) общее время обучения модели; (2) общее число эпох. Оценка выполнялась при фиксированном формате разбиения документов13. Табл. 10. Оценка времени в трехклассовом эксперименте с фиксированным набором документов обучающей части коллекции RuSentRel при различных форматах обучения моделей; для языковых моделей приводится среднее время оценки по различным форматам представления входных данных Table 10. Estimation of time in a three-class experiment with a fixed set of documents for the training part of the RuSentRel collection with various training formats for models; for language models, the average evaluation time is given for various formats of input data presentation

Модель Версия RA с учителем Время|эпох предобучение Время|эпох дообучение Время|эпох

Число используемых GPU Контекстов в секунду mBERT 2017-Large mBERT 2017-Base mBERT — 1 2 1

31 62 31

00:10:32|35 8:40:14|04 2:59:45|04 00:10:32|14 00:10:32|м

Контекстов в секунду RuBERT/SentRuBERT 2017-Large RuBERT/SentRuBERT 2017-Base RuBERT/SentRuBERT —/1. 0-Base 54 62 54

00:06:10|12 6:30:11103 2:14:47|03 00:06:10|7 00:06:10^

В табл. 10 приводится средняя оценка времени по каждому из форматов представления входных данных языковых моделей. Во всех форматах обучения на адаптацию русскоязычных моделей требуется меньше эпох при одинаковых настройках обучения: в 1.3 раза меньше на этапе дообучения, и в 2 раза меньше в остальных случаях. Замена mBERT на RuBERT или SentRuBERT сокращает время обучения в 3.5 раза.

5.5 Анализ влияния предварительного обучения на распределение весов механизма внимания в языковых моделях

Для анализа вклада различных элементов контекста в полученный результат часто производится сравнение весов механизма внимания. Для анализа были выбраны следующие состояния языковых моделей: mBERT, SentRuBERT и SentRuBERT-NLIP (предобученная версия SentRuBERT коллекцией RuAttitudes2017Large). Среди всего множества контекстов

13 Временная оценка при проведении кросс-валидационного тестирования была опущена ввиду схожести оценок по каждому из разбиений.

рассматриваются только такие контексты, которые были извлечены дообученной моделью SentRuBERT (NLIP + NLI) из тестового множества коллекции RuSentRel. Таким образом, было проанализировано 1032 контекста. В контекстах дополнительно размечены вхождения лексикона оценочных слов русского языка RuSentiLex [30] (SENTIMENT) и вхождения фреймов (FRAMES).

Для каждого входного контекста длиной в s токенов, вектор весов внимания а Е Rlxhxsxs содержит значения каждого слоя, по каждой голове модели BERT (I - число слоев языковой модели; h - число голов). Для произвольного слоя Г и головы h', матрица Щ' h' Е Rsxs описывает веса связей токенов входных данных слоя /' с его выходными данными (токенами следующего слоя):

• [CLS] - класса;

• [SEP] - границ последовательностей;

• [S/O] - участников отношений (Esubj/Eobj);

• группы FRAMES и внимание к ним остальных токенов контекста;

• группы SENTIMENT и внимание к ним остальных токенов контекста.

Табл. 11. Усредненная оценка вероятности внимания по головам языковой модели BERT по каждому из 12 слоев в отдельности для: токенов класса (CLS), разделителей (SEP), участникам отношения, всех сторонних токенов к FRAMES и SENTIMENT в отдельности; наибольшие значения в рядах отмечены жирным шрифтом

Table 11. The average estimate of the probability of attention by the heads of the BERT language model for each of the 12 layers separately for: class tokens (CLS), separators (SEP), relationship participants, all third-party tokens to FRAMES and SENTIMENT separately; the highest values in the rows are marked in bold

номер слоя

Группа термов 1 2 3 4 5 6 7 8 9 10 11 12

mBERT

[CLS] 0.06 0.33 0.36 0.29 0.31 0.06 0.04 0.04 0.05 0.06 0.07 0.04

SEP 0.04 0.07 0.06 0.06 0.07 0.09 0.09 0.11 0.12 0.09 0.09 0.07

Esubj / Eobj прочие^FRAMES 0.05 0.04 0.04 0.06 0.04 0.06 0.06 0.06 0.06 0.07 0.07 0.05

0.07 0.03 0.03 0.03 0.03 0.05 0.04 0.05 0.04 0.04 0.03 0.03

прочие^SENTIMENT 0.08 0.04 0.03 0.03 0.04 0.05 0.04 0.05 0.05 0.04 0.03 0.04

SentRuBERT

[CLS] 0.03 0.27 0.33 0.30 0.39 0.09 0.02 0.03 0.03 0.05 0.04 0.02

SEP 0.05 0.06 0.03 0.04 0.04 0.15 0.22 0.39 0.28 0.29 0.07 0.04

Esubj / Eobj прочие^FRAMES 0.10 0.06 0.07 0.07 0.05 0.06 0.08 0.04 0.06 0.05 0.11 0.12

0.05 0.03 0.03 0.03 0.03 0.04 0.04 0.03 0.05 0.05 0.07 0.06

прочие^SENTIMENT 0.06 0.03 0.03 0.03 0.03 0.04 0.04 0.05 0.06 0.06 0.08 0.08

SentRuBERT-NLIp

[CLS] 0.03 0.27 0.36 0.31 0.34 0.05 0.01 0.02 0.01 0.02 0.02 0.02

SEP 0.06 0.04 0.03 0.05 0.04 0.20 0.20 0.28 0.28 0.28 0.04 0.08

Esubj / Eobj 0.10 0.07 0.08 0.08 0.07 0.07 0.09 0.06 0.07 0.11 0.28 0.23

прочие^FRAMES 0.07 0.04 0.04 0.04 0.05 0.06 0.05 0.07 0.07 0.05 0.10 0.08

прочие^SENTIMENT 0.08 0.05 0.05 0.04 0.05 0.07 0.06 0.09 0.08 0.07 0.08 0.09

mBERT

SentRuBERT

Рис. 4. Послойная оценка распределения внимания языковых моделей BERT к токенам [CLS], [SEP], объектам и субъектам отношения [S/O] (левая колонка) и фреймов и оценочных слов (правая колонка); линиями соединены средние значения весов каждого слоя модели [31] Fig. 4. Layered assessment of the distribution of attention of the BERT language models to tokens [CLS], [SEP], objects and subjects of the relationship [S/O] (left column) and frames and evaluative words (right column); lines connect the average values of the weights of each layer of the model [31]

Рис. 4 иллюстрирует послойную оценку значений весов внимания к приведенным группам токенов. Средние значения по каждому слою указаны14 в табл. 11.

14 Для усредненных оценок к группам FRAMES и SENTIMENT учитываются только такие контексты, которые содержат хотя бы одно вхождение терма соответствующей группы. В результате 68% контекстов учитывалось при составлении оценки вероятности внимания для токенов «прочие^FRAMES», и 75% для «прочие^ SENTIMENT»

Рис. 5. Пример визуализации [31] весов головы №2 (слои слева-направо: 2,4,8,11) как эволюции внимания модели mBERT в процессе дообучения на примерах SentRuBERT и SentRuBERT-NLIp Fig 5. An example of visualization [31] of head weights # 2 (layers from left to right: 2,4,8,11) as the evolution of attention of the mBERT model in the process of additional training using the examples of

SentRuBERT and SentRuBERT-NLIP Следует отметить высокие показатели внимания к токену класса [CLS] на слоях 2-5 до 3540%. Для SentRuBERT наблюдается повышение внимания на токенах [SEP] (слои 7-10) и [S/O] (на конечных слоях). Также наблюдается повышение внимания к токенам FRAMES и SENTIMENT от прочих токенов на конечных слоях до 7-10%.

Применение опосредованного обучения (SentRuBERT-NLIp) повысило внимание к [S/O] на конечных слоях: весовые значения увеличились вдвое при сравнении c SentRuBERT. Отмечается также дополнительное повышение внимания к токенам SENTIMENT и FRAMES от прочих токенов на средних и конечных слоях.

В целях наглядной иллюстрации влияния дообучения на рис. 5 приведена визуализации весов головы №2 для каждой анализируемой модели BERT, по слоям (слева-направо) 2, 4, 8, 11 следующего примера: Ведя такую игру, Esubj окончательно лишилась доверия Eobj и стран E Esubj к Eobj в контексте «Esubj окончательно лишилась доверия Eobj». В модели SentRuBERT-NLIp, среди прочих, наиболее выражен фокус внимания ко вхождениям фреймов «окончательно» и «лишиться доверия» (слой 8).

6. Заключение

В данной работе предложен подход автоматического построения обучающей коллекции в задаче извлечения оценочных отношений из новостных текстов. Разметка основана на применении двух различных техник выделения оценочных отношений для взаимопроверки результатов. Первая подразумевает автоматическое порождение списка оценочных пар посредством предварительного анализа новостной коллекции. Вторая техника заключается в извлечении оценочных отношений из новостных заголовков на основе лексикона оценочных фреймов. В качестве дополнительного этапа предложен подход автоматической разметки нейтральных отношений.

Задача извлечения оценочных отношений рассматривалась как двуклассовая (положительные и отрицательные отношения) и трехклассовая (с введением нейтральных отношений) задачи классификации. Применение опосредованного обучения показало наибольший прирост качества в случае трех классовой классификации. Прирост качества при обучении языковых моделей BERT составил 10-13% по метрике F1 при сравнении с подходом без использования такой коллекции в обучении и на 25% при сравнении с аналогичными наилучшими результатами моделей сверточных и рекуррентных нейронных сетей.

Список литературы / References

[1]. N. Loukachevitch and N. Rusnachenko. Extracting sentiment attitudes from analytical texts. In Proc. of the International Conference on Computational Linguistics and Intellectual Technologies Dialogue-2018, 2018, pp. 459-468.

[2]. M. Mintz, S. Bills et al. Distant supervision for relation extraction without labeled data. In Proc. of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP, vol. 2, 2009, pp. 1003-1011.

[3]. R. Hoffmann, C. Zhang et al. Knowledge-based weak supervision for information ex traction of overlapping relations. In Proc. of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, 2011, pp. 541-550, 2011.

[4]. S. Vashishth, R. Joshi et al. RESIDE: improving distantly-supervised neural relation extraction using side information. In Proc. of the Conference on Empirical Methods in Natural Language Processing, 2018, pp. 1257-1266.

[5]. N. Rusnachenko, N. Loukachevitch, and E. Tutubalina. Distant supervision for sentiment attitude extraction. In Proc. of the International Conference on Recent Advances in Natural Language Processing (RANLP 2019), 2019, pp. 1022-1030.

[6]. N. Loukachevitch and N. Rusnachenko. Sentiment frames for attitude extraction in russian. In Proc. of the International Conference on Computational Linguistics and Intellectual Technologies Dialogue-2020, 2020, pp. 541-552.

[7]. J. Devlin, M.-W. Chang et al. Bert: pre-training of deep bidirectional transformers for language understanding. arXiv preprint, arXiv:1810.04805, 2018.

[8]. A. Vaswani, N. Shazeer et al. Attention is all you need. In Proc. of the 1st Conference on Neural Information Processing Systems (NIPS 2017), 2017, pp. 6000-6010.

[9]. A. Radford, K. Narasimhan et al. Improving language understanding by generative pre-training, 2018. URL https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf.

[10]. T. B. Brown, B. Mann et al. Language models are few-shot learners. arXiv preprint, arXiv:2005.1416 5, 2020.

[11]. C. Alt, M. Hubner and L. Hennig. Improving relation ex traction by pre-trained language representations. arXiv preprint, arXiv:1906.03088, 2019.

[12]. C. Sun, L. Huang, and X. Qiu. Utilizing bert for aspect-based sentiment analysis via constructing auxiliary sentence. In Proc. of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, vol. 1, 2019, pp. 380-385.

[13]. Y. Kuratov and M. Arkhipov. Adaptation of deep bidirectional multilingual transformers for russian language. arXiv preprint arXiv:1905.07213, 2019.

[14]. S. R. Bowman, G. Angeli, C. Potts и C. D. Manning. A large annotated corpus for learning natural language inference. arXiv preprint, arXiv:1508.05326, 2015.

[15]. A. Conneau, G. Lample et al. Xnli: evaluating cross-lingual sentence representations. arXiv preprint, arXiv:1809.05053, 2018.

[16]. K. Clark, M.-T. Luong et al. Electra: pre-training text encoders as discriminators rather than generators. arXiv preprint, arXiv:2003.10555, 2020.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

[17]. Y. Liu, M. Ott et al. Roberta: a robustly optimized bert pretraining approach. arXiv preprint, arXiv:1907.116 92, 2019.

[18]. A. Conneau, K. Khandelwal et al. Unsupervised cross-lingual representation learning at scale. arXiv preprint, arXiv:1911.02116, 2019.

[19]. M. Joshi, D. Chen et al. Spanbert: improving pre-training by representing and predicting spans. Transactions of the Association for Computational Linguistics, vol. 8, 2020, pp. 64-77.

[20]. I. Hendrickx, S. N. Kim et al. Semeval-2010 task 8: multi-way classification of semantic relations between pairs of nominals. In Proc. of the Workshop on Semantic Evaluations: Recent Achievements and Future Directions. 2009, pp. 94-99.

[21]. S. Wu and Y. He. Enriching pre-trained language model with entity information for relation classification. In Proc. of the 28th ACM International Conference on Information and Knowledge Management, 2019, pp. 2361-2364.

[22]. D. Dowty. Thematic proto-roles and argument selection. Language, vol. 67, no. 3, 1991, pp. 547-619.

[23]. R. Weischedel, M. Palmer et al. Ontonotes release 5.0. Linguistic Data Consortium, 2013. URL https://catalog.ldc.upenn.edu/LDC2013T19.

[24]. N. Loukachevitch, G. Lashevich, and B. Dobrov. Comparing two thesaurus representations for russian. в In Proc. of the Global WordNet Conference GWC, 2018, pp. 35-44.

[25]. N. Rusnachenko and N. Loukachevitch. Neural network approach for extracting aggregated opinions from analytical articles. Communications in Computer and Information Science, vol. 1003, 2018, pp. 167-179.

[26]. N. Rusnachenko and N. Loukachevitch. Attention-based neural networks for sentiment attitude ex traction using distant supervision. In Proc. of the 10th International Conference on Web Intelligence, Mining and Semantics (WIMS 2020), 2020, pp. 159-168.

[27]. N. Rusnachenko and N. Loukachevitch. Studying attention models in sentiment attitude extraction task. In Proc. of the 25th International Conference on Natural Language and Information Systems, 2020, pp. 157-169.

[28]. N. Rusnachenko and N. Loukachevitch. Using convolutional neural networks for sentiment attitude ex traction from analytical texts. EPiC Series in Language and Linguistics, vol. 4, 2019, pp. 1-10.

[29]. S. Hochreiter и J. Schmidhuber. Long short-term memory. Neural computation, vol. 9, no. 8, 1997. pp. 1735-1780.

[30]. N. Loukachevitch and A. Levchik. Creating a general russian sentiment lexicon. In Proc. of the Tenth International Conference on Language Resources and Evaluation (LREC'16), 2016, pp. 1171-1176.

[31]. K. Clark, U. Khandelwal et al. What does bert look at? an analysis of bert's attention. arXiv preprint, arXiv:1906.04341, 2019.

Информация об авторе / Information about the author

Николай Леонидович РУСНАЧЕНКО - аспирант кафедры «Теоретической информатики и

компьютерных технологий» (ИУ-9) Московского государственного технического

университета им. Н.Э Баумана. Область научных интересов: обработка естественного языка, анализ тональности сообщений, извлечение отношений.

Nicolay Leonidovich RUSNACHENKO - PhD student of «Theoretical Informatics and Computer Technologies» (IU-9), Bauman Moscow State Technical University (BMSTU) (Moscow, Russia). Graduated from BMSTU in 2016 (master degree). Scientific interests: computational linguistics, sentiment analysis, information retrieval.

ПРИМЕНЕНИЕ ЯЗЫКОВЫХ МОДЕЛЕЙ В ЗАДАЧЕ ИЗВЛЕЧЕНИЯ ОЦЕНОЧНЫХ ОТНОШЕНИЙ Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Русначенко Н. Л.

Похожие темы научных работ по СМИ (медиа) и массовым коммуникациям , автор научной работы — Русначенко Н. Л.

LANGUAGE MODELS APPLICATION IN SENTIMENT ATTITUDE EXTRACTION TASK

Текст научной работы на тему «ПРИМЕНЕНИЕ ЯЗЫКОВЫХ МОДЕЛЕЙ В ЗАДАЧЕ ИЗВЛЕЧЕНИЯ ОЦЕНОЧНЫХ ОТНОШЕНИЙ»