Научная статья на тему 'Аугментация языковой модели памятью на основе неопределенности предсказаний для решения задачи поиска ответа на вопрос по документу'

Аугментация языковой модели памятью на основе неопределенности предсказаний для решения задачи поиска ответа на вопрос по документу Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
0
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
трансформер / глобальная память / поиск ответа на вопрос по тексту / transformer / global memory / multi-hop question answering

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Сагирова Алсу Рафаэлевна, Бурцев Михаил Сергеевич

Модели архитектуры Transformer стали золотым стандартом для решения многих задач обработки естественного языка. Однако для моделей, основанных на механизме внимания, невозможна обработка длинных последовательностей из-за их квадратичной сложности вычисления механизма внимания. Для решения этой проблемы мы предлагаем двухэтапный метод, который сначала собирает релевантную информацию по заданному документу, а затем объединяет ее с локальным контекстом для решения задачи. Результаты наших экспериментов показывают, что дообучение предобученной модели с аугментацией данных с помощью внешней памяти, содержащей элементы входной последовательности с наименьшей неопределенностью, повышает качество работы модели на задаче поиска ответа на вопрос по тексту по сравнению с базовой моделью. Мы также обнаружили, что содержимое глобальной памяти коррелирует с фактами из документов, необходимыми для формирования правильного ответа на вопрос.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Language model with uncertainty based memory augmentation for multi-hop question answering task

Transformers have become the gold standard for many natural language processing tasks, however, models with self-attention mechanisms struggle to process long sequences due to their quadratic complexity. Therefore, processing long texts remains a challenge. To address this issue, we propose a two-stage method that first collects relevant information over the entire document and then combines it with local context to solve the task. Our experimental results show that fine-tuning a pre-trained model with memory-augmented input, including the least uncertain global elements, improves the model’s performance on multi-hop question answering task compared to the baseline. We also found that the content of the global memory correlates with the supporting facts required for the correct answer.

Текст научной работы на тему «Аугментация языковой модели памятью на основе неопределенности предсказаний для решения задачи поиска ответа на вопрос по документу»

УДК 004.855.5

А. Р. Сагирова}, М. С. Бурцев2

1 Московский физико-технический институт (национальный исследовательский университет) 2 London Institute for Mathematical Sciences

Аугментация языковой модели памятью на основе неопределенности предсказаний для решения задачи поиска ответа на вопрос по документу

Модели архитектуры Transformer стали золотым стандартом для решения многих задач обработки естественного языка. Однако для моделей, основанных на механизме внимания, невозможна обработка длинных последовательностей из-за их квадратичной сложности вычисления механизма внимания. Для решения этой проблемы мы предлагаем двухэтапный метод, который сначала собирает релевантную информацию по заданному документу, а затем объединяет ее с локальным контекстом для решения задачи. Результаты наших экспериментов показывают, что дообучение предобученной модели с аугментацией данных с помощью внешней памяти, содержащей элементы входной последовательности с наименьшей неопределенностью, повышает качество работы модели на задаче поиска ответа на вопрос по тексту по сравнению с базовой моделью. Мы также обнаружили, что содержимое глобальной памяти коррелирует с фактами из документов, необходимыми для формирования правильного ответа на вопрос.

Ключевые слова: трансформер, глобальная память, поиск ответа на вопрос по тексту

A. Sagirova1, M. Burtsev2

1 Moscow Institute of Physics and Technology

2 London Institute for Mathematical Sciences

Language model with uncertainty based memory augmentation for multi-hop question answering task

Transformers have become the gold standard for many natural language processing tasks, however, models with self-attention mechanisms struggle to process long sequences due to their quadratic complexity. Therefore, processing long texts remains a challenge. To address this issue, we propose a two-stage method that first collects relevant information over the entire document and then combines it with local context to solve the task. Our experimental results show that fine-tuning a pre-trained model with memory-augmented input, including the least uncertain global elements, improves the model's performance on multi-hop question answering task compared to the baseline. We also found that the content of the global memory correlates with the supporting facts required for the correct answer.

Key words: transformer, global memory, multi-hop question answering

1. Введение

Архитектура Transformer fl] и ее вариации [2] стали одним из самых популярных решений для задач обработки естественного языка. Из-за квадратичной сложности вычислений

© Сагирова А. Р., Бурцев М. С., 2023

(с) Федеральное государственное автономное образовательное учреждение высшего образования

«Московский физико-технический институт (национальный исследовательский университет)», 2023

механизма внимания модели типа BERT [3] не могут обрабатывать длинные входные последовательности. Одним из вариантов решения этой проблемы является модификация метода расчетов внимания для достижения линейной зависимости сложности вычислений от длины последовательности. Например, разреженные виды внимания [4, 5] позволяют модели ассоциировать входные токены с небольшим набором элементов локального и глобального контекста, низкоранговые проекции [6,7] помогают уменьшить размер матриц внимания, а подходы, основанные на ядерных функциях, используются для аппроксимации внимания, использующего функцию softmax при вычислениях [8].

Другая группа методов использует внешнюю память для хранения информации, необходимой при обработке длинных текстов. Например, память на основе специализированных модификаций внимания [9,10] может использоваться как сжатое представление входной последовательности. В статье [11] предлагают использовать память как хранилище общего назначения для глобальных или копий локальных представлений и осуществлять обновление памяти с помощью стандартного механизма внимания. Рабочая память в [12] является интерпретируемой (элементами памяти являются токены из словаря) и хранит контекстную информацию, связанную с входными данными, но не представленную в них явно. При этом генерация содержимого памяти и взаимодействие с обрабатываемой последовательностью осуществляются декодировщиком модели Transformer. В статье [13] авторы используют память для обработки наиболее неопределенных частей входной последовательности, предоставляя глобальный контекст, необходимый для генерации корректных прогнозов.

В нейронауках рабочая память представляет собой концепцию когнитивной системы для временного хранения и извлечения информации [14]. Область исследований нейронных сетей с расширенной памятью изучает преимущества добавления внешней памяти для хранения информации, которую можно использовать для повышения производительности модели и снижения вычислительных затрат.

Первые архитектуры нейронных сетей с расширенной памятью, такие как RNN и LSTM [15], использовали скрытые состояния нейросети в качестве внутренней памяти. Внешний тип памяти был введен в архитектурах NTM [16] и DNC [17], где управление памятью осуществляла отдельная нейросеть. С ростом популярности механизма внимания в нейро-сетевых архитектурах, внимание было применено для взаимодействия между моделью и памятью [18-20].

Несмотря на большой успех во многих областях глубокого обучения, и особенно в NLP, одним из недостатков модели Transformer остается нехватка места для хранения глобальных контекстных представлений входной последовательности. Кроме того, из-за квадратичной сложности вычислений модели семейства Transformer не могут обрабатывать длинные последовательности за один проход. Чтобы справиться с ограничением на длину последовательности, текст необходимо разбивать на фрагменты перед обработкой, теряя таким образом возможность определения долговременных контекстуальных связей между элементами текста. Чтобы преодолеть это ограничение, память часто используется для хранения и извлечения глобальной входной информации [21] или информации о событиях из далекого прошлого [22].

Задача поиска ответа на вопрос посредством агрегации информации из нескольких тематически связанных текстов (multi-hop question answering, multi-hop QA) в последнее время привлекает внимание многих исследователей [23]. В стандартной задаче поиска ответа на вопрос (single-hop question answering) модели дается текст вопроса и контекстный документ, по которому нужно предсказать правильный ответ. В multi-hop QA используются более длинные примеры контекста, и поиск ответа на вопрос требует нескольких шагов рассуждения при анализе документа, что усложняет задачу для нейросетевой модели. Использование внешней памяти потенциально может помочь формировать многоступенчатые рассуждения и решить проблему длинных входных данных, предоставляя модели ключевую информацию о концепции текста.

В этой работе мы предлагаем использовать неопределенность модели как меру важ-

ности элементов контекстного документа и сохранять выбранные элементы в памяти для улучшения качества прогнозов модели. Мы исследовали, как глобальная рабочая память, основанная на неопределенности модели, влияет на качество предсказаний в задаче multi-hop QA.

2. Глобальная эксплицитная память

Чтобы эффективно использовать модель на основе RoBERTa [24] с длинными входными данными, мы разделили контекст на сегменты и объединили токены каждого сегмента с то-кенами вопроса в последовательности длины не больше 512 токенов, следуя статье [4]. При таком устройстве входных данных, во время обработки одного входного сегмента, модель не имеет доступа к информации из других сегментов и ограничена в способности понимать контекстуальные связи на уровне документа. Целью глобальной эксплицитной памяти является предоставление доступа модели к агрегированным знаниям, которые могут помочь в решении задачи. Память реализована в виде последовательности токенов, выбранных из контекстного документа, чтобы максимально упростить процесс интерпретации содержимого памяти предсказательной моделью. Чтобы сформировать входную последовательность, аугментированную памятью, токены вопроса объединяются с токенами памяти и сегмента контекста. Информация, записываемая в память, выбирается исходя из ее важности для нахождения правильного ответа на вопрос. Чтобы определить эту важность, мы использовали неопределенность модели, рассчитанную с помощью энтропии. Пусть дана входная последовательность ж и вектор р вероятностного распределения по словарю для заданного токена,

где п - размер словаря модели.

Процесс обработки текста моделью с глобальной эксплицитной памятью делится на два этапа: 1) обработка контекстного документа и формирование памяти и 2) генерация предсказаний для рассматриваемой задачи с использованием входных данных, аугменти-рованных памятью (как показано на рис. 1). На первом этапе входные последовательности обрабатываются моделью RoBERTa с головой языкового моделирования для получения кросс-словарных распределений токенов, необходимых для оценки энтропии. Токены, не являющиеся семантически значимыми (например, служебные разделительные токены, знаки препинания, артикли, союзы, предлоги), не рассматриваются при формировании памяти (дополнительные сведения см. в приложении). Глобальная память формируется из токенов, удовлетворяющих выбранному условию на значения энтропии. На втором этапе токены вопроса и глобальной памяти объединяются с каждым сегментом для обучения на целевую задачу. Веса модели, используемой на первом этапе, обновляются каждую эпоху значениями весов модели, обученной для решения целевой задачи на втором этапе.

Чтобы оценить качество работы представленного метода, мы использовали набор данных HotpotQA distractor [23]. Это англоязычный набор данных multi-hop QA, который требует предсказания диапазона токенов, кодирующих текстовый ответ, и идентификации предложений, содержащих информацию, необходимую для ответа из двух абзацев Википедии, относящихся к вопросу, и восьми абзацев зашумления. Набор данных HotpotQA включает как вопросы, требующие текстового ответа, так и вопросы с ответом вида да/нет.

Обучение проводилось многозадачным способом для совместного прогнозирования типа вопроса (да/нет/текст), диапазона токенов, кодирующих ответ, а также абзацев и предло-

р = Soft ma x(LM_ RoBERTa^)),

тогда формула энтропии для токена имеет следующий вид:

жсний, содержащих необходимую для ответа информацию. Во время обучения использовалась следующая функция потерь:

L = aiCEqtype + «2 Or_CESpan + «3 CEpara + a^CEsent,

где CEqtype - кросс-энтропия для классификатора типа вопроса, or_CEspan - модификация функции кросс-энтронии для диапазона токенов ответа, учитывающая все возможные диапазоны токенов текстового ответа (noisv labels handling loss) [25], CEpara и CEsent -функции кросс-энтропии для предсказаний параграфов и предложений с информацией, необходимой для корректного ответа. Для балансировки значений каждого слагаемого в общей функции потерь модели были использованы следующие константные весовые коэффициенты: a.i = 10, ak = 1,k = 2,3,4.

2nd stage: Target task training

У1

У2

У3_

task prediction heads

RoBERTa

i i t

question j GM) segment

Q

1

task prediction heads RoBERTa

task prediction heads RoBERTa

t t t

question

[ GM I segmentn

question J3M segment2 .

УГ______y- -4 - -,_______

1st stage: Memory population

CZr

j,

АД A A Ji Д

Global Memory

j l

f

I

LM head

LM head

LM head

RoBERTa

f t

question segment1

RoBERTa

t t

question segment2

RoBERTa

t f

question segmentn

Рис. 1. Входные сегменты обрабатываются Т1оВЕТ1Та. и посредством головы языкового моделирования формируются вероятностные распределения, необходимые для потокенной оценки неопределенности. Элементы глобальной памяти отбираются на основе выбранного условия на значения энтропии. Затем токены вопроса объединяются с элементами глобальной памяти и сегментами контекста для генерации предсказаний ответа на целевой вопрос

При подготовке входных последовательностей мы следовали алгоритму предобработки данных из статьи [4] и добавили специальные токены для обозначения начала и конца текста вопроса, начала и конца заголовка параграфа Википедии и конца предложения. Специальные токены были добавлены в словарь ЫоВЕКТа и случайным образом инициализированы перед началом дообучения. Дополнительные сведения о процессе обучения, генерации предсказаний и гиперпараметрах модели см. в приложении.

3. Результаты экспериментов и анализ памяти

Базовой моделью в наших экспериментах является RoBERTa, дообученная на задачу HotpotQA. На первом этапе экспериментов с памятью мы проверили гипотезу, что токены с наибольшей неопределенностью могут оказаться полезными для определения глобального контекста исследуемого документа. Модель с глобальной памятью, заполненной токенами с наибольшей энтропией (High Н в табл. 1), не показала улучшения качества по сравнению с базовой моделью. Кроме того, потокенное распределение энтропии контекстного документа после дообучения наиболее эффективной модели с памятью, заполненной по критерию

Н < 0.3 (см. рис. 5 приложения) показало, что большинство токенов контекста имеют высокую неопределенность. С другой стороны, низкие значения энтропии сконцентрированы в областях ответов и необходимых для ответа фактов. Гипотезой данного исследования является наличие у модели тенденции обнаруживать необходимые для ответа части текста, уменьшая их неопределенность. Для проверки этой гипотезы использовалась память вариабельного размера, состоящая из токенов с энтропией Н < 0.3. Дообученная модель с памятью превзошла по качеству базовую модель на 1.6 пункта метрики joint F1.

Мы также протестировали динамическое правило отбора токенов в память, равное пятому процентилю энтропии, предположив, что это может помочь улучшить долю покрытия полезных для ответа фактов из контекста (Low (Н < в табл. 1). Модель с таким пра-

вилом отбора токенов в память показала небольшое улучшение качества предсказаний по сравнению с базовой моделью, но была слабее модели с фиксированным пороговым значением энтропии Н < 0.3. Чтобы проверить важность обуславливания контекста вопросом при формировании последовательности токенов памяти, мы обучили модель с памятью, основанной на неопределенности модели, обработавшей только документ при условии выбора в память токенов с энтропией Н < 0.3 (No Q/Doc only в табл. 1). Качество работы полученной модели ухудшилось, но было лучше, чем у модели без аугментации памятью. Это означает, что информация, содержащаяся в вопросе, значительно влияет на полезность содержимого памяти для решения целевой задачи.

Таблица1

Результаты оценки качества ответов (Ans F1), полезных фактов (Supp F1) и объединенная метрика (Joint F1) с учетом стандартного отклонения для набора данных HotpotQA. Все значения усреднены по трём запускам дообучения. Наилучшие значения выделены жирным шрифтом

Модель Ans Fl±std Supp Fl±std Joint Fl±std

Baseline 73.8± 0.44 82.86± 0.09 63.16± 0.37

High Н 73.87± 0.26 82.61± 0.42 62.85± 0.51

Low (Н < 0.3) 75.13± 0.5 83.8± o.43 64.77± 0.66

Low (Н < 74.19± 0.27 83.13± 0.07 63.59± o.i4

No Q / Doc only 74.33± o.ie 83.67± o.35 64.09± 0.28

No fine-tune 73.88± o.42 80.77± o.i2 61.72± 0.34

Random memory 72.92± o.2i 81.76±o.i 61.58± 0.25

Для проверки важности дообученной на целевую задачу модели для генерации памяти и возможности потенциального использования языковой модели общего назначения на первом этапе обучения мы провели эксперимент с предобученной моделью RoBERTa для оценки неопределенности и выводом предсказаний модели с помощью дообученной модели. Такая конфигурация имеет качество предсказания ответа на уровне базовой модели, но качество предсказания фактов, необходимых для правильного ответа на вопрос на два пункта Fl-меры ниже, чем у базовой модели, что приводит к более низкому значению финальной метрики Joint FI (No fi,ne-tune в табл. 1). Таким образом, обновление модели для оценки неопределенности с течением дообучения имеет решающее значение для генерации памяти, полезной для решения задачи. Действительно, после измерения средней энтропии различных частей контекста в процессе дообучения лучшей модели с памятью (Н < 0.3), мы обнаружили, что разница неопределенности между полезными для ответа на вопрос фактами и фактами-дистракторами растет (рис. 2). Финальным этапом экспериментов по абляции было заполнение памяти случайно выбранными токенами контекста (Random memory в табл. 1). Этот тест показал, что глобальная память с произвольным содержимым может не только не улучшить прогнозы, но и ухудшить качество предсказаний модели.

Показанные выше результаты демонстрируют, что глобальная память, состоящая из

фактов, полезных для ответа на вопрос, улучшает качество предсказаний для задачи multi-hop QA. Отсюда вытекает предположение, что с увеличением размера памяти улучшатся и результаты работы модели. Наш анализ лучшей модели с аугментацией глобальной памятью токенами с энтропией Н < 0.3, дообученной с тремя различными начальными значениями (табл. 2), показывает устойчивую положительную корреляцию между средним объемом памяти и общей метрикой Joint F1, что подтверждает наше предположение. Так, пятикратное увеличение размера памяти связано с приростом Joint F1 на 1.32 пункта. Запуски дообучения, имеющие в среднем больший объем памяти, имеют большую долю покрытия информации из полезных для ответа фактов, но не более 30%. Средняя длина полезных для ответа фактов составляет 83 токена, то есть не больше половины объема памяти занято полезной информацией. Причем эта величина покрытия полезных фактов одинакова и для корректных предсказаний, и для некорректных.

0.50 2 0.45

-м С 0)

и 0.40 сл

аЗ 0.35 >

со

0.30

1 2 3 4 5

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

epoch

Рис. 2. Среднее значение и дисперсия энтропии для ответов, полезных фактов и фактов зашумления для валидационной выборки данных в течение дообучения наилучшей модели с памятью Н < 0.3

Таблица2

Среднее количество токенов в памяти (Avg mem) и доля токенов из полезных фактов, записанных в память (% of tokens from supporting facts stored in memory) в целом (total) и для примеров с корректными (+ans) и некорректными (—ans) предсказаниями для трех запусков дообучения наилучшей модели с глобальной памятью с различающимися значениями финальной метрики качества Joint F1

Joint F1 Avg mem siz e±std % of tokens from supporting facts stored in memory±si^

total — ans + ans

65.39 50± 36 30± is 31± 13 30± is

64.86 24± i4 21± io 21± io 21± io

64.07 11±9 10±8 11±8 10±8

Стоит заметить, что больший объем памяти для той же модели отрицательно коррелирует с вероятностью предсказания верного ответа (рис. 3).

Это может быть связано с эффектом зашумления памяти за счет нерелевантных токенов. В памяти большего размера следует ожидать большее количество токенов, не несущих полезной для ответа на вопрос информации, поэтому задачей обучения должен быть поиск равновесного состояния между увеличением размера памяти для лучшего охвата полезных фактов знаний и одновременно уменьшением размера памяти для устранения зашумления. Эта гипотеза подтверждается результатами анализа памяти, представленными на рис. 4.

Рис. 3. Скользящее среднее Fl-меры ответов для каждого значения длины памяти (сплошные линии) и Fl-мера ответов в целом (пунктирные линии) для трех запусков дообучения наилучшей модели с глобальной памятью, различающихся значениями метрики Joint F1

Случаи, когда память содержит больше токенов из полезных фактов и меньше нерелевантных вопросу токенов, как правило, имеют лучшие значения метрики качества (рис. 4а). В то же время количество токенов из полезной для ответа информации, хранящихся в памяти, почти не влияет в случае малой (до 30%) доли покрытия и отрицательно коррелирует (для большей доли покрытия) с вероятностью предсказания корректного ответа (рис. 46).

а)

б)

Рис. 4. Зависимости качества предсказания ответа от (а) доли токенов памяти, являющихся элементами полезных для корректного ответа фактов, (б) доли токенов полезных фактов, найденных в памяти, для трех запусков дообучения наиболее эффективной модели с памятью, различающихся значениями итоговой метрики качества

4. Заключение

В этой статье мы продемонстрировали, как добавление эксплицитной глобальной памяти на основе неопределенности повышает качество работы модели на задаче поиска ответа на вопрос по набору тематически связанных текстов. Полученные результаты показывают, что использование токенов контекста с низкой энтропией может помочь модели при обработке длинных входных последовательностей, но только в случае специальной настройки модели оценивания энтропии под целевую задачу. Эксперименты показывают, что более производительные модели используют больший объем памяти с лучшим охватом полезной информации, необходимой для корректного ответа на вопрос.

Приложение

1. Методы и детали обучения

При использовании предобученной модели RoBERTa длинная входная последовательность разбивается на сегменты. Чтобы избежать случаи расположения ответа на стыке двух смежных сегментов контекста, мы производим разбивку на сегменты с перекрытием длиной 20 токенов между последовательными частями контекстного документа. Максимальный размер глобальной памяти ограничен 200 токенами, чтобы сбалансировать доли вхождения токенов памяти и контекстного сегмента во входных последовательностях модели. При отборе кандидатов для записи в память не учитываются токены контекста, являющиеся служебными токенами модели, токенами разметки параграфов и предложений контекстного документа, токенами, кодирующими знаки препинания, и токенами стоп-слов1. Такая фильтрация производится для уменьшения объема зашумленного содержимого памяти.

Для экспериментов был использован публичный чекпоинт предобученной модели RoBERTa-base2 размером 125 миллионов параметров и имплементация модели RoBERTa из библиотеки Huggingface Transformers3.

Источником набора данных HotpotQA в наших экспериментах является библиотека Hugging Face dataseis4. Обучающая выборка состоит из 90447 примеров, валидационная выборка составляет 7405 примеров. Для обучения и эвалюации задача поиска ответа на вопрос по документу была разбита на четыре подзадачи: предсказание типа вопроса с помощью классификации значения первого токена входной последовательности ([CLS] то-кен), предсказание диапазона токенов последовательности, представляющих собой ответ на вопрос, и предсказание параграфов и предложений из контекстного документа, необходимых для корректного ответа на вопрос с помощью двухслойной нейронной сети прямого распространения с функцией активации GeLU между слоями. Данная классификационная нейросеть применялась к токенам-указателям конца заголовка параграфа и конца предложения.

Во время генерации предсказаний для оценки качества работы модели для создания последовательности глобальной памяти использовались веса дообученной на целевую задачу модели и предобученные веса головы языкового моделирования. Для расчета метрики качества предсказаний значения метрик на сегментах документа были отранжированы, и наиболее вероятное предсказание было выбрано в качестве окончательного ответа модели. Кандидаты полезных для ответа предложений отбирались из двух (наиболее вероятно содержащих полезную информацию) параграфов в соответствии с условиями построения исследуемого набора данных [26].

Вычислительные эксперименты проводились на графических процессорах типа NVIDIA А100. Каждый эксперимент дообучения модели RoBERTa на целевую задачу длился пять эпох, что составляет около пяти часов при одновременном использовании восьми указанных графических процессоров. Все модели были обучены с размером батча 32 с использованием алгоритма оптимизации Adam. В процессе подбора наилучшей конфигурации гиперпараметров модели были протестированы линейное затухание коэффициента обучения (learning rate), линейное увеличение коэффициента обучения в течение первых 1000 шагов обучения с последующим линейным затуханием, а также константный коэффициент обучения при условии линейного роста первые 1000 шагов. Стартовое линейное увеличение коэффициента обучения с последующим линейным затуханием было выбрано для экспериментов как наиболее эффективное. Мы также протестировали варианты максимального значения коэффициента обучения Зе-5 и 5е-5 и различную длительность обучения 3, 5 и 7 эпох. Наибольшую эффективность в случае базовой модели и модели с памятью показала

1https://github.com/nltk/nltk/wiki/Frequently-Asked-Questions-(Stackoverflow-Edition) \#how-to-remove-stopwords-with-nltk

https://huggingface.co/roberta-base

3https://huggingface.co/docs/transíormers/model_doc/roberta

4https://huggingface.со/datasets/hotpot_qa

конфигурация с максимальным коэффициентом обучения Зе-5 и длительностью обучения 5 эпох.

2. Тепловые карты распределений потокенной энтропии для контекстного документа

В этом разделе мы демонстрируем тепловые карты потокенной энтропии для одного примера контекстного документа из валидационной выборки. Для вычисления энтропии дообученной модели использовалась модель с аугментацией глобальной памятью с правилом отбора токенов в память Н < 0.3. Тепловая карта на рис. 6 показывает, что неопределенность предобученной модели равномерно близка к нулю, за исключением служебных токенов, добавленных в словарь перед началом дообучения для удобства решения целевой задачи.

<t»Ed Wood (filn)</t»td Wood is a 1994 American biographical period comedy-drama film directed and produced by Tim

epp as cult filmmaker Ed Wood.[/sent] The film concerns the period in Wood s life when

he made his best-known films as well as his relationship with actor Beta Lugosi, played by Martin Landau.[/sent]

rah Jessica Parker. Patricia Arquette, Jeffrey Jones, Lisa Marie, and Sill Murray are among the supporting cast,!/

ent]<t>Scott Derrickson«;/t»Scott Dernckson {born July 16, 1966) is an American director, screenwriter and produce

r. [/sent J He lives inLos Angeles, California.[/sent J He is best known for directing horror films such as "5imste r", "The Exorcism of Emily Rose"', and "Deliver Us From Evil", as well as the 2016 Marvel Cinematic Universe instal

ment, "Doctor Strange."[/sent]<t>Woodson, Arkansas</t>Woodson is a census-designated place (CDP) in Pulaski County. Arkansas, in the United States.[/sent] Its population was 40J at the 2016 census.T/sentT Tt is part of the Little

ock-North Little Rock-Conway Metropolitan Statistical Area.[/sent] Woodson and its accompanying Woodson Lake and Wi

od Hollow are the namesake for Frt Wood Sr., a prominent plantation owner, trader, and businessman at the turn of tl e 26th century.f/sent 1 Woodson is adjacent to the Wood Plantation, the largest of the plantations own by fcd Wood S|

.[/sentJ<t>Tyler Bates</t>Tyler Bates {born June 5, 196b) is an American musician, music producer, and composer fi

r films, television, and video games.[/sent] Much of his work is in the action and horror film genres, with films ike 'Dawn of the Dead, 300, Sucker Punch, and "John Wick."J/sent] He has collaborated with directors like Zack Sn1

der, Rob Zombie, Neil Marshall. William Friedkin. Scott Derrickson, and James Gunn.[/sent] With Gunn, he has scored every one of the director's films; including "Guardians of the Galaxy", which became one of the highest grossing d"

Fi^miiOT'T'ffMfWKM

roduced its albums The Pal 10,</s>Heaven Üpside Down".

(2014 film)</t>Dellver Us from Evil is a 2 oduced by Jerry Bruckheimer.[/sent] The fil.

__ д "Heaven Upside Down".f/sent]<t>Ed Woodc/t_>l

■ Down ^. 1 / s en t ] < t > È d Wood<7t>ïdwa rdOavis^ Wood!r. (Öctober IS, l!

roducer, and director.[/sent]<t>Deliver Us from Evil

rican supernatural horror film directed by Scott Derrickson and pi s officially based on a 2001 non-fiction book entitled Beware the Ni

îghted that it was "inspired by actua tvla Munn, and Joel MiHaTe in the main rol

tl He attended the Duke University from 1986 to 1996 and the University of California. Los Angeles from 2007 to 20' 0.[/sent{ He also studied cinema at the University of Southern California from 1991 to 1997.[/sent] Collis first wr

rk was the assistant director for the Scott Derrickson s short "Love in the Ruins" (1995).i/sent] In 199B, he play

d Crankshaft" in Eric Koyanagl s Hundred Percent .[/sent]<t>Sinister (film)</t>Sinister is a 2012 supernatural hq rror film directed by Scott Derrickson and written by Derrickson and C. Robert Carqill.[/sentJ It stars Ethan Hawke

h i и* г Ii ¡'¿аД ffTîîn

ison Oswalt who discovers a bоx ofhomejyavies m his attic that puts his fami (born Conrad Biedrzycki on January 3, Г53Т in Baltimore, Mar

I is an American actor /sent He moved to Ho

ot his start in movies appearing in Ed Wood films such as Plan 9 from Outer Space". "Glen or Glenda". and Jail Bi it.1 f/sent| He took a break from acting during the lW6s and 1970s but due to the ongoing interest in the fifms of

Ed Wood, he reemerged in the 1980s and has become a prolific actor.[/sent] He also has since gone on to write, pro

uce and direct several films, [/sent|<t>Doctor Strange (2Blb fllm)_</t>Doctqr 5trange is a 2B16 American superherq</s direct several films.[/sent]<t>Doctor Strange (2Q16 fitm)</t>Doctor Strange is a 2916 American superhero film ba

cott Derrickson, who wrote it with Jon Spaihts am

tephen Strange, along with Chiwetel Ejiofor, Rachel HcAdams. Benedict Wong. Michael Stuhlbar tt Adkins, Mads Mikkelsen, and Tilda Swinton.[/sent] Tn "Doctor St range ', surgeon Strange leai

шдятт'ггт^ячпггггяажта

Рис. 5. Тепловая карта распределения энтропии для дообученной модели с памятью с условием отбора токенов в память Н < 0.3. На тепловой карте представлен контекстный документ из валидационной выборки. Предложения, необходимые для корректного ответа на вопрос по этому тексту: "Scott Derrickson (born July 16, 1966) is an American director, screenwriter and producer. "Ed/ward Davis Wood Jr. (October 10, 1924 December 10, 1978) was an American filmmaker, actor, writer, producer, and director"

Карта разниц значений энтропии после первой эпохи дообучения и до начала дообучения показывает, что неопределенность токенов-индикаторов заголовков параграфов и предложений уменьшается. Среди токенов фактов, необходимых для ответа на вопрос, присутствуют токены, энтропия которых не изменилась после эпохи дообучения, для остальных токенов документа энтропия увеличилась (рис. 7, токены соответствующие неотрицательным значениям разницы энтропий написаны темным шрифтом, токены с отрицательными значениями имеют более светлый цвет шрифта).

шдамшддишшдишмдд

Wood (film)«/t»Ed Wood is a 1994 American bioqrapiuca

urton, and starring Johnny Depp as cult filmmaker Ed Wood.j/sentJ Trie film concerns the period in Wood's life he made his best-known films as well as his relationship with actor Bela Luqosi. olaved bv Martin Landau.I/sent

rican director, screenwriter and produce

r.[/sentj He lives in Los Angeles, California.

'', "The Exorcism of Emily Rose", and "Deliver Us From Evil", as well as the 2016 Marvel Cinematic Universe insta nt, "Doctor Strange."f/sent]<t»Woodson, Arkansas</t;»Waodsan is a census-designated place (CDP) in Pulaski Count

rkansas, in the United states.[/sent] Its population was ?4Q3 at the 2018 census,[/sent] It is part of the Little

ock-North Little Rock-Conway Metropolitan Statistical Area.|/sent] Woodson and its accompanying Woodson Lake and Wi

od Hollow are the namesake for Ed Wood Sr., a prominent plantation owner, trader, and businessman at the turn of tl

/sent Woodson is adjacent to the Wood Plantation, the largest of the plantations own by Ed Wood S

r.[/senti<t>Tyler Bates</t>Tyler Bates (born June 5. 1965) is an American musician, music producer, and composer

r films, television, and video games.[/sentl Much of his work is in the action and horror film genres, with films l

ike "Pawnor the Dead, 369, Sucker Punch," and John Wick, (/sentt He has collaborated with directors like jack 5ny| der, Rob Zombie. Neil Marshall, William Friedkin, Scott Derrickson, and James Gunn.T/sent] With ¿unn, he has scored

every one of the director s films; including 'Guardians of the Galax1

stic movies of 2014, and its 2817 sequel.[/sent] In addition, he is also the lead guitarist of the American rock | band Marilyn Manson, and produced its albums "The Pale Emperor" and "Heaven Upside Down*.[/sent}<t>Ed Wood</t>Edwar

d Davis Wood Jr. (October 18,</s»Heaven Upside Down".[/sent]<t>Ed Wood</t>Edward Davis Wood Jr. (October 18. 1924 -December 10. 197B) was an American filmmaker, actor, writer, producer, and director.\/sentl<t>Deliver Us from Evil I

(2014 film)</t>Deliver Us from Evil is a 2014 American supernatural horror film directed by Scott Derrickson and pi

oduced by Jerry Bruckheimer.[/sent The film is officia

□ht" by Ralph Sarchie and Lisa Collier; Cool, and its marketing campaign highlighted that it was "inspired by actua

ivia Munn. an

es and was released on July 2, 2814. [/sent]<t>AdaiTi CoUis</t>Adam Collis is an American filmmaker and actor.[/sen| I He attended the Duke University from 1986 to 1996 and the University of California, Los Angeles from 2887 to 281

■l/sentI He also studied cinema at the University of Southern California from rk was the assistant director for the £cott berrickson's short "Love in the Ruin

"Crankshaft" in Eric Koyanaqi's "Hundred Percent",|/sent|<t>Smister (film)</t^Sinister is a 2812 supernatural h

rror film directed by Scott Derrickson and written by Derrickson and C. Robert Cargill.[/sentJ It stars Ethan Hawke as fictional true-crime writer Ellison Oswalt who discovers a box of home movies in his attic that outs his familv I

m danger.[/sent]<t»Conrad 8rooks</t»Conrad Brooks (born Conrad Biedrzycki on January 3, 1931 in Baltimore, Marylari

d] is an American actor.[/sentJ He moved to Hollywood, California in 1948 to pursue a career in acting.[/sent] He

ot his start in movies appearing in Ed Wood films such as

/sent] He took a break from acting during the 1960s and 1970s but due to the ongoing interest in the films o

as become a prolific actor.[/sent] He also has since gone on to write, pro

Ilms, /sentl<t>Doctor Strange (2016 film)</t>0octor Strange is a 2816 American superhero</s

> direct several films.[/sent]<t»Doctor Strange (2816 film)</t>Doctor 5trange is a 2816 American superhero film baa ed on the Marvel Comics character of the same name, produced by Marvel Studios and distributed by Walt Disney Studi

os Motion Pictures.[/sent3 It is the fourteenth film of the Marvel Cinematic Universe (MCUJ.

rected by 5cott Derrickson, who wrote it with Jon Spaihts and C. Robert Cargill. and stars Benedict Cumberbatch as Stephen Strange, along with Chiwetel Ejiofor, Rachel McAdams. Benedict Wong, Michael Stuhlbarq. Benjamin Bratt, Sc

tt Adkins, Mads Mikkelsen, and Tilda Swinton.[/sent] In Doctor Strange , surgeon Strange learns the mystic arts a?

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1Й--М<11>Ш«1 riîTill DfE

¡ашшшт

ВДШШШДМШШ^И

Рис. 6. Тепловая карта распределения энтропии для предобученной модели RoBERTa

Рис. 7. Тепловая карта разниц в значениях энтропии после первой эпохи дообучения модели и до начала дообучения

Список литературы

1. Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A.N., Kaiser L., Polosukhin I. Attention is all you need // Proceedings of the 31st International Conference on Neural Information Processing Systems, NIPS'17, Red Hook, NY, USA. Curran Associates Inc. 2017. P. 6000-6010.

2. Lin Т., Wang Y., LiuX., QiuX. A survey of transformers //AI Open. 2022. N 3. P. 111-132.

3. Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of deep bidirectional transformers for language understanding // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Minneapolis, Minnesota // Association for Computational Linguistics. 2019. V. 1. P. 4171-4186.

4. Beltagy I., Peters M.E., Cohan A. Longformer: The long-document transformer // arXiv:2004.05150. 2020.

5. Zaheer M., Guruganesh G., Dubey K.A., Ainslie J., Alberti C., Ontanon S., Pham P., Ravula A., Wang Q., Yang L. \et al]. Big bird: Transformers for longer sequences // Advances in Neural Information Processing Systems. 2020. V. 33.

6. Wang S., Li B.Z., Khabsa M., Fang H., Ma H. Linformer: Self-attention with linear complexity 11 ArXiv, abs/2006.04768. 2020.

7. Zhang Y., CaiD. Linearizing transformer with key-value memory // ArXiv, abs/2203.12644. 2022.

8. Choromanski K., Likhosherstov V., Dohan D., Song X., Gane A., Sarlos Т., Hawkins P., Davis J., Mohiuddin A., Kaiser L., Belanger D., Colwell L.J., Wetter A. Rethinking attention with performers // ArXiv, abs/2009.14794. 2020.

9. Gupta A., Berant J. Gmat: Global memory augmentation for transformers // ArXiv, abs/2006.03274. 2020.

10. Wu Q., Lan Z., Qian K., Gu J., Geramifard A., Yu Z. Memformer: A memory-augmented transformer for sequence modeling // Findings of the Association for Computational Linguistics: AACL-IJCNLP, Association for Computational Linguistics. 2022. P. 308—318.

11. Burtsev M.S., Kuratov Y., Peganov A., Sapunov G.V. Memory Transformer // ArXiv, abs/2006.11527. 2020.

12. Sagirova A., Burtsev M. Complexity of symbolic representation in working memory of transformer correlates with the complexity of a task // Cognitive Systems Research. 2022. V. 75. P. 16-24.

13. Sorokin A., Buzun N., Pugachev L., Burtsev M. Explain my surprise: Learning efficient long-term memory by predicting uncertain outcomes // ArXiv, abs/2207.13649. 2022.

14. Miyake A., Shah P. Models of Working Memory: Mechanisms of Active Maintenance and Executive Control. New York : Cambridge University Press, 1999.

15. Hochreiter S., Schmidhuber J. Long short-term memory // Neural Computation. 1997. V. 9, N 8. P. 1735 17*1).

16. Graves A., Wayne G., Danihelka I. Neural Turing machines // Arxiv, abs/1410.5401. 2014.

17. Graves A., Wayne G., Reynolds M., Harley Т., Danihelka I., GrabskaBarwinska A., Colmenarejo S.G., Grefenstette E., Ram,alho Т., Agapiou J, Badia A.P., Hermann K.M., Zwols Y., Ostrovski G., Cain A., King H., Summerfield C., Blunsom P., Kavukcuoglu K., Hassabis D. Hybrid computing using a neural network with dynamic external memory // Nature. 2016. V. 538, N 7626. P. 471-476.

18. Weston J., Chopra S., Bordes A. Memory networks // Arxiv, abs/1410.3916. 2015.

19. Sukhbaatar S., Szlam A., Weston J., Fergus R. End-to-end memory networks // Arxiv, abs/1503.08895. 2015.

20. Chandar S., Ahn S., Larochelle H., Vincent P., Tesauro G., Bengio Y. Hierarchical memory networks // Arxiv, abs/1605.07427. 2016.

21. Ainslie J., Ontanon S., Alberti C., Cvicek V., Fisher Z., Pham P., Ravula A., Sanghai S., Wang Q., Yang L. ETC: Encoding long and structured inputs in transformers // Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), Association for Computational Linguistics. 2020. P. 268-284.

22. Mavi V., Jangra A., Jatowt A. A survey on multi-hop question answering and generation 11 Arxiv, abs/2204.09140. 2022.

23. Yang Z., Qi P., Zhang S., Bengio Y., Cohen W., Salakhutdinov R., Manning C.D. HotpotQA: A dataset for diverse, explainable multi-hop question answering // Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, Association for Computational Linguistics, Brussels, Belgium. 2018. P. 2369-2380.

24. Liu Y., Ott M., Goyal N., Du J., Joshi M., Chen D., Levy O., Lewis M., Zettlemoyer L., Stoyanov V. RoBERTa: A Robustly Optimized BERT Pretraining Approach // ArXiv, abs/1907.11692. 2019.

25. Clark C., Gardner M. Simple and effective multi-paragraph reading comprehension // Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, Association for Computational Linguistics, Melbourne, Australia. 2018. V. 1. P. 845-855.

26. Groeneveld D., Khot T., Mausam, Sabharwal A. A simple yet strong pipeline for HotpotQA // Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), Association for Computational Linguistics. 2020. P. 8839-8845.

References

1. Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A.N., Kaiser L., Polosukhin I. Attention is all you need. Proceedings of the 31st International Conference on Neural Information Processing Systems, NIPS'17, Red Hook, NY, USA. Curran Associates Inc. 2017. P. 6000-6010.

2. Lin T., Wang Y., Liu X., Qiu X. A survey of transformers. AI Open. 2022. N 3. P. 111-132.

3. Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of deep bidirectional transformers for language understanding. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Minneapolis, Minnesota. Association for Computational Linguistics. 2019. V. 1. P. 4171-4186.

4. Beltagy I., Peters M. E., Cohan A. Longformer: The long-document transformer. arXiv:2004.05150. 2020.

5. Zaheer M., Guruganesh G., Dubey K.A., Ainslie J., Alberti C., Ontanon S., Pham P., Ravula A., Wang Q., Yang L., et al, Big bird: Transformers for longer sequences. Advances in Neural Information Processing Systems. 2020. V. 33.

6. Wang S., Li B.Z., Khabsa M., Fang H., Ma H. Linformer: Self-attention with linear complexity. ArXiv, abs/2006.04768. 2020.

7. Zhang Y., Cai D. Linearizing transformer with key-value memory. ArXiv, abs/2203.12644. 2022.

8. Choromanski K., Likhosherstov V., Dohan D., Song X., Gane A., Sarlos T., Hawkins P., Davis J., Mohiuddin A., Kaiser L., Belanger D., Colwell L.J., Wetter A. Rethinking attention with performers. ArXiv, abs/2009.14794. 2020.

9. Gupta A., Berant J. Gmat: Global memory augmentation for transformers. ArXiv, abs/2006.03274. 2020.

10. Wu Q., Lan Z., Qian K., Gu J., Geramifard A., Yu Z. Memformer: A memory-augmented transformer for sequence modeling. Findings of the Association for Computational Linguistics: AACL-IJCNLP, Association for Computational Linguistics. 2022. P. 308—318.

11. Burtsev M.S., Kuratov Y., Peganov A., Sapunov G.V. Memory Transformer. ArXiv, abs/2006.11527. 2020.

12. Sagirova A., Burtsev M. Complexity of symbolic representation in working memory of transformer correlates with the complexity of a task. Cognitive Systems Research. 2022. V. 75. P. 16-24.

13. Sorokin A., Buzun N., Pugachev L., Burtsev M. Explain my surprise: Learning efficient long-term memory by predicting uncertain outcomes. ArXiv, abs/2207.13649. 2022.

14. Miyake A., Shah P. Models of Working Memory: Mechanisms of Active Maintenance and Executive Control. New York : Cambridge University Press, 1999.

15. Hochreiter S., Schmidhuber J. Long short-term memory. Neural Computation. 1997. V. 9, N 8. P. 1735 17*0.

16. Graves A., Wayne G., Danihelka I. Neural Turing machines. Arxiv, abs/1410.5401. 2014.

17. Graves A., Wayne G., Reynolds M., Harley T., Danihelka I., GrabskaBarwinska A., Colmenarejo S.G., Grefenstette E., Ram,alho T., Agapiou J, Badia A.P., Hermann K.M., Zwols Y., Ostrovski G., Cain A., King H., Summerfield C., Blunsom P., Kavukcuoglu K., Hassabis D. Hybrid computing using a neural network with dynamic external memory. Nature. 2016. V. 538, N 7626. P. 471-476.

18. Weston J., Chopra S., Bordes A. Memory networks. Arxiv, abs/1410.3916. 2015.

19. Sukhbaatar S., Szlam A., Weston J., Fergus R. End-to-end memory networks. Arxiv, abs/1503.08895. 2015.

20. Chandar S., Ahn S., Larochelle H., Vincent P., Tesauro G., Bengio Y. Hierarchical memory networks. Arxiv, abs/1605.07427. 2016.

21. Ainslie J., Ontanon S., Alberti C., Cvicek V., Fisher Z., Pham P., Ravula A., Sanghai S., Wang Q., Yang L. ETC: Encoding long and structured inputs in transformers. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), Association for Computational Linguistics. 2020. P. 268-284.

22. Mavi V., Jangra A., Jatowt A. A survey on multi-hop question answering and generation. Arxiv, abs/2204.09140. 2022.

23. Yang Z., Qi P., Zhang S., Bengio Y., Cohen W., Salakhutdinov R., Manning C.D. HotpotQA: A dataset for diverse, explainable multi-hop question answering. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, Association for Computational Linguistics, Brussels, Belgium. 2018. P. 2369-2380.

24. Liu Y., Ott M., Goyal N., Du J., Joshi M., Chen D., Levy O., Lewis M., Zettlemoyer L., Stoyanov V. RoBERTa: A Robustly Optimized BERT Pretraining Approach. ArXiv, abs/1907.11692. 2019.

25. Clark C., Gardner M. Simple and effective multi-paragraph reading comprehension. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, Association for Computational Linguistics, Melbourne, Australia. 2018. V. 1. P. 845-855.

26. Groeneveld D., Khot T., Mausam, Sabharwal A. A simple yet strong pipeline for HotpotQA. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), Association for Computational Linguistics. 2020. P. 8839-8845.

Поступим в редакцию 29.05.2023

i Надоели баннеры? Вы всегда можете отключить рекламу.