Энкодер-агностичные модели типа Трансформер: перенос знаний на разговорных задачах для русского языка

Карпов Д. А.; Коновалов В. П.

64

Энкодер-агностичные модели типа Трансформер: перенос знаний на разговорных задачах для русского языка

Карпов Д. А., аспирант 4-го года обучения, сотрудник Лаборатории нейронных систем и глубокого обучения, dmitrii.a.karpov@phystech.edu

Коновалов В. П., кандидат технических наук, сотрудник Лаборатории нейронных систем и глубокого обучения, vasily.konovalov@phystech.edu

Московский физико-технический институт, г. Долгопрудный

В статье исследуется перенос знаний в многозадачных энкодер-агностичных моделях типа Трансформер для разговорных задач. В статье показано, что точность этих моделей приближается к точности аналогичных однозадачных моделей, но при этом многозадачные модели имеют лишь незначительно больше параметров, чем любая из аналогичных однозадачных моделей. Эти результаты верны для разных типов трансформеров, предобученных на русском языке. Также показано, что для русского языка на малых объемах данных эти многозадачные модели, предобученные на русском языке, показывают более высокие результаты, чем аналогичные однозадачные модели.

• многозадачность • трансформер • нейросетевые • диалог • эмоции, тональность • токсичность • перенос знаний • межязыковой перенос знаний • многозадачный перенос знаний • разговорные задачи • энко-дер-агностичные модели

1. ВВЕДЕНИЕ

В настоящее время активно развиваются разговорные системы искусственного интеллекта. Интерес к виртуальным помощникам, таким как Сири, Алекса, Алиса, побуждает к разработке моделей обработки текста для разговорных задач (то есть задач, решение которых необходимо для решения задачи классификации разговорной речи). Классификация текста — одна из самых важных задач обработки текста для таких помощников.

Модели на основе архитектуры Трансформер, такие как BERT, широко используются для классификации текста. В исходной статье [2] предлагалось использовать отдельную модель BERT для каждой задачи, если задач больше, чем одна. Значит, при необходимости параллельного решения нескольких задач классификации необходимо использовать несколько нейросетевых моделей, что увеличивает потребность в вычислительных ресурсах. Эта проблема приводит к идее обучения одной-единственной модели, которая может решать несколько задач одновременно.

Многозадачное обучение позволяет одновременно обучать одну модель нескольким задачам. Обучаясь нескольким задачам одновременно, модель может находить в задачах общие закономерности, что способствует лучшему решению каждой из этих задач.

В разных ситуациях требования к качеству нейросетевых моделей и использованию ими вычислительных ресурсов могут различаться. Чтобы соответствовать различным требованиям, можно использовать такие нейросетевые архитектуры, в которые было бы легко подставить разные базовые модели типа Трансформер для получения признаков, которые в дальнейшем используются в задаче — специфичных слоях. Далее такие многозадачные модели будут называться в статье энко-дер-агностичными моделями, модели же типа Трансформер, подставляемые в эн-кодер-агностичные модели, — базовыми моделями. Библиотека Transformers [10] позволяет использовать различные модели на основе архитектуры Трансформер, в том числе дистиллированные, для экономии вычислительных ресурсов и ускорения получения предсказаний моделей [5].

Модели из этой библиотеки могут использоваться в различных диалоговых системах и платформах. Среди таких платформ можно обратить внимание на [30, 32].

Наш вклад заключается в реализации многозадачных энкодер-агностичных моделей на основе архитектуры Трансформер в DeepPavlov, а также в исследовании многозадачного переноса знаний в этих моделях при обучении их нескольким русскоязычным разговорным задачам для русскоязычных базовых моделей.

2. ОБЗОР ЛИТЕРАТУРЫ

Исследователи давно изучают многозадачное обучение [4]. С момента появления нейронных сетей исследователи предлагали широкий спектр подходов к многозадачному обучению, включая генератовно-состязательные сети [26] и использование межъязыковых представлений слов [11]. Однако эти методы не получили дальнейшего развития, так как в настоящее время обработка естественного текста основана на архитектуре Трансформер. Тем не менее различные виды моделей типа Трансформер появляются довольно часто. Поэтому в этом обзоре основное внимание уделяется энкодер-агностичным архитектурам, в которые можно в качестве энкодера (то есть кодировщика) подставить различные модели типа Трансформер, так как их не требуется подстраивать под конкретные особенности многозадачных моделей.

В некоторых видах [25] многозадачных энкодер-агностичных нейросетевых архитектур каждый образец должен быть размечен или псевдоразмечен для каждой из рассматриваемых задач. Однако этой процедуре не хватает гибкости.

65

Одной из наиболее часто используемых энкодер-агностичных многозадачных архитектур на основе модели Трансформер является MT-DNN [7]. Эта архитектура получила достаточно высокие результаты на SNLI [9], SciTail [12] и GLUE [15]. Однако эта архитектура увеличивает вычислительные требования из-за наличия слоя стохастического внимания в задаче — специфичных слоях нейронной сети.

В статье [18] предложены различные энкодер-агностичные способы преобразования для работы с выводом BERT в многозадачной среде1. Одним из таких способов является добавление поверх модели дополнительного слоя BERT для каждой задачи, что увеличивает количество необходимых параметров для GLUE на 67 %, то есть требует существенных вычислительных ресурсов.

Другие энкодер-агностичные способы преобразования выхода модели BERT, предложенные в той же работе, включают низкоранговое преобразование (для каждой из задач своё), с самостоятельным вниманием, специфичным для задачи, поверх модели (или без него). В наших экспериментах с набором задач GLUE эти подходы показали себя не лучше описанного в следующем разделе способа.

В другой работе [14] был предложен новый способ извлечения дополнительных функций из вывода BERT — использование дешевых модулей-призраков, основанных на сверточных нейронных сетях. Несмотря на то что этот подход является энкодер-агностичным, использование внимания с модулями-призраками в низкоранговой трансформации не дало улучшений по сравнению с простыми плотными слоями в наших предварительных экспериментах. Это также относится к архитектуре [13] компьютерного зрения.

В статье [3] предложен подход к повышению точности любой многозадачной модели с помощью ансамбля. Мы полагаем, что этот подход может хорошо работать параллельно с нашей работой. Но мы не тестировали его, так как он очень требователен к вычислительным ресурсам.

В то же время перенос знаний в простых энкодер-агностичных нейросете-вых моделях на основе архитектуры Трансформер до сих пор полностью не изучен. Это особенно верно для разговорных задач на русском языке. Исключением являются исследования в статье [20], но они практически не касаются русскоязычных базовых моделей. Чтобы восполнить этот пробел, в данной статье изучался перенос знаний в многозадачных энкодер-агностичных нейросетевых моделях на основе архитектуры Трансформер, основанных на русскоязычных базовых моделях, на различных типах наборов данных для русскоязычных разговорных задач.

Проективное внимание, представленное в той же статье в качестве превосходного результата, не является энкодер-агностичным.

66

3. ОПИСАНИЕ МОДЕЛИ

Многозадачная модель, рассматриваемая в данной статье, основана на энкодерах (кодировщиках) типа Трансформер. Для проведения экспериментов использованы модели на основе BERT, поскольку они позволяют эффективно передавать обучение [28, 29]. Однако заметим, что такой же подход можно применить к любой модели на основе Трансформер.

Принцип работы данной модели заключается в следующем

1. Так же как и в оригинальной статье [2], мы возвращаем окончательные скрытые состояния для всех токенов и выходные данные слоя объединения BERT.

2. Мы применяем дропаут, по умолчанию равный 0,2, к выходу пулингового слоя. Для задач распознавания именованных сущностей и выбора из нескольких вариантов ответа на данном этапе происходят соответствующие преобразования формы выхода модели.

3. После этого этапа мы применяем линейный слой для каждой задачи с n нейронами на выходе, где n равно количеству классов задач для любой задачи, кроме регрессии и выбора из нескольких вариантов ответа, где n равно 12.

4. Затем мы применяем функцию потерь: категориальную кросс-энтропию для од-нометочной задачи классификации (где один пример может принадлежать только одной метке) или бинарную кросс-энтропию (где один пример может принадлежать сразу нескольким меткам). В данной работе мы рассматриваем только однометочную классификацию.

Многозадачная модель в этом режиме почти не требует дополнительных параметров и вычислительных затрат, кроме разве что задачи — специфичных линейных слоев, то есть она выделяется своей простотой. Гибкость этой модели позволяет использовать ее с различными типами базовых моделей, что выгодно отличает ее от [18].

Для таких моделей, как distilruBERT [5], эта многозадачная модель принимает всего на 0,1% больше параметров, чем однозадачные модели. Эти вычислительные затраты варьируются вокруг этого числа в зависимости от количества задач, количества классов и базовой модели.

Данная модель успешно интегрирована в библиотеку DeepPavlov [8]3 и успешно используется в диалоговой платформе DeepPavlov Dream [6, 17].

Реализация модели основана на классе AutoModel из HuggingFace4.

В задаче выбора из нескольких вариантов ответа мы получаем несколько примеров на одну метку, поэтому после изменения формы выхода модели количество реальных и предсказанных меток совпадает.

http://docs.deeppavlov.ai/en/master/features/models/multitask_bert.html

Поддерживаемые модели: https://huggingface.co/transformers/v4.11.3/model\_doc/auto.

html\#automodel

67

2

4. НАБОРЫ ДАННЫХ

Исследование многозадачной модели производилось на наборах данных, относящихся к разговорным задачам, которые могут быть использованы в диалоговых системах [27, 31]. Использовались наборы данных для пяти задач: классификации эмоций, классификации токсичности, классификации тональности, классификации интентов (намерений) и тематической классификации. Было принято решение использовать только русскоязычные наборы данных, так как данная статья посвящена исследованию русскоязычных базовых моделей. Информация о наборах данных представлена в таблице 1.

4.1. Классификация эмоций

Для задачи классификации эмоций на русском языке мы использовали набор данных CEDR [19]. Набор данных содержит примеры из разных социальных источников: блогов, микроблогов и новостей. Этот набор данных состоит из пяти классов — гнев, страх, радость, удивление и грусть. Однако образцы из этого набора данных могут принадлежать более чем одному классу или вообще не принадлежать ни одному классу. Например, текст Надо утопать на встрече не принадлежит ни одному классу.

Из этого набора данных мы выбрали только примеры, принадлежащие одному классу или не имеющие класса, пометив примеры без класса как нейтральные.

В работе [19] представлено только разбиение набора данных CEDR на тренировочные и тестовые в соотношении 80/20. В качестве валида-ционного набора данных мы выделили 12,5 % обучающих примеров из CEDR. Полученный набор данных содержит 6557 тренировочных примеров.

4.2. Классификация тональности

Для задачи классификации тональности мы использовали набор данных RuReviews [21]. Этот набор данных из трех классов состоит из 90 000 отзывов о товарах из категории «Женская одежда и аксессуары» крупного российского интернет-магазина. Поскольку эти отзывы уже содержат оценки пользователей, авторы этого набора данных классифицировали настроения в соответствии с оценками. Например, фраза Размер очень мал считалась отрицательной. Мы выбрали этот набор данных, потому что он находится в открытом доступе и имеет относительно большой размер, хотя и зависит от предметной области. Мы самостоятельно проводили разбиение набора данных на валидационные, тренировочные и тестовые, как в таблице 1.

68

4.3. Классификация токсичности

Для классификации токсичности мы использовали набор данных RuToxic [22]. Этот набор данных из двух классов был собран с Двача, российского анонимного форума-имиджборды. Этот набор данных изначально содержит 163 187 образцов. Среди них большинство образцов нетоксичны, например фраза Ещё бы, какой красавец. Но очевидно, что некоторые образцы токсичны, например: Дворника тоже надо уничтожить! Разделение данных на тренировочные, валидационные и тестовые мы проводили, как указано в той же таблице 1.

4.4. Классификация интентов и тематическая классификация

Мы использовали набор данных MASSIVE [16] для классификации интентов и тематической классификации.

Этот набор данных широко используется для классификации разговорных тем для русского языка [23].

Набор данных MASSIVE для английского языка содержит устные высказывания, предназначенные для голосового помощника, например: Píay rockplayíist. Все примеры в этом наборе данных были размечены и адаптированы одновременно для 51 языка, включая русский5. Русскоязычный набор данных содержит 11 514 тренировочных примеров, 2033 валидационных примера и 2974 тестовых примера. Каждый образец принадлежит к одному из 60 классов интентов.

Мы использовали тот же набор данных и для классификации тем, так как для каждого примера имеется как петка темы, так и метка интента. Каждый образец из этого набора данных принадлежит к одному из 18 тематических классов.

Таблица 1

Задачи классификации с соответствующими наборами данных для разговорной модели многозадачного обучения Набор данных Классов Трен. Валид. Тест

Эмоции CEDR [19] 6 6 557 864 1 862

Тональность RuReviews [21] 3 82 610 3 695 3 695

Токсичность RuToxic [22] 2 93 342 23 010 46 835

Интенты MASSIVE [16] 60 11 514 2 033 2 974

Темы MASSIVE 18 11 514 2 033 2 974

Здесь Трен./Валид./Тест. означают размер тренировочного, валидационного и тестового наборов данных соответственно.

Например, русский набор данных содержит образец «Расскажи новости России сегодня» вместо Tell me the b.b.c news.

69

5

Таблица 2

Точность/усредненная ^мера

(режим S означает однозадачность, режим M — многозадачность. Усреднено по 13 запускам для distiírubert-tiny и по трем запускам для остальных базовых моделей)

Модель Режим Среднее Эмоции 6,5k Тональность 82,6k Токсичность 93,3k Ин-тенты 11,5k Темы 11,5k Число бат-чей

distitrubert-tiny S 86,3/ 80,9/ 77,6/ 97,0/ 85,9/ 90,0/ 10 591

82,7 72,8 77,7 95,3 78,7 89,1

distitrubert-tiny M 85,3/ 79,4/ 77,0/ 96,6/ 83,8/ 89,7/ 10 937

81,5 72,3 77,0 94,6 74,8 88,7

distitrubert S 86,9/ 82,2/ 77,9/ 97,1/ 86,7/ 90,4/ 8 472

84,1 76,1 78,2 95,4 81,6 89,5

distitrubert M 86,3/ 81,0/ 77,7/ 96,9/ 85,2/ 90,7/ 8 540

82,6 74,6 77,7 95,0 75,9 89,9

rubert S 86,5/ 80,9/ 78,0/ 97,2/ 86,2/ 90,0/ 7 999

83,4 75,3 78,2 95,6 79,1 89,0

rubert M 86,2/ 80,5/ 77,6/ 96,8/ 85,3/ 90,5/ 8 113

82,6 73,8 77,6 95,0 76,9 89,8

70

5. ОПИСАНИЕ ЭКСПЕРИМЕНТОВ

Для всех экспериментов, описанных в этой статье, оптимизатором был Ad-amW [1] с бета-параметрами (0,9; 0,99), а начальная скорость обучения составляла 2e-5.

Мы использовали среднюю точность для всех задач в качестве метрики ранней остановки. Если эта метрика не улучшалась в течение двух эпох подряд относительно максимально достигнутой, скорость обучения нейронной сети уменьшалась в 2 раза. Если метрика не улучшалась в течение трех эпох подряд, обучение прекращалось.

Мы установили размер батча (порции данных, подаваемой для обучения) равным 160, чтобы ускорить вычисления. Для всех многозадачных экспериментов использовалось простое сэмплирование (вероятность выбора батча при обучении из набора данных была на каждом шаге пропорциональна размеру набора данных). Данный способ в наших предварительных экспериментах показал себя не хуже, чем аннеали-зованное сэмплирование (см. [18]) и однородное сэмплирование (одинаковая вероятность выбора батча для каждого из наборов данных безотносительно его размера), что и обусловило его выбор.

5.1. Однозадачные модели и многозадачные — полный набор данных

Мы проводили эксперименты с многозадачным обучением на трех различных базовых моделях на основе BERT: базовых моделях DeepPavlov/

rubert-base-cased-conversationaí [24] (rubert), DeepPavbv/distitrubert-base-cased-conversationaí (distiírubert) и DeepPavbv/distitrubert-tiny-cased-conversationat (distiír-ubert-tiny) [5]. Первая из этих базовых моделей имеет 12 предобученных слоев типа Трансформер, вторая — шесть, а третья — только два. Эти три базовые модели охватывают большое количество возможных случаев использования нейросетевых классификаторов для диалоговых моделей.

Мы также сравнили каждый такой эксперимент с экспериментами для аналогичных однозадачных моделей (со всеми теми же гиперпараметрами). Все такие эксперименты представлены в таблице 2. Эксперименты показывают, что качество многозадачных моделей приближается к качеству однозадачных моделей, при этом качество дистиллированных моделей является достаточно высоким.

Таблица 3

Точность/усредненная ^мера

(режим M означает многозадачное обучение, режим S — однозадачное. Доля означает долю использованных тренировочных данных. Базовая модель distiírubert-tiny.

Усреднено по 13 запускам)

Модель Режим, % Среднее Эмоции 6,5k Тональность 82^ Токсичность 93^ Интенты 11,5k Темы 11,5k Число бат-чей

S 20 82,6/77,3 75,8/62,9 75,5/75,6 96,2/94,1 79,4/69,6 86,1/84,6 2 719

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

M 20 80,6/75,1 72,7/62,7 73,3/73,4 95,7/93,3 75,8/62,1 85,6/83,9 4 666

S 15 81,5/75,3 73,4/56,7 75,2/75,4 96,1/93,9 77,5/66,6 85,5/83,8 2 354

M 15 79,7/74,1 71,2/60,7 73,0/73,2 95,5/93,0 74,4/61,0 84,7/82,9 4 876

S 10 73,7/63,9 68,2/42,5 74,8/74,9 95,9/93,5 64,0/49,9 65,4/58,6 1 567

M 10 78,1/71,5 69,4/56,9 72,5/72,6 95,2/92,6 70,3/54,4 83,1/80,9 3 524

S 9 72,7/62,4 64,1/35,4 74,5/74,6 95,8/93,4 63,7/50,3 65,1/58,5 1 364

M 9 77,6/70,9 68,3/55,7 72,3/72,4 95,1/92,5 69,4/53,8 82,7/80,4 3 581

S 8 72,0/61,7 63,6/34,1 74,4/74,4 95,8/93,3 57,8/43,7 68,6/63,2 1 313

M 8 76,9/70,1 68,1/55,4 72,1/72,2 95,0/92,3 67,6/50,9 82,0/79,6 3 623

S 7 69,7/59,3 63,5/33,9 74,2/74,2 95,6/93,1 52,1/38,2 63,4/57,1 1 152

M 7 76,4/69,0 67,0/52,3 72,0/72,1 95,0/92,2 66,6/49,7 81,4/78,9 2 829

S 5 62,8/52,1 63,3/34,2 73,6/73,6 95,4/92,8 29,0/15,7 52,9/44,2 851

M 5 74,5/66,4 66,3/51,4 71,6/71,8 94,7/91,7 60,8/41,3 79,0/75,7 2 389

S 3 60,2/49,1 61,2/32,0 72,9/73,0 95,0/92,1 25,8/13,3 46,0/35,2 558

M 3 71,8/62,6 64,6/46,2 71,1/71,2 94,2/91,1 54,5/34,5 74,8/69,9 1 610

5.2. Однозадачное и многозадачное обучение — эффект уменьшения тренировочных данных

Другой задачей было исследование того, как изменится качество моделей при уменьшении объема тренировочных данных. В частности, мы обучили модели с теми же гиперпараметрами, что и в предыдущей серии экспериментов, но сохранили лишь небольшую часть тренировочных данных, оставив нетронутыми тестовые и валидационные данные. В каждом таком эксперименте тренировочные данные из каждого процента включали в себя все тренировочные данные из более низких

71

Карпов Д. А., Коновалов В. П. Глубокое обучение в мультимодальных методах для распознавания эмоционального

для русского языка

процентов (то есть данные для 5 % включали в себя данные для 3 % и т. д.). В этом случае многозадачные метрики превосходят однозадачные только на малых тренировочных данных (вроде 2-5 % всего набора данных), и это преимущество испаряется даже на 10 % набора данных. Кроме того, при малом объеме данных результаты многозадачных моделей намного более стабильны (табл. 4). Для ускорения вычислений данные эксперименты проводились только для ёЫИгиЬегЫ'ту.

Подробные результаты этого эксперимента можно видеть в таблице 3 и на рисунке 1. Можно видеть, что, как правило, многозадачное обучение работает лучше однозадачного для задач с меньшим количеством примеров.

72

Рис. 1. Средняя точность для пяти диалоговых задач. Эффект уменьшения тренировочных данных. Усреднено по запускам

6. ОБСУЖДЕНИЕ

По результатам на разнообразном наборе русскоязычных разговорных задач можно сделать вывод, что многозадачные энкодер-агностичные модели, которые мы исследовали, практически соответствуют аналогичным однозадачных моделям (падение средней точности 0,3-1% на разговорных задачах).

Однако обучение многозадачной нейронной сети требовало больше шагов обучения, чем обучение соответствующих однозадачных моделей с теми же критериями ранней остановки. По нашему мнению, причина этого заключается в том, что обучение не прекращалось до тех пор, пока не перестали улучшаться метрики по задачам с относительно небольшими данными.

Таким образом, примеры из относительно крупных задач, метрики для которых уже достигли точек насыщения, встречались чаще, чем если

бы модель была однозадачной и обученной для любой из этих задач. При обучении на уменьшенной тренировочной выборке этот эффект более выражен, вероятно, потому, что разрыв между точками насыщения для задач с меньшими данными и задача с большими данными увеличивается.

Из пяти рассмотренных задач перенос знаний лучше всего работает для задачи тематической классификации — вероятно, благодаря переносу знаний с задачи классификации интентов.

Также можно видеть, что в случае обучения на небольших долях тренировочных данных (3-10 %) многозадачные модели превосходят однозадачные модели, для 3 и 5 % — превосходят существенно. Однако даже на 20 % для всех диалоговых задач это преимущество нивелируется.

Преимущество многозадачных моделей в точности, достигаемое при обучении моделей на небольших долях тренировочных данных, сильно зависит от размера набора данных для каждой задачи. Так, для задач токсичности и тональности, как самых крупных, однозадачные модели превосходят многозадачные на любых разбиениях данных. Но у задач классификации интентов и тем устойчивое превосходство и по точности, и по усредненной ^мере у однозадачных моделей возникает только на 15 % диалоговых примеров, а для задачи классификации эмоций — на 20 %.

Следовательно, чем меньше вспомогательный набор тренировочных данных (200-2000 примеров), тем сильнее выражено преимущество многозадачных моделей. Это преимущество показывает, что эффект переноса знаний наиболее заметен для малых наборов данных. При этом результаты многозадачных моделей для обучения на небольших долях тренировочных данных более стабильны, чем результаты однозадачных моделей (табл. 4).

Кроме того, разница между метриками для тематической классификации и для классификации интентов заставляет нас предположить, что преимущество многозадачного обучения зависит не только от количества образцов, но и от количества тренировочных примеров на класс. Однако проверка этой гипотезы требует дополнительных исследований.

Изучение того, верны ли эти выводы для различных типов задач, например распознавания именованных сущностей и ответов на вопросы, является также предметом будущих исследований. Проверка этих выводов на других языках или на других моделях на основе преобразователя (например, на языковых моделях на основе декодера типа ЭРТ) также является возможной перспективной областью исследований.

7. ЗАКЛЮЧЕНИЕ

Исследованные энкодер-агностичные многозадачные модели, основанные на предобу-ченных русскоязычных Трансформерах — базовых моделях, дают результаты, соответствующие или приближающиеся к уровню однозадачных моделей для большинства задач. При уменьшении тренировочной выборки в задачах до небольшого

73

Карпов Д. А., Коновалов В. П. Глубокое обучение в мультимодальных методах для распознавания эмоционального

для русского языка

размера (200-2000 примеров на задачу) многозадачные модели начинают превосходить однозадачные.

8. ПРИЛОЖЕНИЕ

Таблица 4

Точность/СКО точности

(режим М означает многозадачное обучение, режим Б однозадачное, Доля означает долю использованных тренировочных данных. Базовая модель distitruЬert-tiny. Усреднено по 13 запускам)

Режим Доля, % Среднее Эмоции 6,5k Тональность 82,6k Токсичность 93,3k Интенты 11,5k Темы 11,5k Число батчей

S 100 86,3/0,2 80,9/0,5 77,6/0,3 97,0/0,1 85,9/0,3 90,0/0,2 10 591

M 100 85,3/0,2 79,4/0,7 77,0/0,5 96,6/0,2 83,8/0,6 89,7/0,2 10 937

S 20 82,6/0,9 75,8/4,2 75,5/0,4 96,2/0,1 79,4/0,6 86,1/0,4 2 719

M 20 80,6/0,6 72,7/0,8 73,3/0,7 95,7/0,2 75,8/2,3 85,6/0,6 4 666

S 15 81,5/1,0 73,4/5,2 75,2/0,4 96,1/0,1 77,5/0,8 85,5/0,4 2 354

M 15 79,7/0,3 71,2/1,0 73,0/0,6 95,5/0,1 74,4/1,4 84,7/0,3 4 876

S 10 73,7/7,5 68,2/3,7 74,8/0,4 95,9/0,1 64,0/20,8 65,4/27,8 1 567

M 10 78,1/0,6 69,4/1,3 72,5/0,9 95,2/0,1 70,3/1,9 83,1/0,4 3 524

S 9 72,7/5,9 64,1/6,0 74,5/0,4 95,8/0,1 63,7/21,5 65,1/27,4 1 364

M 9 77,6/0,5 68,3/1,2 72,3/0,6 95,1/0,1 69,4/1,9 82,7/0,5 3 581

S 8 72,0/7,4 63,6/5,5 74,4/0,4 95,8/0,1 57,8/24,1 68,6/25,8 1 313

M 8 76,9/0,7 68,1/1,2 72,1/0,5 95,0/0,2 67,6/2,8 82,0/0,7 3 623

S 7 % 69,7/8,7 63,5/5,5 74,2/0,4 95,6/0,1 52,1/26,0 63,4/28,2 1 152

M 7 76,4/0,7 67,0/1,2 72,0/0,5 95,0/0,2 66,6/2,8 81,4/0,7 2 829

S 5 62,8/6,3 63,3/5,7 73,6/0,4 95,4/0,1 29,0/23,6 52,9/29,6 851

M 5 74,5/0,7 66,3/1,1 71,6/0,6 94,7/0,2 60,8/2,4 79,0/0,9 2 389

S 3 60,2/7,3 61,2/6,5 72,9/0,3 95,0/0,1 25,8/21,5 46,0/28,2 558

M 3 71,8/0,5 64,6/1,2 71,1/0,6 94,2/0,3 54,5/2,2 74,8/1,2 1 610

74

9. БЛАГОДАРНОСТИ

Авторы выражают благодарность Приступа Инне Григорьевне за стилистические правки.

Список использованных источников

1. Kingma, D. & Ba, J. Adam: A Method for Stochastic Optimization. 3rd International Conference On Learning Representations, ICLR 2015, San Diego, CA, USA, May 7-9, 2015, Conference Track Proceedings. (2015), http://arxiv.org/abs/1412.6980.

2. Devlin, J., Chang, M., Lee, K. & Toutanova, K. BERT: Pre-training of deep bidirectional transformers for language understanding. Proceedings Of The 2019 Conference Of The North American Chapter Of The Association For Computational Linguistics: Human Language Technologies, Volume 1 (Long And Short Papers). pp. 4171:4186 (2019), https://arxiv.org/abs/1810.04805.

3. Liu, X., He, P., Chen, W. & Gao, J. Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Understanding. CoRR. 1904.09482 (2019), http://arxiv.org/ abs/1904.09482.

4. Caruana, R. Multitask learning. Machine Learning. 28, 41-75 (1997)

5. Kolesnikova, A., Kuratov, Y., Konovalov, V. & Burtsev, M. Knowledge Distillation of Russian Language Models with Reduction of Vocabulary. (arXiv,2022), https://arxiv.org/abs/2205.02340.

6. Baymurzina, D., Kuznetsov, D., Evseev, D., Karpov, D. & Others DREAM technical report for the Alexa Prize 4. Alexa Prize Proceedings. (2021), https://assets.amazon.science/ae/d2/ d9dd78d244f69f6a8db4ce384ff2/dream-technical-report-for-the-alexa-prize-4.pdf

7. Liu, X., He, P., Chen, W. & Gao, J. Multi-Task Deep Neural Networks for Natural Language Understanding. Proceedings Of The 57th Annual Meeting Of The Association For Computational Linguistics. pp. 4487:4496 (2019), https://www.aclweb.org/anthology/P19-1441/

8. Burtsev, M., Seliverstov, A., Airapetyan, R., Arkhipov, M., Baymurzina, D., Bushkov, N., Gureenkova, O., Khakhulin, T., Kuratov, Y., Kuznetsov, D. & Konovalov, V. DeepPavlov: An Open Source Library for Conversational AI. NIPS. (2018), https://openreview.net/pdf?id=BJzyCF6Vn7

9. Bowman, S., Angeli, G., Potts, C. & Manning, C. A large annotated corpus for learning natural language inference. Proceedings Of The 2015 Conference On Empirical Methods In Natural Language Processing. pp. 632-642 (2015,9), https://aclanthology.org/D15-1075

10. Wolf, T., Debut, L., Sanh, V., Chaumond, J., Delangue, C., Moi, A., Cistac, P., Rault, T., Louf, R., Funtowicz, M., Davison, J., Shleifer, S., Platen, P., Ma, C., Jernite, Y., Plu, J., Xu, C., Le Scao, T.^Gugger, S., Drame, M., Lhoest, Q. & Rush, A. Transformers: State-of-the-Art Natural Language Processing. Proceedings Of The 2020 Conference On Empirical Methods In Natural Language Processing: System Demonstrations. pp. 38-45 (2020,10), https://aclanthology. org/2020.emnlp-demos.6

11. Konovalov, V. & Tumunbayarova, Z. Learning word embeddings for low resource languages: the case of Buryat. Komp'juternaja Lingvistika I Intellektual'nye Tehnologii. pp. 331-341 (2018), http://www.dialog-21.ru/media/4528/konovalovvp

12. Khot, T., Sabharwal, A. & Clark, P. SciTaiL: A Textual Entailment Dataset from Science Question Answering. Proceedings Of The AAAI Conference On Artificial Intelligence. 32 (2018), https://ojs. aaai.org/index.php/AAAI/article/view/12022

13. Ali, A., Touvron, H., Caron, M., Bojanowski, P., Douze, M., Joulin, A., Laptev, I., Neverova, N., Synnaeve, G., Verbeek, J. & Jegou, H. XCiT: Cross-Covariance Image Transformers. Advances In Neural Information Processing Systems. 34 pp. 20014-20027 (2021)

14. Huang, Z., Hou, L., Shang, L., Jiang, X., Chen, X. & Liu, Q. GhostBERT: Generate More Features with Cheap Operations for BERT. Proceedings Of The 59th Annual Meeting Of The Association For Computational Linguistics. pp. 6512-6523 (2021,1).

15. Wang, A., Singh, A., Michael, J., Hill, F., Levy, O. & Bowman, S. GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding. Proceedings Of The 2018 EMNLP Workshop BlackboxNLP: Analyzing And Interpreting Neural Networks For NLP. pp. 353:355 (2018), https://arxiv.org/abs/1804.07461

16. FitzGerald, J., Hench, C., Peris, C., Mackie, S., Rottmann, K., Sanchez, A., Nash, A., Urbach, L., Kakarala, V., Singh, R., Ranganath, S., Crist, L., Britan, M., Leeuwis, W., Tur, G. & Natarajan, P. MASSIVE: A 1M-Example Multilingual Natural Language Understanding Dataset with 51 Typologically-Diverse Languages. (2022).

17. Zharikova, D., Kornev, D., Ignatov, F., Talimanchuk, M., Evseev, D., Petukhova, K., Smilga, V., Karpov, D., Shishkina, Y., Kosenko, D. & Burtsev, M. DeepPavlov Dream: Platform for Building Generative AI Assistants. Proceedings Of The 61st Annual Meeting Of The Association For Computational

75

Linguistics (Volume 3: System Demonstrations). pp. 599-607 (2023,7), https:// aclanthology.org/2023.acl-demo.58

18. Asa Cooper Stickland, I. BERT and PALs: Projected Attention Layers for Efficient Adaptation in Multi-Task Learning. Proceedings Of The 36th International Conference On Machine Learning. 97 pp. 5986:5995 (2019), https://arxiv.org/abs/1902.02671

19. Sboev, A., Naumov, A. & Rybka, R. Data-Driven Model for Emotion Detection in Russian Texts. Procedia Computer Science. 190 pp. 637-642 (2021), https:// huggingface.co/datasets/cedr

20. Karpov, D. & Konovalov, V. Knowledge transfer in the multi-task encoder-agnostic transformer-based models. Computational Linguistics And Intellectual Technologies. (2023), https://www.dialog-21.ru/media/5902/ karpovdpluskonovalovv002.pdf

21. Smetanin, S. & Komarov, M. Sentiment Analysis of Product Reviews in Russian using Convolutional Neural Networks. 2019 IEEE 21st Conference On Business Informatics (CBI). 1 pp. 482-486 (2019,7), https://github.com/sismetanin/rureviews

22. Dementieva, D., Moskovskiy, D., Logacheva, V., Dale, D., Kozlova, O., Semenov, N. & Panchenko, A. Russian toxicity dataset from 2ch.hk. Dataset retrieved from https:// github.com/s-nlp/rudetoxifier. CoRR. abs/2105.09052 (2021), https://arxiv.org/ abs/2105.09052

23. Karpov, D. & Burtsev, M. Monolingual and cross-lingual knowledge transfer for topic classification. Artificial Intelligence And Natural Language. (2023), https:// arxiv.org/abs/2306.07797

24. Kuratov, Y. & Arkhipov, M. Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language. CoRR. abs/1905.07213 (2019), http://arxiv. org/abs/1905.07213

25. Karpov, D. & Burtsev, M. Data pseudo-labeling while adapting BERT for multitask approaches. Proceedings Of The International Conference "Dialogue 2021". (2021), https://www.dialog-21.ru/media/5519/karpovdplusburtsevm079.pdf

26. Wang, W., Feng, S., Gao, W., Wang, D. & Zhang, Y. Personalized Microblog Sentiment Classification via Adversarial Cross-lingual Multi-task Learning. Proceedings Of The 2018 Conference On Empirical Methods In Natural Language Processing. pp. 338-348 (2018), https://aclanthology.org/D18-1031

27. Konovalov, V., Melamud, O., Artstein, R. & Dagan, I. Collecting Better Training Data using Biased Agent Policies in Negotiation Dialogues. IVA, WOCHAT. (2016), http:// workshop.colips.org/wochat/@iva2016/documents/RP-270.pdf

28. Konovalov, V., Gulyaev, P., Sorokin, A., Kuratov, Y. & Burtsev, M. Exploring the Bert Cross-Lingual Transfer for Reading Comprehension. Dialogue-21. (2020), http:// www.dialog-21.ru/media/5100/konovalovvpplusetal-118.pdf

29. Chizhikova, A., Konovalov, V. & Burtsev, M. Multilingual Case-Insensitive Named Entity Recognition. Advances In Neural Computation, Machine Learning, And Cognitive Research VI. pp. 448-454 (2023).

30. Jiao, A. An Intelligent Chatbot System Based on Entity Extraction Using RASA NLU and Neural Network. Journal Of Physics: Conference Series. 1487, 012014 (2020,3), https://dx.doi.org/10.1088/1742-6596/1487/1Z012014

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

31. Konovalov, V., Artstein, R., Melamud, O. & Dagan, I. The Negochat Corpus of Humanagent Negotiation Dialogues. Proceedings Of The Tenth International Conference On Language Resources And Evaluation (LREC'16). pp. 3141-3145. 2016. https:// aclanthology.org/L16-150

32. Kuratov, Y., Yusupov, I., Baymurzina, D., Kuznetsov, D., Cherniavskii, D., Dmitrievskiy, A., Ermakova, E., Ignatov, F., Karpov, D. & Others DREAM technical report for the Alexa Prize 2019. Alexa Prize Proceedings. 2019. https://m.media-amazon.com/images/G/01/mo-bile-apps/dex/alexa/alexaprize/assets/challenge3/proceedings/Moscow-DREAM.pdf

76

ENCODER-AGNOSTIC TRANSFORMER MODELS: KNOWLEDGE TRANSFER FOR THE RUSSIAN LANGUAGE

Karpov D. A., graduate student of the 4th year of study, employee Neural Systems and Deep Learning Laboratories, dmitrii.a.karpov@phystech.edu

Konovalov V. P., Candidate of Technical Sciences, Coworker of the Laboratory of Neural Systems and Deep Learning, vasily.konovalov@phystech.edu

Moscow Institute of Physics and Technology, Dolgoprudny

The article investigates the transfer of knowledge in multi-task encoder-agnostic Transformer-based for conversational tasks. The article shows that the accuracy of these models approaches the accuracy of similar single-task models, but these multi-task models have only slightly more parameters than any of the similar single-tasking models (0.1 %). These results are valid for different types of transformers trained in Russian. At the same time, it is also shown that for the Russian language, on small amounts of data, such transformers, pretrained in Russian, show higher results in the multi-task mode than in the single-task mode.

• multi-task, transformer• neural, dialog • emotion • sentiment• toxic • knowledge transfer, cross-lingual knowl-edge transfer • multi-task knowledge transfer • conversational tasks • encoder-agnostic models

77

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Карпов Д. А., Коновалов В. П.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Карпов Д. А., Коновалов В. П.

ENCODER-AGNOSTIC TRANSFORMER MODELS: KNOWLEDGE TRANSFER FOR THE RUSSIAN LANGUAGE

Текст научной работы на тему «Энкодер-агностичные модели типа Трансформер: перенос знаний на разговорных задачах для русского языка»