Научная статья на тему 'НЕИРОСЕТЕВАЯ МОДЕЛЬ В ИНФОРМАЦИОННОМ ВОПРОСНО-ОТВЕТНОЙ СИСТЕМЕ'

НЕИРОСЕТЕВАЯ МОДЕЛЬ В ИНФОРМАЦИОННОМ ВОПРОСНО-ОТВЕТНОЙ СИСТЕМЕ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
0
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
машинное обучение / глубокое обучение / нейронные сети / обработка естественного языка / трансформер / machine learning / deep learning / neural networks / natural language processing / transformer

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Галеев Денис Талгатович, Титов Дмитрий Витальевич, Волков Денис Андреевич

Введение: многочисленные исследования говорят о том, что современные крупные нейронные сети, как правило, имеют избыточное количество параметров. Целью работы является обучение и оптимизация модели "ruBERT" для применения в информационных вопросно-ответных системах на русском языке. Научная новизна работы состоит в экспериментальном исследовании различных методов прореживания модели "ruBERT" при дообучении на наборе данных "SberQuAD". Методы: в настоящей работе используются методы обработки естественного языка, машинного обучения, прореживания искусственных нейронных сетей. Языковая модель была настроена и дообучена при помощи библиотек машинного обучения "Torch" и "Hugging Face". Для обучения нейронных сетей использовался набор данных "SberQuAD". Все эксперименты проводились при помощи сервисов "Google Colab" и "Google Cloud". Результаты: было обнаружено, что удаление ~54% от числа весов кодировщика модели "ruBERT" (~39 миллионов параметров) приводит к незначительным ухудшениям в результатах работы модели: с 67,31 до 63,28 для показателя EM и с 85,47 до 82,48 для показателя F-мера. Полученные результаты говорят о том, что модель "ruBERT" содержит избыточное количество весов для задачи "извлечение ответа на вопрос". Для эффективного применения данной модели в информационных вопросноответных системах на русском языке необходимо проводить её компрессию и оптимизацию. Оптимизированная модель может работать на менее мощном оборудовании без значимых потерь в производительности, что приводит к уменьшению затрат на поддержание информационных вопросно-ответных систем, в которых применяется данная модель.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Галеев Денис Талгатович, Титов Дмитрий Витальевич, Волков Денис Андреевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

NEURAL NETWORK MODEL IN THE INFORMATION QUESTION-ANSWERING SYSTEM

Introduction: Numerous studies suggest that modern large neural networks, as a rule, have an excessive number of parameters. The purpose of the work is to train and optimize the "ruBERT" model for use in information question-and-answer systems in Russian. The scientific novelty of the work consists in the experimental study of various methods of pruning the "ruBERT" model during fine tuning on the "SberQuAD" dataset. Methods: in this work, methods of natural language processing, machine learning, thinning of artificial neural networks are used. The language model was configured and retrained using the machine learning libraries "Torch" and "Huggingface". The data set "SberQuAD" was used to train neural networks. All experiments were carried out using the Google Colab and Google Cloud services. Results: it was found that the removal of ~54% of the number of weights of the encoder of the "ruBERT" model (~39 million parameters) leads to slight deterioration in the results of the model: from 67.31 to 63.28 for the EM indicator and from 85.47 to 82.48 for the F1 indicator. The results obtained indicate that the "ruBERT" model contains an excessive number of weights for the task "extracting the answer to the question". For effective application of this model in information question-answer systems in Russian, it is necessary to carry out its compression and optimization. The optimized model can work on less powerful equipment without significant performance losses, which leads to a reduction in the cost of maintaining information question-and-answer systems in which this model is used.

Текст научной работы на тему «НЕИРОСЕТЕВАЯ МОДЕЛЬ В ИНФОРМАЦИОННОМ ВОПРОСНО-ОТВЕТНОЙ СИСТЕМЕ»

doi: 10.36724/2409-5419-2024-16-1-39-46

V^ ___________ _ _____ ЪщГ

НЕИРОСЕТЕВАЯ МОДЕЛЬ В ИНФОРМАЦИОННОМ ВОПРОСНО-ОТВЕТНОЙ СИСТЕМЕ

ГАЛЕЕВ

Денис Талгатович1 ТИТОВ

Дмитрий Витальевич2 ВОЛКОВ

Денис Андреевич3

Сведения об авторах:

1 Аспирант, ФГБОУ ВО "Юго-Западный государственный университет" г. Курск, Россия, ra3wvw@mail.ru

АННОТАЦИЯ

Введение: многочисленные исследования говорят о том, что современные крупные нейронные сети, как правило, имеют избыточное количество параметров. Целью работы является обучение и оптимизация модели "ruBERT" для применения в информационных вопросно-ответных системах на русском языке. Научная новизна работы состоит в экспериментальном исследовании различных методов прореживания модели "ruBERT" при дообучении на наборе данных "SberQuAD". Методы: в настоящей работе используются методы обработки естественного языка, машинного обучения, прореживания искусственных нейронных сетей. Языковая модель была настроена и дообучена при помощи библиотек машинного обучения "Torch" и "Hugging Face". Для обучения нейронных сетей использовался набор данных "SberQuAD". Все эксперименты проводились при помощи сервисов "Google Colab" и "Google Cloud". Результаты: было обнаружено, что удаление ~54% от числа весов кодировщика модели "ruBERT" (~39 миллионов параметров) приводит к незначительным ухудшениям в результатах работы модели: с 67,31 до 63,28 для показателя EM и с 85,47 до 82,48 для показателя F-мера. Полученные результаты говорят о том, что модель "ruBERT" содержит избыточное количество весов для задачи "извлечение ответа на вопрос". Для эффективного применения данной модели в информационных вопросно-ответных системах на русском языке необходимо проводить её компрессию и оптимизацию. Оптимизированная модель может работать на менее мощном оборудовании без значимых потерь в производительности, что приводит к уменьшению затрат на поддержание информационных вопросно-ответных систем, в которых применяется данная модель.

2 Доктор технических наук, доцент Профессор кафедры вычислительной техники, ФГБОУ ВО "Юго-Западный государственный университет" г. Курск, Россия, titov.swsu@gmail.com

3 Кандидат технических наук, Доцент кафедры автоматизированных систем управления, ФГАОУ ВО "РГУ нефти и газа (НИУ) имени И.М. Губкина" г. Москва, Россия, denis@volkov.top

КЛЮЧЕВЫЕ СЛОВА: машинное обучение, глубокое обучение, нейронные сети, обработка естественного языка, трансформер

Для цитирования: Галеев Д.Т., Титов Д.В., Волков Д.А. Нейросетевая модель в информационной вопросно-ответной системе // Наукоемкие технологии в космических исследованиях Земли. 2024. Т. 16. № 1. С. 39-46. doi: 10.36724/24095419-2024-16-1-39-46

Введение

Понимание содержания текстов на естественном языке представляет собой одну из наиболее сложных задач для компьютерных систем. В частности, одной из задач, которая демонстрирует способность вычислительных машин понимать естественный язык, является задача поиска ответа на заданный вопрос в тексте. Под поиском ответа на вопрос подразумевается наличие текстового материала и связанного с ним вопроса, а задача системы заключается в выборе непрерывного фрагмента данного текста в качестве ответа на заданный вопрос. В англоязычной литературе эта конкретная задача известна как «Извлечение ответа на вопрос» (Extractive Question Answering). Использование вопросно-ответных систем находит большое применение в различных поисковых системах, базах знаний и многих других областях, где необходимо получать ответы на вопросы, содержавшиеся в документах на естественных языках.

Существует альтернативный подход к решению подобных задач, который предполагает генерацию ответа на вопрос. В этом случае применяются генеративные модели. В процессе решения такой задачи моделям предоставляется текстовый контент и связанный с ним вопрос, и на выходе генерируется текстовый ответ на заданный вопрос. Преимуществом генеративного подхода является то, что форма сгенерированного ответа может отличаться от представленной в тексте, что добавляет большей гибкости данному подходу. Однако модели, использующие генеративный подход, часто имеют намного более крупный размер и требуют больших вычислительных мощностей для расчёта результата.

Модели, описанные выше, могут быть применены в системах вопросно-ответной обработки с открытым доменом (open domain question answering, ODQA), где требуется нахождение ответов на вопросы в наборе неструктурированных текстовых документов на естественном языке. Этот подход существенно отличается от систем, работающих на основе структурированных данных и баз знаний (knowledge base question answering, KBQA), где информация организована в специальном формате и запросы преобразуются в структурированные запросы к базе данных.

Стандартная система ODQA обычно включает в себя два основных компонента: ранжировщик и читатель. Ранжиров-щик имеет задачу выбрать из базы документов наиболее вероятные документы, в которых, вероятно, содержится ответ на заданный вопрос. Читатель, в свою очередь, занимается извлечением информации и поиском ответа в отобранных документах.

Значительный прогресс в решении задачи поиска ответа на вопрос в тексте стал возможен благодаря использованию нейронных сетей с архитектурой, известной как «трансфор-мер» [1]. Применение данной архитектуры позволило повысить показатели во множестве задач по обработке естественного языка (например, в суммаризации текста, классификации текста и многих других). С другой стороны, после начала использования архитектуры улучшение результатов обработки стало происходить за счет увеличения размера нейронных сетей, т. е. без существенных изменений в сетевой архитектуре или объеме тренировочных данных. Это означает,

что многие исследователи предпочитают увеличивать количество параметров в сетях, а не предлагать различные архитектурные улучшения или совершенно новые архитектуры. В результате, с каждым годом сети улучшают свои результаты, но при этом их размеры тоже растут очень быстро. Если в 2018 году самая большая модель «BERT-Large» [2] имела 340 миллионов параметров, то в 2022 году самая большая модель «РаЬМ» [3] уже имеет 540 миллиардов параметров. Это свидетельствует о быстром росте объема и сложности моделей.

Масштабирование нейронных сетей может приводить к значительному улучшению результатов, которых эти сети способны достигать [4-5]. Однако этот процесс имеет ряд ограничений и проблем. Во-первых, увеличение размера нейронных сетей может привести к ухудшению пропускной способности сети. Особенно это актуально при использовании моделей в приложениях с большим количеством запросов, где очень важна скорость обработки данных. Во-вторых, масштабирование нейронных сетей сопровождается увеличением стоимости их разработки, обучения и поддержки. Кроме того, большие модели требуют больше данных для обучения, что также может увеличить расходы на сбор и разметку данных.

Для наглядности, рассмотрим пример сети GPT-3 [6], которая имеет огромное количество параметров - 175 миллиардов. В [7] подсчитано, что начальная стоимость обучения этой модели может достигать 4,6 миллиона долларов.

Согласно исследованиям [8-9], нейронные сети также часто страдают от проблемы недообучения, исходя из чего можно сделать вывод, что они не полностью раскрывают свой потенциал. Более того, при заметном увеличении размеров нейронных сетей необходимо увеличивать объем данных, используемых для их обучения, но в большинстве случаев этого не происходит. Это означает, что при более тщательном обучении и оптимизации даже небольшие нейронные сети могут показывать лучшие результаты по сравнению с недообучен-ными более крупными моделями. Это подтверждают исследования, проведенные в [10-17], где авторам удалось уменьшить размер нейронных сетей без существенного ухудшения их производительности и точности работы.

Современные нейронные сети, основанные на архитектуре «трансформер», демонстрируют потенциал для более эффективного анализа и понимания текста на естественном языке, но их размеры и ресурсозатратность могут ограничивать их широкое применение. Таким образом, создание информационных вопросно-ответных систем на основе оптимизированных и эффективных языковых моделей представляет собой актуальное исследовательское направление, которое может принести значительный вклад в развитие технологий обработки естественного языка.

1 Материалы и методы

1.1 Уменьшение размера модели

Существует несколько основных методов для уменьшения размера нейронных сетей.

Первым является «квантизация» (quantization). Этот метод включает в себя снижение численной точности весов модели. Например, изначально веса модели могут быть представлены

числами с плавающей точкой (float), а после квантизации они конвертируются в целочисленные значения (integer). Квантизацию можно применить к любой нейронной сети после завершения её обучения.

Второй - «дистилляция знаний» (knowledge distillation). Этот метод основан на обучении более крупной модели, называемой моделью-учителем, которая затем передает свои знания значительно меньшей модели-ученику. Модели-ученики могут несколько уступать в точности своим моделям-учителям, но при этом они обладают значительно меньшим объемом и работают быстрее.

Третий метод - «прореживание» (pruning). Этот метод включает в себя удаление ненужных весов и связей из нейронной сети. Удаляются веса, которые не вносят существенный вклад в результаты модели, и оставляются только наиболее важные веса. Этот метод позволяет существенно уменьшить размер модели без значительной потери в её точности.

Каждый из представленных методов обладает своими уникальными преимуществами и может быть применен в зависимости от конкретных задач и требований к модели. Для данного исследования были выбраны два эффективных вида прореживания, а именно «Movement pruning» [18] и «Block pruning» [19].

Первый вид прореживания, известный как «Movement pruning», основан на удалении весов, значения которых снижаются в процессе дообучения модели. Следовательно, этот метод может включать в себя удаление как параметров с большими значениями, так и с малыми. В рамках данного вида прореживания существуют две версии:

1) «Hard movement pruning»: в этой версии прореживания каждому параметру в нейронной сети присваивается коэффициент важности, который зависит как от значения самого параметра, так и от его изменчивости в процессе дообучения. После вычисления коэффициентов важности для всех параметров из нейронной сети удаляют только определенный процент параметров, задаваемый гиперпараметром, при условии, что они имеют высокие коэффициенты важности.

2) «Soft movement pruning»: В этой версии прореживания порог значений коэффициента важности определяется с использованием гиперпараметра. Если параметр нейронной сети имеет значение коэффициента важности ниже этого порога, то он удаляется.

Второй метод прореживания, известный как «Block pruning», представляет собой стратегию удаления весов нейронной сети блоками, а не поодиночке. Это обосновывается тем, что стандартные библиотеки для машинного обучения оперируют блоками чисел при выполнении матричных операций, и эти блоки обычно имеют фиксированные размеры, например, 128 на 128. Выполнение операций над такими блоками на аппаратном уровне более эффективно и быстро. Поэтому применение прореживания весов блоками позволяет избежать проблем, связанных с чрезмерной разреженностью структуры нейронной сети.

В рамках представленного исследования была использована комбинация обоих методов прореживания, что позволило достичь оптимального баланса между сокращением размеров модели и поддержанием её высокой производительности.

Помимо методов уменьшения размера моделей, существуют также различные оптимизации на аппаратном уровне, которые существенно способствуют увеличению скорости работы нейронных сетей. Одним из ярких примеров такой оптимизации является «Open Neural Network Exchange» (ONNX). ONNX представляет собой открытый формат, разработанный для представления нейронных сетей, и он определяет общий набор строительных блоков для моделей машинного обучения. Модели, представленные в формате ONNX, могут быть запущены в специальных средах выполнения ONNX. Эти среды выполнения включают множество оптимизаций на аппаратном уровне, что приводит к заметному увеличению скорости выполнения вычислений за счёт удаления и объединения избыточных операций.

1.2 Набор данных для обучения

Основным набором данных для тренировки вопросно-ответных систем на русском языке является SberQuAD [20]. Используемый экземпляр набора данных был взят из библиотеки «Hugging face» [21]. SberQuAD состоит из трёх частей: обучающего набора, валидационного набора и набора для проверки. Обучающий набор состоит 45328 числа документов. Каждый документ включает в себя следующие элементы: текст (поле «context»), вопрос (поле «question») и ответ (поле «answers»). Валидационный набор, в свою очередь, содержит 5036 документов, а набор для проверки включает 23936 документов. Однако следует отметить, что правильные ответы на вопросы из набора данных для проверки не доступны публично, что позволяет открыто сравнивать результаты работы моделей только на валидационном наборе.

Особое внимание заслуживают особенности вопросов в SberQuAD. Большинство вопросов начинаются с вопросительных слов или предлогов, и среди наиболее часто встречающихся начальных слов в вопросах можно выделить такие как «что», «в», «как», «кто», «какие», «когда», «какой», «где», «сколько» и «на». Эти начальные слова оказывают существенное влияние на формулировку вопросов и структуру запросов в данном наборе данных.

Средняя длина текстовых контекстов в SberQuAD составляет примерно 754 символа, что равно 102 токенам. Вопросы, в свою очередь, имеют в среднем 64 символа или 9 токенов, а ответы обычно составляют около 26 символов или 4 токена. Эти числовые характеристики указывают на важные особенности структуры данных, которые следует учитывать при процессе обучения и оценке моделей вопросно-ответных систем, использующих данный набор данных.

Для оценки качества работы моделей на данном наборе данных используются две ключевые метрики: «полное совпадение» (ЕМ) и F-мера.

1.3 Выбор модели для обучения

В качестве основной нейронной сети для процесса прореживания была выбрана модель «ruBERT» [22]. Эта модель показала одни из лучших результатов на наборе данных «SberQuAD». Следует также отметить, что используемая версия модели была обучена в компании «Сбер».

Исходная модель «ruBERT» обладает внушительным общим числом параметров, близким к177 миллионам. Из этого

общего числа —92 миллионов параметров, что составляет —52%, являются весами, отвечающими за процесс токениза-ции и преобразования токенов в векторные представления. Оставшиеся —85,2 миллиона параметров, что составляет —48%, применяются в кодировщике модели. Важно отметить, что именно эти параметры подвергаются обновлению и дообучению в ходе обучения модели для выполнения конкретной задачи.

2 Результаты и их обсуждение

2.1 Проведение экспериментов

В проведении всех экспериментов использовались сервисы «Google Colab» и «Google Cloud». Для этого был настроен доступ к вычислительным ресурсам, арендованным в «Google Cloud» через интерфейс «Google Colab». Компьютер, который служил основным вычислительным ресурсом, обладал следующими техническими характеристиками:

1) Количе во процессоров: 12. Это означает, что система оборудована 12 ядрами процессора, что способствует параллельной обработке задач и увеличению производительности.

2) Объём оперативной памяти: 85 Гб. Наличие большого объема оперативной памяти позволяет эффективно работать с большими объемами данных и выполнять сложные вычисления.

Таблица 1

Результаты экспериментов

№ эксп. Время обучения Число эпох Размер пакета Скорость обучения Коэффициент dropout Тип прореживания Коэффициент прореживания Размер блока Процент оставшихся весов ЕМ F-мера

1 58:18 6 32 1е-4 0,45 hard 0,5 32 0,83 59,74 80,50

2 09:41 1 32 1е-4 0,45 hard 0,5 32 0,83 62,58 81,85

3 31:46 1 4 Зе-5 0,45 hard 0,5 32 0,96 66,60 85,04

4 31:44 1 4 Зе-5 0,45 hard 0,8 32 0,93 65,34 84,13

5 1:36:47 3 4 Зе-5 0,01 hard 0,3 32 0,76 61,45 81,12

6 1:35:22 10 32 Зе-5 0,01 hard 0,5 32 0,83 61,93 81,44

7 49:07 3 32 Зе-5 0,01 soft 0,9 32 0,71 48,57 70,80

8 1:36:16 10 32 Зе-5 0,01 soft 0,7 32 0,92 56,57 77,89

9 2:16:00 10 32 Зе-5 0,01 soft 0,9 32 0,74 55,12 76,32

10 16:23 1 32 Зе-5 0,01 soft 0,99 32 0,62 13,88 36,87

11 59:05 5 32 Зе-5 0,01 soft 0,99 32 0,63 47,18 69,84

12 21:22 1 32 Зе-5 0,01 soft 0,99 1 0,66 5,24 18,84

13 3:53:16 5 4 Зе-5 0,01 soft 0,99 1 0,67 53,93 75,54

14 1:35:02 10 32 Зе-5 0,01 soft 0,8 32 0,69 59,21 80,05

15 3:08:08 20 32 Зе-5 0,01 soft 0,8 32 0,72 59,03 80,16

16 2:30:42 5 4 Зе-5 0,05 soft 0,8 32 0,72 61,04 81,02

17 3:17:59 5 4 Зе-5 0,05 soft 0,8 32 0,73 61,00 81,01

18 1:00:21 2 4 Зе-5 0,05 soft 0,8 32 0,70 59,25 79,65

19 1:00:41 2 4 Зе-5 0,05 soft 0,7 32 0,73 62,05 81,57

20 1:00:57 2 4 Зе-5 0,05 soft 0,6 32 0,78 63,28 82,48

21 5:28:40 10 4 Зе-5 0,05 soft 0,99 16 0,69 55,57 76,93

22 1:00:09 2 4 Зе-5 0,05 soft 0,9 16 0,67 55,22 76,17

23 1:00:48 2 4 Зе-5 0,05 soft 0,5 32 0,84 64,57 83,51

24 30:32 1 4 Зе-5 0,05 soft 0,5 32 0,84 63,36 82,40

25 2:03:06 4 4 Зе-5 0,05 soft 0,5 32 0,83 63,46 82,99

26 1:00:18 2 4 Зе-5 0,05 soft 0,4 32 0,90 64,11 83,40

27 1:19:12 2 4 Зе-5 0,05 soft 0,7 32 0,73 61,59 81,53

3) Модель графического процессора: NVIDIA А100. Графический процессор NVIDIA А100 известен своей мощностью и высокой производительностью, особенно в области глубокого обучения и вычислений с использованием искусственного интеллекта.

4) Объём памяти графического процессора: 40 Гб. Большой объем памяти графического процессора позволяет эффективно работать с крупными моделями глубокого обучения и выполнением вычислительно сложных задач.

2.2 Обсуждение результатов экспериментов

В экспериментах изменялись следующие гиперпараметры:

1) Число эпох обучения

2) Размер пакета (batch size)

3) Коэффициент скорости обучения

4) Коэффициент «dropout»

5) Режим прореживания («Hard movement pruning» или «Soft movement pruning»)

6) Коэффициент прореживания (общий процент весов для «Hard movement pruning» и пороговое значение для «Soit movement pruning»)

7) Размер блока прореживания

Результаты экспериментов представлены в таблице 1.

В качестве достаточного варианта для вопросно-ответной системы было решено использовать модель, в которой было удалено 22% от общего объёма весов (~39 миллионов параметров), что является —54% от всех весов части кодировщика. У данной модели показатели ухудшились незначительно с 67,31 до 63,28 для ЕМ и с 85,47 до 82,48 для F-мера. На рисунке 1 представлены некоторые прореженные матрицы весов из 11 слоя кодировщика полученной модели.

Также были получены модели, которые имели лучшие показатели, но имели большее количество оставшихся весов.

Применение «Block soft movement pruning» с порогом равным 0,6 в проводимых экспериментах позволило получить модель с более оптимальным соотношением прореженность-точность. Высокие значения параметра «размер блока», средние значения для «количества эпох» и «размера пакета» также положительно влияли на результат.

Параметры «скорость обучения» и «коэффициент dropout» во время экспериментов было решено менять незначительно, поэтому их влияния на прореживание не столь существенно как влияние других параметров.

Рис. 1. Демонстрация структуры матриц весов 11 слоя модели «шВЕЯТ» после прореживания (жёлтым цветом отмечены ненулевые значения)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В контексте сравнительного анализа результатов текущего исследования с предшествующими экспериментами, осуществлёнными в области дистилляции знаний и квантизации для модели гиВЕЯТ, необходимо провести сопоставление полученной модели с моделями, описанными в работах [17, 23]. В упомянутых исследованиях была выполнена передача знаний из объёмной модели «шВЕЯТ» в значительно меньшую модель «Geotrend/distilbert-base-ru-cased».

Далее, модель была оптимизирована в среде выполнения ОМЫХ, где к ней применялась квантизация. Модель, использованная для дистилляции знаний, имела размер 205,62 Мб [17], и после оптимизации и квантизации её размер сокра-тилсядо 84,15 Мб [23].

В рамках текущего исследования модель «шВЕЯТ», размер которой составлял 676,29 Мб, была сокращена до 527,5 Мб при помощи прореживания.

Сравнивая размеры моделей, можно заметить, что процесс прореживания, хотя и эффективен в уменьшении размера модели, оказывается менее результативным по сравнению с дистилляцией знаний, и ещё менее эффективным по сравнению с комбинацией дистилляции и квантизации. Отсутствие инструментов для использования прореженных моделей в среде выполнения ОМЫХ оставляет вопрос об эффективности сочетания прореживания и квантизации открытым. Несмотря на преимущества дистилляции в контексте сокращения размера модели, она влечёт за собой более значительное снижение ключевых показателей эффективности, таких как Р-мера и ЕМ. Конкретно, Р-мера снизилась с 82,48 до 78,42, а ЕМ - с 63,28 до 58,57. Следовательно, дистилляция знаний, обеспечивая более глубокую оптимизацию размера модели, одновременно приводит к ухудшению её функциональных характеристик. Добавление квантизации к дистиллированной модели ещё сильнее ухудшает её характеристики: Р-мера снижается с 78,42 до 72,62, а ЕМ - с 58,57 до 52,28.

Исходя из этого, модель, полученная в результате дистилляции (или одновременно дистилляции и квантизации), может быть предпочтительна для использования в системах, где важно время отклика, и где уровень точности, предоставляемый моделью, является приемлемым. В то же время, прореживание модели можно рассматривать как более сбалансированную процедуру оптимизации, которая обеспечивает сокращение размера модели, при этом сохраняя её точность на уровне, сравнимом с исходной моделью.

Квантизация не требует дополнительного обучения моделей. Данный факт значительно выделяет её в сравнении с рассмотренными методами дистилляции знаний и прореживания, поскольку можно получить уменьшенную модель значительно быстрее и без существенных ухудшений в качестве её работы, а в некоторых случаях вообще без них.

Заключение

В рамках исследования было установлено, что в модели «шВЕЯТ» возможно существенное сокращение числа весов. Удаление примерно 22% от общего их числа (39 миллионов) не оказывает сильного влияния на точность результатов в задачах поиска ответа на вопрос в тексте на русском языке. Было установлено, что 54% внутренних параметров кодировщика могут быть исключены без значительного снижения эффективности работы модели. Такие выводы предполагают, что изначально в «шВЕЯТ» присутствует избыточное количество параметров, особенно в контексте вопросно-ответных задач на русском языке.

В ходе исследования было выявлено, что метод прореживания оказывается менее эффективным в сравнении с дистилляцией знаний и квантизацией в отношении уменьшения размера нейросетей. Учитывая существующее многообразие крупных языковых моделей, доступных общественности, целесообразным является исследование возможности создания ансамбля таких моделей.

Использование дистилляции для полученного ансамбля может способствовать получению моделей со значительно

уменьшенным числом параметров, сохраняя при этом высокую производительность.

Однако существует потенциал для будущих исследований, направленных на комбинирование различных методов сокращения размеров нейронных сетей. Такой подход может привести к более значительному уменьшению размеров моделей. Совместное использование нескольких методов сокращения размера моделей может привести к значительному снижению точности их результатов.

Литература

1. Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A.N., Kaiser L., Polosukhin I. Attention is all you need II Advances in Neural Information Processing Systems. 2017. C. 5999-6009.

2. Devlin J., ChangM.W., Lee K., Toutanova K. BERT: Pre-training of deep bidirectional transformers for language understanding //NAACL HLT 2019 -2019 Conference ofthe North American Chapter of the Association for Computational Linguistics: Human Language Technologies - Proceedings of the Conference, (Association for Computational Linguistics (ACL)). 2019. C. 4171-4186.

3. Chowdhery A., Narang S., Devlin J., BosmaM., Mishra G., Roberts

A., Barham P., Chung H.W., Sutton C., Gehrmann S., Schuh P., Shi K., Tsvyashchenko S., Maynez, J., Rao A., Barnes P., Tay Y., Shazeer N.M., Prabhakaran V., Reif E., Du, N., Hutchinson B.C., Pope R., Bradbury J., Austin J., IsardM., Gur-Ari G., Yin P., Duke T., Levskaya A., Ghemawat S., Dev S., Michalewski H., García X., Misra V., Robinson K., Fedus L., Zhou D., Ippolito D., Luan D., Lim H., Zoph B., Spiridonov A., Sepassi R., Dohan D., Agrawal S., OmernickM., Dai, A.M., Pillai T.S., PellatM., Lewkowycz A., Moreira E., Child R., Polozov O., Lee K., Zhou Z., Wang X., Saeta B., Díaz M., Firat O., Catasta M., Wei J., Meier-Hellstern K.S., EckD., Dean J., Petrov S., Fiedel N. PaLM: Scaling Language Modeling with Pathways II ArXiv. URL: https://arxiv.org/abs/2204.02311v5 (дата обращения 01.02.2023).

4. Sutton R. The Bitter Lesson//URL: http: //incompleteideas.net/In-cldeas/BitterLesson.html (дата обращения 01.02.2023).

5. Kaplan J., McCandlish S., Henighan T.J., Brown T.B., ChessB., Child R., Gray S., Radford A., Wu J., & Amodei D. Scaling Laws for Neural Language Models II ArXiv. URL: https://arxiv.org/pdf/2001.08361.pdf (дата обращения 01.02.2023).

6. Brown T.B., Mann B., Ryder N, Subbiah M, Kaplan J., Dhariwal P., Neelakantan A., Shyam P., Sastry G., Askell A., Agarwal S., HerbertVoss A., Krueger G., Henighan T.J., Child R., Ramesh, A., Ziegler D.M., Wu J., Winter C., Hesse C, Chen M., Sigler E., Litwin M., Gray S., Chess

B., Clark J., Berner C., McCandlish S., Radford A., Sutskever I., Amodei D. Language Models are Few-Shot Learners II Advances in Neural Information Processing Systems. T. 33. 2020. C. 1877-1901.

7. Li C. OpenAI's GPT-3 Language Model: A Technical Overview II URL: https://lambdalabs.com/blog/demystifying-gpt-3 (дата обращения 01.02.2023).

8. Hoffmann J., Borgeaud S., Mensch A., Buchatskaya E., Cai T., Rutherford E., Casas D.D., Hendricks L.A., Welbl J., Clark A., Hennigan T., Noland E., Millican K., Driessche G. V., Damoc B., Guy A., Osindero S., Simonyan K., Elsen E., Rae J.W., Vinyals O., Sifre L. Training Compute-Optimal Large Language Models II ArXiv. URL: https://arxiv.org/abs/2203.15556vl (дата обращения 01.02.2023).

9. YangkG., Hu E.J., Babuschkin I., Sidor S., Liu X., Farhi D., Ryder N., Pachocki J., Chen W., Gao J. Tensor Programs V: Tuning Large Neu-

ral Networks via Zero-Shot Hyperparameter Transfer II Advances in Neural Information Processing Systems. 2021. C. 17084-17097.

10. Voita E., Talbot D., Moi eev F., Sennrich R., Titov I. Analyzing multi-head self-attention: Specialized heads do the heavy lifting, the rest can be pruned II ACL 2019 - 57th Annual Meeting ofthe Association for Computational Linguistics, Proceedings of the Conference. 2020. C. 5797-5808.

W.Michel P., Levy O., Neubig G. Are sixteen heads really better than one? II Advances in Neural Information Processing Systems, (Neural in-formationprocessing systems foundation). 2019.

12. Kovaleva O., Romanov A., Rogers A., Rumshisk A. Revealing the dark secrets ofBert IIEMNLP-IJCNLP 2019-2019 Conference on Empirical Methods in Natural Language Processing and 9th International Joint Conference on Natural Language Processing, Proceedings of the Conference. C. 4365-4374.

13. Fan A., Grave E., Joulin A. Reducing transformer depth on demand with structured dropout II 8th International Conference on Learning Representations, ICLR. 2020.

14. Dalvi F., Sajjad H., Durrani N., and Belinkov Y. Analyzing redundancy in pretrained transformer models IIEMNLP 2020 - 2020 Conference on Empirical Methods in Natural Language Processing, Proceedings ofthe Conference. 2020. C. 4908-4926.

15. Wu X., Yao Z., Zhang M., Li C., He Y. Extreme Compression for Pre-trained Transformers Made Simple and Efficient II ArXiv. URL: https://arxiv.org/abs/2206.01859 (дата обращения 01.02.2023).

16. Колесникова А., Куратов Ю., Коновалов В., Бурцев М. Дистилляция знаний для русскоязычных моделей с уменьшением словаря II Вычислительная лингвистика и интеллектуальные технологии: материалы международной конференции «Диалог 2022». Москва, 2022. С. 295-310.

17. ГалеевД.Т., ПанищевB.C. Экспериментальное исследование языковых моделей «трансформер» в задаче нахождения ответа на вопрос в русскоязычном тексте II Информатика и автоматизация. 2022.Т.21.№З.С. 521-542.

18. Sanh V., Wolf T., Rush A. Movement pruning: Adaptive sparsity by fine-tuning II Advances in Neural Information Processing Systems 33. 2020. C. 20378-20389.

19. Lagunas F., Charlaix E., Sanh V., Rush A. Block Pruning for Faster Transformers II Proceedings ofthe 2021 Conference on Empirical Methods in Natural Language Processing. 2021. C.10619-10629.

20. Efmov P., Chertok A., Boytsov L., Braslavski P. SberQuAD -Russian Reading Comprehension Dataset: Description and Analysis. In Lecture Notes II Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2020. C. 3-15.

21. Wolf T., Debut L., Sanh V., Chaumond J., Delangue C., Moi A., Cistac P., Rault T., Louf R., FuntowiczM., Davison J., Shleifer S., Platen P., Ma C., Jernite Y., Plu J., Xu C., Scao T., Gugger S., Drame M., Lhoest Q., Rush A. Transformers: State-of-the-Art Natural Language Processing II Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. 2020. C. 38-45.

22. Куратов Ю., Архипов M. Адаптация глубоких двунаправленных многоязычных моделей на основе архитектуры «transformer» для русского языка II Вычислительная лингвистика и интеллектуальные технологии: материалы международной конференции «Диалог 2019». Москва, 2019. С. 333-339.

23. Галеев Д.Т., Панищев B.C., Титов Д.В. Увеличение производительности языковых моделей «трансформер» в информационных вопросно-ответных системах II Известия Юго-Западного государственного университета. 2022. Т. 26. №2. С. 159-171.

NEURAL NETWORK MODEL IN THE INFORMATION QUESTION-ANSWERING SYSTEM

DENIS T. GALEEV

Kursk, Russia, ra3wvw@mail.ru

DMITRY V. TITOV

Kursk, Russia, titov.swsu@gmail.com

DENIS A. VOLKOV

Moscow, Russia, denis@volkov.top

KEYWORDS: machine learning, deep learning, neural networks, natural language processing,transformer.

ABSTRACT

Introduction: Numerous studies suggest that modern large neural networks, as a rule, have an excessive number of parameters. The purpose of the work is to train and optimize the "ruBERT" model for use in information question-and-answer systems in Russian. The scientific novelty of the work consists in the experimental study of various methods of pruning the "ruBERT" model during fine tuning on the "SberQuAD" dataset. Methods: in this work, methods of natural language processing, machine learning, thinning of artificial neural networks are used. The language model was configured and retrained using the machine learning libraries "Torch" and "Huggingface". The data set "SberQuAD" was used to train neural networks. All experiments were carried out using the Google Colab and Google Cloud

services. Results: it was found that the removal of ~54% of the number of weights of the encoder of the "ruBERT" model (~39 million parameters) leads to slight deterioration in the results of the model: from 67.31 to 63.28 for the EM indicator and from 85.47 to 82.48 for the F1 indicator. The results obtained indicate that the "ruBERT" model contains an excessive number of weights for the task "extracting the answer to the question". For effective application of this model in information question-answer systems in Russian, it is necessary to carry out its compression and optimization. The optimized model can work on less powerful equipment without significant performance losses, which leads to a reduction in the cost of maintaining information ques-tion-and-answer systems in which this model is used.

REFERENCES

1. Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A.N., Kaiser L., Polosukhin I. Attention is all you need. Advances in Neural Information Processing Systems. 2017, pp. 5999-6009.

2. Devlin J., Chang M.W., Lee K., Toutanova K. BERT: Pre-train-ing of deep bidirectional transformers for language understanding. NAACL HLT2019 - 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies - Proceedings of the Conference, (Association for Computational Linguistics (ACL)). 2019. pp. 4171-4186.

3. Chowdhery A., Narang S., Devlin J., Bosma M., Mishra G., Roberts A., Barham P., Chung H.W., Sutton C., Gehrmann S., Schuh P., Shi K., Tsvyashchenko S., Maynez, J., Rao A., Barnes P., Tay Y., Shazeer N.M., Prabhakaran V., Reif E., Du, N., Hutchinson B.C., Pope R., Bradbury J., Austin J., Isard M., Gur-Ari G., Yin P., Duke T., Levskaya A., Ghemawat S., Dev S., Michalewski H., Garc?a X., Misra V., Robinson K., Fedus L., Zhou D., Ippolito D., Luan D., Lim H., Zoph B., Spiridonov A., Sepassi R., Dohan D., Agrawal S., Omernick M., Dai, A.M., Pillai T.S., Pellat M., Lewkowycz A., Moreira E., Child R., Polozov O., Lee K., Zhou Z., Wang X., Saeta B., D?az M., Firat O., Catasta M., Wei J., Meier-Hellstern K.S., Eck D., Dean J., Petrov S., Fiedel N. PaLM: Scaling Language Modeling with Pathways. ArXiv. URL: https://arxiv.org/abs/2204.02311v5 (date of access 01.02.2023).

4. Sutton R. The Bitter Lesson. URL: http: //incompleteideas.net/IncIdeas/BitterLesson.html (date of access 01.02.2023).

5. Kaplan J., McCandlish S., Henighan T.J., Brown T.B., Chess B., Child R., Gray S., Radford A., Wu J., & Amodei D. Scaling Laws for Neural Language Models. ArXiv. URL: https://arxiv.org/pdf/2001.08361.pdf (date of access 01.02.2023).

6. Brown T.B., Mann B., Ryder N., Subbiah M., Kaplan J., Dhariwal P., Neelakantan A., Shyam P., Sastry G., Askell A., Agarwal S., Herbert-Voss A., Krueger G., Henighan T.J., Child R., Ramesh, A., Ziegler D.M., Wu J., Winter C., Hesse C., Chen M., Sigler E., Litwin M., Gray S., Chess B., Clark J., Berner C., McCandlish S., Radford A., Sutskever I., Amodei D. Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems. Vol. 33. 2020, pp. 1877-1901.

7. Li C. OpenAI's GPT-3 Language Model: A Technical Overview. URL: https://lambdalabs.com/blog/demystifying-gpt-3 (date of access 01.02.2023).

8. Hoffmann J., Borgeaud S., Mensch A., Buchatskaya E., Cai T., Rutherford E., Casas D.D., Hendricks L.A., Welbl J., Clark A., Hennigan T., Noland E., Millican K., Driessche G.V., Damoc B., Guy A., Osindero S., Simonyan K., Elsen E., Rae J.W., Vinyals O., Sifre L. Training Compute-Optimal Large Language Models. ArXiv. URL: https://arxiv.org/abs/2203.15556v1 (date of access 01.02.2023).

9. YangkG., Hu E.J., Babuschkin I., Sidor S., Liu X., Farhi D., Ryder N., Pachocki J., Chen W., Gao J. Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer Advances in Neural Information Processing Systems. 2021, pp. 17084-17097.

10. Voita E., Talbot D., Moiseev F., Sennrich R., Titov I. Analyzing multi-head self-attention: Specialized heads do the heavy lifting, the rest can be pruned. ACL 2019 - 57th Annual Meeting of the Association for Computational Linguistics, Proceedings of the Conference. 2020, pp. 5797-5808.

11. Michel P., Levy O., Neubig G. Are sixteen heads really better than one?. Advances in Neural Information Processing Systems, (Neural information processing systems foundation). 2019.

12. Kovaleva O., Romanov A., Rogers A., Rumshisk A. Revealing the dark secrets of Bert. EMNLP-IJCNLP 2019 - 2019 Conference

on Empirical Methods in Natural Language Processing and 9th International Joint Conference on Natural Language Processing, Proceedings of the Conference, pp. 4365-4374.

13. Fan A., Grave E., Joulin A. Reducing transformer depth on demand with structured dropout, 8th International Conference on Learning Representations, ICLR. 2020.

14. Dalvi F., Sajjad H., Durrani N., and Belinkov Y. Analyzing redundancy in pretrained transformer models. EMNLP 2020 - 2020 Conference on Empirical Methods in Natural Language Processing, Proceedings of the Conference. 2020, pp. 4908-4926.

15. Wu X., Yao Z., Zhang M., Li C., He Y. Extreme Compression for Pre-trained Transformers Made Simple and Efficient. ArXiv. URL: https://arxiv.org/abs/2206.01859 (date of access 01.02.2023).

16. Kolesnikova A., Kuratov Y., Konovalov V., Burtsev M. Knowledge Distillation of Russian Language Models with Reduction of Vocabulary. Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference "Dialogue 2022". Moscow, 2022, pp. 295-310.

17. Galeev D.T., Panishchev V.S. Experimental Study of Language Models of "Transformer" in the Problem of Finding the Answer to a Question in a Russian-Language Text. Informatics and automation. 2022. Vol. 21. No 3, pp. 521-542. (In Rus)

18. Sanh V., Wolf T., Rush A. Movement pruning: Adaptive spar-sity by fine-tuning. Advances in Neural Information Processing Systems, no.33. 2020, pp. 20378-20389.

19. Lagunas F., Charlaix E., Sanh V., Rush A. Block Pruning For Faster Transformers. Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. 2021, pp. 10619-10629.

20. Efimov P., Chertok A., Boytsov L., Braslavski P. SberQuAD -Russian Reading Comprehension Dataset: Description and Analysis. In Lecture Notes. Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). 2020, pp. 3-15.

21. Wolf T., Debut L., Sanh V., Chaumond J., Delangue C., Moi A., Cistac P., Rault T., Louf R., Funtowicz M., Davison J., Shleifer S., Platen P., Ma C., Jernite Y., Plu J., Xu C., Scao T, Gugger S., Drame M., Lhoest Q., Rush A. Transformers: State-of-the-Art Natural Language Processing. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. 2020, pp. 38-45.

22. Kuratov, Y., Arkhipov, M. Adaptation of deep bidirectional multilingual transformers for Russian language. Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference "Dialogue 2019". Moscow, 2019, pp. 333339.

23. Galeev D.T., Panishchev V.S., Titov D.V. Increased Performance of Transformers Language Models in Information Question and Response Systems. Proceedings of the Southwest State University. 2022. Vol. 26. No 2, pp. 159-171. (In Rus)

INFORMATION ABOUT AUTHORS:

Denis T. Galeev, Postgraduate student, Southwest State University, Kursk, Russia

Dmitry V. Titov, Dr. Sc. (Tech.), Professor, Department of Computer Engineering, Southwest State University, Kursk, Russia

Denis A. Volkov, PhD (Tech), Assistant professor, Department of Automated Control Systems, National University of Oil and Gas "Gubkin

University", Moscow, Russia

For citation: Galeev T.D., Titov D.V., Volkov D.A. Neural network model in the information question-answering system. H&ES Reserch. 2024. Vol. 16. No 1. P. 39-46. doi: 10.36724/2409-5419-2024-16-1-39-46 (In Rus)

i Надоели баннеры? Вы всегда можете отключить рекламу.