Научная статья на тему 'МЕТОДИКА ОБУЧЕНИЯ НЕЙРОННОЙ СЕТИ НА ОСНОВЕ АРХИТЕКТУРЫ SKIP-GRAM'

МЕТОДИКА ОБУЧЕНИЯ НЕЙРОННОЙ СЕТИ НА ОСНОВЕ АРХИТЕКТУРЫ SKIP-GRAM Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
213
40
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
TEXT MINING / АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТА / КОНТЕНТ-АНАЛИЗ / WORD2VEC / НЕЙРОННЫЕ СЕТИ / WORD EMBEDDINGS / ЯЗЫКОВОЕ МОДЕЛИРОВАНИЕ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бородащенко Антон Юрьевич, Субботенко Ольга Алексеевна, Яловегин Сергей Владимирович

Предложена методика обучения нейронной сети на основе архитектуры word2vec, для получения векторного представления высокой точности для слов русского языка.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

NEURAL NETWORK TRAINING METHODOLOGY BASED ON SKLP-GRAM ARCHITECTURE

A method of neural network training based on the word2vec architecture is proposed to obtain a vector representation of high-precision Russian words.

Текст научной работы на тему «МЕТОДИКА ОБУЧЕНИЯ НЕЙРОННОЙ СЕТИ НА ОСНОВЕ АРХИТЕКТУРЫ SKIP-GRAM»

tures of palm stearin and soybean oil, depending on composition of fatty acids and temperature, gross regional product of the Irkutsk region, performance indicators of the functioning of the Krasnoyarsk railway, freight turnover of railway transport according to time series data, passage of large-tonnage containers transported on non-traction rolling stock in export-import traffic in the direction of the Russian Federation - China. An algorithmic method for minimizing the average and maximum relative errors of approximation of a linear regression equation is proposed, which reduces to solving linear programming problems. A numerical example is considered.

Key words: linear regression model, average and maximum relative approximation errors, linear programming problem, least squares and modulus methods, anti-robust parameter estimation.

Noskov Sergey Ivanovich, doctor of technical sciences, professor, sergey.noskov. 57@mail. ru, Russia, Irkutsk, Irkutsk State Railway University

УДК 004.912

DOI: 10.24412/2071-6168-2023-1-343-355

МЕТОДИКА ОБУЧЕНИЯ НЕЙРОННОЙ СЕТИ НА ОСНОВЕ АРХИТЕКТУРЫ SKIP-GRAM

А.Ю. Бородащенко, О.А. Субботенко, С.В. Яловегин

Предложена методика обучения нейронной сети на основе архитектуры word2vec, для получения векторного представления высокой точности для слов русского языка.

Ключевые слова: text mining, автоматическая обработка текста, контент-анализ, word2vec, нейронные сети, word embeddings, языковое моделирование.

Работа посвящена исследованию проблемы поиска оптимальных параметров для обучения нейронной сети на основе архитектуры skip-gram, для формирования векторного представления слов и дальнейшего применения полученных векторов для решения прикладных задач.

В современном инфокоммуникационном пространстве, основным видом информации, порождаемой человеком, является текстовая информация, будь это пост в социальной сети, или статья на сайте новостного агентства. При этом текст крайне трудно обрабатывать и извлекать из него полезные или новые сведенья. С 2013 года, в языковом моделировании с целью понимания машиной текста, стали использовать векторные представления слов (англ. «word embedding's»), которые зарекомендовали себя, как крайне эффективное средство и база для решения прикладных задач NLP.

NLP (Natural language processing) - общее направление искусственного интеллекта и компьютерной лингвистики. Оно изучает проблемы компьютерного анализа и синтеза текстов на естественных языках. Применительно к искусственному интеллекту анализ означает понимание языка, а синтез - генерацию грамотного текста.

Проблема понимания естественного языка заключается в том, что ЭВМ воспринимает хранящийся в ней текст строго как последовательность символов, без какого-либо представления о её семантическом значении, правилах построения этой последовательности или же связях между её элементами. Для «понимания» текста машиной, требуется разметка текста или же его кодирование. Если рассматривать сущность текста, как атрибут (колонку таблицы), то область значений у этого атрибута хоть и содержит большое количество элементов, но является дискретной, счетной величиной. Целочисленное кодирование, то есть представления каждого уникального слова каким-либо числом, или же создание OHE (one-hot encoding) векторов, самые простые и распространенные способы не только в NLP, но и в сфере занимающийся анализом структурированных (в большинстве случаев это таблицы) данных или Data Mining. В настоящее время, существует много различных способов разметки текста, один из которых метод векторного представления слов на основе дистрибутивной семантики word2vec, предложенный Т. Миколовым в 2013 году [1]. В настоящей работе будет изложено об этом методе, его преимуществах в сравнении с другими методами и архитектурами языковых нейронных сетей, так называемых NNLM (neural network language model) [2], а также обо всех этапах необходимых для реализации верного механизма разметки текста, обо всех закономерностях и проблемах, с которыми пришлось столкнуться, в ходе решения задачи.

Концептуальное описание задачи. Целью данной научной работы по теме является создание и обучение нейронной сетевой модели для отображения слов в n-мерное пространство векторов.

Для достижения поставленной цели необходимо решить следующие подзадачи:

выбрать исходные данные (корпуса текстов и архитектуры сетей);

выработать ограничения и допущения;

- предобработать текстовый корпус;

- реализовать алгоритм формирования векторов;

- оценить и провести сравнительный анализ полученных результатов.

Оценивание результатов будет производится на основании оперативности, ресурсоемкости и

точности.

Задача векторного представления слов, как отдельная («standalone») задача, содержит мало практической пользы. Место данной задачи в процессе обработки текстовых данных представлен на рисунке 1. Но тем не менее, она очень и очень важна, так как является фундаментом для любой последующей задачи будь то классификация текстовых документов или же задача поиска именованных сущностей (NER) (см. рис. 2) [3]. В большинстве задач NLP используются векторные представления слов, это связано с тем, что, однажды получив данные представления, имеется возможность их многократного использования или до обучения.

Рис. 1. Место векторного представления слов в процессе обработки текста

Генеральный конструктор Андрей Терликов заявил, что в близжашие пару лет, начнется серийное производство Т-14 «Армата» на УВЗ в Нижнем Тагиле.

Персона Название Локация

Рис. 2. Концептуальное изображение задачи поиска именованных сущностей

Векторные представления слов. Вопрос о том, как сопоставить каждому слову свой вектор, появился в умах людей ещё в 70-80-е годы XX-го века. Изначально, применяли OHE (one-hot encoding), создание N-мерных векторов, где N - размер словаря. Но у этой идеи есть и существенный недостаток: слова в словаре следуют в алфавитном порядке, и при добавлении слова нужно перенумеровывать заново большую часть слов. Но даже это не является настолько важным, а важно то, что буквенное написание слова никак не связано с его смыслом (эту гипотезу еще в конце XIX века высказал известный лингвист Фердинанд де Соссюр). В самом деле слова "петух", "курица" и "цыпленок" имеют очень мало общего между собой и стоят в словаре далеко друг от друга, хотя очевидно обозначают самца, самку и детеныша одного вида птицы. То есть мы можем выделить два вида близости слов: лексический и семантический. Как мы видим на примере с курицей, эти близости не обязательно совпадают. Можно для наглядности привести обратный пример лексически близких, но семантически далеких слов — "зола" и "золото" (например, имя Золушка происходит от "золы"). Возникновение OHE способствовало возникновению метода BoW (Bag of Words или «Мешок слов») [4]. Основная черта данного метода заключается в том, что мы теряем всякую информацию о размещении слов в корпусе и о их взаимном расположении, что очень существенно, например, в задачах распознавания именованных сущностей (NER) или машинном переводе (seq2seq), так как на выходе мы получаем матрицу (обычно) «слово-документ» (рис. 3), где строки - слова, столбцы - документы (тексты).

Термы Документы

С1 С2 сз I С4 С5 С6 С7 С8

компьютер 1 1 0 0 0 0 0 0

человек 0 0 1 1 0 0 0 0

система 0 0 0 0 1 0 0 0

время 1 0 1 0 0 0 0 0

интерфейс 0 1 1 0 0 0 1 1

запрос 1 0 0 1 0 0 0 1

Рис. 3. Матрица «слово-документ»

Для повышения точности OHE, применяют нормализацию с помощью TF-IDF метрики: tf -idf{t,d,D) = tf(t,d)x idf(t,D), где tf - частота встречаемости слова в документе, а idf - обратная частота встречаемости слова в коллекции документов. Основные недостатки такого подхода: большая сложность алгоритма, низкая масштабируемость, разреженность матрицы.

В 2013 году, Томаш Миколов предложил свой подход, названный word2vec, и основанный на другой важной теории, которую в науке принято называть гипотезой локальности — «слова, которые встречаются в одинаковых окружениях, имеют близкие значения». Близость в данном случае понимается

344

очень широко, как то, что рядом могут стоять только сочетающиеся слова. Например, для нас привычно словосочетание «заводной будильник». А сказать «заводной апельсин» мы не можем — эти слова не сочетаются.

Практическая реализация word2vec представлена двумя основными архитектурами нейронных сетей: continuous bag of words (CBOW) и skip-gram.

Процесс в обоих случаях устроен таким образом, что происходит проход окном размером 2k+1 слов, только в случае continuous bag of words мы предсказываем центральное слово, а в skip-gram, на основе центрального слова предсказываются следующие вокруг него слова (см. рис. 4). Для того, чтобы данные архитектуры могли обучаться с помощью обратного распространения ошибки, на выходном слое считается функция softmax (или её более производительный аналог hierarchical softmax) [5], либо процедура выбора «негативных» слов (negative sampling). Суть этого подхода заключается в том, что мы максимизируем вероятность встречи для нужного слова в типичном контексте (том, который часто встречается в нашем корпусе) и одновременно минимизируем вероятность встречи в нетипичном контексте (том, который редко или вообще не встречается). Данные архитектуры зарекомендовали себя с положительной стороны относительно NNLM и RNNLM (Recurrent Neural Network Language Model) как по количеству внутренних параметров, так и вычислительной сложности, обучаемых с помощью методов стохастического градиентного спуска и обратного распространения ошибки [6].

INPUT PRQJECTIOM outpjt input projection output

CBOW Skip-gram

Рис. 4. Архитектуры CBOW и Skip-Gram (w(t±i) - слово относительно центрального слова в окне)

Оценка вычислительной сложности обучения для нейронных сетевых моделей определяется следующим образом:

О = Е х Т х Q,

где E - количество тренировочных эпох (итераций прогона модели на одних и тех же данных), T - количество слов в обучающем множестве, Q - относительная оценка сложности (рассчитываемая для каждой модели индивидуально). Подробный сравнительный анализ приведен в разделе «Обоснование выбора архитектуры нейронной сети и текстового корпуса».

Дальнейшее развитие в области обработки, а в частности понимания естественного языка, произошло в 2018 году, после опубликования Allen Institute for Artificial Intelligence статьи «Deep contextual-ized word representations» [7]. В данной статье были предложены архитектуры нейронных сетей, основанные на «глубоких сетях» и трансферном обучении. Данными архитектурами стали ELMo и BERT. Основная идея данных сетей в том, что они основаны на математическом аппарате цепей Маркова и являются дальнейшим развитием LSTM (Long Short-Term Memory) [8]. Существенное отличие от LSTM, использование множество двунаправленных рекуррентных слоев, которые для каждого слоя L генерируют 2L + 1 представление, а затем на выходе сворачивает его. Как и все трансформеры (класс нейронных сетевых архитектур, состоящих из кодировщика и раскодировщика), отличаются высокой точностью получаемых представлений, например, на наборах данных HJ (human judgment) и AE (association evaluation), составленных коллективом RUSSE, модели BERT (Bidirectional Embedding Representations from Transformers) и ELMo превосходят word2vec и GLoVE[9] в среднем на 10%, но при этом требуют значительно большего размера обучающего множества и гораздо больших вычислительных ресурсов (в BERT количество параметров может достигать до нескольких миллионов), а также времени обучения.

Ограничения и допущения. Рассмотрев существующие подходы к решению данной задачи, следует выделить два основных направления, по которым будут сформулированы ограничения и допущения. Этими направлениями являются:

- выбор или формирование обучающего множества, обучающей коллекции текстов;

- выбор модели, её мета-параметров, алгоритмических решений оптимизации и организации вычислений.

При формировании текстов:

1. Следовать подходу Т. Миколова, изложенному в статье «Эффективная оценка представлений слов в векторном пространстве» 2013 г. [1], который заключается в использовании относительно простых моделей, но обученных на больших наборах данных.

2. Учитывать особенности русского языка, например: замена буквы «ё» на «е», удаление пунктуации (скобки, кавычки, дефисы и т.д.), приведение всех слов к нижнему регистру.

3. Не использование стемминга и/или лемматизации слов, так в рамках метазадачи, считать данные методы не точными, в виду семантической и синтаксической неоднозначности слов русского языка, а также для учета всевозможных слово форм и словообразований[3].

4. Считать художественную литературу XX-XXI вв., как источник, в полном объеме и достаточно высоким уровнем репрезентативности отражающий статистику и языковые особенности русского языка.

5. следствие из предыдущего пункта, заключается в равномерном содержании текстов различных направлений (публицистические тексты, описательные, повествовательные, и т.д.).

При выборе методов и архитектур:

1. Использовать масштабируемые методов.

2. Учитывать возможность последующего до обучения.

3. Выбирать оптимальную размерность векторного пространства, ограничение размерности векторов, не в убыток точности и качества получаемых представлений слов.

4. Учитывать порядок слов.

5. Использовать архитектуру и средства её реализации, поддерживающие развертывание на аппаратно-программных высокопроизводительных кластерах (Jupyter IParallel, Apache Spark и т.д.).

Общее допущение, заключается в создании прототипа и учитывается, что при создании промышленного решения, будут отсутствовать ограничения, связанные с вычислительными ресурсами и временем.

Обоснование выбора архитектуры нейронной сети и текстового корпуса. Опираясь на ограничения и допущения, описанные в выше, были выбраны два основных набора исходных данных, а именно собрание русскоязычных произведений (файл размером 144 Гб). Данный корпус текстов соответствует ограничениям по размеру и равномерному содержанию текстов различных категорий.

Выбор модели word2vec с архитектурой Skip-gram, обусловлен за счёт простоты модели и наименьшего значения частной вычислительной сложности Q, упомянутого ранее, среди NNLM и RNNLM, BERT и ELMo.

Для NNLM:

Q = Nx D + Nx Dx Н + HxV, (1)

где N - количество предыдущих слов, поступающих на вход одновременно, D -размер словаря (проекционного слоя), H - размерность скрытого слоя, а V - размер обучающей выборки.

Для RNNLM:

Q = Н х Н + Н х V, (2)

где H - размерность скрытого слоя, V - размер словаря. Основное отличие от NNLM в том, что D - размерность проекционного слоя (размер словаря) совпадает с H.

А для Skip-gram:

Q = С х (D+Dx log2(V)), (3)

где, C - наибольшее расстояние между словами (косинусное, евклидово, Манхэттенское, и т.п.), D - размер словаря, V - размер обучающей выборки.

Таким образом, сравнивая частные вычислительные сложности, представленные выражениями 1, 2, 3, становится очевидно, что Skip-gram имеет явное преимущество в сравнении с NNLM и RNNLM, так как в ней отсутствует слагаемое, которое делает вычисления сложнее в разы, в силу того, что необходимо в этих случаях обрабатывать матрицу крайне большой размерности.

Выбор инструментальных средств. В табл. 1 представлены сравнительные характеристики различных фреймворков для языка высокого уровня Python версии 3.10.

Таблица 1

Сравнение фреймворков для анализа данных (машинного обучения)_

Характеристика gensim pyTorch Tensor Flow

Наличие инструментов для предобработки данных - + +

Наличие готовых шаблонов word2vec + - -

Связь с аппаратной платформой Виртуальное распараллеливание Поддержка кластеров с CPU и GPU Поддержка кластеров с CPU, GPU, TPU

Сложность использования низкая средняя высокая

Экспорт и импорт данных + + +

Скорость обучения на CPU высокая высокая средняя

Скорость обучения на GPU - средняя высокая

Скорость обучения на TPU - - очень высокая

Под характеристикой «Связь с аппаратной платформой» подразумевается не только возможность работы на тех или иных аппаратных устройствах (например, графических ускорителях), а и возможность поддержки аппаратных кластеров с множеством CPU (Central Processing Unit), GPU (Graphics Processing Unit), TPU (Tensor Processing Unit). А под характеристикой «Сложность использования», понимается наличие и доступность документации, к тем или иным компонентам данных фреймворков, требование к наличию у пользователя дополнительных знаний, а также субъективная оценка автора, основанная на личном опыте пользования данными фреймворками.

Учитывая данные из табл. 1 и технические особенности ПЭВМ, находящейся в пользовании, построение модели и проведение экспериментов производилось с использованием genism и интерактивной среды разработки и проведения научных исследований - Jupyter Notebook от Jupyter Lab [10].

Реализация скрипта предобработки текстовых данных. Для предобработки огромного массива информации, исходя из структуры размещения данных в нем, была разработана схема, построчного считывания и обрабатывания текстовых данных, так как в одной строчке расположен текст одного произведения. Алгоритм работы скрипта представлен на рис. 5.

Открытие файлов

<

Нет

Да

Рис. 5. Алгоритм работы скрипта предобработки текстов

В ходе реализации алгоритма были использованы следующие функции:

- razdel.sentenize() - токенизатор из пакета Natasha, для разбиения текста на предложения;

- remove_numeric_structures() - функция, на основе регулярного выражения ("[0-9]*-х гг\.|[0-9]*[\\xa0| ]г\.|[0-9]*\.fb2| \$[0-9]*|[0-9]*-е гг\."), удаляющая все числовые структуры, например: "39124.fb2", "1924-е гг." и т.д.;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- remove_non_cyrillic_chars() - функция на основе регулярного выражения ("[Ла-яА-Я]+"), удаляющая все символы кроме букв русского алфавита.

Реализация модели word2vec. Тестовая модель word2vec на основе архитектуры Skip-gram была написана с использованием фреймворка pyTorch, а модель для валидации результатов на основе пакета genism. Часть исходного кода тестовой модели представлена на рис. 6.

347

class Word 2Vec_rieg_sampling(n п. Module):

def _init_(self, embeddingsize, vocab_sizej device, noisedist = None, negative_samples = 10):

super(Word2Vec_neg^samplirig, self)._init_()

self .embeddings_input = nr. Embedding(vocab_size, embedding_size)

self.embeddings_context = nn.Embedding(vocab_size, embeddingsize)

self.vocab_size = vocabsize

self.negative_samples = negative_samples

self.device = device

self.noise_dist = noisedist

# инициализация весов входной и контекстной матриц

# случайными значениями на основе равномерного закона распределения self.embeddingsinput.меight.data.uniform_(-1,1)

self.embeddings_context.weight.data.uniform_(-1,1)

Рис. 6. Исходный код конструктора класс модели word2vec, созданной с помощью

фреймворка pyTorch

Модели, из пакета genism и написанная с помощью фреймворка pyTorch, имеют следующие мета-параметры :

- workers - количество параллельно работающих процессов при обучении;

- vector_size - размерность векторов слов;

- min_count - минимальная количество раз, которое слово должно встретится в тексте, чтобы быть занесенной в словарь;

- window - размер окна;

- sample - шаг, используется в методе стохастического градиентного спуска при обучении модели, во время этапа обратного распространения ошибки и корректировки весов матриц;

- epochs - количество итераций обучения на одних и тех же данных;

- negative - количество "негативных" слов (слов с наименьшей вероятностью), веса которых будут обнулятся на выходном слое модели во время обучения;

- ns_exponent - коэффициент корректировки весов.

После проведения обучения на маленьких корпусах текстов, для проверки корректности кода, получили схожие результаты, которые на тестовом наборе данных дали почти одинаковые результаты (оценки HJ теста составили: 0,3144 и 0,32009 соответственно, для моделей обученных на обучающей выборке размером 1 миллион слов), что обуславливается наличием вероятностной составляющей в алгоритмах работы данных программных реализаций, а именно генерация случайных чисел по равномерному закону распределения для инициализации начальных весов матриц и градиент оптимизируемой функции методом стохастического градиентного спуска, считается на каждом шаге не как сумма градиентов от каждого элемента выборки, а как градиент от одного, случайно выбранного элемента. На основании этих результатов подтверждается предположение о правильности и корректности работы данных моделей. В дальнейшей работе, будет использоваться реализация модели на основе gensim, так как дальнейший ход работы показал, что данная реализация наиболее проста для проведения экспериментов на её основе.

Основные параметры, используемые при обучении: размер векторов - 500, количество итераций - 3, размер окна - 5. Данные параметры, являются оптимальными и выявлены опытным путем [11].

Планирование эксперимента. Для достижения конечной цели - получения отображения слов в векторное пространство, проводится эксперимент, для установления оптимальных значений параметров модели, и выявления закономерностей, влияющих на результаты обучение модели. Проверка полноты и точности производится на наборах данных HJ (Human Judgement), RT (RuThes Lite thesaurus) и AE2 (Associative Experiment) [12], опубликованных сообществом RUSSE (Russian Semantic Evaluation) в 2018 году, которые позволяют оценить семантическую и ассоциативную близость слов, рассчитываемых моделью на основе сравнения с человеческими оценками и суждениями.

Выше названные наборы данных составлялись на основе экспертных оценок, после опроса группы лингвистов-исследователей и ученых занимающихся проблемами обработки русского языка. Структура этих наборов представлена на рис. 7.

На основе данных из этих наборов будут рассчитываться коэффициенты корреляции Спирмена и Пирсона, для оценки схожести модели, процент неизвестных для модели слов (out-of-vocabulary), а также ошибки MSE - средняя квадратическая ошибка и MAE - средняя абсолютная ошибка, для более детального сравнения моделей между собой.

Ресурсоемкость оценивается временем, затраченным на обучение моделей и количеством оперативной памяти, необходимой для работы с обученной моделью и долговременной памяти, для её долговременного хранения.

Для проведения эксперимента из исходного корпуса текстовых данных был сформирован ряд предварительно обработанных текстовых файлов (см. табл. 2), на которых была обучена модель word2vec.

wordl ward2 sim wordl word 2 sim wordl word2 sim

0 автомобиль машина 0.958333 0 аберрация год 0 D абажур торшер 1

1 маг волшебник 0.968333 1 аберрация человек 0 1 абажур люстра '

2 доллар бакс 0.952381 2 аберрация забпуодение 1 2 абажур лампа 1

3 мальчик парень 0.952381 3 абзац отрывок 1 3 абажур свет

4 машина автомобиль 0.952381 4 абзац время 0 4 абажур ночник 1

393 напиток машина О.ОШООО 114061 напряжение вица 0 36767 домофон мост 0

394 сахар подход 0.000000 114062 напряжение писание 0 36768 бука бяка

395 лес погост 0.000000 114063 напряжение барнаул 0 36769 бука частность 0

396 практика учреждение 0.000000 114064 напряжение знаток 0 36770 сканер принтер '

397 фонд cd 0.000000 114065 напряжение наследница 0 36771 сканер шар 0

398 rows X 3 columns 114066 rows * 3 columns 86772 rows x 3 columns

а б в

Рис. 7. Структура наборов: а - HJ файл; б - RT файл; в - AE2 файл

Таблица 2

Характеристики тестового набора текстов_

Номер набора Количество слов Размер файла

1 7694347 86 МБ

2 10111526 113 МБ

3 42611786 487 МБ

4 43873422 503 МБ

5 423239163 4,78 ГБ

6 484364368 5,46 ГБ

7 1161878864 13 ГБ

8 3266011543 37 ГБ

9 12643125591 144 ГБ

Обработка результатов эксперимента. Для проведения эксперимента, был развернут Jupyter Notebook, на серверной ЭВМ со следующими характеристиками:

- процессор: 2 x Intel Xeon E5-2630 v4 (суммарно 40 вычислительных ядер);

- ОЗУ: DIMM 64 ГБ;

- ПЗУ: HDD SAS 8 x 1 ТБ.

Временной ресурс, затраченный на обучение моделей на наборах текстов из раздела «Реализация скрипта предобработки текстовых данных» представлен на рис. 8, где заметно сильное возрастание времени, требуемого на обучение после достижения отметки 3,7 миллиардов слов.

Результаты теста на наборе данных HJ, представленные на рис. 9, свидетельствую о достаточно высокой точности моделей, в оценке близости слов, содержащихся в наборе, как с использованием алгоритма обработки исключений в виде отсутствия слов в словаре модели, так и без него.

Model train estimated time

Model names

Рис. 8. Время, затраченное на обучение моделей (в часах)

Тесты RT и АЕ2, предназначены для проверки адекватности модели, на выделении гиперонимов и синонимов (тест RT), а также способности модели выделять ассоциативные отношения, например: Москва - Россия, Столица - Страна (тест АЕ2). Результаты тестов представлены на рис. 10. На рис. 11, отображены уменьшающиеся значения MSE/MAE, при возрастании количества слов.

Итоговые результаты проведенного эксперимента представлены в табл. 3. HJ test evaluating scores

Values

—Pearson corr —Spearman corr

Pearson corr + OOV • Spearman corr + OOV

V. 4

■v

w "<Oa ">0

-I -4

• V ^ 4 ^ V j

S, ij Щ tjjjjr - f^j Model names

Рис. 9. Результаты корреляционного анализа на основе теста HJ

Model results on RT & AE2 i.ests

o.s

■ H 0.6

и 0)

0.2

Curves

• RT-Curve —A£2-curve

tw ^cw

few ^cw

Model natvtes

Рис. 10. График изменения точности на тестах RT и AE2

HJ test msf: s мае

s

СО

s

MSE/MAE"curves

-*- МЕК

— МАЕ

"»j. "pji ^

'

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Model names

Рис. 11. График изменения средних квадратической и абсолютной ошибок на HJ тесте

Интерпретация результатов эксперимента. Изучив результаты, полученные в ходе эксперимента, представленные на рис. 9, 10 и 11, становится очевидно, что, увеличивая размер обучающей выборки, повышается точность модели, о чем свидетельствует рост коэффициентов Пирсона, Спирмена и снижение значений средних квадратической и абсолютной ошибок. В силу того факта, что между коэффициентами Спирмена и Пирсона присутствует очень сильная линейная зависимость (коэффициенты Спирмена и Пирсона равны 0,99), поэтому для оценки законов распределения и анализа полученных результатов, будут проводится на основе значений коэффициента Спирмена.

350

После визуального анализа результатов на рис. 9, закон изменения значений коэффициентов похож на линейный. Но это не верно, так как регрессионный анализ, для общей выборки показывает низкое значение коэффициента Ь1 (Ь1=0,045). Данное суждение о незначимости линейной регрессии подтверждает Ъ-критерий [13]:

рассчитанное значение ^критерия для полученной выборки: t = 2,485; Ъкр = 2,260 (вычислено по таблице ^распределения Стьюдента, для Р=0,95 и к=8). Учитывая, что Но - гипотеза, утверждающая наличие линейной связи между переменными, а Н - обратная ей гипотеза, то получаем, не справедливость гипотезы Н0, но справедливость Н (т.к. Ъ> Ъкр).

Таблица 3

Общие результаты эксперимента ___

Номер модели Кол-во слов Время Вес модели, ГБ HJ (Pearson) HJ (Spearman) H И AE2 MSE

1 7694347 4,5 м 2,62 0,3362 0,3347 0,2864 0,2022 5,0133

2 10111526 5,5 м 2,62 0,3684 0,3704 0,2987 0,3491 4,3787

3 42611786 22,5 м 2,62 0,5489 0,5693 0,4818 0,5526 2,3425

4 43873422 24,5 м 2,62 0,5539 0,5713 0,7001 0,6933 2,3246

5 423239163 13 ч 23 м 2,62 0,6691 0,6924 0,8891 0,9670 1,9044

6 484364368 16 ч 41 м 2,62 0,6687 0,6849 0,7710 0,8913 1,8128

7 1161878864 29 ч 23 м 2,87 0,6578 0,6726 0,8433 0,9343 1,9503

8 3266011543 45 ч 17 м 3,55 0,6709 0,6863 0,8767 0,9652 1,8881

9 126000768323 8 д 17 ч 34 м 13,9 0,7043 0,7247 0,9186 0,9757 1,5720

Разбиение по значению центральной модели (см. рис. 12 и 13), показывает присутствие сильной линейной регрессии на левых значениях и полное отсутствие на правых, за счёт большого значения коэффициента детерминации R2 на подвыборке «sample-i» (более 0,9) и крайне низкое (менее 0,2) на подвыборке «sample-2». Диаграмма значений коэффициентов детерминации R2 и коэффициентов наклона регрессионных прямых, представлены на рис. 14.

Linear regression of Spearman coefficient

0 Lines

, —»—spearman - oov

—»—Regression line

0

и

и u

VI

0.

0 ft. 0

Model names

Рис. 12. Линейная регрессия для значений коэффициента Спирменадля первых пяти моделей

HJ teat evaluating scores

0.7 О.в

0,3

о.: o.i

Values

■ Pearson согг " S; -- :i: г: согг " Реегэоп согг + OOV -Spearman corr + oov

'«Jj

Рис. 13. Разбиение выборки на под выборки

351

Linear regression of Spearman coefficient

DetEimination corfs

Samples

Рис. 14. Значения коэффициентов выборок

На основе данных регрессионного анализа, можно выделить центральную модель (по которой производилось разбиение), так как её оценки точности максимально приближены к оценкам модели, обученной на полном корпусе, но при этом с гораздо меньшими затратами по времени (см. рис. 8). Единственное значимое отличие этих двух моделей в значениях MSE/MAE. Как видно из рис. 9, эти модели имеют значения коэффициентов Пирсона и Спирмена различающиеся меньше чем на 0,1, но при этом, увеличение обучающего множества текстов, уменьшает MSE/MAE, что отображено на рис. 11.

Если рассматривать полноту моделей, то различие между двумя моделями, согласно данным на рис. 16, составляет порядка 1%, что может быть критично, при использовании модели в специфических задачах, таких как, например, классификация или иной вид анализа новостных публикаций СМИ и социальных сетей, в условиях проведения СВО, где имеется много терминов, с низкой частотой встречаемости в текстах, но имеющих критически важное влияние на итоговый результат.

Out-Of-Vocabulary words evaluation

tu ^

о

о 10

5

Model names

Рис. 15. Процент неизвестных для моделей слов в тесте HJ

Вывод и дальнейшее направление исследования. Данные, полученные в ходе эксперимента, описанные и проанализированные ранее, позволяют сделать следующие выводы, о ходе проделанной работы:

- полученная модель, обученная на полном корпусе текстов, обладает высокой точностью на тестах по определению синонимов/гиперонимов и ассоциаций. Рассчитанные моделью значения, в сравнении со значениями из файлов RT и АЕ2, совпадают с точностью более 90%. В совокупности результаты, показанные моделью и представленные в табл. 3, обосновывают её пригодность для использования в рамках глобальной задачи, по разрешению омонимии в русскоязычных текстах;

- параметр - размер обучающей выборки, дает сильную линейную регрессию до 423 миллионов слов (рис. 9 и 10), после достижения этого количества, линейная регрессия пропадает. Это связанно с тем, что архитектура word2vec, работает по принципу аккумулирования в себе статистического распределения и-грам слов, за счёт скользящего окна модели в 2 *к + 1 слов, и на этом количестве, модель полностью запоминает в себе закономерности языка обучающего множества. Дальнейшее увеличение размера обучающей выборки не дает сильного увеличения точности и повышения значений коэффициентов корреляции;

- помимо модели, обученной на полном корпусе, оптимальным решением, в том числе и по временному ресурсу, является модель, обученная на 423 миллионах слов. Обладая высокими значениями коэффициентов корреляции (рис. 9, 10), при низком времени, затраченном, на обучение, которое ниже в 10 раз, по сравнению с моделью, обученной на полном корпусе слов (рис. 8).

При всех достоинствах word2vec, данная архитектура учитывает информацию и взаимном употреблении слов в языке (и-грамный подход), но не учитывает в той мере информацию о том, какие слова стоят перед и после слова, а также в ней отсутствуют механизмы, которые позволяли бы регулировать значимость тех или иных слов, встречающихся совместно, например, для слова «машина», более близким оказываются слова «тойота» или «легковушка», вместо ожидаемого синонима «автомобиль». Данное явление обуславливается широким использованием описательных слов, семантическое значение которых модель не способна выявить. Изменение параметра «Negative Sampling» не дало результатов в решении данной проблемы (рис. 16).

HJ test evaluating scores

o.ee 0-66 0.64

0.62

Values

— - Co L' ОП CO Г Г

spearman corr —Pearson corr + OOV — Spearman corr + OOV

0,58 ■ _,___

« 8 10 1Г 14 1«

Negative sampling values

Рис. 16. Зависимость результатов HJ теста от изменения параметра «Negative Sampling»

Данные выводы, явным образом обозначают два пути решения возникших проблем.

Первый путь, направлен на изменение архитектуры модели. Чтобы модель начала учитывать в полной мере зависимость текущего слова от его соседей, предложено использовать архитектуру на основе двунаправленной LSTM (bi-LSTM), такую как лежит в основе ELMo или на основе трансформеров, где используются механизмы внимания (Attention Mechanisms), построенные также на основе двунаправленного обхода последовательности слов и построения векторов-масок [14].

Второй путь, исследование в области методов предобработки текстов, таких как[15]:

- использование широкого спектра языковых шаблонов и регулярных выражений, которые используются в Tomita-Parser или Malt-Parser, с целью уменьшения влияния незначащих, описательных слов на контекст;

- добавление при обучении и использовании модели различного рода дополнительной информации о словах, такой как частеречные тэги, метки для выделения именованных сущностей и т.д.;

- использование дополнительных источников информации, различных тезаурусов, онтологий, словарей или языковых графов, при обучении моделей.

Предложенные методы способны увеличить точность результатов модели, но сделают процесс обучения более ресурсоемким.

Заключение. Векторные представления слов, являются крайне эффективным и полезным инструментом решения задач обработки текстовой информации, открывая новые возможности для решения старых «классических» задач, привнося в них высокие достижения из области нейронных сетей. Языковое моделирование, проведенное в данной работе, после обучения предоставило нейросетевую модель, на основе архитектура word2vec, которую можно применять в различных задачах для повышения результатов, а также в рамках метазадачи по разрешению омонимии среди многозначных слов. Анализируя результаты, полученные в ходе экспериментальной части над обученными моделями, был выявлен ряд особенностей и закономерностей:

- пороговое значение количества слов в обучающей выборке, равное ~423 миллионам слов, после которого линейное увеличение коэффициентов корреляции Пирсона и Спирмена отсутствует;

- наличие у модели, обученной на полном корпусе текстов (порядка 12,6 миллиардов слов), очень сильной корреляционной зависимости с человеческими оценками на основе теста HJ.

Но также, на основе данных особенностей были выработаны предложения, по улучшению имеющихся результатов, такие как:

- использование рекуррентных двунаправленных нейронных сетей или трасформеров с различными механизмами внимания при создании векторов слов;

- использование более сложных механизмов предварительной обработки текстов, на основе регулярных выражений и баз правил.

Подводя итоги, стоит отметить, что в современном мире информационных технологий, в частности машинного обучения и интеллектуального анализа данных, прогресс идет семи мильными шагами. Каждый день разрабатываются и исследуются новые методы, которые постепенно приближают сообщество компьютерных лингвистов к решению задачи понимания естественного языка.

353

Список литературы

1. Mikolov T., Corrado G., Chen K., Dean J. Efficient Estimation of Word Representations in Vector Space. Proceedings of the International Conference on Learning Representations ICLR, 2013. P. 1-12.

2. Bengio Y., Ducharme R., Vincent P., Janvin C. A Neural Probabilistic Language Model. The Journal of Machine Learning Research, 2003. 3. P. 1137-1155.

3. Sebastian Ruder, On word embeddings - Part 1. 2016. [Электронный ресурс] URL: http ://ruder.io/word-embeddings-1 (дата обращения: 10.08.2022).

4. Валентин Малых Чудесный мир Word Embeddings: какие они бывают и зачем нужны. 2017. [Электронный ресурс] URL: https://habr.com/ru/companv/ods/blog/329410 (дата обращения: 10.08.2022).

5. Jozefowicz R., Vinyals O., Schuster M., Shazeer N., Wu Y. Exploring the Limits of Language Modeling. 2016.

6. Mikolov T., Chen K., Corrado G., Dean J. Distributed Representations of Words and Phrases and their Compositionality. NIPS, 2013. P. 1-9.

7. Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer. «Deep contextualized word representations». NAACL 2018.

8. Jay Alammar. The Illustrated BERT, ELMo, and co. (How NLP Cracked Transfer Learning), 2018. [Электронный ресурс] URL: https://j alammar.github .io/illustrated-bert (дата обращения: 10.08.2022).

9. Pennington J., Socher R., Manning C.D. Glove: Global Vectors for Word Representation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, 2014. P. 1532-1543.

10. Полянин М. Что такое jupyter-ноутбук и зачем он нужен // Журнал Яндекс Практикум. [Электронный ресурс] URL https://thecode.media/jupyter (дата обращения: 10.08.2022).

11. Арефьев Н., Панченко А., Луканин А., Лесота О., Романов П. Сравнение трех систем семантической близости для русского языка // ДИАЛ0Г-2015. [Электронный ресурс] URL: https://www.dialo g-21.ru/digests/dialog2015/materials/pdf/ArefyevNVetal.pdf (дата обращения: 10.08.2022).

12. Panchenko A., Lopukhina A., Ustalov D., Lopukhin K., Arefyev N., Leontyev A., Loukachevitch N.: RUSSE'2018: A Shared Task on Word Sense Induction for the Russian Language. In: Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference «Dialogue». RSUH, Moscow, Russia, 2018. P. 547-564.

13. Паклин Н., Орешков В. Бизнес-аналитика: от данных к знаниям. Питер: 2013.

14. Ruder Sebastian, Peters Matthew E and Swayamdipta, Swabha and Wolf, Thomas, Transfer Learning in Natural Language Processing // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Tutorials. 2019.

15. Информационный ресурс: NLPub. [Электронный ресурс] URL: https://nlpub.ru/ресурсы (дата обращения: 10.08.2022).

Бородащенко Антон Юрьевич, канд. техн. наук, доцент, сотрудник, bay55@mail.ru, Россия, Орел, Академия Федеральной службы охраны Российской Федерации,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Субботенко Ольга Алексеевна, канд. техн. наук, доцент, сотрудник, motylek20@yyandex. ru, Россия, Орел, Академия Федеральной службы охраны Российской Федерации,

Яловегин Сергей Владимирович, сотрудник, kocmoleader@gmail.com, Россия, Орел, Академия Федеральной службы охраны Российской Федерации

NEURAL NETWORK TRAINING METHODOLOGY BASED ON SKIP-GRAM ARCHITECTURE A.Yu. Borodashchenko, O.A. Subbotenko, S.V Yalovegin

A method of neural network training based on the word2vec architecture is proposed to obtain a vector representation of high-precision Russian words.

Key words: text mining, automatic text processing, content analysis, word2vec, neural networks, word embeddings, language modeling.

Borodaschenko Anton Yurevich, candidate of technical sciences, docent, employee, bay55@mail.ru, Russia, Orel, The Academy of Federal Security Guard Service of the Russian Federation,

Subbotenko Olga Alekseevna, candidate of technical sciences, docent, employee, motylek20@yandex. ru, Russia, Orel, The Academy of Federal Security Guard Service of the Russian Federation,

Yalovegin Sergey Vladimirovich, employee, kocmoleader@gmail.com, Russia, Orel, The Academy of Federal Security Guard Service of the Russian Federation

i Надоели баннеры? Вы всегда можете отключить рекламу.