ИССЛЕДОВАНИЕ МЕТОДОВ ВЕКТОРИЗАЦИИ ДОКУМЕНТОВ НА ОСНОВЕ ВЕКТОРИЗАЦИИ СЛОВ

П.А. Шерстнев; Л.В. Липинский

УДК 519.7

ИССЛЕДОВАНИЕ МЕТОДОВ ВЕКТОРИЗАЦИИ ДОКУМЕНТОВ НА ОСНОВЕ

ВЕКТОРИЗАЦИИ СЛОВ

П. А. Шерстнев Научный руководитель - Л. В. Липинский

Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: sherstpasha99@gmail.com

В работе рассмотрены методы векторизации документов помощью алгебраических комбинаций векторов слов. Исследуется эффективность применения методов при решении практических задач классификации текстовых документов. Произведена статистическая проверка результатов. Исследование проведено с целью развития средств обработки естественного языка, которые имеют большие перспективы использования в космической отрасли.

Ключевые слова: word2vec, нейронная сеть, классификация, логистическая регрессия, эмбеддинг, векторизация.

RESEARCH OF METHODS OF DOCUMENT VECTORIZATION BASED ON WORD VECTORIZATION.

P. A. Sherstnev Scientific supervisor -L. V. Lipinsky

Reshetnev Siberian State University of Science and Technology 31, Krasnoyarskii rabochii prospekt, Krasnoyarsk, 660037, Russian Federation E-mail: sherstpasha99@gmail.com

The paper considers methods of vectorization of documents using algebraic combinations of word vectors. The effectiveness of the methods in solving practical problems of classification of text documents is investigated. Statistical verification of the results is performed. The research was conducted to develop natural language processing tools that have high prospects for use in the space industry.

Key words: word2vec, neural network, classification, logistic regression, embedding, vectorization.

Введение. Обработка естественного языка - это широкая область, в которой применяются самые различные методы и подходы. В этом множестве подходов нашлось и применение нейросетевым моделям. Одно из таких применений заключается в построении распределенных числовых признаков, то есть векторов слов. Первую качественную модель такого рода представил Томас Миколов в своей работе [1]. Метод позволяет построить вектора слов в пространстве таким образом, чтобы слова со схожим контекстом находились близко друг к другу. Однако, для перехода от слов к предложениям необходимо каким-либо образом агрегировать множество векторов в один. В данной работе исследуются методы векторизации документов с помощью алгебраических комбинаций, предложенные в [2].

Секция «Математические методы моделирования, управления и анализа данных»

Подход. Векторы документов вычисляются с помощью применения простых арифметических операций к векторам слов таких как сложение, вычитание, среднее и нормализация различными способами. Самый простой метод вычисления заключается в суммировании всех векторов слов из предложения:

SOW = У" w

¿—н=\ 1

где wi - вектор 1-го слова, n - количество слов в предложении.

В другом случае предлагается делить сумму всех векторов слов SOW на количество слов в предложении, что эквивалентно простому вычислению среднего по каждому признаку:

Zn

i=1

w.

AvgSOW =

п

где м>1 - вектор /-го слова, п - количество слов в предложении.

Более сложные методы подразумевают математическую нормализацию вектора AvgSOW по Ь1 или по Ь2 норме:

L1 - AvgSOW =

у Уn

/n ¿-4=1

w

Уп у П==1 w

L2 - AvgSOW =

у

w

у- у :,w

где wi - вектор i-го слова, n - количество слов в предложении.

В данной работе эти четыре подхода исследуются относительно качества при решении практических задач классификации.

Наборы данных. В исследовании участвовало пять наборов данных: 1) Disaster Tweets [3]; 2) Spam Text Message [4]; 3) 20 Newsgroups [5]; 4) Coronavirus tweets NLP [6]; 5) Movie Review Dataset [7]. Наборы данных подбирались, исходя из таких параметров, как размер, количество слов в документе, количество уникальных слов и решаемая задача. Некоторые характеристики наборов описаны в табл 1.

Характеристики наборов данных

Таблица 1

Набор данных Слов Уникальных слов Сообщений Длина сообщений

Disaster Tweets 87401 7778 5569 15.7

Spam Text Message 195144 19571 11370 17.2

20 Newsgroups 42309 6484 18691 200.5

Coronavirus tweets NLP 932197 27384 28862 32.3

Movie Review Dataset 11912875 99413 50000 238.2

Данные прикладные задачи классификации часто используются для применения и исследования методов классификации или кластеризации текста.

Результаты экспериментов. Работа проходила в четыре этапа: 1) предобработка текста, в которую входила очистка текста от всего, кроме слов, а также присвоение соответствующих тегов именам пользователей, ссылкам, и хештегам; 2) обучение векторов слов с помощью алгоритма skip-gram [1]. Размерность векторов равна 300. 3) Решение прикладных задач. В качестве классификатора используется логистическая регрессия, проверка проходила с помощью 10 блочной кросс-валидации, точность измерялась ,Р1-мерой [8]; 4) Сбор статистики из 30-ти запусков для статистической проверки критерием Манна-Уитни [9]. Нулевая гипотеза - нет различий между наблюдениями, уровень значимости 0.01.

Результаты статистической проверки следующие: для задачи Coronavirus tweets NLP разница между результатами методов SOW и AvgSOW статистически незначима; разница статистически незначима для методов AvgSOW и L2 - AvgSOW в задаче Movie Review Dataset;

2

во всех остальных случаях разница оказалась статистически значима. В табл. 2 представлены результаты классификации.

Таблица 2

Результаты классификации_

Метод Spam Text Message Disaster Tweets 20 Newsgroups Coronavirus tweets NLP Movie Review Dataset

SOW 0.9599 0.7791 0.6691 0.7581 0.8812

AvgSOW 0.9616 0.7666 0.7057 0.7584 0.8815

L1 - AvgSOW 0.4640 0.4487 0.3681 0.5729 0.7841

L2 - AvgSOW 0.9664 0.7524 0.6948 0.7518 0.8814

Выводы. Исходя из результатов можно сделать следующе выводы: метод AvgSOW который является простым усреднением векторов слов по каждому признаку дает лучший результат относительно Fl-меры классификации на большинстве тестовых задач. Некоторые другие вариации расчета имеют незначительно большую точность на задачах Disaster Tweets и Spam Text Message. Таким образом, последующие исследования будут направлены на разработку эффективных методов вычисления вектора документа с помощью векторов слов.

Библиографические ссылки

1. Mikolov T. Efficient estimation of word representations in vector space // 1st Int. Conf. Learn. Represent. ICLR 2013 - Work. Track Proc. 2013. P. 1-12.

2. Dilawar N. Understanding citizen issues through reviews: A step towards data informed planning in Smart Cities // Appl. Sci. 2018. Vol. 8, № 9.

3. S V. Disaster Tweets [Электронный ресурс]. 2020. URL: https://www.kaggle.com/vstepanenko/disaster-tweets (Дата обращения 05.04.2021).

4. Almeida T.A., Hidalgo J.M.G., Yamakami A. Contributions to the study of SMS spam filtering: New collection and results // DocEng 2011 - Proc. 2011 ACM Symp. Doc. Eng. 2011. P. 259-262.

5. Lang K. Newsweeder: Learning to filter netnews // Proceedings of the Twelfth International Conference on Machine Learning. 1995. P. 331-339.

6. Miglani A. Coronavirus tweets NLP [Электронный ресурс]. URL: https://www.kaggle.com/datatattle/covid-19-nlp-text-classification (Дата обращения 05.04.2021).

7. Maas A.L. Learning Word Vectors for Sentiment Analysis // Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Portland, Oregon, USA: Association for Computational Linguistics, 2011. P. 142-150.

8. Sasaki Y. The truth of the F-measure // Teach Tutor mater. 2007. P. 1-5.

9. Whitney H.B.M. and D.R. On a Test of Whether one of Two Random Variables is Stochastically Larger than the Other Author: H . B . Mann and D . R . Whitney Source : The Annals of Mathematical Statistics , Vol . 18 , No . 1 ( Mar ., 1947 ), pp . 50-60 Published by: Institute // Ann. Math. Stat. 1947. Vol. 18, № 1. P. 50-60.

ИССЛЕДОВАНИЕ МЕТОДОВ ВЕКТОРИЗАЦИИ ДОКУМЕНТОВ НА ОСНОВЕ ВЕКТОРИЗАЦИИ СЛОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — П.А. Шерстнев, Л.В. Липинский

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — П.А. Шерстнев, Л.В. Липинский

RESEARCH OF METHODS OF DOCUMENT VECTORIZATION BASED ON WORD VECTORIZATION

Текст научной работы на тему «ИССЛЕДОВАНИЕ МЕТОДОВ ВЕКТОРИЗАЦИИ ДОКУМЕНТОВ НА ОСНОВЕ ВЕКТОРИЗАЦИИ СЛОВ»