Научная статья на тему 'ВЫЧИСЛЕНИЕ ВЕКТОРА ДОКУМЕНТА С ИСПОЛЬЗОВАНИЕМ МЕРЫ TF-IDF'

ВЫЧИСЛЕНИЕ ВЕКТОРА ДОКУМЕНТА С ИСПОЛЬЗОВАНИЕМ МЕРЫ TF-IDF Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
77
3
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
векторизация / TF-IDF / эмбеддинг / классификация текста / обратная частота документа / логистическая регрессия / vectorization / TF-IDF / embedding / text classification / inverse document frequency / logistic regression

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — П А. Шерстнев, Л В. Липинский

В данной работе исследуются подходы вычисления вектора документа из векторов слов с использованием обратной частоты документа. Производится сравнительный анализ эффективности методов на основе результатов прикладных задач классификации. Исследования мотивированы перспективами создания интеллектуальных информационных систем для поддержки деятельности космонавтов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CALCULATING A DOCUMENT VECTOR USING THE TF-IDF MEASURE

In this paper, we investigate approaches for calculating a document vector from word vectors using the inverse frequency of the document. A comparative analysis of the effectiveness of the methods based on the results of applied classification tasks is performed. The research is motivated by the prospects of creating intelligent information systems to support the activities of astronauts.

Текст научной работы на тему «ВЫЧИСЛЕНИЕ ВЕКТОРА ДОКУМЕНТА С ИСПОЛЬЗОВАНИЕМ МЕРЫ TF-IDF»

УДК 519.7

ВЫЧИСЛЕНИЕ ВЕКТОРА ДОКУМЕНТА С ИСПОЛЬЗОВАНИЕМ

МЕРЫ TF-IDF

П. А. Шерстнев Научный руководитель - Л. В. Липинский

Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: sherstpasha99@gmail.com

В данной работе исследуются подходы вычисления вектора документа из векторов слов с использованием обратной частоты документа. Производится сравнительный анализ эффективности методов на основе результатов прикладных задач классификации. Исследования мотивированы перспективами создания интеллектуальных информационных систем для поддержки деятельности космонавтов.

Ключевые слова: векторизация, TF-IDF, эмбеддинг, классификация текста, обратная частота документа, логистическая регрессия.

CALCULATING A DOCUMENT VECTOR USING THE TF-IDF MEASURE

P. A. Sherstnev Scientific supervisor - Lipinsky L. V.

Reshetnev Siberian State University of Science and Technology 31, Krasnoyarskii rabochii prospekt, Krasnoyarsk, 660037, Russian Federation E-mail: sherstpasha99@gmail.com

In this paper, we investigate approaches for calculating a document vector from word vectors using the inverse frequency of the document. A comparative analysis of the effectiveness of the methods based on the results of applied classification tasks is performed. The research is motivated by the prospects of creating intelligent information systems to support the activities of astronauts.

Key words: vectorization, TF-IDF, embedding, text classification, inverse document frequency, logistic regression.

Введение. На сегодняшний день активно используются подходы векторизации, основанные на нейронных сетях, задача которых распределить слова в пространстве числовых признаков, закладывая в расстояния между словами их семантическую близость [1]. До появления нейросетевых методов векторизации текста, вычисление вектора предложений заключалось в определении факта вхождения слова в документ или более сложными способами, которые учитывают количество вхождений слова как в отдельных документ, так и в весь остальной корпус документов [2]. В данной работе будет исследована эффективность построения вектора документа из векторов слов с использованием взвешенного усреднения мерой TF-IDF.

Подход. Методы, такие как word2vec, позволяют вычислять векторные представления слов. Переход от слов к предложению связан с задачей агрегирования набора векторов в один вектор. Самым популярным способом вычисления вектора предложений является простое усреднение векторов слов:

Актуальные проблемы авиации и космонавтики - 2021. Том 2

AvgW =

Zn

i=l

w.

n

где wi - вектор /-го слова, п - количество слов в предложении.

При таком подходе, информация всего предложения обобщается до одного слова. Нетрудно заметить, что этот способ может быть связан с потерями информативности предложения, поскольку все слова вносят одинаковый вклад. В статьях [3] и [4] используется взвешенное усреднение, где вес определяется обратной частотой документа:

У" к

=1 г

AvgW - к = ■

■г^г

n

где ki - обратная частота документа.

Однако в этих работах не указано, какой из способов вычисления обратной частоты используется, несмотря на то, что существует несколько способов ее нахождения [5]. Некоторые из них представлены в табл. 1.

Варианты расчета обратной частоты документа

Таблица 1

Способ расчета Функция IDF(t0D)

Обратная частота документа IDF = log D 1 Jd e D: ti E di }|J

Сглаженная обратная частота документа ( IDFsmooth = l0g V , м ,1+ 1 + {d e D : tt e di |

Вероятностная обратная частота документа 'IDFprobabilistic l0g f\ D -{d e D: ti e di }h {d e D: tt e d] j

В данной работе используются все три способа расчета обратной частоты для взвешенного усреднения при расчете вектора документа.

Наборы данных. Для исследования было выбрано пять текстовых наборов данных: 1) Movie Review Dataset [6]. Набор содержит обзоры пользователей на фильмы и представляет из себя задачу бинарной классификации настроений; 2) 20 Newsgroups [7]. Данные содержат новостные документы по 20-ти различным классам; 3) Coronavirus tweets NLP [8]. База данных сформирована из твиттов, посвященных отношению пользователей к ситуации вокруг COVID-19; 4) Disaster Tweets [9]. Набор содержит более 11 тысяч твиттов, которые могут относиться либо к катастрофе, либо иметь нейтральное содержание; 5) Spam Text Message [10]. Тренировочная задача определения спама среди обычных сообщений. Содержит более 5 тысяч документов.

Результаты экспериментов. Вектора слов были получены с помощью метода Skip-gram [1]. Размерность векторов составила 300 признаков. Для проверки моделей использовалась кросс-валидация размером 10 блоков. Задача классификации решалась методом логистической регрессии. Мерой качества классификации была ,Р1-мера. Для статистической проверки использовался критерий Манна-Уитни, были собраны результаты 30-ти запусков всех моделей и принят уровень значимости, равный 0.05. Нулевая гипотеза сформулирована следующим образом: не существует связи между наблюдениями. В табл. 2 представлены усредненные результаты 30-ти запусков.

По результатам статистической проверки, различия оказались статистически незначимы для результатов AvgW-Smooth IDF и AvgW-Probabilistic IDF для всех задач кроме Movie

Review Dataset и статистически незначимы для всех способов усреднения в задаче Disaster Tweets.

Таблица 2

Усредненные результаты решения задач классификации

Способ расчета Movie 20 Coronavirus Disaster Spam Text

Review Newsgroups tweets NLP Tweets Message

Dataset

AvgW 0.881559 0.705755 0.758492 0.766607 0.961627

AvgW-IDF 0.862742 0.690797 0.740130 0.775565 0.958407

AvgW-Smooth IDF 0.867682 0.689432 0.744862 0.775634 0.956328

AvgW-Probabilistic 0.866315 0.689285 0.744169 0.775653 0.956455

IDF

Выводы. Результаты показали, что использование обратных частот документа в качестве весовых коэффициентов не приносит прироста точности классификации. Для четырех из пяти практических задач лучшую FZ-меру показало простое усреднение и только на наборе данных Disaster Tweets был получен незначительный прирост точности. Статистическая проверка показала, что разница между методами AvgW-Smooth IDF и AvgW-Probabilistic IDF статистически незначима. Дальнейшие исследования будут направлены в сторону поиска эффективного способа расчета весовых коэффициентов для построения векторов предложений из векторов слов.

Библиографические ссылки

1. Mikolov T. Efficient estimation of word representations in vector space // 1st Int. Conf. Learn. Represent. ICLR 2013 - Work. Track Proc. 2013. P. 1-12.

2. Jones K.S. A statistical interpretation of term specificity and its application in retrieval // J. Doc. 1972. Vol. 28, № 1. P. 11-21.

3. Correa E.A. A multi-view ensemble for twitter sentiment analysis // Proc. ofthe 11th Int. Work. Semant. Eval. (SemEval-2017),. 2017. P. 611-615.

4. Zhao J., Lan M., Tian J.F. ECNU: Using Traditional Similarity Measurements and Word Embedding for Semantic Textual Similarity Estimation. 2015. № SemEval. P. 117-122.

5. Zhang Y., Jin R., Zhou Z.H. Understanding bag-of-words model: A statistical framework // Int. J. Mach. Learn. Cybern. 2010. Vol. 1, № 1-4. P. 43-52.

6. Maas A.L. et al. Learning Word Vectors for Sentiment Analysis // Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Portland, Oregon, USA: Association for Computational Linguistics, 2011. P. 142-150.

7. Lang K. Newsweeder: Learning to filter netnews // Proceedings of the Twelfth International Conference on Machine Learning. 1995. P. 331-339.

8. Miglani A. Coronavirus tweets NLP [Электронный ресурс]. URL: https://www.kaggle.com/datatattle/covid-19-nlp-text-classification (Дата обращения 05.04.2021).

9. S V. Disaster Tweets [Электронный ресурс]. 2020. URL: https://www.kaggle.com/vstepanenko/disaster-tweets (Дата обращения 05.04.2021).

10. Almeida T.A., Hidalgo J.M.G., Yamakami A. Contributions to the study of SMS spam filtering: New collection and results // DocEng 2011 - Proc. 2011 ACM Symp. Doc. Eng. 2011. P. 259-262.

© Шерстнев П. А., 2021

i Надоели баннеры? Вы всегда можете отключить рекламу.