Научная статья на тему 'ЛИТЕРАТУРНЫЙ ОБЗОР СОВРЕМЕННЫХ МЕТОДОВ КЛАССИФИКАЦИИ ТЕКСТОВЫХ ДАННЫХ'

ЛИТЕРАТУРНЫЙ ОБЗОР СОВРЕМЕННЫХ МЕТОДОВ КЛАССИФИКАЦИИ ТЕКСТОВЫХ ДАННЫХ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
14
4
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
Классификация текстовых данных / машинное обучение / Наивный Байес / Логистическая Регрессия / Дере-вья Решений / Метод Опорных Векторов / Случайные Леса / Нейронные Сети / Трансформеры. / Text data classification / machine learning / Naive Bayes / Logistic Regression / Decision Trees / Support Vector Machines / Random Forests / Neural Networks / Transformers.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бирназаров Р. Р.

В статье представлен литературный обзор современных методов классификации текстовых дан-ных. Рассмотрено применение таких алгоритмов, как Наивный Байес (Naive Bayes, NB), Логистическая Регрессия (Logistic Regression, LR), Дерево Решений (Decision Tree), Метод Опорных Векторов (Support Vector Machine, SVM), Случайные Леса (Random Forest), а также глубокое обучение с применением Ре-куррентных Нейронных Сетей (Recurrent Neural Networks, RNN), Сверточных Нейронных Сетей (Convolutional Neural Networks, CNN) и методов на основе Трансформеров (Transformer).

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Бирназаров Р. Р.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

LITERATURE REVIEW OF MODERN METHODS FOR CLASSIFICATION OF TEXT DATA

The article presents a literature review of contemporary methods for text data classification. The applica-tion of algorithms such as Naive Bayes (NB), Logistic Regression (LR), Decision Tree, Support Vector Machine (SVM), Random Forest, as well as deep learning utilizing Recurrent Neural Networks (RNN), Convolutional Neural Networks (CNN), and Transformer-based methods is discussed.

Текст научной работы на тему «ЛИТЕРАТУРНЫЙ ОБЗОР СОВРЕМЕННЫХ МЕТОДОВ КЛАССИФИКАЦИИ ТЕКСТОВЫХ ДАННЫХ»

32

COMPUTER SCIENCE / «ШИШМШМ-ЛШШаИ» 2024

COMPUTER SCIENCE

УДК 004.89

Бирназаров Р. Р.

Евразийский национальный университет им. Л.Н. Гумилева DOI: 10.24412/2520-6990-2024-9202-32-35 ЛИТЕРАТУРНЫЙ ОБЗОР СОВРЕМЕННЫХ МЕТОДОВ КЛАССИФИКАЦИИ ТЕКСТОВЫХ

ДАННЫХ

Birnazarov R. R.

Eurasian National University named after. L.N. Gumilyov LITERATURE REVIEW OF MODERN METHODS FOR CLASSIFICATION OF TEXT DATA

Аннотация

В статье представлен литературный обзор современных методов классификации текстовых данных. Рассмотрено применение таких алгоритмов, как Наивный Байес (Naive Bayes, NB), Логистическая Регрессия (Logistic Regression, LR), Дерево Решений (Decision Tree), Метод Опорных Векторов (Support Vector Machine, SVM), Случайные Леса (Random Forest), а также глубокое обучение с применением Рекуррентных Нейронных Сетей (Recurrent Neural Networks, RNN), Сверточных Нейронных Сетей (Convolutional Neural Networks, CNN) и методов на основе Трансформеров (Transformer).

Abstract

The article presents a literature review of contemporary methods for text data classification. The application of algorithms such as Naive Bayes (NB), Logistic Regression (LR), Decision Tree, Support Vector Machine (SVM), Random Forest, as well as deep learning utilizing Recurrent Neural Networks (RNN), Convolutional Neura l Networks (CNN), and Transformer-based methods is discussed.

Ключевые слова: Классификация текстовых данных, машинное обучение, Наивный Байес, Логистическая Регрессия, Деревья Решений, Метод Опорных Векторов, Случайные Леса, Нейронные Сети, Транс-формеры.

Keywords: Text data classification, machine learning, Naive Bayes, Logistic Regression, Decision Trees, Support Vector Machines, Random Forests, Neural Networks, Transformers.

Введение

В современном мире, где данные играют ключевую роль в принятии решений и определении тенденций, методы классификации текстовых данных становятся неотъемлемыми технологиями. Классификация текстовых данных обеспечивает возможность разделения информации на определенные категории или классы, что находит широкое применение в различных сферах, включая информационные технологии, здравоохранение, финансы, маркетинг и другие.

В работе представлен обширный литературный обзор, охватывающий различные подходы к классификации текста. Данный обзор включает как классические алгоритмы машинного обучения, так и передовые методы глубокого обучения, предоставляя анализ их преимуществ и недостатков в контексте обработки и классификации текстов. Приводятся примеры проведенных исследований, их результаты и выводы, что позволяет оценить эффективность различных методов классификации текстовых данных.

Так в работе [1] в 2006 году исследователи Kim S.-B., Han K.-S., Rim H.-C., Myaeng S. H. рассмотрели применение алгоритма Наивного Байеса в классификации тестовых данных, отметив, что производительность данного метода все еще оставляет желать лучшего, даже при использовании мульти-

номиальной модели, особенно когда доступно недостаточное количество обучающих документов. Исследователи выявили проблему в процессе оценки параметров для мультиномиальной модели, заключающуюся в том, что модель рассматривает все положительные или отрицательные документы как один большой документ и оценивает параметры именно на основе этого документа. Работа направлена на создание новой модели наивного байесовского классификатора, которая позволила бы более адекватно оценивать параметры классификации текстовых данных.

В работе [2] в 2019 году исследователем Alotaibi, F.M. был применен метод классификации на основе обучения с использованием логистической регрессии для обнаружения эмоций в текстовом контенте. В качестве классов использовались пять эмоциональных классов. Предложенная система показала точность в 0.67. По мнению автора, существует необходимость дальнейшего исследования с применением моделей глубокого обучения, которые становятся все более популярными в сообществе специалистов по обработке данных.

В работе [3] в 2010 году исследователи Saad M. К, Ashour W использовали дерево принятия решений с методом кросс-валидации на 10 фолдах для классификации текстовых данных Кросс-валида-ция на 10 фолдах представляет собой метод про-

«@®11®@yjym-J®yrnaL» 2024 / COMPUTER science

33

верки производительности модели, при котором исходный набор данных разбивается на 10 равных частей. Модель обучается на 9 из этих частей и тестируется на оставшейся части, повторяя этот процесс 10 раз, чтобы каждая часть данных была использована для тестирования. Это помогает оценить производительность модели на различных подмножествах данных и уменьшить возможные искажения из-за случайного разделения данных на обучающие и тестовые наборы. Исследователи использовали метод "мешка слов" и процедуру стемминга в качестве этапов предварительной обработки текста. При таком подходе классификации они достигли точности в диапазоне от 84% до 90% при использовании метода "мешка слов" и от 94% до 98% при применении стемминга.

В статье [4] Zhang, W., Yoshida, T., Tang, X. рассмотрели использование метода опорных векторов (SVM) в качестве алгоритма для классификации текстовых данных Для использования мульти-слов в качестве характеристик разработаны две стратегии: декомпозиционная стратегия, использующая общие понятия для представления, и стратегия комбинирования, использующая подтемы общих понятий для представления. Мульти-слова -это последовательности из двух или более слов, которые образуют семантическую единицу. Они включают не только сами слова, но и контекстуальную информацию, основная цель - найти более значимые и описательные лексические единицы, чем отдельные слова. Были выполнены серии задач классификации текстовых данных с использованием SVM с линейными и нелинейными ядрами для анализа влияния различных ядерных функций на производительность классификации. Средняя точность составила:

• 0.9168 для метода индивидуальных слов, линейного ядра;

• 0.8883 для метода индивидуальных слов, нелинейного ядра;

• 0.7507 для метода мульти-слов с первой стратегией, линейного ядра;

• 0.6794 для метода мульти-слов с первой стратегией, нелинейного ядра;

• 0.8077 для метода мульти-слов с второй стратегией, линейного ядра;

• 0.7917 для метода мульти-слов с второй стратегией, нелинейного ядра.

Экспериментальные результаты показали, что стратегия комбинирования для представления мульти-слов превосходит стратегию декомпозиции, а линейное ядро лучше справляется с классификацией по сравнению с нелинейным ядром при использовании SVM. Авторы выделяют три основные преимущества мульти-слов в качестве характеристик: более низкая размерность по сравнению с индивидуальными словами, легкость извлечения из документов без поддержки тезауруса, словаря или онтологии, и богатство семантики, что позволяет получать более интерпретируемые и понятные результаты в анализе данных

В работе [5] Zhi LIU, Zhaocai SUN, Hongjun WANG рассмотрели алгоритм случайного леса,

протестировали его на 10 наборах данных Средняя точность алгоритма составила 85.97 при количестве деревьев равном 100. В статье [6] исследователи Bouaziz A., Dartigues-Pallez C., Pereira C. d. C., Precioso F., Lloret P. использовали модификацию алгоритма случайного леса - семантический случайный лес. В отличие от традиционного случайного леса, где все признаки корпуса текста используются для построения деревьев решений, модифицированный вариант предлагает сокращение случайного выбора признаков в пользу семантически ориентированного выбора. Этот метод позволяет получить деревья, узлы которых принадлежат одной теме, что гарантирует их семантическую связанность. Точность классификации увеличивается на 30% при использовании обогащения текстов и традиционного метода "Random Forest", а применение " Semantic Random Forest" дополнительно улучшает точность на 3%. В работе [7] исследователи Anwar, M.T., Pratiwi, A.E., Rukhmanti, K.F., Udhayana использовали градиентный бустинг - ансамблевый метод машинного обучения, который может помочь с дисбалансом классов. Результаты показали, алгоритмы случайного леса и градиентного бустинга достигли сходной производительности с точностью в 73%. Случайный лес показал преимущество благодаря большей глубине деревьев (max_depth), в то время как градиентный бустинг был медленнее в обучении. Градиентный бустинг обычно проявляет высокую адаптивность к различным типам данных и задачам, а также может достичь более высокой точности при правильной настройке гиперпараметров.

В работе [8] исследователи Lee, J.Y., Dernoncourt, F. рассмотрели вариацию алгоритма рекуррентной нейронной сети - LSTM (Long Short Term Memory), а также алгоритм сверточной нейронной сети - CNN и применили эти методы для задачи классификации коротких текстов. LSTM была разработана для решения проблемы исчезающего градиента, с которой сталкиваются обычные RNN при обучении на длинных последовательностях данных Алгоритмы были протестированы на трех наборах данных Средняя точность алгоритма LSTM составила 73.37%, против 74.4% для алгоритма CNN.

В работе [9] исследователями Marjan Kamyab, Guohua Liu, Abdur Rasool, Michael Adjeisah был применен метод обработки текста на основе СРС (CRNN, Convolutional Recurrent Neural Network) для бинарной классификации. Этот архитектурный подход объединяет сверточные слои для извлечения локальных признаков с рекуррентными слоями для обработки последовательной информации. Метод CRNN позволил достичь полноты 0.9443, F1 -меры 0.9046 для положительного класса и полноты 0.5379, F1-меры 0.6264 для отрицательного класса. Общая точность составила 0.848. На другом наборе данных полнота составила 0.9429, Fl-мера - 0.936 для положительного класса и 0.708, 0.7299 для отрицательного класса соответственно. Общая точность составила 0.8965.

34

COMPUTER SCIENCE / «ШИШФУШМ-ЛОУШаИ » #982023, 2024

В статье [10] авторы Wang C., Banko M. представили эмпирическую оценку методов, основанных на трансформерах, для мультиязычной классификации текста. Их исследование проведено на основе двух мультиязычных наборов данных CLS для анализа настроения и HATEVAL для обнаружения ненависти в речи. Целью работы было выяснить, как различные методы предварительного обучения и донастройки влияют на производительность моделей в таких задачах Выводы из анализа результатов показывают, что использование методов TAPT и DAPT, а также аугментация данных с помощью машинного перевода, улучшает производительность модели. Эксперименты показали, что использование лучших мультиязычных подходов multi-target и multi-all приводит к наилучшим результатам для всех рассматриваемых языков, имея среднюю точность 89.28 и 89.3 соответственно. Нулевое обучение zero -shot демонстрирует результаты в среднем примерно на 1-2 процентных пункта хуже, но представляет альтернативный метод без необходимости дополнительного обучения на целевом языке. Таким образом, эти результаты подтверждают эффективность мультиязычных моделей в мультиязычной классификации текста.

В работе [11] исследователями K. Shah, H. Patel, D. Sanghvi, M. Shah была построена модель классификации текстовых новостей BBC на основе алгоритмов машинного обучения. В ходе исследования были предложены алгоритмы логистической регрессии, случайного леса и метода k-ближайших соседей. Результаты показали, что точность классификатора случайного леса составила 93%, что уступает классификатору логистической регрессии с показателем в 97%, но превосходит классификатор k-ближайших соседей с общей точностью 92%.

В работе [12] исследователи Hartmann, J., Huppertz, J., Schamp, C., & Heitmann, M. провели анализ методов классификации на большом количестве данных из различных социальных медиа платформ. Анализ подтвердил предположение о том, что нет универсального метода, который бы одинаково хорошо справлялся бы со всеми задачами. Исследователи выяснили, что методы NB и RF не требуют больших компромиссов и являются привлекательными с точки зрения времени обучения и предсказательной производительности. Также исследователи отмечают, что методы SVM и искусственные нейронные сети (ANN) требуют более сложных оптимизаций и более длительного времени обучения.

В работе [13] исследователи G. Soyalp, A. Alar, K. Ozkanli, B. Yildiz провели сравнительный анализ трех различных моделей для классификации текста: LSTM, CNN и Transformer, применяя их к задаче на своем наборе данных. Для каждой модели использовалось векторное представление слов Word2Vec. Результаты эксперимента показали, что модель Transformer продемонстрировала лучшую производительность по сравнению с CNN и LSTM. Она достигла точности в 91,6%, в то время как CNN и LSTM показали точности в 87,7% и 88,4% соот-

ветственно. Эти результаты подтверждают превосходство модели Transformer в данной задаче классификации текста.

Заключение

Проведенный литературный обзор представляет важные выводы о методах классификации текстовых данных в машинном обучении. Обзор включает как классические алгоритмы машинного обучения, такие как наивный Байес, логистическая регрессия, дерево решений, метод опорных векто -ров, случайные леса, так и методы глубокого обучения, основанные на рекуррентных нейронных сетях, сверточных нейронных сетях и методах на основе трансформеров.

Выбор оптимального метода классификации зависит от конкретной задачи и характеристик данных Традиционные алгоритмы могут быть эффективны при ограниченных объемах данных, в то время как глубокое обучение демонстрирует высокую точность в сложных задачах Глубокие нейронные сети, включая трансформеры, проявляют лучшую производительность в классификации текста благодаря способности обрабатывать длинные последовательности и извлекать контекстную информацию. Правильный выбор параметров модели и использование методов предварительного обучения, таких как аугментация данных, могу т значительно повысить ее точность. Развитие области классификации текстовых данных требует постоянного следования за новыми исследованиями и методами. Дальнейшие исследования могут быть направлены на создание более эффективных архитектур нейронных сетей, применение методов обучения с подкреплением и повышение прозрачности решений модели.

Библиограф ия

1. Kim S.-B. и др. Some effective techniques for naive bayes text classification // IEEE Transactions on Knowledge and Data Engineering. 2006b. Т. 18. № 11. С. 1457-1466.

2. Alotaibi, F. M. Classifying text-based emotions using logistic regression // VAWKUM Transactions on Computer Sciences. - 2019. - Т. 7, №. 1. - С. 31-37.

3. Saad M. K., Ashour W. Arabic text classification using decision trees // Proceedings of the 12th International Workshop on Computer Science and Information Technologies (CSIT). - 2010. - Т. 2. - С. 7579.

4. Zhang, W., Yoshida, T., Tang, X. Text classification based on multi-word with support vector machine // Knowledge-Based Systems. - 2008. - Т. 21, № 8. - С. 879-886.

5. Liu, Z., Sun, Z., Wang, H. Specific random trees for random forest // IEICE TRANSACTIONS on Information and Systems. - 2013. - Т. 96, № 3. - С. 739-741.

6. Bouaziz, A. et al. Short text classification using semantic random forest // Data Warehousing and Knowledge Discovery: 16th International Conference, DaWaK 2014, Munich, Germany, September 2-4, 2014. Proceedings. - Springer International Publishing, 2014. - С. 288-299.

«шиишимм-лэишаи» 2024 / COMPUTER SCIENCE

35

7. Anwar, M. T., Pratiwi, A. E., Udhayana, K. F. Automatic complaints categorization using random forest and gradient boosting // Advance Sustainable Science, Engineering and Technology. - 2021. - Т. 3, № 1. - С. 0210106.

8. Lee, J. Y., Dernoncourt, F. Sequential short-text classification with recurrent and convolutional neural networks // arXiv preprint arXiv:1603.03827. -2016.

9. Kamyab, M. et al. ACR-SA: attention-based deep model through two-channel CNN and Bi-RNN for sentiment analysis // PeerJ Comput Sci. - 2022. - Т. 8. - С. e877.

10. Wang, C., Banko, M. Practical transformer-based multilingual text classification // Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human

Language Technologies: Industry Papers. - 2021. - С. 121-129.

11. Shah, K. et al. A comparative analysis of logistic regression, random forest and KNN models for text classification // Augmented Human Research. -2020. - Т. 5, № 1. - С. 12.

12. Hartmann, J., Huppertz, J., Schamp, C., Heitmann, M. Сравнение автоматизированных методов классификации текста // Международный журнал исследований в маркетинге, том 36, № 1, с. 20-38. doi: 10.1016/j.ijresmar.2018.09.009.

13. Soyalp, G. et al. Улучшение классификации текста с помощью трансформера // Материалы 6-й Международной конференции по компьютерным наукам и инженерии (UBMK). - I III 2021. - С. 707-712.

i Надоели баннеры? Вы всегда можете отключить рекламу.