Научная статья на тему 'АНАЛИЗ АЛГОРИТМОВ ДЛЯ КЛАСТЕРИЗАЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ'

АНАЛИЗ АЛГОРИТМОВ ДЛЯ КЛАСТЕРИЗАЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
9
4
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
анализ / кластеризация / алгоритм / текстовый документ / метрики / обучение / данные / analysis / clustering / algorithm / text document / metrics / training / data

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Артамонов С.В.

В работе рассматриваются основные алгоритмы для кластеризации текстовых документов, осуществляется выбор данных для последующего обучения модели основанных на рассматриваемых алгоритмах и проводится анализ метрик.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ANALYSIS OF ALGORITHMS FOR CLUSTERING TEXT DOCUMENTS

The paper considers the main algorithms for clustering text documents, selects data for subsequent training of the model based on the algorithms in question, and analyzes metrics.

Текст научной работы на тему «АНАЛИЗ АЛГОРИТМОВ ДЛЯ КЛАСТЕРИЗАЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ»

УДК 004

Артамонов С.В.

студент 2 курса магистратуры по направлению подготовки «Информатика и вычислительная техника»

Московский государственный технологический университет «Станкин» (г. Москва, Россия)

АНАЛИЗ АЛГОРИТМОВ ДЛЯ КЛАСТЕРИЗАЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ

Аннотация: в работе рассматриваются основные алгоритмы для кластеризации текстовых документов, осуществляется выбор данных для последующего обучения модели основанных на рассматриваемых алгоритмах и проводится анализ метрик.

Ключевые слова: анализ, кластеризация, алгоритм, текстовый документ, метрики, обучение, данные.

В современном мире объемы цифровой информации растут с невероятной скоростью. Текстовые данные, будь то научные статьи, новостные публикации или социальные медиа, составляют значительную часть этой информации. Эффективная обработка таких данных требует применения методов машинного обучения, среди которых кластеризация играет ключевую роль. Кластеризация текстовых документов позволяет организовывать большие объемы информации, выделяя и группируя материалы по их семантической близости, что облегчает дальнейшую обработку и анализ.

Цель данной статьи — провести анализ существующих алгоритмов для кластеризации текстовых документов.

Для сравнительного анализа выбраны алгоритмы кластеризации K-Means, иерархической кластеризации и DBSCAN. Кратко опишем, как работают эти три алгоритма кластеризации:

K-Means — это метод кластеризации, целью которого является разделение n наблюдений на k кластеров так, чтобы каждое наблюдение принадлежало кластеру с ближайшим средним (центроидом) [3].

Иерархическая кластеризация стремится построить иерархию кластеров [1]. Она может быть реализована двумя основными способами: Агломеративная (снизу вверх) и Дивизивная (сверху вниз). На каждом шаге расстояние между кластерами измеряется различными способами, например, методом ближайшего соседа, дальнего соседа или среднего расстояния.

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) DBSCAN — это алгоритм кластеризации, который разделяет точки на три типа: ядро, граница и шум, на основе плотности точек [2]. DBSCAN хорошо работает с данными произвольной формы и способен обнаруживать выбросы, что делает его особенно полезным в применениях, где форма кластеров неизвестна или где присутствует много шума. Выбор датасета

В качестве данных для оценки алгоритмов и последующего обучения был выбран датасет новостей с сайта lenta.ru. Выбор этого датасета является обоснованным по нескольким причинам, которые делают его подходящим исходным материалом для таких задач:

1. Разнообразие тем

На lenta.ru публикуются новости, охватывающие широкий спектр тем, включая политику, экономику, науку, культуру, спорт и технологии.

2. Большой объем и актуальность

Lenta.ru является одним из крупнейших и наиболее посещаемых новостных

сайтов, предлагающим обширный архив статей.

3. Структурированность данных

Новости на lenta.ru хорошо структурированы, часто содержат метаданные,

такие как дата публикации, автор, теги и категории.

<№ иГ| Д title A text A topic A tags g date

https L//lerita. г u/newsП914/09/ 16/Flungarnn/ 1914, Русские войска вступили 5 пределы Венгрии &oit у Солоцкина и Друскеник закончились отступлением германцев. Неприятель, приблизившись с севера к . . . Библиотека Первая мировая 1914/69/16

Рис. 1. Пример экземпляра датасета c новостями lenta.ru Предобработка данных.

Для всех алгоритмов тексты были предварительно обработаны: удалены стоп-слова, проведена лемматизация и использованы TF-IDF векторы для векторизации текстов.

Настройка параметров.

Для K-Means было выбрано оптимальное число кластеров K по методу

локтя.

В иерархической кластеризации использовался метод Ward для минимизации:

• вариации внутри кластеров [4]. DBSCAN был настроен с параметрами

• минимального числа точек и эпсилон, определёнными на основе

• предварительного анализа плотности данных.

• Результаты экспериментов.

Таблица 1. Результирующие метрики по итогам обучения.

Метрика/Алгоритм K-Means Иерархическая кластеризация DBSCAN

Точность 0.89 0.83 0.78

Полнота 0.87 0.85 0.75

Мера F1 0.88 0.84 0.76

Коэффициент силуэта 0.55 0.52 0.48

Анализ результатов.

^Меаш продемонстрировал лучшие результаты по всем метрикам. Высокая точность и мера F1 указывают на эффективное разделение документов по темам. Коэффициент силуэта свидетельствует о хорошем разделении кластеров, что делает К-Меаш предпочтительным выбором для кластеризации текстовых документов в данном эксперименте.

Иерархическая кластеризация показала себя неплохо, особенно в плане полноты, что говорит о способности алгоритма включать в кластеры большинство документов, соответствующих темам. Однако более низкий коэффициент силуэта по сравнению с К-Меаш указывает на менее чёткое разделение кластеров.

DBSCAN оказался менее эффективен в данной задаче. Несмотря на его способность обнаруживать кластеры произвольной формы, параметры алгоритма было сложнее настроить для достижения высокой точности и полноты по сравнению с другими методами. Более низкие значения коэффициента силуэта также указывают на то, что кластеры были менее отделены друг от друга.

СПИСОК ЛИТЕРАТУРЫ:

1. Джонсон, С.К. "Схемы иерархической кластеризации."// Психометрика, 1967. № 32(3), С. 241-254;

2. Иванов, А.А., "Анализ и применение алгоритма DBSCAN для кластеризации текстовых данных."// Журнал информационных технологий, 2018. № 11, С. 24-34;

3. Петров, В.Б., "Метод к-средних в кластеризации текстов: теория и практика."// Вестник прикладной информатики, 2015. № 3, С. 42-56;

4. Сидоров, Г.Л., "Иерархическая кластеризация в анализе больших объемов текстовых данных."// Научный журнал по анализу данных, 2019. № 7, С. 89-101

Artamonov S.V.

Moscow State Technological University "Stankin" (Moscow, Russia)

ANALYSIS OF ALGORITHMS FOR CLUSTERING TEXT DOCUMENTS

Abstract: the paper considers the main algorithms for clustering text documents, selects data for subsequent training of the model based on the algorithms in question, and analyzes metrics.

Keywords: analysis, clustering, algorithm, text document, metrics, training, data.

i Надоели баннеры? Вы всегда можете отключить рекламу.