КЛАСТЕРИЗАЦИЯ КОРПУСА ТЕКСТОВЫХ ДОКУМЕНТОВ ПРИ ПОМОЩИ АЛГОРИТМА K-MEANS

Булыга Филипп Сергеевич; Курейчик Виктор Михайлович

ISSN 1560-3644 BULLETIN OF HIGHER EDUCATIONAL INSTITUTIONS. NORTH CAUCASUS REGION.

TECHNICAL SCIENCES. 2022. No 3

Научная статья УДК 004. 912

doi: 10.17213/1560-3644-2022-3-33-40

КЛАСТЕРИЗАЦИЯ КОРПУСА ТЕКСТОВЫХ ДОКУМЕНТОВ ПРИ ПОМОЩИ АЛГОРИТМА K-MEANS

Ф.С. Булыга, В.М. Курейчик

Южный федеральный университет, г. Таганрог, Россия

Аннотация. Представлено решение задачи кластеризации корпуса текстовых документов, основанное на применении алгоритма k-means. В качестве основных подходов предварительной обработки данных применяется многоэтапный алгоритм нормализации входного корпуса текстовых документов, а также мера Information Gain для извлечения характерных признаков документа. Последовательность выполнения вышеуказанных подходов позволяет в конечном итоге сформировать множество признаков, наиболее полно характеризующих исходный корпус документов, как следствие, позволяющих обеспечить улучшение показателей эффективности применяемого алгоритма кластеризации. Для объективизирования выдвигаемой гипотезы проведена серия сравнительных экспериментов, результаты которой демонстрируют преимущество предлагаемого решения, в сравнении с основными классическими алгоритмами кластеризации в среднем на 10-15 %.

Новизна предлагаемого решения заключается в применении модернизированных подходов предварительной обработки входных данных, а также использовании меры Information Gain, в качестве метода извлечения и формирования множества характерных признаков входного документа.

Ключевые слова: кластеризация, классификация, кластеризация текстовых документов, k-means, Information Gain, матрица ошибок, Chameleon

Для цитирования: Булыга Ф. С., Курейчик В.М. Кластеризация корпуса текстовых документов при помощи алгоритма k-means // Изв. вузов. Сев.-Кавк. регион. Техн. науки. 2022. № 3. С. 33 - 40. http://dx.doi.org/10.17213/1560-3644-2022-3-33-40

Original article

CLUSTERING THE CORPORATION OF TEXT DOCUMENTS USING THE K-MEANS ALGORITHM

F.S. Bulyga, V.M. Kureichik

Southern Federal University, Taganrog, Russia

Abstract. This paper presents a solution to the problem of text document corpus clustering based on the application of the K-means algorithm. As the main approaches to data preprocessing, a multi-stage algorithm for normalizing the input corpus of text documents is used, as well as the Information Gain measure for extracting the characteristic features of a document. The sequence of implementation of the above approaches allows, in the end, to form a set offeatures that most fully characterize the original set of documents, as a result, allowing to improve the performance indicators of the applied clustering algorithm. To objectify the proposed hypothesis, a series of comparative experiments was conducted, the results of which demonstrate the advantage of the proposed solution, in comparison with the main classical clustering algorithms, on average by 10-15%.

The novelty of the proposed solution lies in the use of modernized input data preprocessing approaches, as well as the use of the Information Gain measure, designed to extract many characteristic features of the input document.

Keywords: clustering, classification, clustering of text documents, k-means, Information Gain, error matrix, Chameleon

For citation: Bulyga F.S., Kureichik V.M. Clustering the corporation of text documents using the k-means algorithm. Izv. vuzov. Sev.-Kavk. region. Techn. nauki=Bulletin of Higher Educational Institutions. North Caucasus Region. Technical Sciences. 2022; (3):33 - 40. (In Russ.) http://dx.doi.org/10.17213/1560-3644-2022-3-33-40

ISSN 1560-3644 BULLETIN OF HIGHER EDUCATIONAL INSTITUTIONS. NORTH CAUCASUS REGION. TECHNICAL SCIENCES. 2022. No 3

Введение

На данный момент предложено множество систем, обладающих возможностью осуществления поиска информации в собственных базах данных или в сети Интернет. С учетом неконтролируемого увеличения объемов генерируемой информации возникает проблема эффективного поиска необходимых данных для систем различной направленности. Иной фундаментальной проблемой роста информации можно считать необходимость структурирования и хранения представленной информации в базах данных локального или глобального уровня. На данный момент большинство поисковых систем применяют отдельные методы интеллектуального анализа данных с целью повышения скорости выдачи результатов поискового запроса, однако констатировать универсальность и безоговорочную эффективность данных подходов достаточно проблематично [1].

В качестве одного из основных подходов интеллектуального анализа данных, предназначенного для осуществления эффективной структуризации или группирования множества разрозненных документов, применяется метод кластеризации. Кластеризация - метод разбиения входного множества элементов на группы (кластеры) таким образом, чтобы элементы, принадлежащие одному кластеру, обладали наибольшими показателями схожести, в то же время для элементов, принадлежащих разным кластерам, показатели меры сходства были наименьшими [2]. Данная технология находит свое применение в различных областях знаний, таких как экономика, менеджмент, биология, медицина, статистика и т.д. Применение кластеризации также возможно и для решения задач структуризации множества объектов, в связи с чем данная технология представляет особый интерес в контексте сформулированной проблемы. В рамках проводимого исследования кластеризация применяется в качестве метода структурирования корпуса документов, содержащих в себе текстовую информацию. Корпус документов - множество документов, обладающих превалирующим типом данных (в данном случае - текстовым), различной размерностью, представляемых в качестве исходного множества данных. Однако осуществление кластерного анализ текстовой информации способно решать и иные задачи [3]:

- оптимизировать поисковые запросы;

- выявлять дублирующий контент;

- осуществлять поддержку рекомендательных систем;

- осуществлять поиск схожих документов;

- определять научную новизну и тренды научных публикаций.

Основываясь на вышеуказанной информации, можно сделать заключение о неоспоримой актуальности и обоснованности применения методов интеллектуального анализа данных для решения задач хранения и представления информации. В рамках проводимого исследования кластеризация применяется в качестве метода упорядочивания и структурирования корпуса файлов на основе содержащейся в них информации. Основная цель данной работы заключается в формировании представления о принципах функционирования методов кластерного анализа применительно к решению задач структурирования корпуса текстовых документов. Постановка задачи проводимого исследования формулируется следующим образом: осуществить реализацию подхода кластерного анализа для решения задачи структурирования входного множества документов, содержащих текстовую информацию.

Обзор существующих решений

За последние два десятка лет было проведено множество научных исследований, посвященных решению проблемы кластерного анализа текстовой информации. Проведение обзора подобных работ позволяет сформировать целостную картину результатов, достигнутых в данном направлении, а также сформировать представление об основных проблемах, встречающихся при разработке систем подобного назначения. Таким образом, в данном разделе представленной работы рассматриваются публикации, посвященные исследованию показателей эффективности классических алгоритмов кластеризации в сравнении с авторским подходом.

Например, в работе [4] представлены результаты сравнительных экспериментов двух групп алгоритмов иерархической (агломератив-ной) и неиерархической (k-means) кластеризации. Результаты данных экспериментов демонстрируют превосходство алгоритма k-means в сравнении с алгоритмом агломеративной кластеризации на наборах больших данных.

В публикации [5] представлены различные модификации алгоритма k-means (k-means, bisecting k-means) в сравнении с алгоритмом агломератив-ной кластеризации UPGMA [6]. Результатом данной работы является заключение о неэффективности применения модификации алгоритма bisecting k-means и UPGMA для наборов данных большой размерности.

Значительно больший интерес представляет работа [7], посвященная сравнению выборки алгоритмов неиерархической кластеризации.

ISSN 1560-3644 BULLETIN OF HIGHER EDUCATIONAL INSTITUTIONS. NORTH CAUCASUS REGION. TECHNICAL SCIENCES. 2022. No 3

В частности, в данной работе сравниваются следующие алгоритмы: k-means, эвристический k-means и fuzzy c-means. Отличительной чертой данного исследования является вариативность применения различных подходов предварительной обработки входных данных. Результатом данной работы выступило подтверждение гипотезы об эффективности применения эвристического алгоритма k-means в сравнении с остальными методами.

Исходя из представленной выше информации об исследованиях, проводимых иными авторами, принято решение о применении алгоритма k-means в качестве основного подхода кластерного анализа текстовой выборки документов.

Предлагаемое решение

В рамках данной работы реализован модуль кластерного анализа текстовых данных, предназначенный для решения задач кластеризации текстовой информации (рис. 1). Предлагаемое решение обладает следующей архитектурой: модуль предварительной обработки входного множества элементов, построение матрицы терминов с последующим сокращением размерности при по-

мощи меры Information Gain, осуществление кластеризации средствами алгоритма к-means, проведение оценки результирующих кластеров.

Этап I. Предварительная обработка входного множества. Осуществление данного этапа позволяет повысить показатели эффективности и скорости конечного процесса кластеризации. Рассматриваемый модуль включает в себя ряд алгоритмов, предназначенных для преобразования входного множества объектов. В данной работе применяются следующие алгоритмы предварительной обработки: стемминг, удаление «стоп-слов», токенизация.

Стемминг - процесс извлечения корня слова с целью задания исходной лексемы [8]. Первоначально стемминг предназначался для работы с группой германских языков, в которой словообразование обладает малым количеством словоформ, а построение грамматических связей осуществляется за счет служебных слов. Однако впоследствии данный метод был адаптирован и для флективных языков, обладающих сложным процессом словоизменения.

Рис. 1. Архитектура модуля кластеризации с извлечением признаков / Fig. 1. Architecture of the clustering module with feature extraction

ISSN 1560-3644 BULLETIN OF HIGHER EDUCATIONAL INSTITUTIONS. NORTH CAUCASUS REGION.

TECHNICAL SCIENCES. 2022. No 3

Токенизация предназначена для декомпозиции исходного предложения на слова-компоненты при помощи заданных разделителей [9]. К словам-компонентам (токенам) можно отнести не только лексемы, но и в некоторых ситуациях знаки пунктуации. Зачастую с помощью подобного алгоритма осуществляется постановка задачи представления исходного текста в виде каскада лексем, обладающих значительным весом для данного предложения или исходного текста в целом. После завершения этапа токенизации, необходимо произвести извлечение из полученного каскада слов знаков пунктуации и слов, не несущих смысловой нагрузки (удаление «стоп-слов»).

Удаление «стоп-слов» - процесс удаления слов естественного языка, не несущих смысловой нагрузки [10]. К подобным словам в русском языке относятся: «это», «к», «и», «а» и т.п., в английской: «a», «is», «the», «when» и т.д. Выполнение данного процесса на этапе предварительной обработки позволит повысить конечную скорость работы алгоритма кластеризации, а также точность и полноту итоговых кластеров.

Поскольку процесс кластеризации в данном исследовании осуществляется над текстовой информацией, входное множество объектов необходимо привести к векторной форме. В качестве метода преобразования входного множества объектов в векторную форму, применятся фильтр StringToWordVector инструмента WEKA [11].

Этап II. Сокращение размерности. На данном этапе работы предлагаемого решения осуществляют процесс сокращения размерности матрицы терминов путем формирования подмножеств атрибутов исходного представления, ориентируясь на весовые коэффициенты термов, принадлежащих исходной матрице [12]. В качестве метода извлечения атрибутов в данной работе применяется подход Information Gain (1G).

По-другому меру IG можно представить результатом вычисления прироста информации, выступающего в качестве процесса сокращения энтропии. При этом энтропия Шеннона для систем, обладающих N потенциальными состояниями, будет рассчитываться по формуле N

S = -Х Pi log2Pi ,

i=1

где pi - вероятность перехода системы к состоянию i. Таким образом, формально прирост информации можно рассчитать в соответствии с формулой [13]

q N

IG(Q) = S0 ,

i=i N

где q - количество групп, сформированных после завершения процесса декомпозиции; Q - характерный признак элемента исследуемого множества; N¡ - количество элементов выборки, для которых признак Q имеет i-е значение; N - общее количество элементов выборки; So, Si - изначальная энтропия и энтропия i-го разбиения соответственно.

Метод получения информации не касается отношения между словом-характеристикой и определенным классом, а рассматривает все классы в обучающем наборе как единое целое, при этом значимость слова определяется путем подсчета количества информации, которое принимает каждый класс.

Этап III. Кластеризация. K-means - наиболее популярный алгоритм кластеризации, обладающий незначительной сложностью реализации, совместно с высокими показателями производительности. Основная идея данного алгоритма заключается в декомпозиции множества на k кластеров, обладающих индивидуальными центроидами, при этом центроид кластера формируется таким образом, чтобы обладать тесной взаимосвязанностью с точки зрения заданной меры сходства со всеми объектами, принадлежащими данному кластеру. В качестве меры сходства в проводимом исследовании применяется косинусное сходство. Косинусное сходство - мера расчета схожести пары множеств. Для вычисления косинусного сходства последовательности чисел, принадлежащие исследуемым множествам, рассматриваются в качестве векторов в пространстве внутреннего произведения. Косинусное сходство определяется как косинус угла между сформированными векторами. В общем виде косинусное сходство рассчитывается по формуле

СS = cos(9) =

Zi=1 Aß

Ï.U a? JZ¡Li в/

где А и В - исследуемые вектора, а АI и В являются компонентами ранее упомянутых векторов. При этом этапы работы алгоритма к-швапэ выглядят следующим образом:

1. Определить некоторое число к, представляющее собой количество желаемых кластеров будущей декомпозиции исходного множества.

2. Извлечь из исходного множества X = [х1,.,хт] случайным образом к точек С = {с-1, ...,ск], которые впоследствии станут центроидами будущих кластеров на первом шаге алгоритма. Обязательное условие: к < т.

ISSN 1560-3644 BULLETIN OF HIGHER EDUCATIONAL INSTITUTIONS. NORTH CAUCASUS REGION.

TECHNICAL SCIENCES. 2022. No 3

3. Определить каждую точку, принадлежащую множеству xi, где /Е[1,..., т] некоторому кластеру Cj с соответствующим ему центроидом Cj, где jE[1,..., к], при выполнении условия

| Iх/ — \\х/ ср | ,

гдерЕ[1,...,к]; j Фр.

4. Провести вычисление новых центроидов кластеров С = {сх, ..., ск] в соответствии с формулой

- -1 V

= щ Ьх1 Е сХ1,

где i Е[1,...,к], т - число объектов, принадлежащих кластеру Си

5. В случае, если с1= с1 V 1 = 1,..., к, прекратить выполнение алгоритма, иначе вернуться к выполнению шага 3.

Этап IV. Оценка результатов работы алгоритма классификации. Для оценки результатов, полученных в ходе работы предложенного подхода кластеризации корпуса текстовых документов, предлагается применение матрицы ошибок [14]. Терминология, применяемая в данном подходе, следующая: ТР - истинно положительное (верное предсказание положительного результата; объект, включенный во множество кластера С, действительно принадлежат данному кластеру); ТМ - истинно отрицательно (верное предсказание отрицательного результата; объект, не включенный в множество кластера С, на самом деле к нему не относится); ЕР - ложь (ошибка 7-го типа, неверное предсказание положительного результата; объект включенный в множество кластера С, на самом деле не принадлежат таковому); ЕМ - ложноотрицательный (ошибка 11-го типа, неверное предсказание отрицательного результата; объект не включен во множество кластера С, однако ему принадлежащий). Параметры, представленные выше, являются количественной мерой, основанной на результатах работы разработанного алгоритма в сравнении с заранее известными, верными значениями (если таковые имеются), либо с представленной независимой экспертной оценкой. Матрица ошибок представляет собой таблицу, которая позволяет визуализировать эффективность реализованного алгоритма. Обобщенное представление матрицы ошибок изображено на рис. 2.

Оценка системы Экспертная оценка

Положительная Отрицательная

Положительная TP FP

Отрицательная FN TN

Поясним принятые на рис. 2 обозначения: «Оценка системы» - результат работы некоторого алгоритма, в данном случае алгоритма k-means, при этом слова «Положительная» и «Отрицательная» отражают истинные и ложные значения, полученные алгоритмом; «Экспертная оценка» -изначально истинные значения (заранее известные либо значения, полученные от эксперта), в данном случае заранее известные кластеры и принадлежащие ему элементы. Для оценки эффективности кластеризации учитываются метрики Precision, Recall и Accuracy, вычисляемые по следующим формулам [15]:

Precision= Recall=

True Positive (TP)

True Positive (TP)+False Positive (FP) ' True Positive (TP)

Accuracy=

True Positive (TP)+False Negative (FN) ' True Positive (TP)+True Negative (TN)

TP+TN+FP+FN

Рис. 2. Обобщенная визуализация матрицы ошибок / Fig. 2. Generalized confusion matrix visualization

Precision (точность) - соотношение спрогнозированных истинных значений к заранее известным положительным результатам для каждого объекта, принадлежащего исследуемому множеству.

Recall (полнота) - соотношение истинно предсказанных значений к общему количеству контрольных истинных значений.

Accuracy (точность) - соотношение полученных истинных значений к общему количеству всех спрогнозированных значений.

Экспериментальные исследования

Для подтверждения выдвигаемой гипотезы об эффективности применения Information Gain в качестве метода сокращения размерности матрицы терминов проведена серия сравнительных экспериментов. В качестве тестовых алгоритмов были выбраны алгоритмы: к-means (неиерархическая группа алгоритмов) и chameleon (иерархическая агломеративная группа алгоритмов). Тестирование осуществлялось на выборке документов, извлеченных из научной онлайн-библиотеки [16]. Сформированная выборка документов состоит из 1200 экземпляров с первоначальным количеством кластеров, равным 4: дискретная математика (ДМ), геометрия и типология (ГТ), методы математического моделирования (МММ), теория вероятности (ТВ). Результаты, полученные в ходе проведения экспериментальных исследований для вышеуказанных алгоритмов, представлены в табл. 1 - 3.

ISSN 1560-3644 BULLETIN OF HIGHER EDUCATIONAL INSTITUTIONS. NORTH CAUCASUS REGION. TECHNICAL SCIENCES. 2022. No 3

Таблица 1 / Table 1 Результаты кластеризации классическим алгоритмом k-means / Results of clustering by the classical k-means

al »orithm

ДМ ГТ МММ ТВ Предсказание

ДМ 324 0 54 43 421

ГТ 3 181 13 8 205

МММ 32 17 227 24 300

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ТВ 43 14 17 200 274

Стартовые классы 402 212 311 275 1200

Таблица 2 / Table 2

Результаты кластеризации классическим алгоритмом

CHAMELEON / Results of clustering by the classical _ CHAMELEON algorithm _

ДМ ГТ МММ ТВ Предсказание

ДМ 324 0 34 26 384

ГТ 17 198 7 11 233

МММ 24 7 256 7 294

ТВ 37 7 14 231 289

Стартовые классы 402 212 311 275 1200

Таблица 3 / Table 3

Результаты кластеризации классическим алгоритмом

k-means + IG / Results of clustering by the classical _ k-means + IG algorithm _

ДМ ГТ МММ ТВ Предсказание

ДМ 397 0 0 0 397

ГТ 0 203 16 3 222

МММ 0 9 295 0 304

ТВ 5 0 0 272 277

Стартовые классы 402 212 311 275 1200

Результаты, представленные в вышеописанных таблицах, интерпретируются следующим образом: столбец «Предсказание» отображает количество объектов, содержащихся в кластерах, являющихся результатом проводимой кластеризации; строка «Стартовые классы» отображает количество объектов, содержащихся в кластерах и являющихся эталонными значениями; диагональ таблицы содержит в себе количество верно идентифицированных объектов, объединенных в результирующие кластеры. На основе представленных данных были рассчитаны следующие значения Recall, Accuracy и Precision для всех реализованных алгоритмов, расчеты представлены в табл. 4.

Таблица 4 / Table 4

Показатели матрицы ошибок для алгоритмов k-means, k-means + IG, CHAMELEON / Confusion matrix indicators for k-means, k-means + IG, CHAMELEON algorithms

Метрики k-means, % CHAMELEON k-means + IG, %

Recall 75,4 77,1 82,4

Accuracy 74,6 78,8 85,1

Precision 78,63 82,3 88,8

Заключение

В данной работе представлена и описана архитектура подхода кластеризации корпуса текстовых документов. Применение подобного подхода возможно в различных поисковых и рекомендательных системах, поскольку его применение позволяет оптимизировать процесс поиска и выборки необходимой информации.

Архитектура предложенного подхода состоит из нескольких модулей предварительной обработки входных данных, модуля сокращения размерности (путем вычисления ключевых признаков), модуля кластеризации методом k-means, а также модуля оценки полученных кластеров при помощи матрицы ошибок.

Отличительной особенностью предлагаемого решения является применение функции Information Gain, позволяющей сократить размерность матрицы терминов при помощи выделения характерных признаков экземпляра корпуса документов с последующим проведением процесса кластеризации по полученным множествам признаков.

После проведенных экспериментальных исследований были получены результаты работы двух алгоритмов k-means (один алгоритм реализован в классическом виде, другой дополнен функцией Information Gain) и алгоритма иерархической кластеризации CHAMELEON. Исследования проводились на одинаковых корпусах документов, полученных из открытых источников. Отмечена эффективность предложенного решения в сравнении с классическим алгоритмом. Прирост эффективности предлагаемого решения составил ~10 %, данный показатель можно считать удовлетворительным.

В дальнейшем планируется проведение исследований, связанных с улучшением показателей скорости, а также увеличением показателей плотности и точности получаемых на выходе кластеров.

Список источников

1. Анохин А.А. Базы данных и поисковые системы по научному цитированию - оценка продуктивности трудовых исследований // Вышэйшая школа: навукова-метадычны i публщыстычны часотс. 2015. № 2(106). С. 48 - 53.

2. Булыга Ф.С., Курейчик В.М. Алгоритмы агломеративной кластеризации применительно к задачам анализа лингвистической экспертной информации // Изв. ЮФУ. Техн. науки. 2021. № 6(223). С. 73 - 88.

3. Setyaningsih S. Using cluster analysis study to examine the successful performance entrepreneur in Indonesia // Procedia Economies and Finance. 2012. №. 4. Р. 289 - 298.

4. Ghoshdastidar D., Perrot M., Luxburg U. Foundations of comparison-based hierarchical clustering // Advances in Neural Information Processing System 32 (NIPS 2019). December 2019. Р. 7456 - 7466.

ISSN 1560-3644 BULLETIN OF HIGHER EDUCATIONAL INSTITUTIONS. NORTH CAUCASUS REGION. TECHNICAL SCIENCES. 2022. No 3

5. Gupta M., Rajavat A. Comparison of algorithms for document clustering // IEEE Sixth International Conference on Computational Intelligence and Communication Networks (CICN). 2014. Р. 541 - 545.

6. Zimin A.A., Karmanova A.N., Lu Y. UPGMA - analysis of type II CRISPR RNA-guided endonuclease Cas9 homologues from the compost metagenome // E3S Web of Conferences. Mishref. 2021. Vol. 265.

7. Singh V.K., Tiwari N., Garg S. Document clustering using K-means, heuristic K-means and fuzzy C-means // 2011 International Conference on Computational Intelligence and Communication Networks IEEE. 2011. Р. 297 - 301.

8. Nuriev S.I., Gazizova A.I., Minyazev R.S. Searching inside binary and text files // ГНИИ "НАЦРАЗВИТИЕ". Санкт-Петербург. 2019. С. 271 - 274.

9. Большакова Е.И., Ефремова Н.Э., Шариков Г.Ф. Инструментальные средства для разработки систем извлечения информации из русскоязычных текстов // Новые информационные технологии в автоматизированных системах. 2015. № 18. С. 533 - 543.

10. Яцко В.А. Стоп-слова как основа классификации текстовых документов // Актуальные проблемы прикладной математики, информатики и механики, 2021. С. 486 - 492.

11. Zhong X., Rajapakse J.C. Graph embeddings on gene ontology annotations for protein-protein interaction prediction // BMC Bioinformatics, Vol. 21, № 16, 2020. Р. 65 - 74.

12. Андриевская Н.К. Обобщенная модифицированная модель представления текстовых информационных ресурсов // Информатика и кибернетика. 2020. № 4 (22). С. 21 - 30.

13. Ali Javaheri Javid M., Blackwell T., Zimmer R., Majid Al-Rifaie M. Analysis of information gain and Kolmogorov complexity for structural evaluation of cellular automata configurations // Connection Science. 2016. Vol. 28, №. 2. Р. 155 - 170.

14. Горкун О.П. Оценка качества работы алгоритма машинного обучения // Актуальные проблемы и пути развития энергетики, техники и технологий. 2019. Т. 1. С. 103 - 107.

15. Ranjit K.N., Raghunandan K.S., Chethan H.K., Sunil C., Naveen C. A symbolic representation and classification of fruits // International Journal of Computing and Digital Systems. 2019. Vol. 8, № 6. Р. 565 - 575.

16. Научная электронная библиотека eLIBRARY.RU [Электронный ресурс] // Научная электронная библиотека eLIBRARY.RU: [сайт]. [2022]. URL: https://www.elibrary.ru/ (дата обращения 12.04.2022).

References

1. Anokhin A.A. Databases and search engines for scientific citation - evaluation of the productivity of labor research. Higher School: scientific-methodical and journalistic journal. 2015; 2(106):48-53.

2. Bulyga F.S., Kureichik V.M. Algorithms of agglomerative clustering in relation to the problems of analysis of linguistic expert information. Izvestiya SFedU. Technical science. 2021. 6(223):73-88. (In Rus.).

3. Setyaningsih S. Using cluster analysis study to examine the successful performance entrepreneur in Indonesia. Procedia Economics and Finance. 2012; (4): 89-298.

4. Ghoshdastidar D., Perrot M., Luxburg U. Foundations of comparison-based hierarchical clustering. Advances in Neural Information Processing System 32 (NIPS 2019). December 2019.Pp. 7456-7466.

5. Gupta M., Rajavat A. Comparison of algorithms for document clustering. In: IEEE Sixth International Conference on Computational Intelligence and Communication Networks, (CICN). 2014. Pp. 541-545.

6. Zimin A.A., Karmanova A.N., Lu Y. UPGMA-analysis of type II CRISPR RNA-guided endonuclease Cas9 homologues from the compost metagenome. E3S Web of Conferences. Mishref. 2021; (265).

7. Singh V.K., Tiwari N., Garg S. Document clustering using K-means, heuristic K-means, and fuzzy C-means. 2011 International Conference on Computational Intelligence and Communication Networks IEEE. 2011. Pp. 297-301.

8. Nuriev S.I., Gazizova A.I., Minyazev R.S. Searching inside binary and text files. GNII "NATIONAL DEVELOPMENT". St. Petersburg. 2019. Pp. 271-274.

9. Bolshakova E.I., Efremova N.E., Sharikov G.F. Tools for developing systems for extracting information from Russian-language texts. New information technologies in automated systems, 2015; (18):533-543. (In Rus.).

10. Yatsko V.A. Stop words as a basis for the classification of text documents. Actual Problems of Applied Mathematics, Informatics and Mechanics. 2021. Pp. 486-492. (In Rus.).

11. Zhong X., Rajapakse J.C. Graph embeddings on gene ontology annotations for protein-protein interaction prediction. BMC Bioinformatics. 2020; 21(16):65-74.

12. Andrievskaya N.K. Generalized modified model for representing text information resources. Informatics and Cybernetics. 2020; 4(22):21-30. (In Rus.).

13. Ali Javaheri Javid M., Blackwell T., Zimmer R., Majid Al-Rifaie M. Analysis of information gain and Kolmogorov complexity for structural evaluation of cellular automata configurations. Connection Science. 2016; 28(2):155-170.

14. Gorkun O.P. Evaluation of the quality of the machine learning algorithm. Actual problems and ways of development of energy, engineering and technology, 2019; (1):103-107. (In Rus.).

15. Ranjit K.N., Raghunandan K.S., Chethan H.K., Sunil C., Naveen C. A symbolic representation and classification of fruits. International Journal of Computing and Digital Systems. 2019; 8(6): 565-575.

16. Scientific Electronic Library eLIBRARY.RU. Available at: https://www.elibrary.ru/ (accessed 12.04.2022).

ISSN 1560-3644 BULLETIN OF HIGHER EDUCATIONAL INSTITUTIONS. NORTH CAUCASUS REGION. TECHNICAL SCIENCES. 2022. No 3

Сведения об авторах

Булыга Филипп Сергеевич" - аспирант, кафедра «Системы автоматизированного проектирования», [email protected]

Курейчик Виктор Михайлович - д-р техн. наук, профессор, кафедра «Системы автоматизированного проектирования»,

[email protected]

Information about the authors

Bulyga Filipp S. - Graduate Student, Department «Computer-Aided Design Systems» Department, [email protected] Kureichik Viktor M. - Doctor of Technical Sciences, Professor, Department «Computer-Aided Design Systems», [email protected]

Статья поступила в редакцию /the article was submitted 06.06.2022; одобрена после рецензирования /approved after reviewing 02.08.2022; принята к публикации / acceptedfor publication 04.08.2022.

КЛАСТЕРИЗАЦИЯ КОРПУСА ТЕКСТОВЫХ ДОКУМЕНТОВ ПРИ ПОМОЩИ АЛГОРИТМА K-MEANS Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Булыга Филипп Сергеевич, Курейчик Виктор Михайлович

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Булыга Филипп Сергеевич, Курейчик Виктор Михайлович

CLUSTERING THE CORPORATION OF TEXT DOCUMENTS USING THE K-MEANS ALGORITHM

Текст научной работы на тему «КЛАСТЕРИЗАЦИЯ КОРПУСА ТЕКСТОВЫХ ДОКУМЕНТОВ ПРИ ПОМОЩИ АЛГОРИТМА K-MEANS»