Научная статья на тему 'ОБЗОР ПОДХОДОВ КЛАСТЕРИЗАЦИИ ПОИСКОВЫХ КЛЮЧЕВЫХ ФРАЗ ПО СЕМАНТИЧЕСКОЙ СХОЖЕСТИ МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ'

ОБЗОР ПОДХОДОВ КЛАСТЕРИЗАЦИИ ПОИСКОВЫХ КЛЮЧЕВЫХ ФРАЗ ПО СЕМАНТИЧЕСКОЙ СХОЖЕСТИ МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
92
14
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
кластеризация / обработка естественного языка / обучение без учителя / обучение с учителем / векторизация текста / clustering / natural language processing / teaching without teacher / teaching with teacher / text vectorization

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бушуев Е. М.

В статье анализируются основные методы и подходы кластерного анализа семантического ядра с применением методов машинного обучения. Рассматриваются машинные методы обработки естественного языка, основные методы и подходы к кластерному анализу. Также проанализированы основные методы оценки эффективности кластеризации. Выявлено влияние машинного обучения на современные методы поисковой оптимизации.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Бушуев Е. М.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

OVERVIEWOFAPPROACHES TO CLUSTERING SEARCH KEYWORDS BY SEMANTIC SIMILARITY USING MACHINE LEARNING METHODS

The article analyzes the main methods and approaches of cluster analysis of the semantic core using machine learning methods. Machine methods of natural language processing, basic methods and approaches to cluster analysis are considered. The main methods for evaluating the effectiveness of clustering are also analyzed. The influence of machine learning on modern search engine optimization methods has been revealed.

Текст научной работы на тему «ОБЗОР ПОДХОДОВ КЛАСТЕРИЗАЦИИ ПОИСКОВЫХ КЛЮЧЕВЫХ ФРАЗ ПО СЕМАНТИЧЕСКОЙ СХОЖЕСТИ МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ»

УДК 004

Бушуев Е.М.

студент магистр 3 курса факультета «Прикладная информатика» Институт экономики и предпринимательства им. Н.И. Лобачевского

(г. Нижний Новгород, Россия)

ОБЗОР ПОДХОДОВ КЛАСТЕРИЗАЦИИ ПОИСКОВЫХ КЛЮЧЕВЫХ ФРАЗ ПО СЕМАНТИЧЕСКОЙ СХОЖЕСТИ МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ

Аннотация: в статье анализируются основные методы и подходы кластерного анализа семантического ядра с применением методов машинного обучения. Рассматриваются машинные методы обработки естественного языка, основные методы и подходы к кластерному анализу. Также проанализированы основные методы оценки эффективности кластеризации. Выявлено влияние машинного обучения на современные методы поисковой оптимизации.

Ключевые слова: кластеризация, обработка естественного языка, обучение без учителя, обучение с учителем, векторизация текста.

Введение.

В условиях стремительного развития информационных технологий и растущего объема данных в сети Интернет, эффективное управление информацией становится ключевым аспектом для успешного функционирования веб-ресурсов. С ростом числа веб-ресурсов в онлайн-пространстве ключевую роль в обеспечении видимости и эффективности сайтов играет поисковая оптимизация (SEO) [1]. Однако, в условиях постоянно меняющихся алгоритмов поисковых систем, важно развивать инновационные подходы для оптимизации веб-содержания [2].

Наиболее важным из таких подходов является кластеризация семантического ядра сайта, что представляет собой мощный инструмент для

улучшения SEO-стратегий [1]. Сегодня, когда поисковые алгоритмы становятся все более умными и ориентированными на пользовательский опыт, эффективное управление семантической структурой сайта приобретает стратегическое значение.

Цель данного исследования заключается в анализе и сравнении методов кластерного анализа семантического ядра с акцентом на их воздействие на стратегии SEO. Рассмотрение современных методов машинного обучения в контексте семантической кластеризации не только раскроет существующие тенденции в области поисковой оптимизации, но и выявит ключевые стратегии, способствующие повышению видимости и ранжирования веб-ресурсов.

В последующих разделах статьи освещаются методы обработки естественного языка, подходы к кластерному анализу, а также методы оценки эффективности кластеризации.

Методы и способы машинного обучения.

Машинное обучение - это подраздел искусственного интеллекта (ИИ), который фокусируется на разработке и применении алгоритмов и моделей, позволяющих компьютерам извлекать информацию из данных и обучаться на основе опыта. Основная идея машинного обучения заключается в том, чтобы создать системы, которые могут автоматически обучаться и улучшаться без явного программирования [9].

В первую очередь необходимо рассмотреть методы и способы машинного обучения применимые к теме исследования.

Два наиболее применимых способа машинного обучения [10]:

Обучение с учителем (Supervised Learning): Модель обучается на размеченных данных, где для каждого примера известен правильный ответ.

Обучение без учителя (Unsupervised Learning): Модель обучается на неразмеченных данных, пытаясь выявить закономерности и структуры. Примеры включают кластеризацию и снижение размерности.

Типами моделей, применимых в рамках семантической кластеризации поисковых ключевых фраз являются [11]:

Алгоритмы кластеризации. Разделяют данные на k кластеров (групп).

Глубокое обучение. Моделируют структуру и функцию человеческого мозга для обучения на сложных задачах, таких как распознавание образов и обработка естественного языка.

Обработка естественного языка в рамках семантической кластеризации.

Обработка естественного языка (Natural Language Processing, NLP) является критическим компонентом современных методов семантической кластеризации ядра ключевых запросов сайта. В контексте оптимизации контента для поисковых систем, алгоритмы обработки текста играют ключевую роль в выделении смысловых связей и тематической структуры.

Методы векторизации текста - это способы преобразования текстовых данных в числовой формат, который может быть использован для обучения моделей машинного обучения. Векторизация текста является важным этапом при работе с естественным языком и позволяет компьютеру понимать и анализировать текстовую информацию [3].

Одним из наиболее популярных методов векторизации текста является мешок слов (bag of words). Этот метод предполагает создание вектора, в котором каждый элемент соответствует отдельному слову из словаря, а значение элемента указывает на количество вхождений этого слова в текст [4]. Мешок слов прост в реализации, но не учитывает порядок слов и не учитывает семантические отношения между словами. Этот метод является одним из наиболее популярных в категоризации текстов и объектов. В случае классификации текста BoW учитывает количество вхождений каждого токена, создаваемого для каждого типа слова, независимо от порядка слов или грамматики. В задаче классификации визуальных сцен BoW основан на кластерах локальных дескрипторов, извлекаемых из изображений, и также не учитывает порядок расположения кластеров [5].

Другим популярным методом является TF-IDF (term frequency-inverse document frequency). Этот метод учитывает не только частоту встречаемости

слова в тексте, но и обратную частоту его встречаемости в других текстах. Это позволяет выделить ключевые слова, которые характеризуют конкретный текст.

TF-IDF — это статистическая мера, используемая для оценки важности термина в контексте коллекции текстовых документов. Этот метод широко применяется в области обработки естественного языка и информационного поиска для выделения ключевых слов, отражающих сущность содержания [7].

Данный метод векторизации включает в себя следующие компоненты и этапы [8]:

Частота термина (TF - Term Frequency): Этот компонент измеряет, насколько часто термин встречается внутри конкретного документа. Обычно рассчитывается как отношение числа вхождений термина к общему числу слов в документе. Чем чаще термин встречается, тем выше его TF.

Обратная частота документа (IDF - Inverse Document Frequency): Этот компонент оценивает уникальность термина в контексте всей коллекции документов. IDF рассчитывается как логарифм обратного отношения числа документов к числу документов, содержащих термин. Термины, встречающиеся в небольшом количестве документов, имеют более высокий IDF.

TF-IDF взвешивание: Путем перемножения TF и IDF для каждого термина получаем итоговую оценку важности термина. Такой подход придает больший вес терминам, которые встречаются часто внутри конкретного документа, но редко в других документах коллекции.

Рассмотренные выше методы векторизации сами по себе не являются техниками машинного обучения в строгом смысле, данные подходы часто смешиваются с понятиями машинного обучения, так как не используются отдельно от него.

Однако машинное обучение также используется в векторизации текстовых документов, в частности использование нейронной сети SBERT от Google [12].

Процесс обучения модели затратно с точки зрения времени и ресурсов компьютера, так же данный процесс подразумевает наличие большого объема

данных для обучения модели. Предобученные модели в контексте машинного обучения и глубокого обучения - это модели, которые обучены на больших наборах данных заранее и доступны для использования в задачах без необходимости обучения с нуля на конкретной задаче или наборе данных.

Однако, подход использования нейронных сетей является наиболее эффективным при использовании предобученных моделей на основе SBERT, таких, как MiniLM от компании OpenAI [12]. Предобученные модели в контексте машинного обучения и глубокого обучения - это модели, которые обучены на больших наборах данных заранее и доступны для использования в задачах без необходимости обучения с нуля на конкретной задаче или наборе данных.

Использование предобученных моделей для векторизации текста является наиболее эффективным способом с точки зрения сложности выполнения и затрат ресурсов вычислительной техники по сравнению с методами bag of words и TF-IDF.

Алгоритм кластеризации k-means.

Одним из ключевых методов машинного обучения без учителя, а также предметом исследования данной работы, является кластеризация.

Наиболее часто используемым, а также глубоко изученным алгоритмом является к-средних (k-means).

В методе K-средних каждый кластер представлен своим центром, который обозначается как «центроид». Центроид представляет собой среднее арифметическое значение точек данных, принадлежащих кластеру. Центроид, будучи средним значением, не обязательно является фактическим членом набора данных. Таким образом, алгоритм функционирует через итеративный процесс, который продолжается до тех пор, пока каждая точка данных не окажется ближе к центроиду своего кластера, чем к центроидам других кластеров. Это достигается минимизацией внутрикластерного расстояния на каждой итерации

[14].

Процесс работы K-средних следующий: алгоритм итеративно перераспределяет точки данных между кластерами, обновляя центроиды на

каждом этапе. Это продолжается до тех пор, пока не будет достигнут критерий остановки, например, стабилизация распределения точек или выполнение максимального числа итераций.

Когда алгоритм K-средних применяется для кластеризации данных, он сталкивается с проблемой локальных минимумов. Это означает, что в процессе поиска оптимальных центроидов для кластеров алгоритм может сойтись к локальному минимуму функции потерь вместо глобального минимума, что может существенно повлиять на результаты кластеризации.

Для преодоления этой проблемы существуют различные методы [14]: Начальная инициализация центроидов: выбор правильного начального положения центроидов может помочь избежать застревания в локальных минимумах. Некоторые методы начальной инициализации включают случайное выбор центроидов, K-means++, или использование результатов предыдущей кластеризации. K-means++ - это усовершенствованный метод инициализации центроидов в алгоритме K-средних, предложенный в 2007 году Дэвидом Артюрам и Анем Мосере. Этот метод был разработан для улучшения сходимости и качества кластеризации по сравнению с обычной случайной инициализацией центроидов,

Множественные запуски: запуск алгоритма несколько раз с разными начальными условиями и выбор наилучшего результата также может помочь выйти из локальных минимумов,

K-means с Mini-Batch: Вместо использования всего набора данных на каждой итерации, можно использовать случайные подмножества данных (mini-batches). Это может помочь избежать застревания в локальных минимумах и сделать процесс более эффективным.

Поскольку k-means работает с неразмеченными данными, алгоритм нуждаются в определении количества кластеров. Далее рассмотрим наиболее распространенные автоматические и графические методы определения наиболее подходящего числа кластеров.

Метод локтя - это один из способов определения оптимального количества кластеров в алгоритме k-means. Этот метод основан на анализе изменения суммы квадратов расстояний от каждой точки данных до их центроидов в зависимости от количества кластеров [14].

Так же существует метод «силуэт». Метод «силуэт» является статистическим показателем, который используется для оценки качества кластеризации данных. Он представляет собой меру того, насколько объекты внутри одного кластера похожи друг на друга, а объекты из разных кластеров отличаются друг от друга. Метод силуэт может быть применен к различным алгоритмам кластеризации, включая k-means [14].

Методы «локоть» и «силуэт» позволяют избежать произвольного выбора количества кластеров и обеспечивают более обоснованный подход к определению оптимальной структуры кластеризации. Учитывая, что данные для графика берутся из вычислений, существует возможность создания алгоритма для автоматического определения кластеров основываясь на методах локоть и силуэт в четвертой главе работы.

Методы оценки эффективности кластеризации.

Оценка эффективности кластеризации является важным этапом в процессе анализа результатов. Такие методы имеют два основных типа:

Внешние. Рассчитываются на основе заранее известных правильных данных.

Внутренние. Оценивают структуру кластеров, опираясь лишь на полученный, после использования модели резуьтат, не используя дополнительных источников данных.

К внешним методам подходящим для оценки кслатеризации текстовых данных относятся такие методы как [15]:

Коэффициент Фоулкса-Маллоуза (Fowlkes-Mallows Index): Эта метрика измеряет точность и полноту кластеризации, основываясь на количестве правильно и неправильно угаданных пар точек.

Индекс Жаккара (Jaccard Index): Оценивает схожесть между фактическими метками классов и предсказанными кластерами, используя коэффициент Жаккара.

Наиболее распространенные внутренние методы [15]:

Silhouette Score: Этот метод оценивает, насколько каждая точка в кластере близка к другим точкам внутри своего кластера по сравнению с ближайшему соседу из соседнего кластера. Silhouette Score варьируется от -1 до 1, где высокий балл указывает на хорошую кластеризацию.

Dunn Index: Этот индекс оценивает отношение между минимальным межкластерным расстоянием и максимальным внутрикластерным расстоянием. Большие значения Dunn Index указывают на лучшую кластеризацию.

Davies-Bouldin Index: Этот индекс измеряет "хорошесть" кластеризации, основываясь на отношении между внутрикластерным и межкластерным расстоянием.

Влияние машинного обучения на современные методы поисковой оптимизации.

Машинное обучение оказывает значительное влияние на современные методы поисковой оптимизации, привнося инновации и улучшения в различные аспекты оптимизации веб-сайтов. Ниже приведено несколько аспектов, как МО влияет на поисковую оптимизацию:

Обработка естественного языка (NLP): Технологии NLP в МО помогают понимать семантику контента, что важно для правильной оптимизации контента под запросы пользователей.

Алгоритмы ранжирования поисковых систем: Поисковые системы, такие как Google и Yandex, используют алгоритмы МО для ранжирования результатов поиска. Понимание этих алгоритмов помогает оптимизаторам сайтов адаптировать свои стратегии SEO для лучших показателей в результатах поиска.

Пользовательский опыт и поведение: МО используется для анализа поведения пользователей на сайте, предсказания их предпочтений и привычек. Эти данные могут быть использованы для улучшения пользовательского опыта,

что в свою очередь может положительно сказаться на SEO. Поисковые системы уделяют внимание показателям, таким как время на сайте, отказы и другие метрики, связанные с пользовательским опытом.

МО используется для анализа поведения пользователей на сайте, предсказания их предпочтений и привычек. Эти данные могут быть использованы для улучшения пользовательского опыта, что в свою очередь может положительно сказаться на SEO. Поисковые системы уделяют внимание показателям, таким как время на сайте, отказы и другие метрики, связанные с пользовательским опытом.

Заключение.

В данной статье были рассмотрены основные методы семантической кластеризации текстовых данных, основное внимание было уделено применению их к семантическому ядру сайта. Анализировались методы векторизации текста, такие как мешок слов (bag of words) и TF-IDF, а также подчеркивалась важность использования современных методов машинного обучения, включая предобученные модели на основе SBERT, таких как MiniLM.

Рассмотрены методы оценки эффективности кластеризации, выделяя внешние метрики, такие как Коэффициент Фоулкса-Маллоуза и Индекс Жаккара, а также внутренние метрики, включая Silhouette Score, Dunn Index и Davies-Bouldin Index.

Освещены вопросы влияния машинного обучения на методы поисковой оптимизации. Отмечено, что технологии обработки естественного языка в машинном обучении становятся важным инструментом для правильной оптимизации контента под запросы пользователей. Алгоритмы ранжирования поисковых систем и анализ пользовательского поведения также подвергаются влиянию методов машинного обучения.

В целом, исследования подчеркивают необходимость использования современных методов машинного обучения и семантической кластеризации для эффективной поисковой оптимизации веб-ресурсов. Предложенные методы и подходы могут служить основой для дальнейших исследований в области

улучшения SEO-стратегий и повышения видимости веб-сайтов в поисковых результатах.

СПИСОК ЛИТЕРАТУРЫ:

1. Panchal A., Shah A., Kansara K. Digital marketing-search engine optimization (SEO) and search engine marketing (SEM) //International Research Journal of Innovations in Engineering and Technology. - 2021. - Т. 5. - №. 12. - С. 17;

2. Das S. Search engine optimization and marketing: A recipe for success in digital marketing. - CRC press, 2021;

3. Yang X. et al. A Study of Text Vectorization Method Combining Topic Model and Transfer Learning //Processes. - 2022. - Т. 10. - №. 2. - С. 350;

4. Orekhov S. et al. Software Development for Semantic Kernel Forming //COLINS. - 2021. - С. 1312-1322;

5. Qader W. A., Ameen M. M., Ahmed B. I. An overview of bag of words, importance, implementation, applications, and challenges //2019 international engineering conference (IEC). - IEEE, 2019. - С. 200-204;

6. Abubakar H. D., Umar M., Bakale M. A. Sentiment classification: Review of text vectorization methods: Bag of words, Tf-Idf, Word2vec and Doc2vec //SLU Journal of Science and Technology. - 2022. - Т. 4. - №. 1 & 2. - С. 27-33;

7. Kim S. W., Gil J. M. Research paper classification systems based on TF-IDF and LDA schemes //Human-centric Computing and Information Sciences. - 2019. - Т. 9. -С. 1-21;

8. Abubakar H. D., Umar M., Bakale M. A. Sentiment classification: Review of text vectorization methods: Bag of words, Tf-Idf, Word2vec and Doc2vec //SLU Journal of Science and Technology. - 2022. - Т. 4. - №. 1 & 2. - С. 27-33;

9. Bi Q. et al. What is machine learning? A primer for the epidemiologist //American journal of epidemiology. - 2019. - Т. 188. - №. 12. - С. 2222-2239;

10. Badillo S. et al. An introduction to machine learning //Clinical pharmacology & therapeutics. - 2020. - Т. 107. - №. 4. - С. 871-885;

11. Zhao Q. et al. Keyword clustering for automatic categorization //Proceedings of the 21st International Conference on Pattern Recognition (ICPR2012). - IEEE, 2012. - С. 2845-2848;

12. Wang B., Kuo C. C. J. Sbert-wk: A sentence embedding method by dissecting bert-based word models //IEEE/ACM Transactions on Audio, Speech, and Language Processing. - 2020. - Т. 28. - С. 2146-2157;

13. Nielsen F., Nielsen F. Hierarchical clustering //Introduction to HPC with MPI for Data Science. - 2016. - С. 195-211;

14. Ahmed M., Seraj R., Islam S. M. S. The k-means algorithm: A comprehensive survey and performance evaluation //Electronics. - 2020. - Т. 9. - №. 8. - С. 1295;

15. Шутилов Ф. В. Методы оценки эффективности и синергетический эффект кластеров //Научный вестник Южного института менеджмента. - 2013. - №. 2. -С. 81-85

Bushuev E.M.

Institute of Economics and Entrepreneurship (Nizhny Novgorod, Russia)

OVERVIEW OF APPROACHES TO CLUSTERING SEARCH KEY WORDS BY SEMANTIC SIMILARITY USING MACHINE LEARNING METHODS

Abstract: the article analyzes the main methods and approaches of cluster analysis of the semantic core using machine learning methods. Machine methods of natural language processing, basic methods and approaches to cluster analysis are considered. The main methods for evaluating the effectiveness of clustering are also analyzed. The influence of machine learning on modern search engine optimization methods has been revealed.

Keywords: clustering, natural language processing, teaching without teacher, teaching with teacher, text vectorization.

i Надоели баннеры? Вы всегда можете отключить рекламу.