Научная статья на тему 'ОБЗОР МЕТОДОВ ЕДИНОЙ КЛАСТЕРИЗАЦИИ'

ОБЗОР МЕТОДОВ ЕДИНОЙ КЛАСТЕРИЗАЦИИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
211
27
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАСТЕРИЗАЦИЯ / ИЕРАРХИЧЕСКИЙ МЕТОД / МЕТОД РАЗДЕЛЕНИЯ / ЕДИНИЧНАЯ КЛАСТЕРИЗАЦИЯ / НЕКОНТРОЛИРУЕМОЕ ОБУЧЕНИЕ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ахмедов К.М., Дзидзава Э.Т.

Кластеризация играет важнейшую роль в качестве метода обучения без учителя в аналитике данных, помогая решать многие реальные проблемы, такие как сегментация изображений, распознавание объектов или поиск информации. При использовании традиционной методики кластеризации часто возникает проблема, связанная с наличием неоптимального результата из-за наличия выбросов и данных шума. В этом обзоре представлен обзор отдельных методов кластеризации, которые применялись в различных областях. Цель состоит в том, чтобы увидеть возможные подходящие приложения и аспекты улучшения методов. Было предложено три категории единых методов кластеризации, и для исследователя было бы полезно увидеть аспекты кластеризации, а также определить требования к методу кластеризации для работы на основе современных результатов предыдущих исследований.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «ОБЗОР МЕТОДОВ ЕДИНОЙ КЛАСТЕРИЗАЦИИ»

УДК 62

К.М. Ахмедов, Э.Т. Дзидзава ОБЗОР МЕТОДОВ ЕДИНОЙ КЛАСТЕРИЗАЦИИ

Кластеризация играет важнейшую роль в качестве метода обучения без учителя в аналитике данных, помогая решать многие реальные проблемы, такие как сегментация изображений, распознавание объектов или поиск информации. При использовании традиционной методики кластеризации часто возникает проблема, связанная с наличием неоптимального результата из-за наличия выбросов и данных шума. В этом обзоре представлен обзор отдельных методов кластеризации, которые применялись в различных областях. Цель состоит в том, чтобы увидеть возможные подходящие приложения и аспекты улучшения методов. Было предложено три категории единых методов кластеризации, и для исследователя было бы полезно увидеть аспекты кластеризации, а также определить требования к методу кластеризации для работы на основе современных результатов предыдущих исследований.

Ключевые слова: кластеризация, иерархический метод, метод разделения, единичная кластеризация, неконтролируемое обучение

Идентификация однородной группы - это исследовательский кластерный анализ, который исследуется несколько десятилетий назад. Существует несколько методов кластеризации, которые были улучшены для решения проблем, связанных с функциями наборов данных, такими как наборы больших данных, многомерные и распределенные наборы данных. В ходе исследования возникает несколько проблем, связанных с традиционной техникой кластеризации, например, когда набор разделов шаблонов для кластеризации является большим или признаки достигают более высоких измерений.

Традиционно широко используются методы кластеризации: иерархический, разделительный, сеточный и кластерный анализ на основе плотности. Разделение на кластеры, такое как k-means, полезно для определения количества кластеров в данных. Однако каждый шаблон в основном традиционных методов кластеризации принадлежит одному кластеру и обеспечивает единое представление. Представление о важности и представление о меньшей важности кластеризации данных обрабатываются одинаково, поэтому нет возможности различать для сравнения. Традиционная кластеризация может работать плохо, когда существует неоптимальный результат с точки зрения межкластерной неоднородности и высокой размерности характеристик из-за наличия мультиколлинеарности среди переменных или высокой асимметрии переменных кластеризации.

Единые методы кластеризации

Во многих предыдущих исследованиях использовались разные методы кластеризации в одном или нескольких решениях для данной проблемы классификации, сегментации изображений и распознавания образов. Объединение похожих элементов и разделение разнородных элементов в разные группы дает только одно единственное решение, известное как единая кластеризация. В этом обзоре единая кластеризация делится на три категории, а именно иерархические методы, метод разделения и другие методы кластеризации. Иерархические методы и методы разделения наиболее часто используются во многих областях.

Иерархические методы кластеризации

Иерархическая кластеризация как рекурсивное разбиение выполняет кластеризацию из различных типов наборов данных. Его можно разделить на агломеративный и спорный. Метод агломеративной кластеризации обычно известен как восходящий подход, когда каждая точка данных представляет собой один кластер в начале, и эти кластеры будут объединены на основе сходства, и все точки принадлежат одному кластеру, учитывая два наиболее похожих кластера. Между тем, разделение - это подход сверху-вниз, противоположный агломеративной кластеризации. Первоначально все точки принадлежат одному и тому же кластеру, который назначил все наблюдения одному кластеру, а затем разделил кластер на два наименее похожих кластера и продолжил работу с каждым кластером, пока не будет по одному кластеру для каждого наблюдения. Были проведены различные исследования иерархических методов кластерного анализа,

© Ахмедов К.М., Дзидзава Э.Т., 2021.

Вестник магистратуры. 2021. № 1-1(112)

ISSN 2223-4047

включая применение иерархического метода Уорда для поиска подгрупп, касающихся самооценки физического и психического состояния пациентов. Эти иерархические методы предоставляют решения для кластеризации различных типов наборов данных, однако они все еще недостаточно точны и требуют большего количества наборов данных для хорошего решения кластеризации.

Например, иерархический кластерный анализ и алгоритм максимума ожидания были применены на основе модели гауссовой смеси, чтобы оценить масс-спектрометрию растворимых видов лигнита Шэнли на значимые группы. Еще одно приложение, использующее иерархическую кластеризацию, - это получение личности сходства по разным группам людей и характеристик культурных воспринимаемых транспортных рисков. В данном случае метод Уорда как кластерный анализ и анализ главных компонент были реализованы при оценке качества туристического направления. Анализ основных компонентов выполняет различные области проблем, таких как обновление данных о потреблении электроэнергии, и результат показал, что он может сократить время исследования, а также повысить точность кластеризации и применяется для определения контроля, изменчивости тяжелых металлов в почве и пыли на детских площадках и отражают потенциальные источники в другой группе мест.

Метод иерархического кластерного анализа с евклидовыми расстояниями и метод агрегирования Уорда были применены для классификации групп потребителей с различным восприятием различных типов полезности шоколада. Корреляционный анализ, анализ главных компонентов и кластерный анализ использовались для исследования загрязнения воздуха концентрацией оксидов азота, озона и твердых частиц. Несмотря на все выводы из вышеупомянутого, все методы применимы для результатов кластеризации, однако можно значительно улучшить, если рассматривать большие наборы данных, количество переменных и их разнообразие. Когда нужно решать решения для больших данных, это проблема.

Методы кластеризации разделов

Разбиение метода кластеризации происходит, когда каждый объект должен принадлежать ровно одной группе, а каждая группа должна содержать хотя бы один объект. Метод секционирования кластеризации происходит, когда каждый объект должен принадлежать ровно одной группе, а каждая группа должна содержать хотя бы один объект. Под эту категорию попадают очень популярные методы K-сред-них. Кластеризация K-средних использовалась во многих приложениях предметной области, включая определение восприятия пациентами различных точек зрения на качество, для изучения кластеров от поведения самообслуживания, связанного с качеством сна и психическим здоровьем, а также до кластерного восприятия больных пациентами, как при гибридизации с другим методом. В работе сравнивались методы кластеризации, такие как средняя связь, полная связь, кластеризация К-средних, для изучения восприятия болезни, и результаты показали, что К-средние дали лучший и подходящий результат для исследования болезни. В другом исследовании метод алгоритма кластеризации Rank-Order сравнивался с K-средними и Spectral, чтобы исследовать сложность времени выполнения и качество кластера с точки зрения внешней и внутренней метки лица, и результаты показали эффективность Rank -Алгоритм кластеризации порядка лучше, чем K-Means и Spectral. К-средние и спектральная кластеризация применялись для расчета расстояния между двумя кластерами порядковых данных опроса в высоко структурированном ранжировании, и результаты показали, что комбинация К-средних и коэффициента ранжирования Спирмена превосходит результаты в наименьшее количество раз. Были оценены физиологические сигналы персонализированного стресса человека с использованием k-средних и регрессионной нейронной сети, результаты показали, что точность была улучшена по сравнению с традиционными методами без кластеризации. Кластерный анализ методом K-средних был применен для интерпретации источников, временных и пространственных трендов сверхмелкозернистых частиц. Метод K-средних евклидова расстояния использовался для оценки общественного восприятия социальных и экологических воздействий гидроэнергетических проектов. Методы нечеткой кластеризации и кластеризации K-средних сравнивались с созданием профилей перфекци-онизма, затем для нечеткой кластеризации сходство зависит от количества перекрывающихся кластеров.

Традиционные K-средние с улучшенным алгоритмом, таким как K-Protypes и улучшенный алгоритм K-Protypes при оценке системы обнаружения вторжений, и результаты показали, что улучшенный алгоритм может обеспечить более высокий уровень обнаружения и более низкий уровень ложных тревог, чем традиционные K-Means.

Другие методы одиночной кластеризации

В этом разделе кратко описывается применение других одиночных методов кластеризации, которые не относятся ни к иерархическим, ни к разделенным методам. Двухэтапный кластерный анализ, который представляет собой профилированный анализ, был реализован с целью изучения вариации характеристик в различных сегментах студентов с полом в качестве категориальной переменной и ценности задачи восприятия, самоэффективности и отношения студентов к использованию. Двухэтапный кластерный анализ

применялся для изучения различий профильного анализа относительных уровней самоопределения и последствий мотивации физического воспитания. Был предложен оптимизированный метод кластерного хранения, чтобы сократить использование и стоимость хранения данных в файле для больших данных в реальном времени в Интернете вещей, и результаты показали, что эффективность и стоимость хранения на 70% ниже, чем при использовании традиционных методов. Кластеризация с использованием гауссов-ских смесей большой размерности была предложена на основе алгоритма максимизации ожидания и метода прямой оценки для разреженного вектора дискриминанта, затем результаты показали, что предложенный метод показывает лучшую производительность по сравнению с обычным низкоразмерным методом с точки зрения оптимальной скорости сходимости. Пятифакторная модель как кластерная была применена на основе поиска подтипов личностных черт.

Библиографический список

1.P. Murena and U. M. R. Mia-paris, "An Information Theory based Approach to Multisource Clustering," pp. 25812587, 2007.

2. J. Clatworthy, M. Hankins, D. Buick, J. Weinman, and R. Horne, "Cluster analysis in illness perception research: A Monte Carlo study to identify the most appropriate method," Psychol. Heal., vol. 22, no. 2, pp. 123-142, 2007.

3.T. S. Madhulatha, "An Overview Clustering Method," IOSR J. Eng., 2013.

4.M. Garza-Fabre, J. Handl, and J. Knowles, "An Improved and More Scalable Evolutionary Approach to Multiobjec-tive Clustering," IEEE Trans. Evol. Comput., vol. 22, no. 4, pp. 515-535, 2018.

5.J. Nasiri and F. M. Khiyabani, "A whale optimization algorithm (WOA) approach for clustering," Cogent Math. Stat., vol. 5, no. 1, pp. 1-13, 2018.

6.M. Caron, P. Bojanowski, A. Joulin, and M. Douze, "Deep clustering for unsupervised learning of visual features," in Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bio-informatics), 2018.

7. A. Krizhevsky, I. Sutskever, and G. E. Hinton, "ImageNet Classification with Deep Convolutional Neural Networks," in ImageNet Classification with Deep Convolutional Neural Networks, 2012.

8.S. Dutta, A. K. Das, G. Dutta, and M. Gupta, Emerging Technologies in Data Mining. Springer Singapore, 2010.

АХМЕДОВ КАЗБЕКМЕЖВЕДИНОВИЧ- магистрант, Мытищинский филиал Московский государственный технический университет им Н.Э. Баумана. Россия.

ДЗИДЗАВА ЭВЕЛИНА ТИМУРОВАНА - бакалавр, Мытищинский филиал Московский государственный технический университет им Н.Э. Баумана. Россия.

i Надоели баннеры? Вы всегда можете отключить рекламу.