Актуальные проблемы авиации и космонавтики - 2021. Том 2
УДК 519.6
ОБ АЛГОРИТМАХ ДЛЯ ЗАДАЧИ K-МЕДОИД
Тахир Мохаммад Абдулла1, Ахмед Али Умар2, Л. Д. Егорова3* Научный руководитель - Л. А. Казаковцев
Университет Алигарх Маслим, Индия, штат Уттар-Прадеш, 202002, г. Алигарх,
2Колледж Альфа Юниверсити, 31900, г. Аддис-Абеба, Дэбрэзэйт роад, а/я 1237/5771, Эфиопия
3Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
*E-mail: egorova_ld@rambler.ru
В этой статье на основе быстрого алгоритма K-medoids мы предлагаем два алгоритма кластеризации K-медоид с использованием плотности и сравниваем их по индексу Рэнда.
Ключевые слова: алгоритм K-медоид, кластеризация, кластерный анализ.
ON THE ALGORITHMS FOR THE K-MEDOIDS PROBLEM
Tahir Mohammad Abdullah1, Ahmed Ali Omar2, L. D. Egorova3* Scientific supervisor - L. A. Kazakovtsev
:Aligarh Muslim University, Uttar Pradesh, 202002, Aligarh, India
2Alpha university College, 31900, Addis Ababa, Debrezeit Road, Postfach PO Box 1237/5771, Ethiopia 3Reshetnev Siberian State University of Science and Technology 31, Krasnoyarskii rabochii prospekt, Krasnoyarsk, 660037, Russian Federation *E-mail: egorova_ld@rambler.ru
In this paper, based on the fast K-medoids algorithm, we propose two density-based K-medoids clustering algorithms and compare them by the Rand index.
Keywords: k-medoids algorithm, clustering, cluster analysis.
K-медоид подобен алгоритму K-средних [1], но центральная точка, выбранная методом K-медоид, является точкой, существующей в текущем кластере. Целевая функция - это наименьшая сумма расстояний от всех других точек текущего кластера до центральной точки, что в некоторой степени ослабляет влияние выбросов, но недостатком является то, что расчет более сложен и требует больше компьютерного времени, чем K-средних [2].
Алгоритм k-medoids можно описать следующим образом [3]:
Входные данные: числовые характеристики n объектов, ожидается получение k кластеров.
Выберите k объектов в качестве начальных центров кластера;
Повторять
1. Назначить каждый оставшийся объект кластеру, представленному ближайшей центральной точкой;
2. Произвольно выбрать нецентральную точку Or;
3. Рассчитать общую стоимость S использования Or для замены центральной точки Oj для формирования нового кластера;
4. Если S<0, использовать Or вместо Oj;
Пока не прекратятся изменения.
В этой статье, направленной на исправление потенциальных дефектов быстрого алгоритма K-medoids [4, 5], мы предлагаем основанные на плотности алгоритмы
Секция «Математические методы моделирования, управления и анализа данных»
кластеризации K-medoids. Алгоритм использует обратную сумму ¿-ближайших
расстояний до объекта х, для измерения локальной плотности р, объекта х, и использует расстояние 6, образца х, как экспоненциальную функцию расстояния от объекта х, до ближайшего объекта X} с более высокой плотностью для построения выборочного расстояния.
Точка пика плотности, которая значительно удалена от большинства точек выборки в наборе данных, используется в качестве начального центра кластеризации, так что начальный центр кластеризации находится в разных кластерах [6]. Идея алгоритма разделенной кластеризации состоит в том, чтобы сделать расстояние внутри класса как можно меньшим, а расстояние между классами как можно большим. Поэтому мы предлагаем использовать соотношение между расстоянием внутри класса и расстоянием между классами в качестве новой функции критерия кластеризации, которая была использована в алгоритме Ме~м2. Мера внутриклассового расстояния определяется как сумма квадратов ошибок кластеризации, а межклассовое расстояние определяется как сумма выборочных расстояний различных центров кластеров.
Алгоритм Ые~№1 можно описать следующим образом:
Шаг 1. Инициализация:
1. Нормализация данных;
2. Рассчитать локальную плотность р, для всех объектов х, как
Р, =
и вычислить расстояние д, для всех объектов как
¿¡=ехр [ шт (¡(Х*,Х} \Р(>Р1 1
Здесь ¿ - число соседних объектов. Мы использовали ¿=5. После этого к точек с наивысшей плотностью становятся начальными центрами.
Шаг 2. Построить начальные кластеры:
1. Согласно принципу ближайшего расстояния, оставшиеся точки выборки распределяются между начальными центрами кластеров, формируя начальное деление;
2. Рассчитать сумму квадратов ошибок кластеризации.
Шаг 3. Обновить центр кластеров и перераспределить объекты.
1. Найти новый центр для каждого кластера так, чтобы сумма расстояний от оставшихся образцов в кластере до нового центра была наименьшей, и заменить исходный центр новым центром;
2. Перераспределить каждый объект в кластер с ближайшим центром, получить новый результат кластеризации и вычислить сумму квадратов ошибок кластеризации;
3. Если текущая сумма квадратов ошибки кластеризации совпадает с суммой квадратов ошибки кластеризации на предыдущей итерации, алгоритм останавливается, в противном случае возврат к Шагу 3.
Алгоритм Ме~№2 использует отношение расстояния внутри класса к расстоянию между классами в качестве функции критерия кластеризации, чтобы найти минимальную оптимизацию суммы расстояний. Когда эта целевая функция достигает минимального значения, получается оптимальный результат кластеризации. Первоначальный метод выбора центра кластеризации алгоритма Ме~№2 такой же, как метод начального выбора центра кластеризации New1. Разница между ними состоит в том, что функция критерия кластеризации различается, то есть условия остановки кластеризации различаются. Измените шаг 2 и шаг 3 алгоритма New1, чтобы вычислить квадрат суммы ошибок кластеризации для нового кластера, который вычисляет результат кластеризации.
»
Актуальные проблемы авиации и космонавтики - 2021. Тома 2
Рис. 1. Сравнение результатов работы алгоритмов по наборам данных из UCI ML Repository
На рис. 1 дано сравнение алгоритмов по индексу Рэнда (точность кластеризации). Как видно, новые алгоритмы превосходят известные со многими наборами данных.
Библиографические ссылки
1. Pallavi P., Ritesh J., Pallavi P. A New Efficient Approach towards k-means Clustering Algorithm // International Journal of Computer Applications, 2013. 65(11):p.7-10.
2. Tarpey T. A parametric k-means algorithm // Computational Statistics, 2007, Vol. 22(1), p.71-89.
3. Arora P., D., Varshney S. (2016). / Analysis of k-means and k-medoids algorithm for big data. // Procedia Computer Science, 78, p.507-512.
4. Liu C., Xu Q., He X.. (2017). A Fuzzy Density Peak Optimization Initial Centers Selection for K-medoids Clustering Algorithm // PoS. Vol. 299.
5. Han J., Kamber M., Pei J. Data mining concepts and techniques. Beijing: China Machine Press, 2012: p.398- 400.
6. Gates A.J., Ahn Y.Y. (2017). The Impact of Random Models on Clustering Similarity // Journal of Machine Learning Research. Vol. 18: P. 1-28.
© Тахир Мохаммад Абдулла, Ахмед Али Умар, Егорова Л. Д., 2021