Научная статья на тему 'ОБ АЛГОРИТМАХ ДЛЯ ЗАДАЧИ K-МЕДОИД'

ОБ АЛГОРИТМАХ ДЛЯ ЗАДАЧИ K-МЕДОИД Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
7
1
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
алгоритм K-медоид / кластеризация / кластерный анализ / k-medoids algorithm / clustering / cluster analysis

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Тахир Мохаммад Абдулла, Ахмед Али Умар, Л.Д. Егорова, Л.А. Казаковцев

В этой статье на основе быстрого алгоритма K-medoids мы предлагаем два алгоритма кластеризации K-медоид с использованием плотности и сравниваем их по индексу Рэнда.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ON THE ALGORITHMS FOR THE K-MEDOIDS PROBLEM

In this paper, based on the fast K-medoids algorithm, we propose two density-based K-medoids clustering algorithms and compare them by the Rand index.

Текст научной работы на тему «ОБ АЛГОРИТМАХ ДЛЯ ЗАДАЧИ K-МЕДОИД»

Актуальные проблемы авиации и космонавтики - 2021. Том 2

УДК 519.6

ОБ АЛГОРИТМАХ ДЛЯ ЗАДАЧИ K-МЕДОИД

Тахир Мохаммад Абдулла1, Ахмед Али Умар2, Л. Д. Егорова3* Научный руководитель - Л. А. Казаковцев

Университет Алигарх Маслим, Индия, штат Уттар-Прадеш, 202002, г. Алигарх,

2Колледж Альфа Юниверсити, 31900, г. Аддис-Абеба, Дэбрэзэйт роад, а/я 1237/5771, Эфиопия

3Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

*E-mail: egorova_ld@rambler.ru

В этой статье на основе быстрого алгоритма K-medoids мы предлагаем два алгоритма кластеризации K-медоид с использованием плотности и сравниваем их по индексу Рэнда.

Ключевые слова: алгоритм K-медоид, кластеризация, кластерный анализ.

ON THE ALGORITHMS FOR THE K-MEDOIDS PROBLEM

Tahir Mohammad Abdullah1, Ahmed Ali Omar2, L. D. Egorova3* Scientific supervisor - L. A. Kazakovtsev

:Aligarh Muslim University, Uttar Pradesh, 202002, Aligarh, India

2Alpha university College, 31900, Addis Ababa, Debrezeit Road, Postfach PO Box 1237/5771, Ethiopia 3Reshetnev Siberian State University of Science and Technology 31, Krasnoyarskii rabochii prospekt, Krasnoyarsk, 660037, Russian Federation *E-mail: egorova_ld@rambler.ru

In this paper, based on the fast K-medoids algorithm, we propose two density-based K-medoids clustering algorithms and compare them by the Rand index.

Keywords: k-medoids algorithm, clustering, cluster analysis.

K-медоид подобен алгоритму K-средних [1], но центральная точка, выбранная методом K-медоид, является точкой, существующей в текущем кластере. Целевая функция - это наименьшая сумма расстояний от всех других точек текущего кластера до центральной точки, что в некоторой степени ослабляет влияние выбросов, но недостатком является то, что расчет более сложен и требует больше компьютерного времени, чем K-средних [2].

Алгоритм k-medoids можно описать следующим образом [3]:

Входные данные: числовые характеристики n объектов, ожидается получение k кластеров.

Выберите k объектов в качестве начальных центров кластера;

Повторять

1. Назначить каждый оставшийся объект кластеру, представленному ближайшей центральной точкой;

2. Произвольно выбрать нецентральную точку Or;

3. Рассчитать общую стоимость S использования Or для замены центральной точки Oj для формирования нового кластера;

4. Если S<0, использовать Or вместо Oj;

Пока не прекратятся изменения.

В этой статье, направленной на исправление потенциальных дефектов быстрого алгоритма K-medoids [4, 5], мы предлагаем основанные на плотности алгоритмы

Секция «Математические методы моделирования, управления и анализа данных»

кластеризации K-medoids. Алгоритм использует обратную сумму ¿-ближайших

расстояний до объекта х, для измерения локальной плотности р, объекта х, и использует расстояние 6, образца х, как экспоненциальную функцию расстояния от объекта х, до ближайшего объекта X} с более высокой плотностью для построения выборочного расстояния.

Точка пика плотности, которая значительно удалена от большинства точек выборки в наборе данных, используется в качестве начального центра кластеризации, так что начальный центр кластеризации находится в разных кластерах [6]. Идея алгоритма разделенной кластеризации состоит в том, чтобы сделать расстояние внутри класса как можно меньшим, а расстояние между классами как можно большим. Поэтому мы предлагаем использовать соотношение между расстоянием внутри класса и расстоянием между классами в качестве новой функции критерия кластеризации, которая была использована в алгоритме Ме~м2. Мера внутриклассового расстояния определяется как сумма квадратов ошибок кластеризации, а межклассовое расстояние определяется как сумма выборочных расстояний различных центров кластеров.

Алгоритм Ые~№1 можно описать следующим образом:

Шаг 1. Инициализация:

1. Нормализация данных;

2. Рассчитать локальную плотность р, для всех объектов х, как

Р, =

и вычислить расстояние д, для всех объектов как

¿¡=ехр [ шт (¡(Х*,Х} \Р(>Р1 1

Здесь ¿ - число соседних объектов. Мы использовали ¿=5. После этого к точек с наивысшей плотностью становятся начальными центрами.

Шаг 2. Построить начальные кластеры:

1. Согласно принципу ближайшего расстояния, оставшиеся точки выборки распределяются между начальными центрами кластеров, формируя начальное деление;

2. Рассчитать сумму квадратов ошибок кластеризации.

Шаг 3. Обновить центр кластеров и перераспределить объекты.

1. Найти новый центр для каждого кластера так, чтобы сумма расстояний от оставшихся образцов в кластере до нового центра была наименьшей, и заменить исходный центр новым центром;

2. Перераспределить каждый объект в кластер с ближайшим центром, получить новый результат кластеризации и вычислить сумму квадратов ошибок кластеризации;

3. Если текущая сумма квадратов ошибки кластеризации совпадает с суммой квадратов ошибки кластеризации на предыдущей итерации, алгоритм останавливается, в противном случае возврат к Шагу 3.

Алгоритм Ме~№2 использует отношение расстояния внутри класса к расстоянию между классами в качестве функции критерия кластеризации, чтобы найти минимальную оптимизацию суммы расстояний. Когда эта целевая функция достигает минимального значения, получается оптимальный результат кластеризации. Первоначальный метод выбора центра кластеризации алгоритма Ме~№2 такой же, как метод начального выбора центра кластеризации New1. Разница между ними состоит в том, что функция критерия кластеризации различается, то есть условия остановки кластеризации различаются. Измените шаг 2 и шаг 3 алгоритма New1, чтобы вычислить квадрат суммы ошибок кластеризации для нового кластера, который вычисляет результат кластеризации.

»

Актуальные проблемы авиации и космонавтики - 2021. Тома 2

Рис. 1. Сравнение результатов работы алгоритмов по наборам данных из UCI ML Repository

На рис. 1 дано сравнение алгоритмов по индексу Рэнда (точность кластеризации). Как видно, новые алгоритмы превосходят известные со многими наборами данных.

Библиографические ссылки

1. Pallavi P., Ritesh J., Pallavi P. A New Efficient Approach towards k-means Clustering Algorithm // International Journal of Computer Applications, 2013. 65(11):p.7-10.

2. Tarpey T. A parametric k-means algorithm // Computational Statistics, 2007, Vol. 22(1), p.71-89.

3. Arora P., D., Varshney S. (2016). / Analysis of k-means and k-medoids algorithm for big data. // Procedia Computer Science, 78, p.507-512.

4. Liu C., Xu Q., He X.. (2017). A Fuzzy Density Peak Optimization Initial Centers Selection for K-medoids Clustering Algorithm // PoS. Vol. 299.

5. Han J., Kamber M., Pei J. Data mining concepts and techniques. Beijing: China Machine Press, 2012: p.398- 400.

6. Gates A.J., Ahn Y.Y. (2017). The Impact of Random Models on Clustering Similarity // Journal of Machine Learning Research. Vol. 18: P. 1-28.

© Тахир Мохаммад Абдулла, Ахмед Али Умар, Егорова Л. Д., 2021

i Надоели баннеры? Вы всегда можете отключить рекламу.