УДК 519.6
ИСПОЛЬЗОВАНИЕ МЕТОДА ВИЗУАЛЬНОЙ ОЦЕНКИ КЛАСТЕРНОЙ
ТЕНДЕНЦИИ ДАННЫХ
К. С. Соколова Научный руководитель - И. С. Масич
Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
Е-mail: kristall.98@mail.ru
Рассматривается применение метода визуальной оценки тенденции к кластеризации (VAT) для отображения информации о внутренней структуре набора данных до начала процесса кластеризации.
Ключевые слова: кластеризация, кластерная тенденция, VAT.
USING THE METHOD OF VISUAL ASSESSMENT OF CLUSTER TENDENCY
K. S. Sokolova Scientific supervisor - I. S. Masich
Reshetnev Siberian State University of Science and Technology 31, Krasnoyarskii rabochii prospekt, Krasnoyarsk, 660037, Russian Federation
Е-mail: kristall.98@mail.ru
In this article, we review the application of the visual assessment of clustering tendency (VAT) method to display information about the internal structure of a data set before the start of the clustering process.
Keywords: clustering, cluster tendency, VAT.
В современном мире активно используется анализ больших объемов информации и данных, который способствует прогнозировать тенденции, искать решения и снижать риски в деятельности организаций.
Одним из интеллектуальных методов анализа данных является кластеризация, задача которой состоит в разбиении выборки данных на группы схожих объектов путем оценки структуры по выбранным характеристикам для дальнейшей обработки и принятия решений [1]. В сфере производства, в том числе комплектующих в ракетно-космической отрасли, кластерный анализ способен выявить основные виды и причины возникновения брака в выпускаемой продукции.
Для разделения набора данных на кластеры похожих объектов используются различные алгоритмы кластеризации, однако перед их применением к набору данных возникает вопрос: содержит ли набор данных какие-либо присущие кластеры и, если ответ положителен, то сколько таковых кластеров? В связи с этим, оценка тенденции данных к кластеризации является важной задачей предварительной кластеризации.
Одним из инструментов оценки кластерной тенденции является алгоритм визуальной оценки тенденции (VAT) [2]. Данный алгоритм отображает изображение переупорядоченных и масштабированных данных о различиях, которое можно использовать для визуальной оценки кластерной структуры (включая потенциальное количество кластеров) в данных [3].
Секция «Математические методы моделирования, управления и анализа данных»
Алгоритм работает путем вычисления матрицы различий между объектами в наборе данных, используя евклидову меру расстояния. Затем матрица различий переупорядочивается на основе нахождения минимального остовного дерева наблюдений (модифицированный алгоритм Прима) так, чтобы похожие объекты были близко друг к другу. Попарное расстояние между этими наблюдениями отображается в виде пикселя изображения VAT на переупорядоченном изображении различия или тепловой карте кластера. Каждый пиксель изображения VAT в градациях серого отображает масштабированное значение различия между двумя объектами. Высокое различие отображают белые пиксели, а низкое различие - чёрные. Подобие каждого объекта к самому себе приводит к нулевым (черным) диагональным элементам в изображении. Темный блок по диагонали тепловой карты — это подматрица «одинаково малых» значений несходства, поэтому темные блоки по диагонали изображения потенциально представляют разные кластеры объектов, которые относительно похожи друг на друга [3].
Алгоритм улучшенной визуальной оценки кластерной тенденции (iVAT) отличен от метода VAT тем, что в нём используется мера расстояния между объектами на основе пути. Тепловые карты, полученные в результате работы данного алгоритма, показывают более чёткие результаты, показывая кластерную тенденцию для сложных случаев, когда VAT этого сделать не может [4].
На рисунке 1 показаны результаты применения алгоритмов VAT и iVAT для набора данных диагностического контроля микросхем.
I! -10 < ^ -2 ( г 1 6 S » н к м •
РС1
а) Ь) С)
Рис. 1. (а) диаграмма рассеяния выборки на главных компонентах; (b) тепловая карта алгоритма VAT;
(с) тепловая карта алгоритма iVAT
Тепловые карты алгоритмов VAT и iVAT показывают три затемненных блока по диагонали, соответствующие трём кластерам в наборе данных, при этом данные блоки на изображении iVAT четче, чем на изображении VAT. Так, качество переупорядоченных изображений различий VAT значительно ухудшается из-за наличия шума (особенно точек, образующих «мост» между кластерами).
Существуют и другие модификации алгоритма визуальной оценки кластерной тенденции (ConiVAT, LS-VAT и др.) со своими особенностями, работу которых можно сравнить с рассмотренными выше алгоритмами в дальнейшем исследовании.
Таким образом, алгоритмы VAT, iVAT являются методами визуального извлечения некоторой информации о структуре кластера из входного пространства перед применением любого алгоритма кластеризации. Они переставляют объекты таким образом, чтобы подчеркнуть возможную структуру кластера. При этом роль визуализации в получении
знаний о структуре данных имеет решающее значение, так как она выявляет тенденции, закономерности и взаимосвязи, которые нелегко различить в числовых данных или традиционных формах представления.
Библиографические ссылки
1. Xu D., Tian Y. A Comprehensive Survey of Clustering Algorithms // Annals of Data Science. Vol. 2. 2015. P. 165-193.
2. Bezdek J. C., Hathaway R. VAT: A tool for visual assessment of (cluster) tendency // Proceedings of the International Joint Conference on Neural Networks. №3. 2002. P. 2225 - 2230.
3. Komarasamy G., Wahi A. Finding the number of clusters using visual validation VAT algorithm // International Journal of Engineering and Technology. №5. 2013. P. 3951-3957.
4. Havens T. C., Bezdek J. C. An Efficient Formulation of the Improved Visual Assessment of Cluster Tendency (iVAT) Algorithm // IEEE Transactions on Knowledge and Data Engineering. Vol. 24. №5. 2012. P. 813-822.
© Соколова К. С., 2022