Применение парадигмы нечеткой кластеризации и бикластеризации при мониторинге инфраструктуры центров обработки данных

Усов Алексей Евгеньевич; Варламов Александр Александрович; Бабкин Олег Вячеславович; Дос Евгений Владимирович; Мостовщиков Дмитрий Николаевич

ПРИМЕНЕНИЕ ПАРАДИГМЫ НЕЧЕТКОЙ КЛАСТЕРИЗАЦИИ И БИКЛАСТЕРИЗАЦИИ ПРИ МОНИТОРИНГЕ ИНФРАСТРУКТУРЫ ЦЕНТРОВ ОБРАБОТКИ ДАННЫХ Усов А.Е.1, Варламов А.А.2, Бабкин О.В.3, Дос Е.В.4, Мостовщиков Д.Н.5

1Усов Алексей Евгеньевич - ведущий архитектор;

2Варламов Александр Александрович - старший архитектор; 3Бабкин Олег Вячеславович - старший архитектор;

4Дос Евгений Владимирович - архитектор;

5Мостовщиков Дмитрий Николаевич - старший архитектор, системный интегратор «Li9 Technology Solutions», г. Райли, Соединенные Штаты Америки

Аннотация: рассмотрены методы нечеткой кластеризации, в частности применение метода нечетких c-средних. Показана необходимость построения теоретической методологии использования метода нечетких c-средних. Рассмотрены модели нечеткой кластеризации, которые базируются на концепции смесей вероятностных распределений, а также введении в статистическую модель алгоритмов нечеткой регулируемой коррекции. При этом метод нечетких c-средних, основанный на энтропийной регуляризации, рассматривается в рамках модели смеси гауссовых распределений и фаззификации, сравнивается по эффективности с классическим методом нечетких c-средних. Помимо этого, концепция регуляризации обсуждается в контексте нечеткой бикластеризации, а также рассматривается полиноминальная модель кластеризации. На основе результатов экспериментальной верификации данных моделей показано, что модель нечеткой кластеризации, которая базируется на концепции смесей вероятностных распределений и введении в статистическую модель алгоритмов нечеткой регулируемой коррекции демонстрирует улучшение интерпретируемости разбиения объекта на кластеры. Ключевые слова: информационные системы, метод нечетких c-средних, метод энтропийной регуляризации, смеси гауссовых распределений, фаззификация, нечеткая бикластеризация, полиноминальная модель кластеризации.

УДК 331.225.3

Введение: Внедрение метода кластерного анализа данных путем построения групп объектов информационных систем на основании ключевых параметров, определяющих их сходство, широко используется в современных информационных технологиях [1-5], в частности при мониторинге и классификации объектов центров обработки данных, что указывает на актуальность разработки теоретической методологии использования данного подхода.

Анализ последних исследований и публикаций в данной области показал перспективность применения иерархических алгоритмов, в то время как неиерархические алгоритмы продолжают использоваться в мобильных приложениях, поскольку требуют меньшие вычислительные мощности. Так метод на основе нечетких ^-средних [2, 6] является самым известным неиерархическим алгоритмом кластеризации, хотя на сегодняшний день в большей степени используются модернизированные алгоритмы на его основе. В то же время алгоритмы на основе метода нечетких с-средних применяются для проведения нечеткого разбиения [1, 3, 7], через внедрение парадигмы нечеткого набора, где нечеткое разбиение реализуется путем введения целевой функции нелинейного характера с весовым показателем.

Другая модель фаззификации базируется на парадигме регуляризации энтропии, в которой дополнительный нелинейный член (который обычно является квадратичным) комбинируется с целевой функцией ^-средних [8, 9]. Было показано, что алгоритм на

основе кластеризации типа к-средних также может иметь другую интерпретацию с точки зрения парадигмы смеси вероятностных распределений. Таким образом, функция правдоподобия (likelihood function) смеси гауссовых распределений (GMM: Gaussian Mixture Models) может быть разложена на целевую функцию с жестким к-средним и дополнительный член на основе мягкого разбиения [10-12]. Данная парадигма поддерживает достоверность энтропии регуляризованной целевой функции метода нечетких с-средних и подразумевает связь кластеризацией метода нечетких с-средних и моделей смесей вероятностных распределений. При этом были предложены нечеткие аналоги нескольких вероятностных моделей смесей, где степень нечеткости вероятностных разбиений настраивается с весовых коэффициентов [13, 14].

Кластеризация на основе метода нечетких с-средних также может быть расширена до нечеткой бикластеризации (fuzzy co-clustering), где цель состоит в том, чтобы извлечь парные кластеры объектов набора на основе информации о совпадениях. Помимо моделей регуляризации на основе энтропии [15-17], был предложен нечеткий аналог моделей полиномиальной смеси [18, 19], который также реализуется с регулируемым весовым коэффициентом.

Целью работы, таким образом, стала разработка комплексной методологии использования алгоритмов на основе метода нечетких с-средних и к-средних в центрах обработки данных путем обобщения приведенных выше моделей и проведения численных экспериментов

1. Внедрение фаззификации в методах нечетких с-средних и k-средних

Фаззификация или введение нечеткости является процессом установления соответствия между численным значением входных данных нечеткого вывода и значением функции принадлежности соответствующего ей терма. Таким образом, при фаззификации в соответствие значениям всех входных данных системы ставятся конкретные значения функций принадлежности соответствующих термов. Цель кластеризации типа к-средних состоит в том, чтобы разделить объекты xt, где i 6 [1; /], на кластеры с 6 [1; С] множеств с репрезентативными центроидами Ъс, где внутрикластерные объекты максимально похожи друг на друга. Соответственно, алгоритм кластеризации к-средних включает случайное назначение центроидов и оптимизацию центроидов через разбиение элементов системы до уровня сходимости. Алгоритмы разделения могут быть представлены несколькими моделями функции принадлежности (membership function) в соответствии с различными ограничениями.

Пусть есть группа объектов инфраструктуры центра обработки данных общим числом i 6 [1; /], которая может быть представлена кластерами с 6 [1; С]. В таком случае ограничения для четкого с-разделения (hard c-partition), нечеткого с-разделения uFci (fuzzy c-partition) и вероятностного с-разделения и^ (possibilistic с-partition), где uci — функция принадлежности, могут быть определены как:

Как можно видеть, при переходе и^ ^ ирс1 ^ и^ жесткость ограничений уменьшается, и критерии назначения объектов набора становится гораздо более гибким.

Алгоритмы на основе метода нечетких с-средних строятся на основе нечеткого с-разделения и модифицированной целевой функции ^-средних. Стандартная модель гибридной нечеткой кластеризации также включает дополнительный весовой показатель т, где т >1 (рис. 1).

1 Сумма по кластерам с С

1 Сумма по объектам г I

ufrUi-bc\2

т -* со -> 1/С; для V i, с

т -» 1 четкое с-разделение

Рис. 1. Схема определения значения функции правдоподобия по методу гибридной нечеткой

кластеризации

Как показано на рис. 1 весовой показатель m определяет уровень нечеткости алгоритма. Таким образом, при т ^ 1 модель приближается к четкому с-разделению, а при т ^ да значение и™ ^ 1/С для любых объектов и кластеров объектов.

В свою очередь метод энтропийной нечеткой кластеризации (рис. 2) объединяет определение целевой функции по методу ^-средних с энтропийной штрафной функцией (entropy-like penalty function).

Рис. 2. Схема определения значения функции правдоподобия по методу энтропийной нечеткой

кластеризации

Соответственно для метода энтропийной нечеткой кластеризации при росте А

значение ит ^ 1/C для любых объектов и кластеров объектов.

2. Нечеткая кластеризация для смесей вероятностных распределений

Ограничения нечеткой кластеризации представленные в системах уравнений (1) могут быть соотнесены с парадигмой смесей вероятностных распределений [20-22] через соотнесение функция принадлежности uci и порождающей вероятности (generative probability) объекта Xj, где i 6 [1; I], который относится к -распределению. Пусть объекты взяты из одного из независимых гауссовых распределений, тогда каждый из них представляет собой гауссов компонент дс со средним Ъс и корреляционным моментом covc. Таким образом, вероятность может быть рассчитана через дс и весовой коэффициент ас:

- VC

T,c=iac •дс(Xi\ЪС,covc).

(2)

В свою очередь на основе расчета вероятности для смеси гауссовых распределений может быть определена функция правдоподобия:

^1=11од(Р1).

(3)

При помощи неравенства Йенсена может быть найдено решение для максимизации функции правдоподобия:

-Сс=1 —=1 ис

1од (■

а1дс(ч\Ьс,с°Ус)

(4)

На основе данного выражения может быть построен алгоритм, представленный на рис. 3.

1 Сумма по кластерам с С

1 Сумма по объектам / I

ис1 ■ 1од(дс(х1\Ьс1.с))

□

- 1 Сумма по кластерам с С

- 1 Сумма по объектам г I

1— иС1 — апостериорная вероятность —1

Рис. 3. Схема определения значения функции правдоподобия для смеси гауссовых распределений

При этом иС1 является апостериорной вероятностью для гауссова компонента с с параметрами (х;, Ъс, соус}, объекта XI и функции принадлежности иС1.

В рамках данной работы предлагается использовать нечеткий аналог полнопараметрических смеси гауссовых распределений путем применения расхождения Кульбака-Лейблера (РКЛ). Максимум целевой функции при этом может быть получен через расширения метода нечетких с-средних:

' ьркл _ (а^сор-1^) -

-Я Т1Сс=11,1=1 ис1 ^^ + £Сс=1 ис1 \og\cov,. \ - 1— —I

^ _ —=1иС1х1

< С 21=1иа , (5)

соус - -Г1—2'1=1(Л¿ ■ (4¿)Т)

А1=1ис1 и _ а-сехр(-ас1) 01 ~ -1=1а1ехр(-ас1)

Ыс1 - (А,)ТЕС(А,)

I - *1-ъс

где: Я — регулируемый вес для настройки степени нечеткости разделения, чем больше значение Я, тем более нечетким является разделение.

(в) (г)

Рис. 4. Численное моделирование кластерного РКЛ-разделения: (а) набор объектов в двумерном пространстве; (б) разделение для X = 0,5; (в) разделение для X = 1; (г) разделение

для X = 2

Для определения эффективности алгоритма определения максимум целевой функции через расширения метода нечетких с-средних на основе РКЛ анализа было проведено численное моделирование. Предложенная модель включает в себя набор объектов представленных в двумерном пространстве, на основе которого можно образовать четыре кластера с равным количеством объектов в каждом.

На рис. 4 представлены результаты численного моделирования кластерного РКЛ-разделения для С = 4 и X = 0,5 (рис. 4-б), X = 1 (рис. 4-в), X = 2 (рис. 4-г). Результат, полученный для X =1, демонстрирует влияние на расположение центроида центрального кластера элементов внешних кластеров, таким образом, можно видеть, что при нечетком разделении могут искажаться границы кластеров, неоднозначность которых связана с определением негауссовых плотностей компонентов.

Соответственно результат полученный для X =0,5 указывает на более четкое разделение с X = 0,5, что является предпочтительным для уточнения границ кластеров. Следует отметить, что применение более четкой модели, дает возможность воспользоваться преимуществами как четкого разбиения ^-средних, так и нечеткого определения принадлежности элементов набора данных. С другой стороны, при том, что для X = 2 на центральный кластер оказывается еще больше влияние внешних кластеров, центр кластера корректно отображается в его центроиде.

Проведенное моделирование показывает, что регулирование параметров кластерного анализа может способствовать улучшению интерпретируемости результата разделение набора на кластеры. Более четкая модель подходит для линейно разделяемых наборов данных, в то время как нечеткая модель эффективно работает при анализе перекрывающихся кластеров. Выводы

В результате проведенного анализа были изучены современные подходы нечеткой кластеризации, в частности применение метода нечетких с-средних для смесей вероятностных распределений, и сделаны выводы по их применения в информационных системах, в частности:

1. Проведен анализ ограничений для четкого с-разделения, нечеткого с-разделения и вероятностного с-разделения. Математический аппарат, который применяется в данных моделях, был соотнесен с уравнениями вероятностного анализа.

2. Был рассмотрен подход на основе применения парадигмы смесей вероятностных распределений, в рамках которого объекты, каждый из них представляет собой гауссов компонент, могут быть взяты из одного из независимых гауссовых распределений, а вероятность рассчитывается через весовой коэффициент.

3. Был предложен алгоритм по использованию полнопараметрической смеси гауссовых распределений путем применения расхождения Кульбака-Лейблера, где максимум целевой функции при этом может быть получен через расширения метода нечетких с-средних.

4. Было проведено численное моделирование и показано, что регулирование параметров кластерного анализа способствует улучшению интерпретируемости результата разделение набора на кластеры.

Список литературы

1. Haqiqi B.N. & Kurniawan R., 2015. Analisis Perbandingan Metode Fuzzy C-Means Dan Subtractive Fuzzy C-Means. Media Statistika, 8 (2). doi:10.14710/medstat.8.2.59-67.

2. Lee S., Kim J. & Jeong Y., 2017. Various Validity Indices for Fuzzy K-means Clustering. Korean Management Review, 46(4), 1201-1226. doi:10.17287/kmr.2017.46.4.1201.

3. Yasuda M., 2014. Q-increment deterministic annealing fuzzy c-means clustering using Tsallis entropy. 2014 11th International Conference on Fuzzy Systems and Knowledge Discovery (FSKD). doi:10.1109/fskd.2014.6980802.

4. Chen S., 2017. An improved fuzzy decision analysis framework with fuzzy Mahalanobis distances for individual investment effect appraisal. Management Decision, 55(5), 935956. doi:10.1108/md-11-2015-0512.

5. Baili N., 2013. Unsupervised and semi-supervised fuzzy clustering with multiple kernels. Louisville, KY: University of Louisville.

6. Lee J. & Lee J., 2014. K-means clustering based SVM ensemble methods for imbalanced data problem. 2014 Joint 7th International Conference on Soft Computing and Intelligent Systems (SCIS) and 15th International Symposium on Advanced Intelligent Systems (ISIS). doi:10.1109/scis-isis.2014.7044861.

7. A New Membership Function on Hexagonal Fuzzy Numbers. (2015). International Journal of Science and Research (IJSR), 5(5), 1129-1131. doi:10.21275/v5i5.nov163626.

8. Miyamoto S., Ichihashi Н. and Honda K. Algorithms for Fuzzy Clustering. Springer, 2008.

9. Miyamoto S. and Umayahara ^ "Fuzzy clustering by quadratic regularization," Proc. 1998 IEEE Int. Conf. Fuzzy Systems and IEEE World Congr. Computational Intelligence. Vol. 2. Pp. 1394-1399, 1998.

10. Bishop C.M. Neural Networks for Pattern Recognition, Clarendon Press, 1995.

11. Hualde J. & Robinson P.M., 2011. Gaussian pseudo-maximum likelihood estimation of fractional time series models. The Annals of Statistics, 39(6), 3152-3181. doi: 10.1214/11-aos931.

12. Lewis R.H., Palancz B. & Awange J., 2015. Application of Dixon resultant to maximization of the likelihood function of Gaussian mixture distribution. ACM Communications in Computer Algebra, 49(2), 57-57. doi:10.1145/2815111.2815138.

13. Ichihashi Н., Miyagishi ^ and Honda К "Fuzzyc-means clustering with regularization by K-L information", Proc. of 10th IEEE International Conference on Fuzzy Systems, Vol.2, Pp. 924-927, 2001.

14. Honda ^ and Ichihashi Н. "Regularized linear fuzzy clustering and probabilistic PCA mixture models", IEEE Trans. Fuzzy Systems. Vol. 13. № 4. Pp. 508-516, 2005.

15. Ichihashi H., Notsu A. & Honda K., 2010. Semi-hard c-means clustering with application to classifier design. International Conference on Fuzzy Systems. doi:10.1109/fuzzy.2010.5584553

16. Oh C.-H., Honda ^ and Ichihashi Н. "Fuzzy clustering for categorical multivariate data," Proc. of Joint 9th IFSA World Congress and 20th NAFIPS International Conference. Pp. 2154-2159, 2001.

17. Kummamuru K, Dhawale А. and Krishnapuram R. "Fuzzy co-clustering of documents and keywords," Proc. 2003 IEEE Int'l Conf. Fuzzy Systems. Vol. 2. Pp. 772-777, 2003.

18. Rigouste L., Cappe О.and Yvon F. "Inference and evaluation of the multinomial mixture model for text clustering," Information Processing and Management, Vol. 43, no. 5, Pp. 1260-1280, 2007.

19. Honda K, Oshio S. and Notsu А. "Fuzzy co-clustering induced by multinomial mixture models," Journal of Advanced Computational Intelligence and Intelligent Informatics, vol. 19, no. 6, pp. 717-726, 2015.

20. Kumar P. & Chaturvedi A., 2016. Probabilistic query generation and fuzzyc-means clustering for energy-efficient operation in wireless sensor networks. International Journal of Communication Systems, 29(8), 1439-1450. doi:10.1002/dac.3112.

21. Wang Z., Wang L., Dang H. & Pan L., 2013. Web clustering based on hybrid probabilistic latent semantic analysis model. Journal of Computer Applications, 32 (11), 3018-3022. doi:10.3724/sp.j.1087.2012.03018.

22. Raveendran R. & Huang B., 2016. Mixture Probabilistic PCA for Process Monitoring -Collapsed Variational Bayesian Approach. IFAC-PapersOnLine, 49(7), 1032-1037. doi:10.1016/j.ifacol.2016.07.338.

Текст научной работы на тему «Применение парадигмы нечеткой кластеризации и бикластеризации при мониторинге инфраструктуры центров обработки данных»