Научная статья на тему 'Разработка методов нечеткой кластеризации сетевых ресурсов информационных систем'

Разработка методов нечеткой кластеризации сетевых ресурсов информационных систем Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
175
40
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНФОРМАЦИОННЫЕ СИСТЕМЫ / МЕТОД НЕЧЕТКИХ C-СРЕДНИХ / МЕТОД ЭНТРОПИИ / АЛГОРИТМ ГУСТАФСОНА-КЕССЕЛЯ / АЛГОРИТМ КУЛЬБАКА-ЛЕЙБЛЕРА / ЯДЕРНЫЕ МЕТОДЫ КЛАСТЕРИЗАЦИИ / INFORMATION SYSTEMS / FUZZY C-MEANS METHOD / ENTROPY METHOD / GUSTAFSON-KESSEL ALGORITHM / KULLBACK-LEIBLER ALGORITHM / KERNEL CLUSTERING METHODS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Вишняков Александр Сергеевич, Макаров Анатолий Евгеньевич, Уткин Александр Владимирович, Зажогин Станислав Дмитриевич, Бобров Андрей Владимирович

Рассмотрены методы нечеткой кластеризации и сделаны выводы по их применению в информационных системах. Показано, что метод нечетких c-средних обладает устойчивостью с точки зрения использования естественного нечеткого классификатора. Был рассмотрен метод нечеткой кластеризации k-средних и метод энтропии, показано, что при кластеризации информационных систем метод нечетких c-средних обладает большей устойчивостью. Рассмотрены возможности применения в методах нечетких c-средних метрики Махаланобиса, в частности были представлены алгоритмы Густафсона-Кесселя и Кульбака-Лейблера. Показана необходимость при построении нелинейных границ кластеров использования ядерных методов кластеризации. Разработан комплексный алгоритм определения оптимального способа для кластеризации элементов информационной системы.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Вишняков Александр Сергеевич, Макаров Анатолий Евгеньевич, Уткин Александр Владимирович, Зажогин Станислав Дмитриевич, Бобров Андрей Владимирович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DEVELOPMENT OF METHODS FOR FUZZY CLUSTERING OF NETWORK INFORMATION SYSTEMS

The methods of fuzzy clustering are considered and conclusions on their use in information systems are made. It is shown that the method of fuzzy c-means is stable in terms of using a natural fuzzy classifier. The fuzzy clustering method of k-means and the entropy method were considered, and it was shown that when information systems are clustering, the fuzzy c-means method is more stable. The possibilities of using fuzzy methods with the Mahalanobis metrics are considered, in particular, the Gustafson-Kessel and Kullback-Leibler algorithms were presented. The necessity of using kernel clustering methods in the construction of nonlinear cluster boundaries is shown. A complex algorithm for determining the optimal method for clustering information system elements has been developed.

Текст научной работы на тему «Разработка методов нечеткой кластеризации сетевых ресурсов информационных систем»

РАЗРАБОТКА МЕТОДОВ НЕЧЕТКОЙ КЛАСТЕРИЗАЦИИ СЕТЕВЫХ РЕСУРСОВ ИНФОРМАЦИОННЫХ СИСТЕМ Вишняков А.С.1, Макаров А.Е.2, Уткин А.В.3, Зажогин С.Д.4, Бобров А.В.5 Email: [email protected]

1Вишняков Александр Сергеевич - ведущий инженер, системный интегратор «Крастком»; 2Макаров Анатолий Евгеньевич - архитектор решений, Российская телекоммуникационная компания «Ростелеком», г. Москва;

3Уткин Александр Владимирович - старший инженер, Международный системный интегратор «EPAMSystems», г. Минск, Республика Беларусь; 4Зажогин Станислав Дмитриевич - старший разработчик, Международный IT интегратор «Hospitality & Retail Systems»; 5Бобров Андрей Владимирович - руководитель группы, группа технической поддержки, Компания SharxDC LLC, г. Москва

Аннотация: рассмотрены методы нечеткой кластеризации и сделаны выводы по их применению в информационных системах. Показано, что метод нечетких с-средних обладает устойчивостью с точки зрения использования естественного нечеткого классификатора. Был рассмотрен метод нечеткой кластеризации k-средних и метод энтропии, показано, что при кластеризации информационных систем метод нечетких с-средних обладает большей устойчивостью. Рассмотрены возможности применения в методах нечетких с-средних метрики Махаланобиса, в частности были представлены алгоритмы Густафсона-Кесселя и Кульбака-Лейблера. Показана необходимость при построении нелинейных границ кластеров использования ядерных методов кластеризации. Разработан комплексный алгоритм определения оптимального способа для кластеризации элементов информационной системы.

Ключевые слова: информационные системы, метод нечетких с-средних, метод энтропии, алгоритм Густафсона-Кесселя, алгоритм Кульбака-Лейблера, ядерные методы кластеризации.

DEVELOPMENT OF METHODS FOR FUZZY CLUSTERING OF NETWORK INFORMATION SYSTEMS Vishniakov A.S.1, Makarov A.E.2, Utkin A.V.3, Zazhogin S.D.4, Bobrov A.V.5

1Vishniakov Alexandr Sergeevich - Lead System Engineer, SYSTEM INTEGRATOR «KRASTCOM»; 2Makarov Anatoly Evgenevich - Solutions Architect, ROSTELECOMINFORMATION TECHNOLOGY, MOSCOW;

3Utkin Alexander Vladimirovich - Senior Engineer, INTERNATIONAL SYSTEM INTEGRATOR EPAM SYSTEMS, MINSK, REPUBLIC OF BELARUS; 4Zazhogin Stanislav Dmitrievich - Senior Software Engineer, International IT Integrator Hospitality & Retail Systems; 5Bobrov Andrei Vladimirovich - Team leader, TECHNICAL SUPPORT GROUP, SHARXDC LLC, MOSCOW

Abstract: the methods of fuzzy clustering are considered and conclusions on their use in information systems are made. It is shown that the method of fuzzy c-means is stable in terms of

using a natural fuzzy classifier. The fuzzy clustering method of k-means and the entropy method were considered, and it was shown that when information systems are clustering, the fuzzy c-means method is more stable. The possibilities of using fuzzy methods with the Mahalanobis metrics are considered, in particular, the Gustafson-Kessel and Kullback-Leibler algorithms were presented. The necessity of using kernel clustering methods in the construction of nonlinear cluster boundaries is shown. A complex algorithm for determining the optimal method for clustering information system elements has been developed.

Keywords: information systems, fuzzy c-means method, entropy method, Gustafson-Kessel algorithm, Kullback-Leibler algorithm, kernel clustering methods.

УДК 331.225.3

Введение

Кластерный анализ данных путем автоматической генерации групп объектов информационных систем на основании параметров, определяющих их сходство, широко используется в области современных информационных технологий [1, 4-10]. Среди большого количества перспективных методов кластеризации необходимо выделить группу алгоритмов, которые основываются на методе нечеткой кластеризации c-средних, преимуществом которых является простота реализации и устойчивость, что определяет актуальность данного исследования.

Анализ последних исследований и публикаций в данной области показал перспективность метода нечеткой кластеризации k-средних [4, 5] и метода энтропии [6, 7], которые могут быть взяты за основу при разработке более сложных алгоритмов. В частности при развитии метода нечеткой кластеризации c-средних на метрику Махаланобиса могут быть использованы алгоритмы Густафсона-Кесселя [7] и Кульбака-Лейблера [8]; а для построения нелинейных границ кластеров актуально использовать ядерные методов кластеризации [9, 10]. Проведенный анализ также показал на отсутствие целостной методологии нечеткой кластеризации информационных систем, что было выделено как нерешенную часть общей проблемы.

Целью работы, таким образом, стала разработка комплексного алгоритма определения оптимального способа для нечеткой кластеризации элементов информационной системы, что позволяет определить эффективность метода через решение математической задачи определения экстремума целевой функции.

1. Применение метода нечеткой кластеризации с-средних в информационных системах

Метод кластеризации c-средних (c-means) в общем виде рассматривает процесс кластеризации как выделение центров кластеров ск £ [сх; сК] для набора объектов Xj £

[х1; Xj] через функцию uj, которая определяется через соответствующую метрику (рис. 1). В случае применения метода кластеризации c-средних обычно используется метрика Минковского для п = 2 (т.е. Евклидова метрика).

Рис. 1. Обобщенная схема метода кластеризации c-средних

При этом всё множество значений, которые принимает функция и} описывается через следующую систему уравнений [2, 3]:

[и{ 6 [0;1] j 6 [1;/] Ле[1;К] .

,J -

И-

I к 6 [1; К]

1 "к

(1)

Наиболее простым в описании и реализации является метод четкой кластеризации c-средних (CCM: crisp c-means), алгоритм которого представлен на рис. 2. Данный метод включает в себя создание случайных центров кластеризации, соотнесении множества объектов с данными центрами кластеризации в соответствии с выбранной метрикой, расчет новых центров кластеризации как центроидов (центров масс) множества. В случае сходимости центроидов алгоритм CCM считается завершенным.

Рис. 2. Схема реализации алгоритма четкой кластеризации с-средних Центры кластеризации в алгоритме ССМ определяются как [2, 3]:

I cfc

_ Zj=ixj

nk

Xj 6 {ck}

(2)

где n k — количество объектов в кластере k.

Метод нечеткой кластеризации c-средних (FCM: fuzzy c-means) аналогичным образом может быть определен через уравнение для целевой функции G:

i g = Z L iZ j=i (" D ,

m 6 [1,со)

(3)

где £> (х7, с/с) — расстояние, которое определяется соответствующей метрикой. Данный метод включает в себя минимизацию функции С относительно множеств и {с^} с последующей проверкой сходимости полученных значений (рис. 3)

Рис. 3. Схема реализации алгоритма нечеткой кластеризации с-средних

Соответственно, при минимизации функции С относительно множества {и}] вносятся следующие ограничения.

(( и[е [од]

II

7 = 1 " к } е [1;/]

(4)

{к 6 [1; К]

Как можно увидеть, при т = 1 метод FCM переходит в форму CCM, в то время как для т > 1 оптимальные значения целевых функций и} и ск (и]к и с~к) могут быть определены через систему уравнений для всех х}, что не являются центрами кластеризации:

= 1/И=1

К т-1 \Р<,хрск)

В(Х],Ск)

_ _ ^=1(К)"Ч) А-Н)

X] * Ск

(5)

Соответственно, для х}, которые являются центрами кластеризации может быть определена следующая система уравнений:

< = 1/яи

,к т-1 \Р(хрск)

ск ~ , ,

х] — ск Ск> Ф Ск

Системы уравнений (5) и (6) можно рассматривать как основу построения алгоритмов кластеризации элементов информационных систем на основе ССМ.

2. Особенности развития методологии нечеткой кластеризации информационных систем

Наиболее популярным методом кластеризации, который в какой-то мере обобщает приведенный выше математический аппарат, является метод ^-средних, который определяется через ближайший центр распределения при помощи четкого классификатора Ц [4, 5]:

и?(х;с) = 1 I = агд (ттк (0 (х ; ск)) ) . к 6 [1; К]

(7)

Соответственно для двух областей V/ и V/ может быть определено ик (х; 7) = 0 и Ц/ (х; 7) > Цк (х; 7) соответственно для любого ] Ф к

Также можно предположить применение целевой функции нечетких средних на основе метода энтропии [6, 7]:

(8)

{ Сеп 1 = У К=г! ] = ! {и [-0 (х,Ск) +Я" ги ¿-1 о § (и [) }

Я > 0 .

Аналогично схеме представленной на рис. 3 в результате минимизации функции можно получить значения

,> - .

-Ао{хрСк)

4=1"

-Xо{хрСк)

_ Ц=1 икх1 ск - Г

Ц=1ик

(9)

Тогда для данного метода классификатор может быть определен как

-А 0(х,ск)

уем =

у! е-АВ (х,ск) .

(10)

Сравнение БСМ, метода ^-средних и метода энтропии возможно через соотнесение функций и/(х;с), иК(х;с) и и^. Если х достаточно далеко от центров ск Е [с^с^ для БСМ Ц (х;с) « 1 /К, соответственно ЦК (х;с) = 1 и иК (х;с) = 0 для кФ1. Для метода энтропии, в свою очередь, и/п 1 « 1 . Следовательно метод ^-средних и метод энтропии в значительной степени зависят от объектов, которые находятся далеко от центров кластеризации. Более того, функция Ц (х;с) характеризуется максимумом в точке х = ск. Стандартно БСМ при кластеризации объектов информационных систем имеет преимущества перед методом ^-средних и методом энтропии.

3. Обобщение метода нечеткой кластеризации с-средних для метрики Махаланобиса

Значительное число методов, которые базируются на методе нечеткой кластеризации с-средних, основываются на метрике Махаланобиса, расстояние для которой определяется как меру несходства между двумя векторами [8]:

Як = (хк - Ук)Т 5 1'(хк- ук),

(11)

где 5 — матрица ковариации.

Для алгоритма Густафсона-Кесселя включает кластерные ковариационные переменные 5к Е 5К] . Т.о., целевая функция может быть определена как:

С({и]к},{ск}.5) = П= 1%=1 (4)тЯ^,Ск;5к) . (12) т > 1

Также целевую функцию можно выразить через дополнительный параметр , набор которых формирует матрицу А = {а1,..., аК):

С ({и к}, { с к) ,5, А ) = П= 1%к=1 &к) ^ (ик) т0(хк,Ск-;5к) , (13)

т > 1

где ак определяется через следующую систему уравнений:

{Т,к = 1ак ~ 1

ак> О к 6 [1; К]

(14)

Т.о., в данном случае необходимо провести минимизацию четырех функций ик, ,ск, 5к и ак. Аналитическое решение в общем случае может быть представлено в следующем виде:

[ 1)

С/С

^Ш)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- Сл)(ж>- - ск)7

«к = 1/^=1, где определяется как

4 = Т.]]=1(и1)т(х1 - ск)(*7- - ск)7

(15)

т й^ХрСк^к)

т й^ХрСк^к)

(16)

Соответственно сходимость алгоритма Густафсона-Кесселя вычисляется через оптимизацию четырех функций.

Другим вариантом метода нечеткой кластеризации с-средних для метрики Махаланобиса актуальным для информационных систем является метод Кульбака-Лейблера. Следует отметить, что данный подход включает в себя энтропийный алгоритм рассмотренный выше. Целевая функция для метода Кульбака-Лейблера может быть определена как

Gkl = П= il!j=^{D (xj.ck;Sk) + П= 1ZJj=1 ( v-u {■ log ^ + log \ Sk \ j . (17)

Соответственно для метода Кульбака-Лейблера как и в случае метода Густафсона-Кесселя производится минимизация четырех функций uj, ,ck, S k и акс аналитическим решением, которое может быть представлено в виде:

^ = й'е (й'е "J

_ Zk=iukxj

< к , (18)

= s-J J 1 ' (Xj ~ Cfc)(X/' ~~ Cfc)

Lj=iuk

1 v ] j

\ ctk=-Y/j=1u'k

По уравнениям (17-18) можно увидеть, что метод Кульбака-Лейблера соответствует статистической модели, известно как смешанная модель Гаусса. Целевые функции по методу Кульбака-Лейблера рассчитываются проще, чем по методу Густафсона-Кесселя, но при этом метод Густафсона-Кесселя обладает большей устойчивостью.

4. Применение в информационных системах ядерных методов нечеткой кластеризации с-средних

Ядерные алгоритмы нечеткой кластеризации с-средних большей частью основываются на методах опорных векторов и ядерных функциях. Причина, по которой имеет смысл использовать ядерные методы для кластеризации, заключается в том, что ^-средние и нечеткие с-средние характеризуются линейными границами между кластерами областей, в то время как для более гибкого подхода необходимо использовать нелинейные границы [9, 10].

В рамках данного подхода набор объектов х } Е [х 1 ;Xj] может быть представлен в виде многомерного отображения , при этом ядерная функция представляется в

гильбертовом пространстве:

К(х,у) = (Ф(хд,Ф(Xj))и . (19)

В ядерных алгоритмах нечеткой кластеризации с-средних, таким образом, целевая функция использует набор и центрами кластеризации в гильбертовом

пространстве с к Е [c"; с"] :

(с({u}k},[ck}) = П= iUj=1 КГ I I Ф(Х{) - с"| | к . (20)

I т > 1

Соответственно при определении сходимости целевой функции необходимо минимизировать и функцию, определяющую центры кластеризации в гильбертовом пространстве:

,1 -

1/Z-

4=1

||ф(х70- 4 я

||ф(х70- 4 1

Т.о., для определения центров кластеризации в рамках данного подхода нужно либо определить функцию , либо исключить ее из описания ядерной функции.

Евклидова метрика

Метод нечеткой кластеризации с-средних

Классификато/i ¿/¡(х; с)

Метод нечеткой кластеризации Ar-средних

Классификатор Uf (х; с)

Метод энтропийной кластеризации

Классификато Ufnt(x-, с)

Минимизация G ({и

Минимизация G ( Н]'{ск})

Минимизация G ( (4М

Метрика Махаланобиса

Метод Густафсона-Кесселя Минимизация G 'Н

Метод Кульбака Лейблера Минимизация GKL[ U) ик ,{cfc},5,afe)

Ядерные методы нечеткой кластеризации

Минимизация G ( и

Набор Ф(х0 и центры с" в Н

Рис. 4. Алгоритм определения оптимального способа нечеткой кластеризации элементов

информационной системы

Проведенный анализ позволяет построить комплексный алгоритм автоматического определения оптимального способа кластеризации элементов информационной системы, который базируется на методах нечеткой кластеризации с-средних (рис. 4).

Выводы

В результате проведенного анализа были изучены методы нечеткой кластеризации и сделаны выводы по их применения в информационных системах. Метод нечетких с-средних обладает устойчивостью с точки зрения использованием естественного нечеткого классификатора. В рамках данного анализа были рассмотрены метод нечеткой кластеризации ^-средних и метод энтропии, было показано, что метод ^-средних и метод энтропии в значительной степени зависят от объектов, которые находятся далеко от центров кластеризации, т.о. для кластеризации информационных систем в большей степени подходит метод нечетких с-средних. В качестве развития данного подхода на метрику Махаланобиса были представлены алгоритмы Густафсона-Кесселя и Кульбака-Лейблера. Также было показана необходимость использования ядерных методов кластеризации, которые характеризуются нелинейными границами кластеров областей для применения более гибкого подхода в этой области. В результате был разработан комплексный алгоритм определения оптимального способа для кластеризации элементов информационной системы.

Список литературы /References

1. Miyamoto S., Ichihashi H., Honda K. Algorithms for Fuzzy Clustering, Springer. Berlin, 2008.

32

2. Bezdek J.C. Pattern Recognition with Fuzzy Objective Function Algorithms. Plenum Press, 1981.

3. Girolami М. Mercer kernel based clustering in feature space, IEEE Trans. on Neural Networks. Vol. 13. № 3. Pp. 780-784, 2002.

4. Haqiqi B.N. & Kurniawan R., 2015. Analisis Perbandingan Metode Fuzzy C-Means Dan Subtractive Fuzzy C-Means. Media Statistika, 8(2). doi:10.14710/medstat.8.2.59-67.

5. Lee S., Kim J. & Jeong Y., 2017. Various Validity Indices for Fuzzy K-means Clustering. Korean Management Review, 46(4), 1201-1226. doi:10.17287/kmr.2017.46.4.1201.

6. Kanzawa, Y., Endo Y. & Miyamoto S., 2008. Fuzzy classification function of entropy regularized fuzzy c-means algorithm for data with tolerance using kernel function. 2008 IEEE International Conference on Granular Computing. doi:10.1109/grc.2008.4664765.

7. Yasuda M., 2014. Q-increment deterministic annealing fuzzy c-means clsutering using Tsallis entropy. 2014 11th International Conference on Fuzzy Systems and Knowledge Discovery (FSKD). doi:10.1109/fskd.2014.6980802.

8. Chen S., 2017. An improved fuzzy decision analysis framework with fuzzy Mahalanobis distances for individual investment effect appraisal. Management Decision, 55(5), 935-956. doi:10.1108/md-11-2015-0512.

9. Cai,Q.,& Liu,W., 2009. TSK fuzzy model using kernel-based fuzzy c-means clustering. 2009. IEEE International Conference on Fuzzy Systems. doi:10.1109/fuzzy.2009.5277146

10.Baili N., 2013. Unsupervised and semi-supervised fuzzy clustering with multiple kernels. Louisville, KY: University of Louisville.

i Надоели баннеры? Вы всегда можете отключить рекламу.