Научная статья на тему 'Оптимальная энтропийная кластеризация в информационных системах'

Оптимальная энтропийная кластеризация в информационных системах Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
296
57
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАСТЕРИЗАЦИЯ / ОПТИМИЗАЦИЯ / ВЫСОКОРАЗМЕРНЫЕ ДАННЫЕ / ИНФОРМАЦИОННЫЕ СИСТЕМЫ / ЭНТРОПИЯ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Аскерова Б.Г.

В данной работе исследована возможность разработки нового метода кластеризации данных в информационных системах. Кластеризация – это процесс нахождения возможных групп в заданном множестве с учетом признаков схожести или различия элементов этого множества. Существующий метод энтропийной кластеризации представляет собой информационно-теоретический подход к задаче кластеризации. В статье предлагается метод оптимальной энтропийной кластеризации высокоразмерных данных в информационных системах, который базируется на энтропийном подходе к выбору состояния элементов сообщений. Дано его математическое обоснование. Разработанный метод оптимальной энтропийной кластеризации базируется на известном принципе «малая величина энтропии соответствует большому количеству информационного содержания» и позволяет формировать режим не только оптимальной кластеризации, но и сокращения признакового пространства.Предложены методики вычисления степени оптимальности проведенной кластеризации, а также сокращения признакового пространства высокоразмерных данных при их первичной обработке.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Аскерова Б.Г.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The paper researches the possibility of developing a new method for data clustering in information systems. Clustering is a process of searching possible groups in a given set using signs of similarity or difference between elements of this set. The existing entropy clustering method includes an information theoretic approach to a clustering task. The paper suggests a clustering method based on an entropy approach to selecting message items. The paper suggests a method of optimum entropy clustering of high-dimensional data in information systems. It also gives mathematical grounding of the method.The suggested method of optimum entropy clustering is based on the known principle “low entropy corresponds to big information content”. This make it possible to form an optimum clustering regime, as well as an attribute space reduction regime.The paper proposes a method for calculating a level of clustering optimality. It also describes a method for reducting attribute space of high-dimensional data upon their initial processing.

Текст научной работы на тему «Оптимальная энтропийная кластеризация в информационных системах»

УДК 510.63; 519.68 Дата подачи статьи: 31.03.17

DOI: 10.15827/0236-235X.030.4.643-646 2017. Т. 30. № 4. С. 643-646

ОПТИМАЛЬНАЯ ЭНТРОПИЙНАЯ КЛАСТЕРИЗАЦИЯ В ИНФОРМАЦИОННЫХ СИСТЕМАХ

Б.Г. Аскерова, к.т.н., доцент, Bahar287(@mail-ru (Азербайджанский государственный университет нефти и промышленности, просп. Азадлыг, 20, г. Баку, AZ1010, Азербайджан)

В данной работе исследована возможность разработки нового метода кластеризации данных в информационных системах. Кластеризация - это процесс нахождения возможных групп в заданном множестве с учетом признаков схожести или различия элементов этого множества. Существующий метод энтропийной кластеризации представляет собой информационно-теоретический подход к задаче кластеризации. В статье предлагается метод оптимальной энтропийной кластеризации высокоразмерных данных в информационных системах, который базируется на энтропийном подходе к выбору состояния элементов сообщений. Дано его математическое обоснование.

Разработанный метод оптимальной энтропийной кластеризации базируется на известном принципе «малая величина энтропии соответствует большому количеству информационного содержания» и позволяет формировать режим не только оптимальной кластеризации, но и сокращения признакового пространства.

Предложены методики вычисления степени оптимальности проведенной кластеризации, а также сокращения признакового пространства высокоразмерных данных при их первичной обработке.

Ключевые слова: кластеризация, оптимизация, высокоразмерные данные, информационные системы, энтропия.

Кластеризация объектов сложной природы с высокой размерностью признакового пространства является актуальной задачей во многих областях научных исследований [1-5]. Среди методов сокращения размерности пространства признаков в качестве основных выделяются методы главных компонент и нормализации [1]. Первый из указанных методов чересчур чувствителен к методам предобработки данных, а второй требует обоснованного выбора метода нормализации высокоразмерных данных. Согласно [1], важной и актуальной задачей является разработка эффективных методов предобработки данных и сокращения размерности признакового пространства без существенной потери информации.

Кластеризация - это процесс нахождения различных групп в заданном множестве с учетом признаков схожести или различия элементов этого множества [3]. При этом в качестве меры схожести или различия используют метрику в виде расстояния между векторами х и y:

1 р

Z w\xi ~ y\" \ ,

где Xi, yi - i-я координата векторов х, y, i = (1, l); wi - i-й весовой коэффициент. При w = 1 выражение представляет собой расстояние Минковского порядка p, при p = 2 получаем расстояние Эвклида, при p = 1 - расстояние Манхеттена, при l = да - расстояние Чебышева.

В работе [4] кластеризация представляется как первичный анализ большого объема данных высокой размерности при отсутствии априорных знаний о них.

В методе SEC [4] кластеры организуются по признаку эффективности сжатия бинарных векторов при использовании отдельного кодера для каждой группы.

В работе [5] решена задача подбора признака для кластеризации на основе количественной характеристики, вырабатываемой с помощью четырех предложенных алгоритмов классификации. При этом подбор признака осуществляется методом, позволяющим определить подмножества исходных признаков, имеющих одинаковую смысловую информацию в отношении БД.

Качественная предобработка признаков объекта может быть осуществлена по методу энтропии, используя условие минимума энтропии Шеннона, что соответствует максимальной информации об изучаемых объектах [1, 6, 7]. Что касается практической пользы кластеризации, то, например, согласно [2, 8], она помогает идентифицировать группы генов, имеющих сходные образы экспрессии при различных условиях. Такие гены типичным образом вовлечены в выполнение связанных функций. В работе [2] предлагается информационно-теоретический подход к кластеризации данных экспрессии генов. Известно, что энтропия является мерой информации и неопределенности случайного переменного. Следовательно, критерием кластеризации может стать условие достижения минимума энтропии. При использовании критерия минимальной энтропии проблема кластеризации имеет две субпроблемы: оценка a posteriori вероятности и минимизация энтропии. При этом, так как энтропия является мерой беспорядка в системе, каждый кластер должен иметь минимальную энтропию. Другими словами, данные в одном и том же кластере должны иметь схожие числовые характеристики. Существующий метод энтропийной кластеризации представляет собой информационно-теоретический подход к задаче кластеризации. Например, в простом случае каждый отдельный кластер должен содержать объекты с одинаковой величиной энтропии [9, 10], однако су-

d ( x, y) =

ществующии метод энтропиинои кластеризации может быть подкреплен известным принципом «малая величина энтропии соответствует большому количеству информационного содержания». Учет данного принципа позволяет по-новому подойти к методу энтропийной кластеризации и в сущности разработать новыи метод оптимальнои энтропийной кластеризации.

Предлагаемый метод оптимальной энтропийной кластеризации

Предлагаемый в настоящей статье метод кластеризации базируется на энтропийном подходе к выбору состояния элементов сообщения. Допустим, имеется множество Х независимых элементов х,, i = (1, m), то есть X = {x,}.

При этом формируются кластеры K(Pj), j =(1, m).

Порядок формирования кластеров такой, что в кластер K(Pj) включаются элементы, имеющие Pj состояний.

Если обозначить количество элементов в каждом j-м кластере как nj, то общее количество информации, содержащейся во всех элементах одного j-го кластера, вычислим как

Mj. = nj • log2 Pj . (1)

Суммируя (1) по всем j, получим

m m

XMj = X nj ■ log2 Pj . (2)

j=1 j=1

Далее допустим существование функциональной связи между переменными nj и Pj, то есть

Pj =Ф(nj . (3)

Также допускается существование определен-

m

ного ограничения на сумму X ф(п •), то есть

j=1

m m

X Pj = X ф(п. ) = С, где C = const. (4)

j=1 j=1

Кластеризацию элементов x, по предлагаемому информационно-вариационному критерию будем считать оптимальной, если при вычисленной оптимальной функции ф(п)0^ общее количество информации, определяемое выражением

F1 =Х nj l0g2 Ф(— )op, )o

(5)

]=1 ]=1

где X - множитель Лагранжа, с учетом условия (4) достигает максимальной величины.

Для оценки степени оптимальности реальной кластеризации введем на рассмотрение коэффициент оптимальности, определяемый как

% =

X nj l0g 2 Ф(— ) real re

j=1_j=1_

m m

X nj l0g 2 Ф(— )oP, +^X^(nj )op j=1 j=1

(6)

где ty(nj)reai - реальная функция зависимости Pi от количества элементов nj в кластере Pj.

Покажем порядок вычисления оптимальной функции фП). Выражение (5) в условно-непрерывном виде может быть записано следующим образом:

пт пт

FlH = | n ■ log2 ф(n)dn +1 j" ф(n)dn (7)

о о

nm

при J ф(«)С« = С, (8)

0

где C = const.

Согласно уравнению Эйлера [11], оптимальная функция ф(п)0р, приводящая функционал (7) к его экстремальному значению, должна удовлетворить условию

F =

d {n • log2 ф(п) +1 • ф(п)}

= 0 .

d ф( n)

С учетом выражений (7) и (8) получаем n - + 1 = 0.

ф(n)

Из выражения (10) находим

ф(n) = -n .

С учетом выражений (8) и (11) получаем n

—с

1

— f —dn = C . J 1

(9)

(10)

(11)

(12)

0

Из выражения (12) получим

2

П

1 =—^. (13)

С учетом выражений (10) и (13) получаем 2С • п

Ф(п)ор1 = -С2-П . (14)

п

т

Таким образом, при оптимальной функции ф(п)0р, определяемой выражением (14), информационное содержание идеально кластерированного множества Х, определяемое выражением (7), достигает экстремума. При этом экстремум является максимумом, так как выражение d2 {п • ф(п) +1 • ф(п)}

F =-

(15)

d ф( п)

имеет отрицательное значение.

Сокращение признакового пространства

Как видно из выражения (14), оптимальная функция ф(п)орг зависит от переменного п и от параметра С, исходно задаваемого при решении задачи оптимальной кластеризации. Рассмотрим возможность сокращения признакового пространства в предложенном методе кластеризации. Предлагается следующий алгоритм сокращения признакового пространства.

1. Определяется максимальная величина функционала:

пт

Рщ = { п ' 1°§2 ф(и)^и . (16)

1

С учетом выражений (14) и (16) имеем

Пт 2С И

Р1.Н.1.тах = | п ' !°ё2 -—йп . (17)

1 п

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1 т

2. Определяется реальная величина функционала (16).

С учетом выражения (16) и ф=ф(п)геа1 получаем

F1.H.1.rea, = j n ■ !°g2 <P(.n)realdn •

(18)

3. Критерий сокращения признакового про-

Р - р

странства имеет вид р = 1Н-1тах-1Н•1.

Р1. Н • 1. тах

Принимается, что по достижении условия в > ао, где ао - заранее заданное число, ао < 1, элементы Х1 с количеством состояний, определяющих величину Р1н\.геа1, могут быть исключены из рассмотрения.

Заключение

Таким образом, предлагаемый метод оптимальной энтропийной кластеризации, базируясь на известном принципе «малая величина энтропии соответствует большому количеству информационного содержания», позволяет формировать режим не только оптимальной кластеризации, но и сокращения признакового пространства. Предлагаемый алгоритм может быть реализован в среде МАТЬАВ методом последовательных приближений. Преимуществом среды МАТЬАВ является возможность быстрой по сравнению с ФОРТРАН разработки рабочего алгоритма, а также альтернативных решений с использованием существующего пакета программ в этой среде.

Таким образом, были предложены метод оптимальной энтропийной кластеризации высокоразмерных данных в информационных системах с его математическим обоснованием, а также методика сокращения признакового пространства высокоразмерных данных при первичной обработке.

Литература

1. Бабичев С.А. Оптимизация процесса предобработки информации в системах кластеризации высокоразмерных данных // Radioelektronika, informatika, управлшня. 2014. № 2. С. 135-142.

2. Li H., Zhang K., Jiang T. Minimum entropy clustering and applications to gene expression analysis. URL: https://www.ncbi. nlm.nih.gov/pubmed/16448008 (дата обращения: 30.03.2017).

3. Santos J.M., Sa J.M., Alexandre L.A. LEGClust - a clustering algorithm based on layered entropic subgraphs. IEEE Transactions on pattern analysis and machine intelligence, 2008, vol. 30, no. 1, pp. 1-13.

4. Smieja M., Nakoneczny S., Tabor J. Fast entropy clustering in sparse high dimensional binary data. URL: http://ww2.ii.uj.edu. pl/~smieja/publications/SEC.pdf (дата обращения: 30.03.2017).

5. Singh B., Kushwaha N., Vyas O.P. A feature subset selection technique for high dimensional data using symmetric uncertainty. Jour. of Data Analysis and Information Processing, 2014, no. 2, pp. 95-105.

6. Выбор компонентов (интеллектуальный анализ данных). URL: http://msdn.microsoft.com/ru-ru/library/ms175382 (d=printer).aspx (дата обращения: 30.03.2017).

7. Zimmermann A. Objectively evaluating interestingness measures for frequent item set mining. URL: http://zimmermanna. users.greyc. fr/papers/international-workshops/pakdd2013 obj ec-tively-evaluating.pdf (дата обращения: 30.03.2017).

8. Sahar S. What is interesting: studies on interestingness in knowledge discovery. URL: http://www.cs.tau.acil/~mansour/stu-dents/SigalSaharPhD.pdf (дата обращения: 30.03.2017).

9. Tew C., Giraud-Carrier C., Tanner K., Burton S. Behavior - based clustering and analysis of interestingness measures for association rule mining. URL: http://dml.cs.byu.edu/~cgc/docs/mldm_ tools/Slides/10.1--7_s10618-013-0326-x.pdf (дата обращения: 30.03.2017).

10. Malik H.H., Kender J.R. Instance Driven Hierarchical Clustering of Document Collections. URL: http://www.ke.tu-darmstadt. de/events/LeGo-08/8.pdf (дата обращения: 30.03.2017).

11. Эльцгольц Л.П. Дифференциальные уравнения и вариационное исчисление. М.: Наука, 1974. 432 с.

о

Software & Systems Received 31.03.17

DOI: 10.15827/0236-235X.030.4.643-646 2017, vol. 30, no. 4, pp. 643-646

OPTIMUM ENTROPY CLUSTERING IN INFORMATION SYSTEMS B.G. Askerova 1, Ph.D. (Engineering), Associate Professor, Bahar287@mail.ru 1 Azerbaijan State University of Oil and Industry, Azadlyg Ave. 20, Baku, AZ1010, Azerbaijan

Abstract. The paper researches the possibility of developing a new method for data clustering in information systems. Clustering is a process of searching possible groups in a given set using signs of similarity or difference between elements of this set. The existing entropy clustering method includes an information theoretic approach to a clustering task. The paper suggests a clustering method based on an entropy approach to selecting message items.

The paper suggests a method of optimum entropy clustering of high-dimensional data in information systems. It also gives mathematical grounding of the method.

The suggested method of optimum entropy clustering is based on the known principle "low entropy corresponds to big information content". This make it possible to form an optimum clustering regime, as well as an attribute space reduction regime.

The paper proposes a method for calculating a level of clustering optimality. It also describes a method for reducting attribute space of high-dimensional data upon their initial processing.

Keywords: clustering, optimization, high-dimensional data, information systems, entropy.

References

1. Babichev S.A. Optimization of information preprocessing in clustering systems of high dimension data. Radio Electronics, Computer Science, Control. 2014, no. 2, pp. 135-142 (in Ukr.).

2. Li H., Zhang K., Jiang T. Minimum entropy clustering and applications to gene expression analysis. Proc. Conf. Computational Systems Bioinformatics (CSB 2004). 2004, IEEE, pp. 142-151.

3. Santos J.M., Sa J.M., Alexandre L.A. LEGClust - A clustering algorithm based on layered entropic subgraphs. IEEE Trans. on Pattern Analysis and Machine Intelligence. 2008, vol. 30, no. 1, pp. 1-13.

4. Smieja M., Nakoneczny S., Tabor J. Fast entropy clustering in sparse high dimensional binary data. Available at: http://ww2.ii.uj.edu.pl/~smieja/publications/SEC.pdf (accessed March 30, 2017).

5. Singh B., Kushwaha N., Vyas O.P. A feature subset selection technique for high dimensional data using symmetric uncertainty. Jour. of Data Analysis and Information Processing. 2014, no. 2, pp. 95-105.

6. Vybor komponentov (intellektualny analiz dannykh) [Selecting Components (Data Mining)]. Available at: http://msdn.microsoft.com/ru-ru/library/ms175382(d=printer).aspx (accessed March 30, 2017).

7. Zimmermann A. Objectively evaluating interestingness measures for frequent item set mining. Proc. Pacific-Asia Conf. Knowledge Discovery and Data Mining, 2013, pp. 354-366.

8. Sahar S. What is interesting: studies on interestingness in knowledge discovery. PhD Thesis, Tel-Aviv Univ., 181 p.

9. Tew C., Giraud-Carrier C., Tanner K., Burton S. Behavior - based clustering and analysis of interestingness measures for association rule mining. Jour. of DataMin. Knowl. Disc., 2014, vol. 28, no. 4, pp. 1004-1045.

10. Malik H.H., Kender J.R. Instance driven hierarchical clustering of document collections. Proc. Conf. Local Patterns to Global Models (ECML/PKDD-08), 2008.

11. Eltsgolts L.P. Differential Equations and Variational Calculus. Moscow, Nauka Publ., 1974, 432 p. (in Russ.).

Примеры библиографического описания статьи

1. Аскерова Б.Г. Оптимальная энтропийная кластеризация в информационных системах // Программные продукты и системы. 2017. Т. 30. № 4. С. 643-646. DOI: 10.15827/0236-235X.030.4.643-646.

2. Askerova B.G. Optimum entropy clustering in information systems. Programmnyeprodukty i sistemy [Software & Systems]. 2017, vol. 30, no. 4, pp. 643-646 (in Russ.). DOI: 10.15827/0236-235X.030.4. 643-646.

i Надоели баннеры? Вы всегда можете отключить рекламу.