ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ
Челябинский физико-математический журнал. 2017. Т. 2, вып. 4- С. 497-502. УДК 519.816
ОБ ОДНОМ ПОДХОДЕ К РАЗБИЕНИЮ НА КЛАССЫ ЭКВИВАЛЕНТНОСТИ
С. О. Журавлев", С. А. Никитина6, А. С. Скорынинс
Челябинский государственный университет, Челябинск, Россия "[email protected], [email protected], с[email protected]
Изложены теоретические основы алгоритма кластеризации данных на основе нечёткого отношения экивалентности.
Ключевые слова: кластеризация данных, нечёткие отношения эквивалентности, классы эквивалентности.
Введение
Во многих прикладных задачах возникает потребность в анализе данных, описывающих поведение наблюдаемых объектов, событий, процессов или явлений. Одной из наиболее актуальных и практически востребованных задач анализа данных является задача разбиения объектов на сравнительно однородные группы, называемые кластерами. Однородность кластеров означает, что объекты, отнесённые к одному кластеру, должны быть схожи (близки) относительно выбранной метрики.
Отметим, что разбиение объектов на классы происходит не по одному параметру, а по целому набору признаков, при этом не накладывается никаких ограничений на вид рассматриваемых объектов, что позволяет привлекать к исследованию множество исходных данных произвольной природы.
В настоящее время существует много алгоритмов кластеризации [1]. Особенностью данного алгоритма является то, что в его основу положен аппарат нечётких множеств и отношений [2; 3].
1. Теоретические основы алгоритма
Приведем некоторые теоретические сведения, следуя [4, с. 11]. Под нечётким множеством А универсального множества X понимается совокупность пар вида (х,^л(х)) , где х Е X, а ^л(х) : X ^ [0,1] — функция принадлежности А. Значение ^л(х) на конкретном элементе х Е X называют степенью (или мерой) принадлежности этого элемента нечёткому множеству А.
Нечёткое подмножество К прямого произведения X х X называется нечётким бинарным отношением на множестве X. Его функцию принадлежности обозначим ^д(х,у). Значения функции ^д(х,у) характеризуют меру наличия причинно-
Работа выполнена при поддержке гранта Фонда перспективных научных исследований Челябинского государственного университета, 2017 г.
следственной связи между элементами х,у Е X. Множество уровня
Я(а) = {(х,у) Е X х X : ^д(х,у) > а} (1)
нечёткого отношения Я назовём отношением уровня.
Существует процедура разбиения множества X на классы эквивалентности с помощью бинарного отношения Я(а). Однако это отношение должно быть отношением эквивалентности. Это значит, что оно должно быть рефлексивным, симметричным и транзитивным. Условие рефлексивности означает, что ^д(х,х) > а для любого х Е X. Условие симметричности означает, что если цд(х,у) > а, то Цд(у,х) > а для любых х,у Е X. Условие транзитивности означает, что если (х,г) Е Я(а), (г, у) Е Я(а), то (у,х) Е Я(а) для любых х,у,г Е X .С учётом (1) последнее условие означает, что если шт(^д(х, г); ^я(г, у)) > а, то ^д(х, у) > а для любых х, у, г Е X.
Для любого элемента х Е X построим множество
Ка(х) = {у Е X : (х, у) Е Я(а)}. (2)
Из условия рефлексивности Я(а) следует, что х Е Ка(х) и, следовательно, ижехКа(х) = X. В [4, с. 200] показано, что отношение эквивалентности разбивает множество X по формуле (2) на непересекающиеся классы эквивалентности, объединение которых даёт всё множество X.
Нечёткое отношение Я на множестве X назовём рефлексивным, симметричным, транзитивным, если соответственно для любого числа а Е (0,1] рефлексивным, симметричным, транзитивным является его отношение уровня Я(а). Тогда запишем условия
• рефлексивности: (х,х) = 1 для любого х Е X;
• симметричности: ^д(х,у) = ^д(у,х) для любых х, у Е X;
• транзитивности: вир^^ шт(^д(х, г); ^д(г, у)) < (у, х) для любых х, у Е X.
Пусть универсальное множество X состоит из п элементов, а нечёткое отношение задано матрицей Я = {г^-}, г,] = 1, 2,..., п. Последние условия примут вид [4, с. 201]
• Гц = 1, г = 1, 2,..., п;
• гji, г,] 11, 2 . . . , П;
• шах^1,2,...,„ шт(г^; гк^) < гу, г,] = 1, 2,..., п.
При построении нечёткого отношения на практике нетрудно добиться, чтобы оно было рефлексивным и симметричным. Однако условие транзитивности получить, как правило, не удаётся. Поэтому возникает вопрос о построении приемлемого отношения эквивалентности по исходному нечёткому отношению. Транзитивным замыканием Я нечёткого отношения Я на множестве X называется пересечение всех транзитивных отношений на X, содержащих отношение Я. Приведём его некоторые свойства [4, с. 202].
• Транзитивное замыкание Я является транзитивным отношением на X.
• Если отношение Я является рефлексивным и симметричным, то его транзитивное замыкание Я является также рефлексивным и симметричным отношением.
Обозначим композицию нечётких отношений R и F как R© F. Пусть множество X состоит из n элементов, а нечёткие отношения R и F заданы матрицами {rj } и {fij}. Матрица R © F = {д^} композиции этих отношений равна
gj = max minirik,ДЛ.
1 <k<n
Введём в рассмотрение степень Rn = R © R © ■ ■ ■ © R нечёткого отношения R
n
на множестве X. Функция принадлежности ^k (x, y) нечёткого отношения Rk равна ^k(x,y) = sup min{^д(ж,у1),^д(у1,у2),... (yk-1,y)}.
Viex
Теорема 1. [4, с. 204]. Верно равенство R = U^=1Rk.
Теорема 2. [4, с. 205]. Пусть универсальное множество X состоит из n элементов, а R является рефлексивным отношением на нём. Тогда R = Rn.
Таким образом, если множество X состоит из n элементов, то транзитивное замыкание рефлексивного отношения R вычисляется с помощью не более, чем n итераций.
Теорема 3. [4, с. 207]. Пусть множество X состоит из n элементов, а R — рефлексивное отношение на нём. Тогда для любого числа а Е (0,1] множество уровня R(a) его транзитивного замыкания R совпадает с транзитивным замыканием R(a) его множества уровня, т. е. R(a) = R(a).
Эти свойства транзитивного замыкания позволяют при кластеризации вначале строить транзитивное замыкание R отношения R. Затем по заданному числу а строится бинарное отношение уровня R(a), с помощью которого осуществляется разбиение исходного множества объектов на классы эквивалентности.
2. Алгоритм разбиения на классы эквивалентности
Пусть имеется множество образцов данных X = {x1, x2 ... , Xq} и пусть определена функция d : X х X ^ R+, отражающая «расстояние» (меру сходства) между объектами из X. Здесь R+ — множество действительных неотрицательных чисел. Предположим, что эта функция удовлетворяет следующим условиям:
d(Xi, 'Xi) 0;
• d(xi,xj) = d(xj ,xi).
Необходимо построить отношение эквивалентности на множестве X, с помощью которого провести разбиение множества X на классы эквивалентности. Задаём число 0 < в < 1 и отождествляем объект xi с объектом Xj, если
d(xi,xj) < в ■ max d(xi,xk). (3)
j k=1,2,...,Q v ' 7
Введём в рассмотрение функцию
M'i,Xj) = 1--d(Xi'Xj) ,. (4)
max d(xi,xk)
k=1,2,...,Q
Обозначим а = 1 — в. Тогда неравенство (3) равносильно неравенству ^(xi, Xj) > а. Таким образом, с помощью функции (4) можно задать нечёткое отношение на множестве X.
Оценку ^ будем называть нормальной мерой сходства по расстоянию с образцом данных х^ Отметим равенство ^^, х^ = 1, что означает максимальную схожесть образца с самим собой.
Будем считать, что xi = (х^, х^,..., х^) Е Кга, г = 1, 2,...,^, а расстояние /(х^х^-) задаётся формулой
//(^С i, >х ^ )
\
n s=l
^ ^(xis xjs)2.
Пусть 0 < а\ < а2 < ...at = 1, t < Q, — упорядоченный набор чисел. Каждое число а^ называемое уровнем отношения эквивалентности, порождает классическое (чёткое) отношение эквивалентности Li на X следующего вида: Li = {(a,b) Е X2 : RQ(a,b) > ai}. Оно разбивает множество X на непересекающиеся классы эквивалентности, которые и формируют кластеры. Минимальный уровень отношения эквивалентности соответствует единому кластеру, совпадающему с X. Легко видеть, что имеет место система вложений Li D L2 D • • • D Lt. Следовательно, каждый последующий уровень детализирует разбиение, получаемое на предыдущем. Формируемая таким образом система кластеров имеет иерархическую структуру, что можно проиллюстрировать с помощью дерева вложений.
Опишем алгоритм реализации предложенного подхода.
Шаг 1. Для каждого образца данных xi Е X, i = 1, 2,... , Q, строим оценку его сходства с образцом Xj Е X, j = 1, 2,..., Q, по формуле (4).
Шаг 2. Строим транзитивное замыкание отношения меры сходства образцов данных на множестве X. В соответствии с определением транзитивного замыкания нечёткого бинарного отношения и особенностями его вычисления последовательность действий на этом шаге следующая. Положим R1 = R = {rij}, где {rij} = ^(xi, Xj), i, j = 1, 2,..., Q. Для q = 2, 3,..., Q определяем Rq = R(q-1) • R, где
r j = max mini r(q-1),rk?j.
j k=1,2,...,Q ik j
Полученное на последней итерации отношение
RQ
является отношением эквивалентности на множестве X.
Шаг 3. Строим отношение эквивалентности RQ как множество различных значений at, упорядоченных по возрастанию.
Таким образом, в работе представлен один из подходов разбиения на классы эквивалентности на базе нечёткого отношения. Одним из достоинств такого подхода является отсутствие требований и допущений о форме кластеров. Приведённый алгоритм кластеризации позволяет эффективно выявлять среди данных кластеры произвольной формы.
Список литературы
1. Баргесян, А. А. Анализ данных и процессов : учеб. пособие / А. А. Баргесян, М. С. Куприянов, И. И. Холод, М. Д. Тесс, С. И. Елизаров. - СПб. : БХВ-Петербург, 2009. - 512 с.
2. Заде, Л. А. Понятие лингвистической переменной и его применение к принятию приближённых решений / Л. А. Заде. — М. : Мир, 1976. — 165 с.
3. Зайченко, Ю. П. Нечёткие модели и методы в интеллектуальных системах / Ю. П. Зайченко. — Киев : Слово, 2008. — 344 с.
4. Ухоботов, В. И. Избранные главы теории нечётких множеств : учеб. пособие / В. И. Ухоботов. — Челябинск : Изд-во Челяб. гос. ун-та, 2011. — 245 с.
Поступила в редакцию 09.08.2017 После переработки 23.10.2017
Сведения об авторах
Журавлев Сергей Олегович, аспирант математического факультета, Челябинский государственный университет, Челябинск, Россия; e-mail: [email protected]. Никитина Светлана Анатольевна, кандидат физико-математических наук, доцент кафедры теории управления и оптимизации, Челябинский государственный университет, Челябинск, Россия; e-mail: [email protected].
Скорынин Антон Сергеевич, аспирант математического факультета, Челябинский государственный университет, Челябинск, Россия; e-mail: [email protected].
502
C. O. ^ypaB^eB, C. A. HnKHTHHa, A. C. CKOPBIHHH
Chelyabinsk Physical and Mathematical Journal. 2017. Vol. 2, iss. 4. P. 497-502.
ON AN APPROACH TO SPLITTING INTO EQUIVALENCE CLASSES
S.O. Zhuravleva, S.A. Nikitinab, A.S. Skoryninc
Chelyabinsk State University, Chelyabinsk, Russia [email protected],, [email protected], [email protected]
The theoretical foundations of a data clustering algorithm based on the fuzzy relation of equivalence are presented.
Keywords: clustering of data, fuzzy equivalence relation, equivalence class.
References
1. Bargesyan А.А., Kupriyanov А.А., Kholod I.I., Tess М.D., Elizarov S.I.
Analiz dannykh i protsessov: uchebnoye posobiye [Analysis of data and processes]. St. Petersburg, BHV-Petersburg, 2009. 512 p. (In Russ.).
2. Zadeh L^. Ponyatiye lingvisticheskoy peremennoy i yego primeneniye k prinyatiyu priblizhennykh resheniy [The concept of a linguistic variable and its application to the adoption of approximate solutions]. Moscow, Mir Publ., 1976. 165 p. (In Russ.).
3. Zaychenko Y.P. Nechetkiye modeli i metody v intellektual'nykh sistemakh [Fuzzy models and techniques in intelligent systems]. Kiev, Slovo Publ., 2008. 344 p. (In Russ.).
4. Ukhobotov V.I. Izbrannye glavy teorii nechetkikh mnozhestv: uchebnoye posobiye [Selected chapters of the theory of fuzzy sets]. Cheljabinsk, Chelyabinsk State University, 2011. 245 p. (In Russ.).
Accepted article received 09.08.2017 Corrections received 23.10.2017