Научная статья на тему 'Об одном подходе к разбиению на классы эквивалентности'

Об одном подходе к разбиению на классы эквивалентности Текст научной статьи по специальности «Математика»

CC BY
154
18
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАСТЕРИЗАЦИЯ ДАННЫХ / CLUSTERING OF DATA / НЕЧЁТКИЕ ОТНОШЕНИЯ ЭКВИВАЛЕНТНОСТИ / FUZZY EQUIVALENCE RELATION / КЛАССЫ ЭКВИВАЛЕНТНОСТИ / EQUIVALENCE CLASS

Аннотация научной статьи по математике, автор научной работы — Журавлев Сергей Олегович, Никитина Светлана Анатольевна, Скорынин Антон Сергеевич

Изложены теоретические основы алгоритма кластеризации данных на основе нечёткого отношения экивалентности.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

On an approach to splitting into equivalence classes

The theoretical foundations of a data clustering algorithm based on the fuzzy relation of equivalence are presented.

Текст научной работы на тему «Об одном подходе к разбиению на классы эквивалентности»

ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ

Челябинский физико-математический журнал. 2017. Т. 2, вып. 4- С. 497-502. УДК 519.816

ОБ ОДНОМ ПОДХОДЕ К РАЗБИЕНИЮ НА КЛАССЫ ЭКВИВАЛЕНТНОСТИ

С. О. Журавлев", С. А. Никитина6, А. С. Скорынинс

Челябинский государственный университет, Челябинск, Россия "sergey.zhuravlev1992@gmail.com, 6nikitina@csu.ru, сskorynin@csu.ru

Изложены теоретические основы алгоритма кластеризации данных на основе нечёткого отношения экивалентности.

Ключевые слова: кластеризация данных, нечёткие отношения эквивалентности, классы эквивалентности.

Введение

Во многих прикладных задачах возникает потребность в анализе данных, описывающих поведение наблюдаемых объектов, событий, процессов или явлений. Одной из наиболее актуальных и практически востребованных задач анализа данных является задача разбиения объектов на сравнительно однородные группы, называемые кластерами. Однородность кластеров означает, что объекты, отнесённые к одному кластеру, должны быть схожи (близки) относительно выбранной метрики.

Отметим, что разбиение объектов на классы происходит не по одному параметру, а по целому набору признаков, при этом не накладывается никаких ограничений на вид рассматриваемых объектов, что позволяет привлекать к исследованию множество исходных данных произвольной природы.

В настоящее время существует много алгоритмов кластеризации [1]. Особенностью данного алгоритма является то, что в его основу положен аппарат нечётких множеств и отношений [2; 3].

1. Теоретические основы алгоритма

Приведем некоторые теоретические сведения, следуя [4, с. 11]. Под нечётким множеством А универсального множества X понимается совокупность пар вида (х,^л(х)) , где х Е X, а ^л(х) : X ^ [0,1] — функция принадлежности А. Значение ^л(х) на конкретном элементе х Е X называют степенью (или мерой) принадлежности этого элемента нечёткому множеству А.

Нечёткое подмножество К прямого произведения X х X называется нечётким бинарным отношением на множестве X. Его функцию принадлежности обозначим ^д(х,у). Значения функции ^д(х,у) характеризуют меру наличия причинно-

Работа выполнена при поддержке гранта Фонда перспективных научных исследований Челябинского государственного университета, 2017 г.

следственной связи между элементами х,у Е X. Множество уровня

Я(а) = {(х,у) Е X х X : ^д(х,у) > а} (1)

нечёткого отношения Я назовём отношением уровня.

Существует процедура разбиения множества X на классы эквивалентности с помощью бинарного отношения Я(а). Однако это отношение должно быть отношением эквивалентности. Это значит, что оно должно быть рефлексивным, симметричным и транзитивным. Условие рефлексивности означает, что ^д(х,х) > а для любого х Е X. Условие симметричности означает, что если цд(х,у) > а, то Цд(у,х) > а для любых х,у Е X. Условие транзитивности означает, что если (х,г) Е Я(а), (г, у) Е Я(а), то (у,х) Е Я(а) для любых х,у,г Е X .С учётом (1) последнее условие означает, что если шт(^д(х, г); ^я(г, у)) > а, то ^д(х, у) > а для любых х, у, г Е X.

Для любого элемента х Е X построим множество

Ка(х) = {у Е X : (х, у) Е Я(а)}. (2)

Из условия рефлексивности Я(а) следует, что х Е Ка(х) и, следовательно, ижехКа(х) = X. В [4, с. 200] показано, что отношение эквивалентности разбивает множество X по формуле (2) на непересекающиеся классы эквивалентности, объединение которых даёт всё множество X.

Нечёткое отношение Я на множестве X назовём рефлексивным, симметричным, транзитивным, если соответственно для любого числа а Е (0,1] рефлексивным, симметричным, транзитивным является его отношение уровня Я(а). Тогда запишем условия

• рефлексивности: (х,х) = 1 для любого х Е X;

• симметричности: ^д(х,у) = ^д(у,х) для любых х, у Е X;

• транзитивности: вир^^ шт(^д(х, г); ^д(г, у)) < (у, х) для любых х, у Е X.

Пусть универсальное множество X состоит из п элементов, а нечёткое отношение задано матрицей Я = {г^-}, г,] = 1, 2,..., п. Последние условия примут вид [4, с. 201]

• Гц = 1, г = 1, 2,..., п;

• гji, г,] 11, 2 . . . , П;

• шах^1,2,...,„ шт(г^; гк^) < гу, г,] = 1, 2,..., п.

При построении нечёткого отношения на практике нетрудно добиться, чтобы оно было рефлексивным и симметричным. Однако условие транзитивности получить, как правило, не удаётся. Поэтому возникает вопрос о построении приемлемого отношения эквивалентности по исходному нечёткому отношению. Транзитивным замыканием Я нечёткого отношения Я на множестве X называется пересечение всех транзитивных отношений на X, содержащих отношение Я. Приведём его некоторые свойства [4, с. 202].

• Транзитивное замыкание Я является транзитивным отношением на X.

• Если отношение Я является рефлексивным и симметричным, то его транзитивное замыкание Я является также рефлексивным и симметричным отношением.

Обозначим композицию нечётких отношений R и F как R© F. Пусть множество X состоит из n элементов, а нечёткие отношения R и F заданы матрицами {rj } и {fij}. Матрица R © F = {д^} композиции этих отношений равна

gj = max minirik,ДЛ.

1 <k<n

Введём в рассмотрение степень Rn = R © R © ■ ■ ■ © R нечёткого отношения R

n

на множестве X. Функция принадлежности ^k (x, y) нечёткого отношения Rk равна ^k(x,y) = sup min{^д(ж,у1),^д(у1,у2),... (yk-1,y)}.

Viex

Теорема 1. [4, с. 204]. Верно равенство R = U^=1Rk.

Теорема 2. [4, с. 205]. Пусть универсальное множество X состоит из n элементов, а R является рефлексивным отношением на нём. Тогда R = Rn.

Таким образом, если множество X состоит из n элементов, то транзитивное замыкание рефлексивного отношения R вычисляется с помощью не более, чем n итераций.

Теорема 3. [4, с. 207]. Пусть множество X состоит из n элементов, а R — рефлексивное отношение на нём. Тогда для любого числа а Е (0,1] множество уровня R(a) его транзитивного замыкания R совпадает с транзитивным замыканием R(a) его множества уровня, т. е. R(a) = R(a).

Эти свойства транзитивного замыкания позволяют при кластеризации вначале строить транзитивное замыкание R отношения R. Затем по заданному числу а строится бинарное отношение уровня R(a), с помощью которого осуществляется разбиение исходного множества объектов на классы эквивалентности.

2. Алгоритм разбиения на классы эквивалентности

Пусть имеется множество образцов данных X = {x1, x2 ... , Xq} и пусть определена функция d : X х X ^ R+, отражающая «расстояние» (меру сходства) между объектами из X. Здесь R+ — множество действительных неотрицательных чисел. Предположим, что эта функция удовлетворяет следующим условиям:

d(Xi, 'Xi) 0;

• d(xi,xj) = d(xj ,xi).

Необходимо построить отношение эквивалентности на множестве X, с помощью которого провести разбиение множества X на классы эквивалентности. Задаём число 0 < в < 1 и отождествляем объект xi с объектом Xj, если

d(xi,xj) < в ■ max d(xi,xk). (3)

j k=1,2,...,Q v ' 7

Введём в рассмотрение функцию

M'i,Xj) = 1--d(Xi'Xj) ,. (4)

max d(xi,xk)

k=1,2,...,Q

Обозначим а = 1 — в. Тогда неравенство (3) равносильно неравенству ^(xi, Xj) > а. Таким образом, с помощью функции (4) можно задать нечёткое отношение на множестве X.

Оценку ^ будем называть нормальной мерой сходства по расстоянию с образцом данных х^ Отметим равенство ^^, х^ = 1, что означает максимальную схожесть образца с самим собой.

Будем считать, что xi = (х^, х^,..., х^) Е Кга, г = 1, 2,...,^, а расстояние /(х^х^-) задаётся формулой

//(^С i, >х ^ )

\

n s=l

^ ^(xis xjs)2.

Пусть 0 < а\ < а2 < ...at = 1, t < Q, — упорядоченный набор чисел. Каждое число а^ называемое уровнем отношения эквивалентности, порождает классическое (чёткое) отношение эквивалентности Li на X следующего вида: Li = {(a,b) Е X2 : RQ(a,b) > ai}. Оно разбивает множество X на непересекающиеся классы эквивалентности, которые и формируют кластеры. Минимальный уровень отношения эквивалентности соответствует единому кластеру, совпадающему с X. Легко видеть, что имеет место система вложений Li D L2 D • • • D Lt. Следовательно, каждый последующий уровень детализирует разбиение, получаемое на предыдущем. Формируемая таким образом система кластеров имеет иерархическую структуру, что можно проиллюстрировать с помощью дерева вложений.

Опишем алгоритм реализации предложенного подхода.

Шаг 1. Для каждого образца данных xi Е X, i = 1, 2,... , Q, строим оценку его сходства с образцом Xj Е X, j = 1, 2,..., Q, по формуле (4).

Шаг 2. Строим транзитивное замыкание отношения меры сходства образцов данных на множестве X. В соответствии с определением транзитивного замыкания нечёткого бинарного отношения и особенностями его вычисления последовательность действий на этом шаге следующая. Положим R1 = R = {rij}, где {rij} = ^(xi, Xj), i, j = 1, 2,..., Q. Для q = 2, 3,..., Q определяем Rq = R(q-1) • R, где

r j = max mini r(q-1),rk?j.

j k=1,2,...,Q ik j

Полученное на последней итерации отношение

RQ

является отношением эквивалентности на множестве X.

Шаг 3. Строим отношение эквивалентности RQ как множество различных значений at, упорядоченных по возрастанию.

Таким образом, в работе представлен один из подходов разбиения на классы эквивалентности на базе нечёткого отношения. Одним из достоинств такого подхода является отсутствие требований и допущений о форме кластеров. Приведённый алгоритм кластеризации позволяет эффективно выявлять среди данных кластеры произвольной формы.

Список литературы

1. Баргесян, А. А. Анализ данных и процессов : учеб. пособие / А. А. Баргесян, М. С. Куприянов, И. И. Холод, М. Д. Тесс, С. И. Елизаров. - СПб. : БХВ-Петербург, 2009. - 512 с.

2. Заде, Л. А. Понятие лингвистической переменной и его применение к принятию приближённых решений / Л. А. Заде. — М. : Мир, 1976. — 165 с.

3. Зайченко, Ю. П. Нечёткие модели и методы в интеллектуальных системах / Ю. П. Зайченко. — Киев : Слово, 2008. — 344 с.

4. Ухоботов, В. И. Избранные главы теории нечётких множеств : учеб. пособие / В. И. Ухоботов. — Челябинск : Изд-во Челяб. гос. ун-та, 2011. — 245 с.

Поступила в редакцию 09.08.2017 После переработки 23.10.2017

Сведения об авторах

Журавлев Сергей Олегович, аспирант математического факультета, Челябинский государственный университет, Челябинск, Россия; e-mail: sergey.zhuravlev1992@gmail.com. Никитина Светлана Анатольевна, кандидат физико-математических наук, доцент кафедры теории управления и оптимизации, Челябинский государственный университет, Челябинск, Россия; e-mail: nikitina@csu.ru.

Скорынин Антон Сергеевич, аспирант математического факультета, Челябинский государственный университет, Челябинск, Россия; e-mail: skorynin@csu.ru.

502

C. O. ^ypaB^eB, C. A. HnKHTHHa, A. C. CKOPBIHHH

Chelyabinsk Physical and Mathematical Journal. 2017. Vol. 2, iss. 4. P. 497-502.

ON AN APPROACH TO SPLITTING INTO EQUIVALENCE CLASSES

S.O. Zhuravleva, S.A. Nikitinab, A.S. Skoryninc

Chelyabinsk State University, Chelyabinsk, Russia asergey.zhuravlev1992@gmail.com,, bnikitina@csu.ru, cskorynin@csu.ru

The theoretical foundations of a data clustering algorithm based on the fuzzy relation of equivalence are presented.

Keywords: clustering of data, fuzzy equivalence relation, equivalence class.

References

1. Bargesyan А.А., Kupriyanov А.А., Kholod I.I., Tess М.D., Elizarov S.I.

Analiz dannykh i protsessov: uchebnoye posobiye [Analysis of data and processes]. St. Petersburg, BHV-Petersburg, 2009. 512 p. (In Russ.).

2. Zadeh L^. Ponyatiye lingvisticheskoy peremennoy i yego primeneniye k prinyatiyu priblizhennykh resheniy [The concept of a linguistic variable and its application to the adoption of approximate solutions]. Moscow, Mir Publ., 1976. 165 p. (In Russ.).

3. Zaychenko Y.P. Nechetkiye modeli i metody v intellektual'nykh sistemakh [Fuzzy models and techniques in intelligent systems]. Kiev, Slovo Publ., 2008. 344 p. (In Russ.).

4. Ukhobotov V.I. Izbrannye glavy teorii nechetkikh mnozhestv: uchebnoye posobiye [Selected chapters of the theory of fuzzy sets]. Cheljabinsk, Chelyabinsk State University, 2011. 245 p. (In Russ.).

Accepted article received 09.08.2017 Corrections received 23.10.2017

i Надоели баннеры? Вы всегда можете отключить рекламу.