Научная статья на тему 'Об одном эвристическом кластеризаторе'

Об одном эвристическом кластеризаторе Текст научной статьи по специальности «Математика»

CC BY
59
9
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАСТЕРИЗАТОР / МАТЕМАТИЧЕСКАЯ МОДЕЛЬ / CLUSTERIZER / MATHEMATICAL MODEL

Аннотация научной статьи по математике, автор научной работы — Усманов З.Д.

Предлагается однопараметрическая математическая модель кластеризатора, настраиваемого на основе самообучения. Последнее ограничено двумя условиями: число классов, а также набор предложений относительно возможного распределения объектов по классам известны заранее. Для каждого предложения вычисляется показатель эффективности, по максимальному значению которого фиксируется величина параметра.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

About one heuristic clusterizer

We examine a one-parameter mathematical model of a clusterizer tuned by self-learning. The process is limited by two conditions: the number of classes, as well as the set of proposals for the possible distribution of objects by classes are known in advance. For each proposal, an index of efficiency is calculated, the maximum value of which defines the value of the parameter.

Текст научной работы на тему «Об одном эвристическом кластеризаторе»

ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН _2018, том 61, №2_

ИНФОРМАТИКА

УДК 81'322::519.25

Академик АН Республики Таджикистан З.Д.Усманов

ОБ ОДНОМ ЭВРИСТИЧЕСКОМ КЛАСТЕРИЗАТОРЕ

Институт математики им. А.Джураева АН Республики Таджикистан

Предлагается однопараметрическая математическая модель кластеризатора, настраиваемого на основе самообучения. Последнее ограничено двумя условиями: число классов, а также набор предложений относительно возможного распределения объектов по классам известны заранее. Для каждого предложения вычисляется показатель эффективности, по максимальному значению которого фиксируется величина параметра.

Ключевые слова: кластеризатор, математическая модель.

В статьях [1, 2] предложен метрический кластеризатор, предназначенный для разбиения дискретных случайных величин на группы "однородных элементов". В настоящей статье этот кластеризатор модифицируется таким образом, чтобы приспособить его новую версию к кластеризации конечного множества объектов.

Напомним, что под кластеризатором будем понимать зависящую от параметров математическую модель, предназначенную для распределения множества объектов по классам на основе самообучения. Последнее будет ограничиваться двумя условиями:

1) число классов n известно заранее;

2) имеется набор предложений Sa(ос = 1,L ,С) относительно возможного распределения объектов по классам.

Задача состоит в том, чтобы из заданного набора предложений выделить такое распределение объектов по классам, на котором эффективность классификатора достигает максимального значения.

Настройка кластеризатора на выполнение своей задачи происходит на основе критерия качества, который служит для определения оптимальных значений параметров модели, обеспечивающих "наилучшее" приближение теоретического решения к распределению элементов обучающей выборки по классам. Если полученные результаты окажутся приемлемыми с точки зрения эксперта, то отка-либрованный (эталонированный) кластеризатор становится классификатором.

Нормализация координат. Пусть M = (P,..., Pr} - конечное множество объектов, характеризуемых упорядоченным набором из m признаков X1,...,Xm . Поскольку, в общем случае, признаки могут характеризоваться разнообразными измерительными шкалами, для учёта их влияния на процесс кластеризации осуществим линейную нормализацию данных, преобразуя их к безразмерным числовым значениям в одинаковых областях изменения переменных. Выполняется это известным способом.

Адрес для корреспонденции: Усманов Зафар Джураевич. 734063, Республика Таджикистан, г. Душанбе, пр. Айни, д. 299/1, Институт математики АН РТ. E-mail: zafar-usmanov@rambler.ru

Пусть объект P (l = 1,..., r) по признаку Xk (k = 1,..., m) имеет значение xk . Тогда соответствующее ему нормализованное значение xlk задаётся формулой :

xlk = (xlk - min xlk ) /(max xlk - min xlk ) .

Очевидно, что xlk e [0,1]. В нормализованных переменных объект P: можем рассматривать как точку P = (xn,...,xlm) декартового пространства размерности m .

Выполним ещё одно дополнительное преобразование: от переменных xkk перейдем к новым переменным plk по формуле

Гл = :

xlk

^к =т_ к=1 Х1к

Теперь объекту Р1 поставим в соответствие упорядоченный набор чисел (ря,..., р1т ), причём

т

Рк — 0 и = 1

Свяжем с объектом Р1 функцию

Р (*)=&* (* = 1,Ъ ,т) (1)

k=1

5

[ 5 ]

k=1

Определение 1. Расстоянием между любыми двумя объектами Р1 и Р2 из множества М назовем положительное число р(Р1 , Р2), определяемое по равенствам

р (P,P2) = 4m / 2 max 5

P1k- P2k )

k=1

(2)

Введённое формулой (2) расстояние между любыми двумя объектами из множества М превращает последнее в метрическое пространство.

у - однородные объекты множества М . Пусть у - некоторое положительное число.

Определение 2. Пару объектов Р1 и Р2 из множества М назовём у - однородными, если

р(Р, р2) —у (3)

и у - неоднородными, если

р(Р,Р2) >у. (4)

Теперь вернёмся к условию 2) самообучения кластеризатора, сформулированному во введении. Пусть предложение 8а (ос = 1,Ь , С), относительно возможного распределения объектов по

Доклады Академии наук Республики Таджикистан 2018, том 61, №2

классам, состоит в том, что множество M представляется в виде объединения M = х M ' непе-

n

ресекающихся подмножеств M(£), состоящих из объектов P(££, ß = 1,L , r (£) (^r(£) = r), множе-

£=1

ства M .

Для фиксированного значения у > 0 обозначим через N1 (у) - суммарное количество нарушений неравенства (3) для пар объектов, принадлежащих M£), £ = 1,L ,n, и через N2(y) - суммарное количество нарушений неравенства (4) для пар объектов, принадлежащих разным подмножествам M и

M(£2), £1 ^£2. Будем оценивать эффективность математической модели (1) - (4) кластеризатора для заданного значения у величиной

ж=1-т/L, (5)

где т = N1 (у) + N2(y) - суммарное число нарушений неравенств (3),(4) и L - суммарное число пар объектов на множестве M , вычисляемое по формуле

L = C2 = r (r-1)/2.

Очевидно, что ж может принимать значения из отрезка [0, 1], причём ж = 0, если т = L, и ж = 1, если т = 0. В первом случае математическую модель кластеризатора следует признать непригодной, а во втором - полностью согласованной с обучающей выборкой.

Поскольку эффективность кластеризатора зависит от параметра у, то представляет интерес найти такое его значение, при котором ж достигает максимума. В согласии с (5) эта задача эквивалентна определению значения у, при котором общее число т нарушений неравенств (3), (4) становится минимальным. В работе [2] предложен алгоритм для определения такого значения. Применяя этот алгоритм для предложения Sa (ос = 1,L ,£), в котором множество М представляется в виде

объединения M = UL х M(£), определим оптимальное значение уа) и соответствующее ему минимальное значение т . В таком случае из (5) получим ж .

Для решения задачи, сформулированной во введении, остаётся вычислить

S . = arg max ж(а°,

Sa

то есть выбрать из имеющихся предложений Sa (ос = 1,L , С) такое, для которого соответствующее

—(а )

значение ж является максимальным.

Поступило 03.12.2017 г.

ЛИТЕРАТУРА

1. Усманов З.Д. Классификатор дискретных случайных величин. - ДАН РТ, 2017, т.60, № 7-8, с. 291-300.

2. Усманов З.Д. Алгоритм настройки кластеризатора дискретных случайных величин. - ДАН РТ, 2017, т.60, № 9, с. 392-397.

З.Ч,.Усмонов

ОИД БА ЯК КЛАСТЕРИЗАТОРИ ЭВРИСТИКИ

Институти математика ба номи А.Чураев Академияи илм^ои Цумхурии Тоцикистон

Модели якпараметраи математикии кластеризатор пешниход карда мешавад, ки дар асоси худомузй мувофикат кунонида шудааст. Худомузй бо ду шарт махдуд аст: шумораи синфхо, инчунин мачмуи чумлахои нисбатан имконпазир будани таксимкунии объектхои аз руи синф пешаки маълум. Барои хар як чумла нишондихандаи самаранокй бо кимати максималй хисоб карда, ки аз руи он бузургии параметр муайян карда мешавад. Калима^ои калиди: кластеризатор, модели математики.

Z.D.Usmanov ABOUT ONE HEURISTIC CLUSTERIZER

A.Juraev Institute of Mathematics, Academy of Sciences of the Republic of Tajikistan

We examine a one-parameter mathematical model of a clusterizer tuned by self-learning. The process is limited by two conditions: the number of classes, as well as the set of proposals for the possible distribution of objects by classes are known in advance. For each proposal, an index of efficiency is calculated, the maximum value of which defines the value of the parameter. Key words: clusterizer, mathematical model.

i Надоели баннеры? Вы всегда можете отключить рекламу.