УДК 519.237.8+519.216.5 Вестник СПбГУ. Прикладная математика. Информатика... 2019. Т. 15. Вып. 1 MSC 62H30
Марковский момент остановки агломеративного процесса кластеризации в евклидовом пространстве
А. В. Орехов
Санкт-Петербургский государственный университет, Российская Федерация, 199034, Санкт-Петербург, Университетская наб., 7—9
Для цитирования: Орехов А. В. Марковский момент остановки агломеративного процесса кластеризации в евклидовом пространстве // Вестник Санкт-Петербургского университета. Прикладная математика. Информатика. Процессы управления. 2019. Т. 15. Вып. 1. С. 76-92. https://doi.org/10.21638/11702/spbu10.2019.106
При обработке больших массивов эмпирической информации или данных большой размерности кластерный анализ является одним из основных методов предварительной типологизации. Это обусловливает в том числе необходимость получения формальных правил для вычисления количества кластеров. В настоящее время наиболее распространенным методом определения предпочтительного числа кластеров является визуальный анализ дендрограмм, но такой подход сугубо эвристический. Выбор множества кластеров и момент завершения алгоритма кластеризации зависят друг от друга. Кластерный анализ данных из те-мерного евклидова пространства методом «одиночной связи» можно рассматривать как дискретный случайный процесс. Последовательности «минимальных расстояний» задают траектории этого процесса. Аппроксимационно-оценочный критерий» (approximation-estimating test) позволяет определить марковский момент, когда характер возрастания такой последовательности изменяется с линейного на параболический, что, в свою очередь, может быть признаком завершения агломе-ративного процесса кластеризации. Расчет количества кластеров является актуальной проблемой во многих случаях автоматической типологизации эмпирических данных, например в медицине при цитометрическом исследовании крови, автоматическом анализе текстов и в ряде других случаев, когда количество кластеров заранее неизвестно. Ключевые слова: кластерный анализ, метод наименьших квадратов, марковский момент.
Введение. Под кластерным анализом понимают алгоритмическую типологиза-цию элементов некоторого множества (выборочной совокупности) X по «мере» их сходства друг с другом. Произвольный алгоритм кластеризации является отображением
\Xi I ► к,
ставящим в соответствие любому элементу щ из выборки X единственное натуральное число к, являющееся номером кластера, которому принадлежит Xi. Процесс кластеризации разбивает выборку X на попарно дизъюнктные подмножества Xh, называемые кластерами:
m
X = и Xh, h=l
где для V h,l | 1 ^ h,l ^ m: Xh n Xi = 0.
© Санкт-Петербургский государственный университет, 2019 76 https://doi.org/10.21638/11702/spbu10.2019.106
Следовательно, отображение A задает на X отношение эквивалентности; в качестве независимых представителей классов эквивалентности выбирают элементы, называемые центроидами. В n-мерном евклидовом пространстве E" координаты центроидов равны среднему арифметическому соответствующих координат всех элементов (векторов), входящих в кластер (класс эквивалентности). Если отождествить каждый вектор из E" с материальной точкой единичной массы, то центроиды можно рассматривать как центры масс.
Важной проблемой кластерного анализа является расчет предпочтительного числа классов эквивалентности. С решением этого вопроса связано нахождение момента завершения самого процесса. Данная связь предполагает, что правило определения числа кластеров и критерий завершения алгоритма кластеризации зависят друг от друга, а иногда и совпадают. Решение о количестве классов эквивалентности принимается или во время самого процесса, или еще до его начала (например, при использовании метода fc-средних). В большинстве случаев определение числа кластеров во время выполнения процесса кластеризации основано на визуальном анализе дендрограмм, по которым можно сделать вывод об их предпочтительном количестве [1—3]. Но такой подход является эвристическим, а суть эвристических методов состоит в том, что они основываются на некоторых правдоподобных предположениях, а не на строгих выводах.
В настоящее время проблема истинного числа кластеров не решена. В книге, посвященной использованию статистических методов в археологических исследованиях, Бакстер (Baxter) утверждает, что для установления их предпочтительного количества наиболее распространенным подходом будет использование неформальных и субъективных критериев, основанных на экспертной оценке [4]. Согласен с ним и Эверитт (Everitt), который отмечает, что отсутствие единого мнения по данному вопросу делает комментарий Бакстера (Baxter) наиболее точным [1]. Тем не менее, особенно при обработке больших массивов эмпирических данных или данных большой размерности, кластерный анализ является одним из основных методов предварительной типологизации, а это обусловливает необходимость вывода формальных критериев завершения процесса и правил вычисления количества кластеров.
В подавляющем большинстве современных работ, в которых изучаются и решаются эти проблемы, авторы рассматривают не общий, а различные частные случаи кластеризации. Прежде всего следует выделить статью [5], в которой описан алгоритм, основанный на поиске и оценке скачков так называемых индексных функций. Главным недостатком этого метода является его большая вычислительная сложность. Развивая идеи, изложенные в [5], О. Н. Граничин с соавторами предложили применять для нахождения числа кластеров рандомизированные алгоритмы аппроксимации скачков индексных функций [6, 7].
Еще один способ решения этой задачи основан на оценке плотности распределения элементов выборочной совокупности (см., например, [8, 9]). В статье [9] значительное внимание уделяется не только проблеме определения предпочтительного числа кластеров, но и робастности самого процесса. Аналогичные вопросы изучаются в работах [10, 11].
Кроме проблемы количества классов эквивалентности, в кластерном анализе большое значение имеет оценка качества результатов типологизации и интеллектуального анализа данных (англ. data mining). Возможным подходом к изучению таких проблем может стать исследование робастности и устойчивости процесса кластеризации [9-12].
Методы «^-средних» и «одиночной связи». Сравним два алгоритма кластерного анализа данных, расположенных в n-мерном евклидовом пространстве E". Наиболее популярный из современных методов кластеризации числовых данных — метод fc-средних (англ. k-means), был изобретен в середине XX в. Штайнхаусом (Steinhaus) и Ллойдом (Lloyd) [13, 14]. Этот алгоритм стремится минимизировать суммарное квадратичное отклонение элементов классов эквивалентности от их центров масс. Действие алгоритма fc-средних начинается с того, что выборка X разбивается на заранее заданное число кластеров со случайно выбранными центроидами. Основная идея такого метода заключается в том, что на каждой итерации перевычисляется центр масс для каждого кластера, полученного на предыдущем шаге. Затем элементы разбиваются на новые классы эквивалентности в соответствии с тем, какой из новых центроидов оказался ближе. Алгоритм завершается тогда, когда на очередной итерации не происходит изменение суммарного квадратичного отклонения элементов от центра масс. Метод fc-средних реализуется за конечное число итераций, так как количество возможных разбиений конечного множества (выборки) X конечно и на каждом шаге суммарное квадратичное отклонение уменьшается, поэтому алгоритм сходится [1, 14-16].
Метод fc-средних имеет три существенных недостатка. Во-первых, он гарантирует достижение не глобального минимума суммарного квадратичного отклонения, а только одного из локальных минимумов. Во-вторых, результат кластеризации зависит от выбора исходных центроидов, а их оптимальный выбор неизвестен. В-третьих, число кластеров надо указать заранее, а это означает, что можно задать «обучающую выборку», и практически кластеризация превращается в классификацию.
В качестве альтернативы методу fc-средних для действительно автоматической кластеризации в E" можно предложить иерархический агломеративный алгоритм «одиночной связи» (англ. single linkage) [1, 16].
Представим этот метод формально. Пусть X = {х\, Х2, • • •, хт} — выборочная совокупность, в которой любой вектор щ из X принадлежит евклидову пространству Е™, т. е. для V хi = (xj, xf, ..., х") и для V г, j | 1 ^ г ^ то, 1 ^ j ^ п ■ xPi е R.
В пространстве Е™ задана стандартная метрика р | V х, у е Е":
Р(х, у) =
\
Т,(хз - Уз)2-j=i
Если выборочная совокупность X содержит т элементов (векторов), то полагают, что X разбита на т классов эквивалентности (кластеров), содержащих по одному элементу — Х\ = х\, Хч =Х2, • • •, Хт = хт:
т
X = и хн.
н=\
При этом понятно, что кластеры, состоящие из единственного элемента, и их центроиды совпадают: X^ = Х^, для V Н \ 1 ^ Н ^ т.
Итерации алгоритма А, реализующего метод «одиночной связи», можно описать следующим образом.
Первым шагом 1-й итерации А1 алгоритма А является построение диагональной матрицы расстояний между Xh:
р(ХиХ2) 0
р(Х1,Хз)
р(Х2,Хз)
... р(Х1,Хт) ■■■ р(Х2,Хт)
0 р(Х т— 1,Хт) 0
Затем определяется ее минимальный элемент
Л = тт(р(ХЛ,Х,)),
где 1 ^ Н,1 ^ т; Л — минимальное расстояние при А1.
После чего Х^ и Х1, для которых р минимально, объединяются в один класс эквивалентности, который обозначим как Х1, а его центроид — как Х1. Кластеры Х^ и X; (при Л\ элементы ж^ и х{) заменяются на центроид Х\. Таким образом, после А1 выборочная совокупность Х оказывается разбитой на т - 1 элемент.
Не умаляя общности, будем считать, что в начале д-й итерации Ад агломератив-ного алгоритма кластеризации А выборочная совокупность Х разбита на р кластеров. Первым шагом Ад является построение диагональной матрицы расстояний
0
р(Х1,Х2) 0
р(Х1,Хз) р(Х2,Хз)
... р(Х1,ХР) ... р(Х2 ,Хр)
о р(Хр—1,Хр) 0
Затем так же, как и при А1, находится минимальный элемент этой матрицы
Лд = тгп(р(Хк,Х1)),
где 1 ^ Н,1 ^ р; Лд — минимальное расстояние при Ад.
Элементы Х^ и Х1, для которых расстояние р является минимальным, объединяются в кластер, его обозначим как Хд. Его центроид Хд имеет координаты, равные среднему арифметическому соответствующих координат всех векторов из Х^ или Х1, объединенных в Хд. В конце итерации Ад элементы Х^ и Х1 заменяются на ХХд. Таким образом, после завершения Ад выборочная совокупность Х оказывается разбитой на р - 1 элемент.
Главное преимущество метода «одиночной связи» заключается в его математических свойствах: результаты, полученные при его помощи, инвариантны монотонным преобразованиям матрицы сходства, его применению не мешает наличие совпадающих данных, по сравнению с другими методами кластеризации он обладает высокой устойчивостью и особенно эффективен в евклидовых пространствах [16].
Множество минимальных расстояний. Если нет правила завершения процесса кластеризации, то после т -1 итерации метода «одиночной связи» выборочная совокупность Х будет объединена в один кластер, что является абсурдным результатом.
Для определения предпочтительного числа кластеров построим статистический критерий завершения агломеративного процесса кластеризации в Е".
Множество минимальных расстояний, полученное после т -1 итерации описанного алгоритма, имеет вид , , ..., Fm-l} и линейно упорядочено относительно числовых значений своих элементов: 0 ^ ^ ^ ... ^ . Используем это
множество при выводе формального правила завершения агломеративного процесса кластеризации, реализующего метод «одиночной связи» в п-мерном евклидовом пространстве Еп.
Сначала в качестве иллюстрирующего примера рассмотрим множество X, состоящее из 33 упорядоченных пар: X = {(0,0); (2,4); (3,3); (1,2); (3,0); (3,1); (1,1); (12,18); (13,17); (11,15); (13,14); (14,16); (11,16); (12,15); (13,18); (12,5); (13,2); (14,4); (12,3); (13,1); (14,2); (24,19); (22,22); (21,24); (23,21); (24,20); (22,39); (23,38); (24,39); (21,37); (2,26); (24,6); (10,36)}, которые можно отождествить с точками ограниченной области на плоскости (рис. 1). В этом простейшем случае количество кластеров и их расположение можно определить визуально: пять кластеров и три изолированные точки.
Рис. 1. Множество X (точка (0,0) находится в верхнем левом углу)
Элементы множества минимальных расстояний принимают следующие значения: Fi = 1.000, F2 = 1.000, F3 = 1.000, F4 = 1.000, F5 = 1.000, Fe = 1.000, F7 = 1.118, F8 = 1.118, F9 = 1.118, F10 = 1.414, F11 = 1.414, F12 = 1.414, F13 = 1.581, Fi4 = 1.803, F15 = 1.886, F16 = 2.134, F17 = 2.134, F18 = 2.236, F19 = 2.386, F20 = 2.500, F21 = 2.574, F22 = 2.603, F23 = 2.846, F24 = 2.864, F25 = 4.161, F26 = 11.214, F27 = 11.595, F28 = 12.701, F29 = 14.278, F30 = 17.322, F31 = 18.017, F32 = 28.475.
При слиянии кластеров или присоединении к любому из них одной из изолированных точек должен произойти резкий скачок числового значения минимального расстояния (F25 на рис. 2), который, по здравому смыслу, совпадает с моментом завершения процесса кластеризации. На рис. 2 хорошо видно, что этот скачок лучше аппроксимировать не прямой, а параболой.
О 10 20 30
Рис. 2. График значений ¥г (на оси абсцисс отложены номера итераций)
Кластерный анализ как случайный процесс. Пусть Т = 1,ш - 1 — ограниченное подмножество натурального ряда, содержащее первое т-1 натуральное число. Тогда семейство £ = { ,£ е Т} случайных величин ^ = ^ (и), заданных для V £ е Т на одном и том же вероятностном пространстве (О, Т, Р), называется дискретным случайным процессом.
Каждая случайная величина £1 порождает а -алгебру, которую будем обозначать как Т^. Тогда а-алгеброй, порожденной случайным процессом £ = {,£ е Т}, называется минимальная а-алгебра, содержащая все Т^, т. е.
а (£ )=а ('О' Т^ ) •
Дискретный случайный процесс £ = {£1 е Т} можно представить как функцию двух переменных £ = £(£,и), где £ — натуральный аргумент, и — случайное событие. Если зафиксировать £, то, как указывалось выше, получим случайную величину £1; если же зафиксировать случайное событие ио, то имеем функцию от натурального аргумента £, которая называется траекторией случайного процесса £ = { ,£ е Т} и является случайной последовательностью £1 (и0).
Рассмотрим кластеризацию конечного множества X из евклидова пространства Еп как дискретный случайный процесс £ = £(Ь,и). Случайным событием и е О будет извлечение выборки X из Еп. Теоретически любая точка х £ Еп может принадлежать выборочной совокупности X, поэтому а -алгебра из вероятностного пространства (О, Т, Р) содержит все Еп, любое конечное множество X из пространства Еп, все возможные счетные объединения таких множеств и дополнения к ним. Обозначим данную систему множеств как 5(ЕП) и назовем выборочной а-алгеброй, Т = 5 (Еп). Те же рассуждения справедливы для любой а-алгебры Т^, потому
а(£)=5(Еп)
Заметим, что эта а-алгебра «беднее», чем борелевская 5(Еп) с В(Еп). Действительно, счетное объединение не более чем счетных множеств — счетно, поэтому 5 (Еп) не содержит промежутков.
Рассмотрим бинарную задачу проверки статистических гипотез Но и Н1, где нулевая гипотеза Но — случайная последовательность £г(шо) возрастает линейно, а альтернативная гипотеза Н1 — случайная последовательность £г(^о) возрастает нелинейно (параболически). Для проверки статистической гипотезы необходимо построить критерий как строгое математическое правило, позволяющее ее принять или отвергнуть.
В евклидовом пространстве Еп при кластерном анализе выборочных данных методом «одиночной связи» одной из основных характеристик процесса будет множество минимальных расстояний. Естественно рассматривать его значение как случайную величину £г: П —► М, полагая, что £ — номер итерации агломеративного алгоритма кластеризации А. Для любого фиксированного случайного события шо € П соответствующая траектория (<^о) = Рг — монотонно возрастающая случайная последовательность. Построим статистический критерий завершения процесса кластеризации как момент остановки т [17].
На вероятностном пространстве (П, Т, Р) семейство а-алгебр Р = {Т, £ € Т} называется фильтрацией, если для V г] € Т | г < ] : Тг с Т^ с Т. При этом, если для V £ € Т: = а(£г, г < £), то фильтрация называется естественной.
Случайный процесс £ = {£, € Т} называется согласованным с фильтрацией Р, если для V £ € Т: а(£г) = Т^ с Т. Очевидно, что любой случайный процесс согласован со своей естественной фильтрацией.
Отображение т: П —► Т называется марковским моментом относительно фильтрации Р, если для V £ € Т прообраз множества {т ^ £} €Тг. Если к тому же вероятность Р(т < +оо) = 1, то т называется марковским моментом остановки [18, 19].
Иначе говоря, пусть т — момент наступления некоторого события в случайном процессе £ = {£(,£ € Т}. Если для V ¿о € Т можно однозначно сказать, наступило событие т или нет, при условии, что известны значения только в прошлом (слева от £о), то тогда т — марковский момент относительно естественной фильтрации Р случайного процесса £ = {£, € Т}. А если наступление т в конечный момент времени является достоверным событием, то т — марковский момент остановки.
Аппроксимационно-оценочный критерий. Для определения момента, когда характер монотонного возрастания числовой последовательности изменяется с линейного на параболический, используем ранее построенный аппроксимационно-оценочный критерий [20, 21].
Сначала формально определим термины «линейное возрастание» и «параболическое возрастание» числовой последовательности. Узлами аппроксимации для числовой последовательности уп являются упорядоченные пары (г, уг), где г — натуральный аргумент, уг — соответствующее значение последовательности уп. Так как подстрочный индекс однозначно определяет натуральный аргумент, узел аппроксимации (г, у г) будем отождествлять с элементом уг.
Под квадратичной погрешностью аппроксимации для функции ](х) будем понимать сумму квадратов разностей значений числовой последовательности в узлах аппроксимации и аппроксимирующей функции при соответствующем аргументе:
k— i
¿2 = E (f (^)-Уг)2-
i=0
Функция f (x) из класса X является аппроксимирующей для узлов yo,yi,...,yk-i в смысле квадратичного приближения, если для f (x) справедливо
k— 1
52 = min X (f (i)-yi)2, f i=0
такой минимум всегда найдется, так как ¿f — положительно определенная квадратичная форма.
Будем различать линейную аппроксимацию в классе функций вида l(x) = ax + b и неполную параболическую аппроксимацию (без линейного члена) в классе функций q(x) = cx2 + d. Квадратичные погрешности по к узлам для линейной и неполной параболической аппроксимаций будут соответственно равны
k1
5?(к)=Т,(а ■ i + b - yi)2, (1)
i=0
k1
52 (к)=Т, (c ■ i2 + d - yi)2. (2)
i=0
Если в наших рассуждениях количество узлов аппроксимации несущественно или очевидно из контекста, то соответствующие квадратичные погрешности будем просто обозначать 5г2 и ¿2.
При сравнении Sf и ¿2 возможны три случая: ¿2 < 52, ¿2 > ¿2, ¿2 = ¿2.
Будем говорить, что последовательность yn имеет линейное возрастание в узлах (точках) yo,yi,...,yk-i, если в этих значениях yn монотонна и квадратичные погрешности линейной и неполной параболической аппроксимаций по этим узлам связаны неравенством ¿2 > ¿г2. Если при тех же условиях справедливо неравенство ¿f < ¿2, то последовательность yn имеет параболическое возрастание в точках yo,yi,...,yk-i. Если же для узлов аппроксимации yo,yi,... ,yk-i выполняется равенство ¿2 = ¿г2, то тогда точка yk-1 называется критической.
Вычислим по методу наименьших квадратов коэффициенты а, b линейной функции ax + b и коэффициенты c, d для неполной квадратичной функции cx2 + d, аппроксимирующих узлы yo,yi,...,yk-i [20, 21]:
6 k-i 2 k-i
а= h(h2 Ъ=——Т{ 2k-l-Zi)yi, (3)
к(к2 - 1) i=o к(к + 1) i=o
30 k-i * " Ц»-1)(2>-!)(№-»-11) §<" " <* " 1>(2k ~ »>*• <4)
Чтобы определить момент, когда характер возрастания монотонной последовательности yn изменяется с линейного на параболический, построим аппроксимацион-но-оценочный критерий ¿2.
Будем считать, по определению, что для узлов аппроксимации уо,у1,...,ук-1 критерий З2 = З2(ко) = Зг2(ко) - З2ч(ко). При этом положим, что всегда уо = 0. Выполнения этого условия легко добиться на любом шаге аппроксимации при помощи преобразования:
уо = уз - уз, у1 = у^+1 - уз, ..., ук-1 = уз+к-1 - уз. (6)
Вычислим, используя формулы (1)—(5), квадратичные погрешности линейной и неполной параболической аппроксимаций по четырем точкам уо, у1, у2, уз, а затем сравним их [20, 21]:
ах + Ъ= + У2 + Зуз)х + +У2~ 2г/з),
сх2 + д, = -1-(-5г/1 + у2 + Пуз)ж2 + -^-(42г/1 + 21у2 - 14г/з),
98 98
^2(4о) = Е Г 1
к=о
10 + У2 + Зуз) + (4г/1 + У2 - 2г/з)) - ук
З2(4о)=Е
= + 7У2 + 3Уз - 4У№ - 2У1УЗ - 8У2УЗ), (7)
з Г 1 т2
к=о
— (к2(-5г/1 + у2 + 11уз) + (42г/1 + 21у2 - 14г/з)) " Ук
98
= 7Т^(61У1 + 73^2 + 13Уз ~ 44у1у2 + буша - 60г/2Уз)>
98
32(40) = 32(40) - 32(40) = ¿(19у2 - Пу2 + 41 у2 + 12ут - 64уШ - 46у2у3).
Можно сказать, что вблизи элемента у к характер возрастания числовой последовательности уп изменился с линейного на параболический, если для узлов уо,у1,...,ук-1 линейная аппроксимация не хуже неполной параболической, т. е. справедливо неравенство З2 = Зг2 - 52ч ^ 0, а для набора точек у1,у2 ,...,ук, сдвинутых на один шаг дискретности, неполная параболическая аппроксимация стала точнее линейной, т. е. выполнилось неравенство З2 = Зг2 - 32 > 0.
Для случайной последовательности минимальных расстояний £г(^о) = Рг(X) при кластеризации выборочной совокупности X с Еп методом «одиночной связи» естественной фильтрацией, согласованной с процессом, будет выборочная а-алгебра 5 (Еп). Тогда, по определению, марковским моментом остановки агломеративного процесса кластеризации будет статистика
т = шш{£ € Т | З2 > 0}.
То есть марковским моментом остановки агломеративного процесса кластеризации является минимальное значение т, при котором отвергается нулевая гипотеза Но (последовательность минимальных расстояний возрастает линейно) и принимается альтернативная гипотеза Н1 (последовательность минимальных расстояний возрастает параболически).
Чувствительность аппроксимационно-оценочного критерия. Для того чтобы окончательно сформулировать условие завершения описанного выше агломе-ративного процесса кластеризации, осталось рассмотреть «проблему чувствительности» аппроксимационно-оценочного критерия З2, которую можно связать с понятием «устойчивой кластеризации».
Предварительно решим «обратную задачу». А именно, пусть известны значения последовательности уп в узлах уо,у1,у2, и требуется определить, при каком значении в узле (3,уз) характер возрастания последовательности уп изменился с линейного на параболический. Иными словами, надо определить, при каком числовом значении уз эта точка станет критической. Приравняем к нулю квадратичную форму (7) и, заменив уз на х, решим квадратное уравнение
41х2 - (64у1 + 46у2) х + (19у2 + 12у2у1 - 11у2) = 0,
для которого
32у1 + 23у2±7У5(у1 + 2у2)
XI 2 = -•
41
Учитывая, что 0 ^ у1 ^ у2 ^ уз, окончательно получим
32у1 + 23у2 + 7У5(у1 + 2у2) У з =-Л-• (8)
Вспомним введенное преобразование (6) и заметим, что если уз = уз+1 = у3+2, то тогда не только уо = 0, но и у1 = у2 = 0. Согласно (7), для любого уз+з > уз+2, даже если уз = уз+з - уз > 0 сколь угодно мало, квадратичная форма З2 > 0.
Например, для рассмотренного выше множества минимальных расстояний {Р1, Р2, ..., Рз2} критерий З2(4о) примет следующие значения:
З2 = 0, З2 = 0, З2 = 0, З2 = 0.002,
символ З2 обозначает величину критерия по узлам Р1 ,Р2 ,Рз ,Ра , символ З| — по узлам Р2,Рз, Р4,Рб и т. д.
Согласно принятым выше соглашениям, агломеративный алгоритм кластеризации множества X должен завершиться после итерации А7. Но в этом случае множество X будет разделено на 6 кластеров и 20 изолированных точек (рис. 3), что вряд ли можно считать удовлетворительным результатом.
Если ввести преобразование уг = Рг + ц • г, то получим множество {у1, у2, ..., ук}, которое назовем «множеством тренда», а ц — «коэффициентом тренда». При применении критерия З2 не к набору {Р1, Р2, ..., Р29}, а к множеству {у1, у2, ..., у29} результат кластеризации качественно меняется.
Например, при ц = 0.2 множество тренда и аппроксимационно-оценочный критерий принимают следующие значения: у1 = 1.0, у2 = 1.2, уз = 1.4, у4 = 1.6, у5 = 1.8, уе = 2.0, уг = 2.318,ув = 2.518, у9 = 2.718, ут = 3.214 и З42 = -0.016,З52 = -0.016, З62 = -0.016, З2 = -0.005, З| = -0.025, З2 = -0.039, З2о = 0.020 соответственно. При этом множество X разбивается на 7 кластеров и 16 изолированных точек (рис. 4).
Такой же результат кластеризации, но при других значениях {у1, у2, ..., уз2} и {З4, З^ ...} получается, когда ц = 0.3. Если ц изменяется в пределах от 0.4 до 1.1,
Рис. 3. Кластеризация множества X по узлам , , ..., }
Рис. 4. Результаты кластеризации множества X при д € [0.2, 0.3]
то множество X разбивается на 5 кластеров и 3 изолированные точки (рис. 5). При q в пределах от 1.2 до 8.1 множество X разделяется на 4 кластера и 3 изолированные точки (рис. 6), а при q ^ 8.2 множество X представляется как один кластер, состоящий из 33 точек.
Выполнение процесса кластеризации завершается при помощи аппроксимацион-но-оценочного критерия, который оценивает скачки монотонно возрастающей последовательности минимальных расстояний. Величина значимого скачка, достаточного для остановки процесса кластеризации, зависит от чувствительности критерия остановки, которая задается при помощи неотрицательного коэффициента q. Чем больше значение q, тем меньше чувствительность критерия остановки процесса кластеризации. Максимальной чувствительностью критерий остановки обладает при q = 0,
Рис. 5. Предпочтительное число кластеров при д € [0.4, 1.1]
Рис. 6. Образование большого продолговатого кластера при д € [1.2, 8.1]
в этом случае при кластеризации получится наибольшее число кластеров. Увеличивая q, можно уменьшить чувствительность критерия остановки так, что процесс будет продолжаться до тех пор, пока все т векторов не объединятся в один кластер. Действительно, если узлы аппроксимации уо, у\, у2 изменяются как арифметическая прогрессия с разностью q, то формулу (8) можно записать в виде
= ^ (78+ 35л/б) ^3.811</
и узлы аппроксимации в этом случае принимают значения 0, q, 2q, 3.81^. А это означает, что при увеличении коэффициента тренда q чувствительность критерия уменьшается и для достижения критического значения необходима большая величина скачка изменения числового значения минимального расстояния.
Устойчивость кластеризации. Кластерный анализ обладает большой степенью субъективности, поэтому интерпретация его результатов во многом зависит от самого исследователя. Кроме нахождения приемлемого числа кластеров, важное значение имеет «устойчивость кластеризации». В работах [6, 7, 12] вместо строгого определения этого понятия вводится его интуитивное описание, например: «Устойчивость кластеризации показывает, насколько различными получаются результирующие разбиения на группы после многократного применения алгоритмов кластеризации для одних и тех же данных. Небольшое расхождение результатов интерпретируется как высокая устойчивость» [6, с. 87].
При использовании метода «одиночной связи» и аппроксимационно-оценочного критерия завершения процесса кластеризации в качестве количественной меры устойчивости можно рассматривать величину промежутка Qi = [ai, ßi] изменения коэффициента q € [ai, ßi ], при котором для выборочной совокупности X получается один и тот же результат.
В этой связи необходимо вспомнить широко известную работу по кластерному анализу Олдендерфера (Aldenderfer) и Блэшфилда (Blashfield) [16], в которой они утверждают, что основной недостаток метода «одиночной связи» заключается в высокой вероятности возникновения «цепного эффекта» и образования больших продолговатых (вытянутых по одному или нескольким измерениям) кластеров. По мере приближения к окончанию процесса кластеризации образуется один большой кластер, к которому присоединяются ранее сформировавшиеся кластеры и изолированные точки. В качестве подтверждения этой мысли приводится соответствующая денд-рограмма.
На рис. 3-6 можно наблюдать иллюстрацию этого процесса в численном эксперименте при кластеризации 33 точек из ограниченной плоской области (численный эксперимент проводился при помощи программы, написанной на языке Visual Basic в интегрированной среде разработки Visual Studio Community 2017). Сначала образуются подкластеры (как собственные подмножества) при значениях коэффициента q из промежутков Qi = [0, 0.1] и Q2 = [0.2, 0.3], затем получается разбиение на приемлемое количество кластеров (в смысле визуальной оценки) при Q3 = [0.4, 1.1], потом происходит объединение двух из пяти кластеров в один «большой продолговатый» кластер (его элементы на рис. 6 обозначены цифрой 1) при Q4 = [1.2, 8.1] и, наконец, все точки собираются в один кластер из 33 элементов при Q5 = [8.2, те). В общем случае последовательность промежутков устойчивой кластеризации для различных значений параметра q обозначим как Q1, Q2, ..., Qe-2, Qe-i, Qe, где Qe — множество значений коэффициента q, при которых все m точек объединяются в один кластер.
Журнал корпорации Microsoft в 2015 г. опубликовал статью, посвященную программной реализации одной из модификаций метода ^-средних [22]. В этой работе как пример производится кластеризация точек на евклидовой плоскости, при этом a priori задается разбиение на три кластера. Для тех же самых данных методом «одиночной связи» и при помощи аппроксимационно-оценочного критерия аналогичный результат, без априорного предположения о количества кластеров, был получен при q € Qe-2 = [0.3, 0.9], при q € Qe-i = [1, 2.7] данные были разделены на два кластера и при q ^ 2.8 все точки объединились в один кластер.
Заключение. Статистический критерий завершения агломеративного процесса кластеризации, основанного на методе «одиночной связи» в евклидовом пространстве En, можно сформулировать следующим образом.
Пусть {Fi, F2, ..., Fk} — линейно упорядоченное множество минимальных расстояний, а набор {yi, y2, ..., yk} — «множество тренда», полученное при помощи преобразования yi = Fi+q-i, где q — «коэффициент тренда», i — номер итерации агломера-тивного алгоритма кластеризации A. Процесс кластеризации считается завершенным при k-й итерации, если для узлов yk-4,yk-3,yk-2,yk-1 справедливо неравенство S2 ^ 0, а для набора точек yk-3,yk-2,yk-1,yk выполнилось неравенство S2 > 0, где
$2 = " Пу1 + 41у1 + 12У1У2 " 64У1Уз - Шу2уз)-
245
Иначе говоря, марковский момент остановки алгоритма кластеризации A равен статистике
т (Fi,F2, ...,Fk) = min{k I ¿2 > 0},
при этом отвергается нулевая гипотеза Ho — значения элементов линейно упорядоченного множества тренда возрастают линейно и принимается альтернативная гипотеза Hi — значения элементов линейно упорядоченного множества тренда возрастают параболически.
Автоматическое определение числа кластеров является актуальной проблемой во многих случаях предварительной типологизации эмпирических данных, например при цитометрическом исследовании крови [23], при автоматическом анализе текстов [24] и в других случаях, когда количество кластеров a priori неизвестно. Для решения этой задачи можно использовать алгоритм кластеризации, основанный на методе «одиночной связи», и аппроксимационно-оценочный критерий для завершения процесса. Кластеризация выборки X из n-мерного евклидова пространства E" производится при различных величинах параметра q, который увеличивается от нуля до значения, при котором все точки X соберутся в один кластер. Окончательное решение о предпочтительном числе кластеров носит субъективный характер, но, на наш взгляд, наибольший интерес представляет разбиение при q е Qe-2.
Литература
1. Everitt B. S. Cluster analysis. Chichester, West Sussex, UK: John Wiley & Sons Ltd, 2011. 330 p.
2. Duda R. O., Hart P. E., Stork D. G. Pattern classification. 2nd ed. New York; Chichester: Wiley, 2001. 654 p.
3. Calirnski T., Harabasz J. A dendrite method for cluster analysis // Communications in Statistics. 1974. N 3. P. 1-27.
4. Baxter M. J. Exploratory multivariate analysis in archaeology. Edinburgh: Edinburgh University Press, 1994. 307 p.
5. Sugar C. A., James G. M. Finding the number of clusters in a dataset // Journal of the American Statistical Association. 2003. Vol. 98, N 463. P. 750-763.
6. Граничин О. Н., Шалымов Д. С., Аврос Р., Волкович З. Рандомизированный алгоритм нахождения количества кластеров // Автоматика и телемеханика. 2011. № 4. С. 86-98.
7. Шалымов Д. С. Рандомизированный метод определения количества кластеров на множестве данных // Науч.-технич. вестн. С.-Петерб. гос. ун-та информ. технологий, механики и оптики. 2009. № 5 (63). С. 111-116.
8. Zhang G., Zhang C., Zhang H. Improved X-means algorithm based on density Canopy // Knowledge-Based Systems. 2018. Vol. 145. P. 1-14.
9. Jiali W., Yue Z., Xv L. Automatic cluster number selection by finding density peaks // 2016 2nd IEEE Intern. Conference on Computer and Communications (ICCC). IEEE Proceedings. Chengdu, China, 2016. P. 13-18. doi: 10.1109 / CompComm.2016.7924655
10. Cordeiro de Amorim R., Hennig C. Recovering the number of clusters in data sets with noise features using feature rescaling factors // Information Sciences. 2015. Vol. 324. P. 126-145.
11. Ложкинс А., Буре В. М. Вероятностный подход к определению локально-оптимального числа кластеров // Вестн. С.-Петерб. ун-та. Прикладная математика. Информатика. Процессы управления. 2016. Т. 13. Вып. 1. С. 28-37.
12. Шалымов Д. С. Алгоритмы устойчивой кластеризации на основе индексных функций и функций устойчивости // Стохастическая оптимизация в информатике. 2008. Т. 4. № 1-1. С. 236-248.
13. Steinhaus H. Sur la division des corps matériels en parties // Bull. Acad. Polon. Sci. C1. III. 1956. Vol. IV. P. 801-804.
14. Lloyd S. Least squares quantization in PCM // IEEE Transactions on Information Theory. 1982. Vol. 28. Iss. 2. P. 129-137. doi: 10.1109/TIT.1982.1056489
15. Hartigan J. A. Clustering algorithms. New York; London; Sydney; Toronto: John Wiley & Sons Inc., 1975. 351 p.
16. Aldenderfer M. S., Blashfield R. K. Cluster analysis. Newburg Park: Sage Publications Inc., 1984. 88 p.
17. Wald A. Sequential analysis. New York: John Wiley & Sons Inc., 1947. 212 p.
18. Sirjaev A. N. Statistical sequential analysis: Optimal stopping rules. New York: American Mathematical Society, 1973. 174 p.
19. Shiryaev A. N. Optimal stopping rules. Berlin; Heidelberg: Springer, 2009. 220 p.
20. Orekhov A. V. Criterion for estimation of stress-deformed state of SD-materials // AIP Conference Proceedings. 2018. Vol. 1959. P. 070028. doi: 10.1063/1.5034703
21. Орехов А. В. Аппроксимационно-оценочные критерии напряженно-деформируемого состояния твердого тела // Вестн. С.-Петерб. ун-та. Прикладная математика. Информатика. Процессы управления. 2018. Т. 14. Вып. 3. С. 230-242. doi.org/10.21638/11702/spbu10.2018.304
22. McCaffrey J. Test run — fc-means++ data clustering // MSDN Magazine. 2015. Vol. 30, N 8. P. 62-68.
23. Зурочка А. В., Хайдуков С. В., Кудрявцев И. В., Черешнев В. А. Проточная цитометрия в медицине и биологии. 2-е изд. Екатеринбург: Урал. отд. РАН, 2014. 574 с.
24. Lappin S., Fox C. The handbook of contemporary semantic theory. 2nd ed. Wiley-Blackwell: Wiley, 2015. 776 p.
Статья поступила в редакцию 28 февраля 2018 г. ^атья принята к печати 18 декабря 2018 г.
Контактная информация:
Орехов Андрей Владимирович — ст. преподаватель; [email protected]
Markov moment for the agglomerative method of clustering in Euclidean space
A. V. Orekhov
St. Petersburg State University, 7-9, Universitetskaya nab., St. Petersburg, 199034, Russian Federation
For citation: Orekhov A. V. Markov moment for the agglomerative method of clustering
in Euclidean space. Vestnik of Saint Petersburg University. Applied Mathematics. Computer
Science. Control Processes, 2019, vol. 15, iss. 1, pp. 76-92. https://doi.org/10.21638/11702/ spbul0.2019.106 (In Russian)
When processing large arrays of empirical data or large-scale data, cluster analysis remains one of the primary methods of preliminary typology, which makes it necessary to obtain formal rules for calculating the number of clusters. The most common method for determining the preferred number of clusters is the visual analysis of dendrograms, but this approach is purely heuristic. The number of clusters and the end moment of the clustering algorithm depend on each other. Cluster analysis of data from те-dimensional Euclidean space using the "single linkage" method can consider as a discrete random process. Sequences of "minimum distances" define the trajectories of this process. The "approximation-estimating test" allows
us to establish the Markov moment when the growth rate of such a sequence changes from linear to parabolic, which, in turn, may be a sign of the completion of the agglomerative clustering process. The calculation of the number of clusters is the critical problem in many cases of the automatic typology of empirical data. For example, in medicine with cytometric analysis of blood, automated analysis of texts and in other instances when the number of clusters not known in advance.
Keywords: cluster analysis, least squares method, Markov moment. References
1. Everitt B. S. Cluster analysis. Chichester, West Sussex, UK, John Wiley & Sons Ltd. Press, 2011, 330 p.
2. Duda R. O., Hart P. E., Stork D. G. Pattern classification. 2nd ed. New York, Chichester, Wiley Press, 2001. 654 p.
3. Calirnski T., Harabasz J. A dendrite method for cluster analysis. Communications in Statistics, 1974, no. 3, pp. 1-27.
4. Baxter M. J. Exploratory multivariate analysis in archaeology. Edinburgh, Edinburgh University Press, 1994, 307 p.
5. Sugar C. A., James G. M. Finding the number of clusters in a dataset. Journal of the American Statistical Association, 2003, vol. 98, no. 463, pp. 750-763.
6. Granichin O. N., Shalymov D. S., Avros R., Volkovich Z. Randomizirovannyy algoritm nakhozhdeniya kolichestva klasterov [A randomized algorithm for estimating the number of clusters]. Avtomatika i telemekhanika [Automation and Remote Control], 2011, no. 4, pp. 86-98. (In Russian)
7. Shalymov D. S. Randomizirovannyy metod opredeleniya kolichestva klasterov na mnozhestve dannykh. [Randomized method for determining the number of clusters on a data set]. Nauchno-tekhniches-kiy vestnik Sankt-Peterburgskogo gosudarstvennogo universiteta informatsionnykh tekhnologiy, mekhaniki i optiki [Scientific and Technical Gazette of Saint Petersburg State University of Information Technologies, Mechanics and Optics], 2009, no. 5 (63), pp. 111-116. (In Russian)
8. Zhang G., Zhang C., Zhang H. Improved fc-means algorithm based on density Canopy. Knowledge-Based Systems, 2018, vol. 145, pp. 1-14.
9. Jiali W., Yue Z., Xv L. Automatic cluster number selection by finding density peaks. 2016 2nd IEEE International Conference on Computer and Communications (ICCC). IEEE Proceedings. Chengdu, China, 2016, no. 7924655, pp. 13-18. doi: 10.1109 / CompComm.2016.7924655
10. Cordeiro de Amorim R., Hennig C. Recovering the number of clusters in data sets with noise features using feature rescaling factors. Information Sciences, 2015, vol. 324, pp. 126-145.
11. Lozkins A., Bure V. M. Veroyatnostnyy podkhod k opredeleniyu lokal'no-optimal'nogo chisla klasterov [A probabilistic approach to determining the locally optimal number of clusters]. Vestnik of Saint Petersburg University. Applied Mathematics. Computer Science. Control Processes, 2016, vol. 13, iss. 1, pp. 28-37. (In Russian)
12. Shalymov D. S. Algoritmy ustoychivoy klasterizatsii na osnove indeksnykh funktsiy i funktsiy ustoychivosti [Algorithms for stable clustering based on index functions and stability functions]. Stokhasticheskaya optimizatsiya v informatike [Stochastic optimization in computer science], 2008, vol. 4, no. 1-1, pp. 236-248. (In Russian)
13. Steinhaus H. Sur la division des corps materiels en parties. Bull. Acad. Polon. Sci. C1. III, 1956, vol. IV, pp. 801-804.
14. Lloyd S. Least squares quantization in PCM. IEEE Transactions on Information Theory, 1982, vol. 28, iss. 2, pp. 129-137. doi: 10.1109/TIT.1982.1056489
15. Hartigan J. A. Clustering algorithms. New York, London, Sydney, Toronto, John Wiley & Sons Inc. Press, 1975, 351 p.
16. Aldenderfer M. S., Blashfield R. K. Cluster analysis. Newburg Park, Sage Publications Inc. Press, 1984, 88 p.
17. Wald A. Sequential analysis. New York, John Wiley & Sons Inc. Press, 1947, 212 p.
18. Sirjaev A. N. Statistical sequential analysis: Optimal stopping rules. New York, American Mathematical Society Publ., 1973, 174 p.
19. Shiryaev A. N. Optimal stopping rules. Berlin, Heidelberg, Springer Press, 2009, 220 p.
20. Orekhov A. V. Criterion for estimation of stress-deformed state of SD-materials. AIP Conference Proceedings, 2018, vol. 1959, pp. 070028. doi: 10.1063/1.5034703
21. Orekhov A. V. Approksimatsionno-otsenochnyye kriterii napryazhenno-deformiruyemogo sostoyaniya tverdogo tela [Approximation-evaluation tests for a stress-strain state of deformable solids].
Vestnik of Saint Petersburg University. Applied Mathematics. Computer Science. Control Processes, 2018, vol. 14, iss. 3, pp. 230-242. doi.org/10.21638/11702/spbu10.2018.304 (In Russian)
22. McCaffrey J. Test run — fc-means++ data clustering. MSDN Magazine, 2015, vol. 30, no. 8, pp. 62-68.
23. Zurochka A. V., Khaydukov S. V., Kudryavtsev I. V., Chereshnev V. A. Protochnaya tsitometriya v meditsine i biologii. 2-e izd. [Flow cytometry in medicine and biology. 2nd ed.]. Yekaterinburg, Ural Branch of the Russian Academy of Sciences Publ., 2014, 574 p. (In Russian)
24. Lappin S., Fox C. The handbook of contemporary semantic theory. 2nd ed. Wiley-Blackwell, Wiley Press, 2015, 776 p.
Received: February 28, 2018.
Accepted: December 18, 2018.
Author's information:
Andrey V. Orekhov — Senior Lecturer; [email protected]