Научная статья на тему 'Drsa: алгоритм неиерархической кластеризации с использованием k-NN графа и его применение в классификации растительности'

Drsa: алгоритм неиерархической кластеризации с использованием k-NN графа и его применение в классификации растительности Текст научной статьи по специальности «Математика»

CC BY
129
13
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Растительность России
Scopus
ВАК
Область наук
Ключевые слова
DRSA / СОРТИРУЮЩАЯ КЛАСТЕРИЗАЦИЯ / SORTING ASSEMBLING / КЛАСТЕРНЫЙ АНАЛИЗ / CLUSTER ANALYSIS / КЛАССИФИКАЦИЯ РАСТИТЕЛЬНОСТИ / VEGETATION CLASSIFICATION

Аннотация научной статьи по математике, автор научной работы — Гончаренко И.В.

Описан новый метод неиерархической, основанной на группировке с использованием k-NN графа и получившей название «сортирующей по рангам» кластеризации DRSA, «Distance-Ranked Sorting Assembling». Метод рассматривается в контексте применимости для классификации растительности и апробирован на 4 модельных наборах фитоценотических данных из Чехии и Украины. Для оценки достигнутого качества фитоценонов использованы внутренние (по матрице расстояний) и флористические (по количеству верных видов) критерии, а также расчет корреляции автоматической (по методу DRSA) и экспертной (по методике Браун-Бланке) классификаций. Перспективность предложенного метода для классификации растительности связана с такими его особенностями, как минимум настроечных параметров для начала анализа, отсутствие необходимости указывать число кластеров или уровней деления, робастность кластеризации, определение экотонных фитоценозов (шума), эффективность при широком эколого-фитоценотическом диапазоне и разном альфаи бета-разнообразии, возможность варьировать масштаб кластеризации, малая зависимость от коэффициента связи между фитоценозами из-за использования ранжированных расстояний.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DRSA: a non-hierarchical clustering algorithm using k-NN graph and its application in vegetation classification

In this article we proposed a new method of non-hierarchical cluster analysis using k-nearest-neighbor graph and discussed it with respect to vegetation classification. The method of k-nearest neighbor (k-NN) classification was originally developed in 1951 (Fix, Hodges, 1951). Later a term “k-NN graph” and a few algorithms of k-NN clustering appeared (Cover, Hart, 1967; Brito et al., 1997). In biology k-NN is used in analysis of protein structures and genome sequences. Most of k-NN clustering algorithms build «excessive» graph firstly, so called hypergraph, and then truncate it to subgraphs, just partitioning and coarsening hypergraph. We developed other strategy, the “upward” clustering in forming (assembling consequentially) one cluster after the other. Until today graph-based cluster analysis has not been considered concerning classification of vegetation datasets. We called our clustering strategy “sorting by ranking” or «Distance-Ranked Sorting Assembling», DRSA in abbreviated form (Goncharenko, 2015). DRSA is extremely robust due to ranks in finding k-nearest objects (phytocoenoses). Unlike density-based clustering, DRSA is effective when density of clusters (phytocoenons) differs much. DRSA clustering algorithm consists of k-NN asymmetric graph construction and then assembling objects into clusters. Process of assembling of each cluster consists of the following steps: initializing, expanding and stopping (cutting off). We invented heuristic measure (Q-index) based on connectivity of k-NN components for cluster’s stopping rule and thus in outliers detection. We proposed two indexes of «voting of objects» freeness and connectedness for selection objects in cluster’s expanding stage. Technique of determining optimal k (k-nearest neighbors) parameter was elaborated by comparing symmetric (mutual) and asymmetric k-NN graph. We developed two agglomeration modes of DRSA which is one of the greedy algorithms. As for vegetation classification we tested DRSA on four sample datasets from the Czech Republic (Chytrý, Vicherek, 1995; Chytry, Vicherek, 1996; Chytry, Horak, 1997) and Ukraine (Goncharenko, 2003). To evaluate quality of phytocoenons we used internal clustering validation measures (based on a distance matrix) and floristic (based on number of faithful species) criteria. We also measured nominal correlation between automatic (using DRSA method) and expert (according to Braun-Blanquet approach) classifications. After testing DRSA method on dataset of 780 relevés from Ukraine we received 25 clusters (phytocoenons). We calculated within-cluster and between-clusters average similarities, then built pair-wise matrix for clusters and discovered diagonalization (bigger similarities concentrated along matrix diagonal). Average within-cluster similarity between phytocoenoses was also high, 46.7 % by Otiai index, as well as silhouette statistics. Therefore, we concluded DRSA clusters are valid by inner criteria of cluster validation. Interpretability of clusters was assessed using Optimclass approach (Tichý et al., 2010). The basic idea was that if the amount of faithful species is high, the clusters are “good” in the sense of floristic diagnosability. When the threshold value of affinity index (using geometric mean of species-to-cluster constancy and specifity) was 50 %, there were from 5 to 12.8 faithful species per cluster (phytocoenon). Therefore, the DRSA gives interpretable clusters from the floristic point of view. Due to outlier removal the amount of faithful species was even more than the same indicator in case of expert (original) classifications. DRSA method is perspective for vegetation classification thanks to several features. There is no need to specify number of clusters or depth of division before starting cluster analysis. You have the ability to vary the scale of clustering using only a few clear tuning parameters of DRSA similarity coefficient between phytocoenoses, k-nearest neighbors taken into account and the mode of DRSA which differs by cluster’s stopping rule. For the rest DRSA is full-automatic that allows avoiding of manual sorting of relevés. DRSA is non-parametric clustering, thus it is robust and remains effective even in the case of high heterogeneity of the data and varying alphaand beta-diversity with big scope. Results of DRSA clustering are low sensitive to what similarity coefficient or distance metric was applied. DRSA is noise-detective clustering, as well removal of ecotonic phytocoenoses allows obtaining better results by all measures (distance-based and floristic-based) of cluster validation.

Текст научной работы на тему «Drsa: алгоритм неиерархической кластеризации с использованием k-NN графа и его применение в классификации растительности»

Растительность России. СПб., 2015. № 27. С. 125-138.

Vegetation of Russia. St. Petersburg, 2015.

N 27. P. 125-138.

МЕТОДИКА ИССЛЕДОВАНИИ

DRSA: Алгоритм неиерархической кластеризации с использованием k-NN графа и его применение в классификации растительности

DRSA: a non-hierarchical clustering algorithm using k-NN graph and its application in vegetation classification

© и. в. Гончаренко

I. v. Goncharenko

Институт эволюционной экологии НАН Украины. Украина. 03143, г. Киев, ул. акад. Лебедева, 37.

E-mail: 3604749@gmail.com

Описан новый метод неиерархической, основанной на группировке с использованием k-NN графа и получившей название «сортирующей по рангам» кластеризации — DRSA, «Distance-Ranked Sorting Assembling». Метод рассматривается в контексте применимости для классификации растительности и апробирован на 4 модельных наборах фитоценотических данных из Чехии и Украины. Для оценки достигнутого качества фитоценонов использованы внутренние (по матрице расстояний) и флористические (по количеству верных видов) критерии, а также расчет корреляции автоматической (по методу DRSA) и экспертной (по методике Браун-Бланке) классификаций. Перспективность предложенного метода для классификации растительности связана с такими его особенностями, как минимум настроечных параметров для начала анализа, отсутствие необходимости указывать число кластеров или уровней деления, робастность кластеризации, определение экотонных фитоценозов (шума), эффективность при широком эколого-фитоценотическом диапазоне и разном альфа- и бета-разнообразии, возможность варьировать масштаб кластеризации, малая зависимость от коэффициента связи между фитоценозами из-за использования ранжированных расстояний.

Ключевые слова: DRSA, сортирующая кластеризация, кластерный анализ, классификация растительности Key words: DRSA, sorting assembling, cluster analysis, vegetation classification Номенклатура : The Plant List, 2010.

введение

Кластерный анализ — многомерный статистический метод, представитель более широкой группы методов добычи данных (data mining). Основными целями кластерного анализа являются: изучение структуры, сжатие данных, разработка классификации и обнаружение нетипичных объектов (Мандель, 1988; Ким и др., 1989). Кластер — группа объектов, более сходных между собой, чем с объектами других таких же групп. Каждый кластер характеризуется центром, радиусом и дисперсией расстояний. Плотные и изолированные кластеры свидетельствуют о хорошей кластерной структуре.

Хотя кластерный анализ широко известен и популярен, для классификации фитоценозов в геоботанике он используется редко. Тому есть несколько

причин. Фитоценотические данные обычно низкого качества — сильно зашумлены, чаще являются неполными. В расчетах сходства фитоценозов используют разные меры связи. Добавление части описаний обычно существенно перестраивает кластеры. Это затрудняет использование классических методов кластерного анализа и требует разработки шумоустойчивых (робастных) методов кластеризации.

В статье мы рассмотрим новый метод непараметрического кластерного анализа — «сборка, сортирующая по рангам расстояний» (DRSA, Distance-Ranked Sorting Assembling) (Гончаренко, 2015a). Хотя он разработан для обработки фитоценотиче-ских таблиц, область его применимости не ограничена геоботаникой. Он перспективен там, где системы стохастичны, данные зашумлены, а распределение признаков отличается от нормального.

Формально метод DRSA осуществляет неиерархическую группировку. Однако он не похож на метод К-средних, который традиционно рассматривают в этом контексте, а близок к графовым методам кластеризации. Принципиально его отличает то, что расстояния между объектами определяются рангами (что отражено в названии метода), т. е. зависят от взаимного расположения объектов, упорядоченных по сходству. Это обуславливает особенности метода, которые оказались результативными при классификации фитоценотических данных — робастность (шумоустойчивость) и способность обнаруживать кластеры при сильно варьирующей плотности.

Необходимость нового метода классификации фитоценозов. Метод Браун-Бланке, который наиболее часто используют для классификации растительности, изначально возник как «метод ручной сортировки». Сегодня существует целое семейство программ, в их числе Juice (Tichy, 2002), Megatab (Hennekens, 1996), Ficen2 (Косман и др., 1991) и др., предназначенных для облегчения сортировки строк и столбцов больших таблиц. Несмотря на то, что ручная сортировка часто трактуется с позитивной стороны из-за гибкости и свободы, она составляет неуправляемый фактор классификации. Метод Браун-Бланке сравнивают с искусством (Гиляров, 2005), говорят о передаче метода «из рук в руки» и «синтаксономическом такте» (Миркин, Наумова, 2009, 2012), «системе рекомендаций» (Голуб, 2010). На результат существенно влияет опыт исследователя, понимание им объема ассоциаций. Трактовка экологии видов зависит от природно-климатической зоны, где в основном работал исследователь.

В современных исследованиях ручной сортировке предшествует этап машинной классификации, который призван канализировать дальнейший процесс сортировки, подсказав приблизительный состав фитоценонов эксперту. Однако тот факт, что на одном геоботаническом материале разные исследователи получают существенно различающиеся классификации, лишает результат воспроизводимости и делает метод в значительной мере субъективным.

Алгоритм Twinspan (Hill, 1979; Hill, Smilauer, 2005) в наибольшей степени соответствует логике метода Браун-Бланке, поскольку непосредственно осуществляет QR-анализ. Он не использует матрицу расстояний и основан на ординации по методу взаимного усреднения (reciprocal averaging). При широком эколого-фитоценотическом диапазоне (ЭФД) он, как и метод главных компонент, имеет нежелательный «эффект арки». Считают, что Twinspan эффективен при выраженном доминировании одного экологического фактора (Belbin, McDonald, 1993), что наблюдается обычно в узком ЭФД. В модифицированной версии алгоритма (Rolecek et al., 2009) на каждом шаге в делении участвует лишь один кластер, который определяется максимизацией индекса гетерогенности. Однако, как показывает опыт, в большинстве случаев алгоритм Twinspan дает результат, требующий значительной доработки и ручной сортировки.

Классические алгоритмы кластерного анализа для классификации фитоценозов используются редко. С одной стороны, это связано с зашумленностью данных, с другой — методы кластерного

анализа имеют ограничения, неприемлемые для фитоценолога.

Шумы в данных связаны со случайными видами. Термином «случайные» геоботаник обозначает виды, которые, по его мнению, мало соответствуют данному местообитанию и остальной части видового состава. Избежать учета таких видов при расчете коэффициентов сходства фитоценозов невозможно. В то же время и отсутствие некоторого вида еще не говорит о неподходящих условиях — фитоценозы неполночленны. Наличие случайных видов и неполночленность видового состава затрудняют использование методов автоматической классификации, поскольку матрица расстояний (сходства) между фитоценозами лишь частично отражает варьирование видового состава, обусловленное экологическими факторами.

Неоднородность выборочных данных связана с совмещением в одном наборе геоботанических описаний, существенно различающихся по фенологическим, сукцессионным и другим критериям. Сочетание в одном массиве весенних и летних описаний, выполненных через значительный (более 7-10 лет) промежуток времени, сделанных разными авторами (учитывая их разные знания местной флоры и трактовку мелких видов), а также с использованием разных пробных площадей фе^1ег et а1., 2009) существенно влияет на результат. Неоднородность исходного материала накладывается на действительное экологическое варьирование видового состава, и разделить их в последующем невозможно никакими методами. Вледствие этого нужно стремиться к максимальной однородности выборочных данных по другим, несущественным для классификации, параметрам.

Кроме проблемы низкого качества исходных данных, существуют и ограничения методов кластерного анализа. Иерархические алгоритмы не подходят для больших массивов данных, поскольку их алгоритмическая сложность связана с числом объектов степенной зависимостью 0(№). Такие алгоритмы называют немасштабируемыми. В то же время геоботаник чаще сталкивается с необходимостью обработки именно больших массивов данных. Результат иерархической кластеризации сильно зависит от выбора метрики и алгоритма группировки. Иерархические алгоритмы чувствительны к выбросам. Удаление незначительной части объектов может повлечь перестройку всего дерева. Дендрограмма плохо воспринимается при большом числе ветвей. Принятие решения об уровне ее разрезания, что определяет количество и размер кластеров, проводится субъективно. В целом, иерархические алгоритмы удобны при сравнении небольшого количества хорошо различимых фи-тоценонов, ценофлора которых стабилизирована (в отличие от видового состава фитоценозов), но не для классификации фитоценозов.

Среди неиерархических методов популярен метод К-средних и его модификации. Общая идея метода К-средних состоит в следующем. Случайным образом назначаются центры кластеров. Объекты перераспределяются между ними по степени близости. Центры перемещаются в новое положение из-за изменившегося состава кластеров. Процедура продолжается до стабилизации кластерной структуры. К недостаткам метода К-средних можно отнести: необходимость изначально знать

число кластеров, результат кластеризации неде-терминирован и зависит от выбора начальных центров кластеров, не гарантируется достижение глобального минимума (процедура может сойтись на локальном минимуме), не подходит для больших массивов данных (поскольку может потребоваться значительное число итераций). Метод K-средних подкупает своей интуитивностью, но его применение для классификации фитоценозов ограничено тем, что необходимо изначально иметь представление о числе кластеров.

Мы не будем в деталях останавливаться на других методах кластеризации. Но, в целом, поиск новых алгоритмов является актуальным. Можно говорить о ряде требований, предъявляемых кластерному анализу в контексте применимости для классификации фитоценозов:

1) должен определять число кластеров;

2) быть устойчивым к выбросам;

3) мало зависеть от выбора коэффициента сходства или меры расстояния;

4) обрабатывать большие массивы данных;

5) сохранять эффективность при существенно варьирующей плотности кластеров и широком ЭФД, когда матрица сходства фитоцено-зов содержит много нулевых значений.

материалы и методы

В качестве основного модельного набора данных для апробации описываемого метода использован массив выполненных автором 780 геоботанических описаний из Сумской обл. Украины. Основная часть описаний относится к северной части лесостепной зоны.

Также были взяты доступные из открытых источников данные по термофильным лесам Моравии (Чехия) (N_obj = 203 описания) (Chytry, Horak, 1997), лесной растительности Национального парка Тайяталь (Австрия) (N_obj = 210 описаний) (Chytry, Vicherek, 1995), растительности в долинах рек Ославы, Ииглавы и Рокитной (Чехия) (N_obj = 215 описаний) (Chytry, Vicherek, 1996). Данные в формате xml программы Turboveg и эталонная (авторская) классификация получены из Интернета по адресу http://www.sci.muni.cz/botany/vegsci/ fytonline.php?lang=en

Описание метода DRSA

В основе метода лежит построение по матрице сходства фитоценозов k-NN графа и итеративный алгоритм его кластеризации с последовательной инициализацией и жадным наращиванием кластеров (корреляционных плеяд) до достижения максимума их связности.

Определение. k-NN граф — взвешенный неориентированный граф, в котором каждая вершина представляет отдельный объект (в классификации растительности — фитоценоз), между вершинами существует ребро, если один из объектов является k-ближайшим соседом другого. Прежде всего, это непараметрический метод кластеризации, поскольку расстояния между объектами в нем определяются не значениями из матрицы расстояний, а рангами k-ближайших соседей. Термин «k-ближайший сосед» впервые был использован в одноименном методе k-ближайших соседей, или k-NN (Cover, Hart, 1967).

Определение. Если упорядочить объекты по сходству относительно некоторого объекта Х и присвоить им ранги с учетом расстояний до объекта Х, то объект, имеющий k-й ранг соседства, является k-ближайшим соседом объекта Х.

Параметр k определяет число учитываемых ближайших соседей у каждого объекта. В более ранних работах (Гончаренко, 2015 a, б) использовалось обозначение mnp (minimum neighboring points) для того же показателя, чтобы избежать путаницы с параметром k, используемым в методе К-средних, и имеющим совершенно другой смысл.

Метод DRSA принадлежит к жадным алгоритмам (greedy algorithm). Жадный алгоритм на каждой итерации принимает локально оптимальное решение, допуская, что конечное решение также окажется оптимальным. Например, каждый кластер при наращивании в DRSA потенциально способен присоединить все свободные объекты («жаден»), а наращивание кластера прекращается, когда достигнут оптимальный состав данного кластера (локальная оптимизация, без учета других кластеров).

Основная идея k-NN состоит в том, что объект относится к тому классу, к которому принадлежит большинство его k-соседей. Принципиальная разница между DRSA и k-NN в том, что k-NN — метод классификации с учителем, а DRSA — метод неконтролируемой классификации. Сходство их в том, что они учитывают лишь k-ближайших соседей у каждого объекта, поэтому у этих методов есть общие черты:

• масштабируемый алгоритм, алгоритмическая сложность растет линейно с увеличением числа объектов O(k*N), где k — число ближайших соседей, N — число объектов;

• принадлежит к непараметрическим методам, устойчив к шуму (робастен), увеличение параметра k повышает шумоустойчивость;

• мало зависит от метрики расстояний (с большинством разных коэффициентов сходства состав k-ближайших соседей останется практически постоянным);

• эффективен при сильно варьирующих плотностях кластеров, поскольку ранг k-соседа определяется лишь числом других более близких соседей и не зависит от абсолютного расстояния между объектами.

Последний аспект требует пояснений. Существует группа плотностных методов кластеризации, использующих сферу фиксированного радиуса для определения так называемых плот-ностно-достижимых и шумовых объектов, на чем строится кластеризация. Родоначальником данной группы методов является DBSCAN (Ester et al., 1996). Плотностные методы рассматривают кластеры как области с повышенной плотностью объектов. Однако, несмотря на название этой группы, они неэффективны при существенно варьирующей плотности кластеров, поскольку невозможно выбрать единый оптимальный радиус сферы для кластеров с очень разной плотностью, чтобы найти плотностно-достижимые, ядерные и шумовые объекты. В то же время в фитоценологии разная плотность кластеров встречается очень часто, например, достаточно сравнить сообщества степей и болот, сообщества прибрежных макрофитов и луговые. Их бета-разнообразие, т. е. скорость смены

видового состава, существенно различается, от чего зависят разные плотность и размеры кластеров в этих типах растительности. Вследствие этого предложенный для классификации растительности метод DRSA основывается на рангах расстояний, а не на плотностях.

Рассмотрим граф. Граф может быть сим-

метричным, если объект Х является к-ближайшим соседом объекта Y и наоборот, или ассиметричным, если справедливо хотя бы одно из условий. В алгоритме DRSA используется асимметричный граф.

Валентность (степень) вершины определяется числом инцидентных ей ребер, она не может быть меньше к, поскольку к ребер объект «отдает» своим соседям, но может быть больше за счет ребер, «принимаемых» от других объектов, для которых он является к-соседом. Вес ребра зависит только от ранга (соседства) объекта и не зависит от расстояния (к-ближайший сосед может находиться на разном расстоянии). У каждого объекта есть минимум к ближайших соседей. Это исключает появление объектов-сирот, имеющих нулевую валентность, поскольку минимальная валентность равна к. Структура асимметричного графа при к = 3 для случайного набора точек в двумерном пространстве показана на рис. 1.

0.0 0.2 0.4 0.6 0.8 1.0

Рис. 1. Асимметричный k-NN граф при k = 3 для случайного набора точек в двумерном пространстве.

Asymmetric k-NN graph at k = 3 for a random set of points in two-dimensional space.

Размеры вершин графа соответствуют их валентности в ассиметричном k-NN графе. Визуально на рис. 1 можно наметить плеяды более тесно расположенных вершин, прототип будущих кластеров. Вершины, расположенные в центрах сгущений, имеют более высокую валентность из-за большего числа ребер (связей) от других объектов. В дальнейшем мы назовем связанный с валентностью вершин количественный индекс, используемый в ходе кластерного анализа, индексом свободности (freeness index) и покажем его роль в кластеризации.

Рассмотрим 5 основных тезисов, которые лежат в основе метода DRSA. О способах расчета упоминаемых здесь показателей поговорим позже.

тезис 1. Если данные имеют кластерную структуру, то существуют группы вершин k-NN графа, число ребер между которыми (внутрикластерные связи) превышает такое же число ребер с вершинами другой группы (межкластерные связи). Эти группы напоминают корреляционные плеяды, с той разницей, что плеяды выделяют при фиксированном пороговом значении расстояния (коэффициента сходства), а в случае k-NN графа это определяется порогом параметра k. Увеличение k укрупняет кластеры, уменьшает их число.

Подобно плеядам при разных уровнях сходства, можно менять масштаб кластеризации и в методе DRSA. Это дает срезы кластерной структуры при разных k. В отличие от дендрограммы, где два объекта, объединившиеся на более низком уровне, всегда окажутся в одном кластере на более высоком, в срезах в методе DRSA это не обязательно: на каждом уровне кластеры образуются не путем объединения кластеров подлежащих уровней.

тезис 2. Построить кластер, используя k-NN граф, можно начав с любой из его вершин. Хотя кластер k-NN графа не представляет полносвязную группу, однако при присоединении к начальной вершине части других ближайших вершин можно, опираясь на состав соседей, обнаружить и присоединить все оставшиеся вершины (объекты) кластера, поскольку хотя бы один из объектов, включенных в кластер, будет иметь ребро с другими близкими объектами, пока не включенными в кластер на данном этапе группировки.

тезис 3. Чтобы получить плотный кластер, необходимо на каждом шаге присоединять объект с наибольшим числом связей (ребер) с уже включенными в кластер другими объектами. Чем ближе к кластеру расположен объект, тем большее число связей (ребер) он получает от его объектов. Функцией расстояния между свободным объектом и кластером является число k-соседей, уже включенных в этот же кластер. В этом DRSA напоминает k-NN метод. Метод DRSA можно назвать «самообучающимся» k-NN: получаем группу k точек-соседей, а затем эту же группу используем в качестве образца, выявляя остальные объекты кластера. После формирования одного кластера инициализируем следующий, и процесс повторяем, пока есть свободные объекты.

тезис 4. Если кластер в результате наращивания не достигает k-размера, считаем, что он содержит шумовые объекты. Такой кластер расформировывается еще до окончания группировки, освобожденные объекты снова учитываются при построении других кластеров. Метод DRSA осуществляет «фильтрацию шума», и часть объектов оказывается вне кластеров. Параметр k, как видим, играет двоякую роль: с одной стороны — это число k-соседей, с другой — кластеры меньшего, чем k, размера отвергаются, а их объекты считаются шумом.

тезис 5. Наращивание кластера следует продолжать до тех пор, пока не достигнут максимум отношения внутрикластерной / межкластерной связности (далее — Q-index (cluster quality index)).

Отношение внутрикластерных и межкластерных средних расстояний традиционно используется в кластерном анализе для оценки качества кластеризации. Это так называемые внутренние критерии (Halkidi et al., 2001; Rendon et al., 2011). Графовый алгоритм кластеризации DRSA вместо

расстоянии использует подсчет количества внутри-кластерных и межкластерных ребер. Важное отличие состоит в том, что расчет Q-index производится не после кластерного анализа, а имплементирован в процесс группировки, направляет ее и определяет момент достижения границ кластера.

Максимальное для данного кластера значение Q-index изначально неизвестно, поскольку неизвестен весь состав кластера, которыи и предстоит выяснить. Однако, если присоединение следующего объекта уменьшает Q-index кластера в сравнении с предыдущим его составом, такои объект считается лежащим вне кластера.

Свободность и связанность объектов

Представим кластер как группу близко расположенных вершин k-NN графа, связанных ребрами. При образовании кластера граф становится ориентированным. Вершины (объекты) можно разделить на три категории:

• свободные — не вошедшие ни в один из кластеров на данном этапе группировки;

• внутренние — связанные (несвободные) объекты своего кластера;

• наружные — также связанные (несвободные), но в составе другого (чужого) кластера.

Свободность объекта (вершины) (FI, freeness index) определяется количеством смежных вершин вне кластеров, т. е. количеством других свободных объектов среди k-соседей объекта:

FI = c_free - c_out (1),

где FI — индекс свободности объекта (вершины); c_free — число ребер, соединяющих его с другими свободными объектами; c_out — число ребер, соединяющих его со связанными объектами.

Ввод в формулу c_out мотивирован необходимостью понижения веса объектов межкластерной (переходной) зоны, чтобы повысить в итоге кластерную изолированность.

Среди k-соседей преобладают свободные объекты, если объект находится вдали от образовавшихся ранее кластеров. Следовательно, свободный объект с максимальным значением FI хорошо подходит для инициализации кластера.

Тот факт, что кластеры инициализируются последовательно, позволяет выбрать первый объект для нового кластера максимально удаленно от образовавшихся кластеров.

Число объектов, имеющих FI > 0, постепенно уменьшается в ходе группировки. Отсутствие таких объектов на определенном этапе определяет момент окончания кластерного анализа DRSA. Вследствие этого нет необходимости указывать количество кластеров до начала анализа, оно станет известным после группировки.

Результат кластеризации детерминирован: повторная кластеризация с теми же параметрами даст идентичный результат по количеству и составу кластеров (для сравнения: у метода К-средних результат будет каждый раз отличаться, поскольку зависит от выбора начальных центров).

По аналогии с индексом свободности, связанность объекта (CI, connectedness index) определяется так:

CI = c_in - c_out (2),

где С1 — индекс связанности объекта (вершины); с_т — число ребер, соединяющих его с внутренними объектами; с_ои — число ребер, соединяющих его с объектами других кластеров.

Индекс связанности отражает расстояние между объектом и кластером. Он используется на этапе наращивания. Объекты, близкие к кластеру, будут иметь большие значения С1. Как упоминалось (тезис 3), для получения плотных кластеров нужно присоединять на каждом шаге ближайший к кластеру объект, поэтому отбирается свободный объект с максимальным С1 и присоединяется к кластеру. Затем значения С1 остальных свободных объектов пересчитываются, процесс наращивания кластера повторяется.

То, что индексы свободности и связанности действительно передают расстояния между объектами, можно видеть на рис. 2 (А, Б). Здесь представлена кластерная структура, полученная методом DRSA для случайного набора 70 точек в двумерном пространстве, и показаны изоплеты индексов свободности и связанности к моменту образования пятого кластера

0.60.50.40.3-

.....0

В ( Э а

0.60.50.4-

Б

0.3

~~Г" 0.4

~~Г~

0.5

~Гх

0.7

Рис. 2. Изоплеты индекса свободности (FI) объектов после образования пяти кластеров (А) и индекса связанности (CI) объектов в отношении пятого кластера (Б).

Isopleths of freeness index (FI) after agglomeration at five-clusters stage (А) and isopleths of connectedness index (CI) with regard to the fifth cluster (Б).

Как видим, максимальные значения индекса свободности (рис. 2, А) наблюдаются у объектов в центрах сгущений свободных объектов и уменьшаются по направлению к близко расположенным кластерам 3, 4 и 5. Следует отметить, что номера кластеров в DRSA соответствуют порядку их образования, поскольку кластеры инициализируются последовательно. Индекс связанности (рис. 2, Б) максимален у объектов, близко расположенных к пятому кластеру, и постепенно убывает по направлению от него.

Q-index и его роль в кластеризации

Если положение объектов описывается сво-бодностью и связанностью, то кластер характеризуется компактностью и отличимостью. Это

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

соотношение отражает Q-index, расчет которого базируется на сравнении числа внутрикластерных и межкластерных ребер:

Q-index=

(Zc_in-Xc_free-£c_out) (Xc_m+£c_free+£c_out) (3),

где Q -index — индекс качества кластера; £c_in, £c_free, £c_out — количество ребер, соединяю -щих его вершины (объекты) с другими внутренними, свободными и наружными объектами соответственно.

Величина Q - index нормирована от -1 до +1. Минимальное значение Q -index принимает, когда кластер только инициализирован и состоит из одного объекта. Теоретически может быть достигнуто максимальное значение +1, если кластер полно -стью изолирован, но такая ситуация встречается редко.

Возможны две модификации DRSA, отличаю -щиеся тем, как определяется момент отсечения кластера. В модификации DRSA 1 наращивание кластера прекращается по достижению перво го максимума Q-index. В этот момент на кривой профиля значений Q -index фиксируется зубец. В DRSA-2 наращивание также прекращается по достижению максимума Q index, но лишь в том случае, если достигнуты положительные значения Q-index > 0, т. е. по первому зубцу в области поло -жительных значений Q index.

В ходе наращивания кластера его Q index рас тет с увеличением числа объектов. Рассмотрим вид кривой профиля значений Q -index (рис. 3) в ходе классификации модельного набора данных из 780 геоботанических описаний, о котором упоминалось в разделе «Материалы и методы».

Рис. 3. Профиль значений Q-index в ходе классификации модельной выборки (780 описаний, N_obj) с использованием модификации алгоритма DRSA-2.

Q-index profile during classification of sample vegetation dataset (780 relevés, N_obj) using DRSA- 2 mode of the algorithm.

На рис. 3 видим 25 пиков профиля Q-index, ко -торые соответствуют 25 образовавшимся кластерам. Ось абсцисс — число объектов, включенных в кластеры в ходе группировки. Максимальное значение по этой оси не достигает 780, поскольку лишь часть объектов вошла в кластеры (499 из 780). По оси ординат в некоторых кластерах видны дополнительные зубцы. Они обнаруживаются при наличии субкластерной структуры (если в кластере есть слабообособленные от остальной части кластера группы объектов). В модификации DRSA -1 кластер отсекается по первому зубцу (первому максимуму), поэтому кластеров получается не сколько больше, они плотнее, но менее стабильны. В модификации DRSA -2, как на рис. 3, наращива-

ние продолжается, пока не будут достигнуты по ложительные значения Q index, после чего момент остановки кластера определяется, как и в модифи кации DRSA 1 — на очередном зубце (максимуме) кривой профиля Q index. В некоторых кластерах (24-25), как видим на рис. 3, положительные значения Q -index не были достигнуты, поскольку у их объектов не оказалось среди k-соседей объектов с CI>0, что также повлекло отсечение кластеров. Выбор модификации алгоритма зависит от цели исследования: DRSA-1 соответствует более детальной кластеризации, DRSA 2 — более устой чивой.

Объекты (фитоценозы в классификации растительности) можно условно разделить на 4 катего рии, учитывая последовательность их объединения в DRSA:

• эталонные — объекты (по одному у каждого кластера), которыми кластеры были инициа лизированы;

• ядерные — присоединенные к эталонным и другим ядерным в начале роста кластера, до первого максимума Q index (в модификации DRSA -1);

• периферические — присоединенные к ядер -ным (в модификации DRSA 2);

• шумовые — которые не вошли в состав кластеров и представляют собой экотонные фи-тоценозы.

Эталонные объекты (фитоценозы) расположены ближе всего к центру кластера. Их можно рекомендовать к выбору в качестве номенклатурного типа для новых синтаксонов, если предполагается их описание фитоценологом по результатам классификации растительности. Ядерные объекты очень близки к эталонным и составляют гомогенную группу.

Анализ профиля Q -index дает ценную инфор -мацию. Например, был ли рост Q -index у кластера постепенным или резким? Каково соотношение ядерных и периферических объектов? Какое мак симальное значение Q index достигнуто у класте ра? Так, высокая вершина (ордината) свидетель ствует об обособленности кластера, резкий рост (крутой склон) говорит о его плотности, а отсут ствие дополнительных зубцов — об однородности кластера.

Параметр k

Параметр к (количество учитываемых ближайших соседей) является единственным в методе DRSA, который необходимо указать до начала ана лиза и который влияет на масштаб кластеризации. Низкие значения k дают больше мелких кластеров, но снижают шумоустойчивость. При k = 1 получаем метод ближнего соседа, который используют редко из за цепочечного эффекта. Вследствие этого малые значения k нежелательны. Большие значе -ния k увеличивают время расчетов и не всегда при емлемы, поскольку не позволяют обнаружить мелкие кластеры, даже если они хорошо обособлены.

К определению оптимального значения парамет ра k исследователь может подходить по разному:

• подобрать нужный масштаб кластеризации и соответствующий ему параметр k эмпириче ски, проведя серию кластеризаций с разным k и сравнив их;

• установить к равным минимальному приемлемому размеру кластера (объекты кластеров с размером меньше к перейдут в большие кластеры или в шум);

• определить оптимальное значение к, построив симметричный к-№Ы граф.

Последний метод наиболее естественен, поэтому рассмотрим его подробнее. Разница между асимметричным и симметричным к-№Ы графом в том, что в первом из них объект Х имеет ребро к объекту Y, который является его к-соседом, но необязательно объект Y связан таким же образом с объектом Х. Чаще наблюдается ситуация, когда связь от объекта к объекту наблюдается через ряд других близких объектов. В симметричном к-№Ы графе объекты Х и Y связаны непосредственно друг с другом (взаимосвязаны). Если постепенно увеличивать k и подсчитывать количество объектов, которые взаимосвязаны в симметричном графе, то можно определить минимальное к, при котором структуры симметричного и асимметричного к-№Ы графа начинают совпадать.

На рис. 4 показан рост доли взаимосвязанных объектов (каждый является к-соседом другого) с увеличением к. График получен для упомянутого модельного набора данных из 780 описаний.

8 90-

0

1 60

2 4 6 8 10 12 14 Рис. 4. определение оптимального значения параметра к в методе DRSA.

Searching for optimal value of the k parameter in DRSA method.

При k = 1 лишь около 50 % объектов оказались взаимосвязанными, но ордината быстро растет, а затем достигает плато и практически не меняется. Значение k, при котором не менее 95 % объектов оказываются взаимосвязанными, мы предлагаем считать оптимальным для выделения ассоциаций при классификации растительности. На рис. 4 — это k = 6. Аргументируя порог в 95 %, можно сказать, что в этом случае матрица смежности k-NN графа (ее размерность k*N) будет содержать необходимую и достаточную для начала кластерного анализа информацию из полной матрицы расстояний (ее размерность N2). Таким образом, мы теряем лишь 5 % информации и «сжимаем» данные, сохранив при этом кластерную структуру.

При построении аналогичных графиков для других модельных наборов данных (см. «Материалы и методы») было установлено, что форма кривой остается постоянной, меняется лишь крутизна (скорость) достижения плато и значение k (варьировало от 5 до 7), при котором достигается порог в 95 % взаимосвязанных объектов. Это оптимальное значение параметра k, но если кластеры нужно укрупнить, то следует увеличить параметр k — число кластеров уменьшится.

Алгоритм DRSA

Подведем некоторые итоги. Пошагово алгоритм выглядит так:

1. Рассчитать матрицу расстояний объектов.

2. Определить значение к и получить k-NN граф.

3. Начать группировку:

3.1. Инициализация кластера.

3.1.1. Если объектов с FI > 0 нет — окончить кластеризацию. Свободные объекты отметить как шум. Перейти к п. 4.

3.1.2. Иначе — выбрать объект с максимальным значением FI, включить его в новый кластер. Перейти к п. 3.2.

3.2. Наращивание кластера.

3.2.1. Если объектов с С1 > 0 нет — перейти к п. 3.4.

3.2.2. Иначе — выбрать объект с максимальным значением С1, добавить его к кластеру. Перейти к п. 3.3.

3.3. Q-контроль: Рассчитать Q-index и срав-

нить его значение с предыдущим.

3.3.1. Если Q-index увеличился — перейти к п. 3.2.

3.2.1. Иначе — перейти к п. 3.4.

3.4. Отсеивание малых кластеров. Сравнить

размер кластера и к.

3.4.1. Если кластер меньше к — эталонный объект отметить как шум, остальные освободить. Перейти к п. 3.1.

3.4.2. Иначе — увеличить счетчик кластеров, перейти к п. 3.1.

4. Оценка кластерного решения.

Следует отметить, что п. 1 и 4 не имеют прямого отношения к DRSA. Получение матрицы расстояний — это подготовительный этап. Если входные данные представлены матрицей расстояний, то берем сразу матрицу расстояний. В методе DRSA она нужна для получения к-№Ы графа, а в ходе группировки объектов не используется. Заключительный этап (п. 4) состоит в оценке качества полученной кластеризации, которую традиционно проводят по окончанию кластерного анализа.

Итак, перечислим основные особенности метода DRSA:

1) неиерархическая кластеризация;

2) шумоустойчивая (непараметрическая) кластеризация;

3) наличие параметра k, влияющего на масштаб кластеризации;

4) фильтрация шума (исключение из состава кластеров переходных объектов);

5) последовательное инициирование кластеров;

6) определение оптимального количества кластеров (при заданном к).

РЕЗУЛЬТАТЫ И ИХ ОБСУЖДЕНИЕ

Метод DRSA был апробирован ранее (Гонча-ренко, 2015 а, б) на искусственном (точки в двумерном пространстве) и на классическом наборе данных «ирисы Фишера», который традиционно используют для демонстрации кластерного анализа. Теперь рассмотрим результат классификации методом DRSA модельного набора данных из 780 описаний, о котором речь шла в разделе «Материалы и методы». Это данные широкого эколого-

фитоценотического диапазона: матрица сходства фитоценозов по видовому составу (использован коэффициент Охаи, Kotiai (Ochiai, 1957)) содержит 55 % нулевых значений.

Ход кластеризации этого набора данных демонстрирует приведенный ранее профиль (рис. 3). Оптимальное значение параметра k было определено построением симметричного k-NN графа с увеличивающимся k (рис. 4). После кластерного анализа методом DRSA нами было получено 25 кластеров. Для сравнения следует сказать, что из тех же данных ранее была выделена 31 ассоциация в составе 8 классов классическим методом Браун-Бланке (Гончаренко, 2003).

В кластерном анализе обычно рассматривают аспекты устойчивости, интерпретируемости, плотности и изолированности кластеров. Оценим качество кластеризации методом DRSA в трех аспектах:

• по матрице сходства кластеров;

• по эколого-флористической интерпретируемости кластеров;

• расчетом корреляции с экспертной (авторской, эталонной) классификацией.

Оценка кластеров по матрице сходства.

Рассмотрим матрицу сходства кластеров DRSA (рис. 5). Она получена расчетом средних значений из коэффициентов сходства между фитоценоза-ми внутри кластеров и между фитоценозами разных кластеров. Для графического представления матрица (25*25) показана после применения к ее значениям функции «Условное форматирование» пакета MS Excel 2007, что позволяет проанализировать ее визуально.

Диагональные элементы — это средние значения сходства (K ) между фитоценозами внутри

каждого кластера (wcs, within-cluster similarity), внедиагональные — между фитоценозами разных кластеров (bcs, between-clusters similarity). Судить о том, насколько изолированным является кластер, позволяет их соотношение (CDR, compactness / distinctness ratio), а оценить качество кластеризации в целом можно, рассчитав средний показатель для всех кластеров (PQI, partitioning quality index).

CDR = (wcs - max (bcs)) / (wcs + max (bcs)) (4);

PQI = avg (CDR) = £CDR / N (5).

В расчете CDR сопоставляется сходство объектов (геоботанических описаний) внутри кластера (wcs) и сходство описаний этого же кластера с описаниями наиболее близкого ему другого кластера, т. е. max(bcs) — максимальное из недиагональных значений. Значение CDR изменяется от -1 до +1. Кластер можно считать приемлемым при положительном CDR, но чем больше CDR, тем изолированнее кластер. На рис. 5 показатели wcs, max(bcs) и CDR приведены в нижних трех строках, а вверху, под номерами кластеров, указан их размер (число описаний в кластерах). По матрице сходства кластеров можно сделать следующие выводы:

• в ходе кластерного анализа методом DRSA достигнута диагонализация матрицы сходства кластеров и видны блоки больших значений близ диагонали;

• диагональный элемент у всех кластеров больше недиагональных, CDR всех кластеров больше 0, все кластеры приемлемы, максимальное значение CDR = 52 %;

• среднее сходство фитоценозов внутри кластеров wcs = 46.7 % (наиболее рыхлым является кластер 12 (wcs = 32 %), самым плотным — кластер 33 (wcs = 68 %));

№ cluster -> 13 16 18 06 10 12 li 14 20 19 щннрш 23 21 25 04 [ 05 02 ЦЗ Si 17 08 07 09

cluster size -> 13 21 18 28 27 17 34 9 24 12 36 30 49 18 10 20 10 8 26 7 18 9 11 22 17 18

lili 1 III 1 1 1 1 1 1

16| I I I I I I I 1111 1 1

1 1 1 1 1 1 1 1 1 1 1 1 1 1 i 1

061 I I I ■ III Iflllflflll 1 1 1 1 1

101 I 1 1 R 1 1 1 1 1 1 1 1 1 1 1 11

12 1 I I 1 1 1 1 1 1 1 1 I i 1 1 1 1 1

111 1 1 1 1 1 ■ 1 1 lililí 1 1

141 1 1 1 1 1 I ■ 1 lili lili 1

201 1 1 1 I ■ lili 1 1 lili

19 ■ m ■ II II 1

22 1 ■ El 1 1111 lili

15 1 1 1 1 1111111111111

24 1 1 1 1 ((iiaitfiiiiiiiii

23 1 1 1 1 i i i ■ i i 1 1 1 1 1 1 1 1

21 ) 1 1 1 i i i i i i ■ i i i i i i i i i i

25 1 1 i i i i i i i ■ 1 1 1 1 1 1

04 1 1 i iii 1 ■ lili 1 III

05 1 1 1 1 i i 1 1 1 ■ lili 1 1 1

02 1 1 1 1 1 1 1 1 lililí ■ 1 1 1 1 1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

03 1 1 1 1 i i I i lili

01 i l 1 1 1 1 1 1 1 1 1

17 1 1 ■ III! 1 1 1 1 1 1 ■ 1 1 1

08 1 1 1 1 1 1 1 1 1 1 1

07 1 1 I 1 1 1 1 1 1 ■ 1 ■

09 1 1 1 1 1 lililí 1 1 1

wcs -> max(bcs) -> 39 25 41 28 19 38 34 38 32 28 25 25 22 15 15 21 19 49 28 27 42 56 28 43 60 68 36 45 53 53 21 18 57 20 48 50 28 28 57 62 47 28 33 33 57 46 43 23 26 19 43 28 39 50 44 42 34 16 20 22 22 52 38 31 21

CDR -> 22 20 13 6 12 26 43 34 31 18

Рис. 5. Матрица сходства кластеров DRSA (значения wcs, bcs, CDR умножены на 100).

Similarity matrix of DRSA clusters (wcs, bcs, CDR multiplied by 100).

• высокое среднее сходство внутри кластеров свидетельствует о гомогенности фитоцено-нов по видовому составу, а в основном они соответствуют традиционному пониманию ассоциации растительности.

Метод DRSA осуществляет неиерахическую группировку. Это позволяет исследователю выделять группы фитоценозов (фитоценоны) наиболее низкого, базового уровня (чаще всего ассоциации). Чтобы исследовать структуру растительности на более высоких синтаксономических уровнях, можно увеличить параметр к и повторить кластерный анализ данных методом DRSA.

Для этой же цели можно использовать классический иерархический кластерный анализ и проиллюстрировать результат дендрограммой (рис. 6). Матрица сходства кластеров DRSA используется на входе. Это позволяет оценить их сходство визуально и обоснованно подойти к выделению более крупных синтаксономических единиц — союзов, порядков и т. д.

2.0 1.5 1.0 0.5 0.0

Рис. 6. Дендрограмма иерархической группировки кластеров DRSA.

Dendrogram of hierarchical agglomeration of DRSA clusters.

На рис. 6 мы видим, что существует 5 крупных объединений более высокого синтаксономического ранга. Примечательно, что выделенные группы согласуются с блоками, которые заметны на рис. 5 на глаз вдоль диагонали. Анализ полученных DRSA кластеров по видовому составу дан ниже.

Оценка кластеров по флористическому критерию. Оценка с использованием матрицы сходства или расстояний позволяет выяснить, насколько обособлен кластер, но не говорит о том, чем именно он отличается и какова его экологическая специфика. Привнести качественный аспект в оценку результатов может классификация видов, которая учитывает их верность (аффинность по отношению к кластерам). Это направление получило в литературе название «анализ индикаторных видов» (indicator species analysis). Известны различные индексы верности: IndVal (Dufrene, Legendre, 1997), phi-коэффициент (Chytry et al., 2002), коэффициент Охаи (De Caceres et al., 2008) и др.

Мы использовали коэффициент Охаи, который представляет среднее геометрическое константности и специфичности вида в отношении определенного фитоценона. Он равен нулю, если хотя бы одна из составляющих (константность или характерность) равна нулю.

AI = VKxX = с/Vaxb (8);

где AI (Affinity Index) — верность (аффинность) вида определенному кластеру (фитоценону); K = с/a — константность вида; Х = с/b — специфичность (характерность, избирательность) вида; с — количество описаний фитоценона с данным видом; a — количество всех описаний фитоценона; b — общее число встреч вида во всех фитоценонах классифицированного набора данных.

Кластер с большим числом аффинных видов является «хорошим», поскольку его легче интерпретировать. Можно говорить и о «плохих» кластерах. К ним мы причисляли кластеры, не имеющие ни одного аффинного вида. Общее количество аффинных видов (A_total) с учетом всех кластеров, среднее количество аффинных видов на кластер (диагностируемость по видовому составу, A_avg) и процентное отношение количества «хороших» кластеров к общему числу кластеров были использованы нами для оценки качества кластеризации DRSA.

Такой подход был предложен Л. Тихим с коллегами и получил название Optimclass (Tichy et al., 2010). Он используется в программе Juice для определения оптимального числа кластеров или для выбора метода кластеризации, если их несколько. В модификации Optimclassl предложено подсчитывать общее число верных видов и выбирать число кластеров с максимизацией этого показателя. Модификация Optimclass2 имеет такое же предназначение, но учитывает число «хороших» кластеров, содержащих число верных видов не менее установленного порога.

В табл. 1 приводится количество аффинных (Na, AI > 50 %) и константных (Nk, K > 50 %) видов в каждом из 25 выделенных по методу DRSA фи-тоценонов. Также перечисляются виды, имеющие наибольшую аффинность (взято по четыре первых вида, отсортированных по убыванию AI). Аффинными мы считали виды, имеющие AI >= 50 %, за исключением редких видов, чья общая встречаемость в массиве данных составляла менее 5 описаний. При подсчете количества константных видов в кластерах учитывались виды с константностью более 50 %, за исключением тех видов, которые уже причислены к аффинным. Авторство видов и номенклатура (синонимичные таксоны заменены валидными) даются по «The Plant List, ver. 1.1» (http://www.theplantlist.org).

Общее количество аффинных видов (сумма Na в табл. 1) для 25 кластеров составило 125 видов, среднее количество на фитоценон (среднее из Na в табл. 1) — 5 видов. Только один кластер (16) не имел аффинных видов (Na = 0). Наличие у большинства кластеров аффинных и константных видов, а также тот факт, что виды близки по экологии внутри кластеров и отличны между кластерами, позволяет говорить об интерпретируемости результата автоматической классификации фитоценоти-ческих данных методом DRSA также с флористической и экологической точек зрения.

Таблица 1

Количество аффинных (Na, AI > 50 %) и константных (Nk, K > 50 %) видов в фитоценонах, полученных методом DRSA, и перечни четырех первых видов с наибольшим значением AI

Amount of faithful (Na, AI> 50 %), constant (Nk, K> 50 %) species in phytocoenons derived from the method of DRSA and top lists of first four species with the highest value of AI

Номер Na Nk Виды с наибольшим значением AI

кластера

01 7 0 Alisma plantago-aquatica, Oenanthe aquatica, Schoenoplectus tabernaemontani, Alopecurus

aequalis

02 4 11 Rorippa sylvestris, Epilobium hirsutum, Rumex crispus, Triglochin palustris

03 3 9 Carex vulpina, Dactylorhiza incarnata, Carex nigra, Eleocharis uniglumis

04 1 17 Alopecurus arundinaceus, Veronica serpyllifolia, Silene flos-cuculi, Alopecurus pratensis

05 9 8 Cerastium fontanum subsp. vulgare, Rhinanthus serotinus subsp. aestivalis, Medicago lupulina, Phleum pratense

06 3 9 Dianthus deltoides, Anthoxanthum odoratum, Briza media, Polygala vulgaris

07 3 4 Solanum dulcamara, Carex riparia, Iris pseudacorus, Scutellaria galericulata

08 8 4 Carex elata, Comarum palustre, Calamagrostis canescens, Carex canescens

09 3 3 Symphytum officinale, Carex cespitosa, Equisetum palustre, Filipendula ulmaria

10 1 9 Carex praecox, Verbascum lychnitis, Ranunculus polyanthemos, Viola tricolor subsp. matutina

11 1 13 Veronica prostrata, Polygala comosa, Ajuga genevensis, Plantago media

12 1 7 Daucus carota, Berteroa incana, Echium vulgare, Artemisia absinthium

13 10 6 Astragalus austriacus, Linum flavum, Gypsophila altissima, Allium waldsteinii

14 4 8 Thalictrum minus, Helictotrichon pubescens, Filipendula vulgaris, Trifolium montanum

15 15 6 Acer tataricum, Convallaria majalis, Melampyrum nemorosum, Stachys officinalis

16 0 7 Salvia nutans, Astragalus dasyanthus, Asperula cynanchica, Knautia arvensis

17 6 7 Cardamine amara, Chrysosplenium alternifolium, Filipendula ulmaria, Geum rivale

18 6 8 Asparagus officinalis, Allium sphaerocephalum, Koeleria macrantha, Elymus hispidus

19 4 14 Corydalis solida, Anemone ranunculoides, Pulmonaria obscura, Asarum europaeum

20 1 15 Alliaria petiolata, Geum urbanum, Glechoma hirsuta, Mercurialis perennis

21 5 15 Pleurozium schreberi, Galeopsis bifida, Chamaecytisus ruthenicus, Agrostis capillaris

22 12 14 Corydalis cava subsp. marschalliana, Gagea minima, G. lutea, Fraxinus excelsior

23 7 7 Silene borysthenica, Pilosella echioides, Festuca beckeri, Centaurea majorovii

24 8 8 Molinia caerulea, Potentilla erecta, Betula pubescens, Carex pallescens

25 3 8 Carex ericetorum, Brachythecium oedipodium, Chimaphila umbellata, Pulsatilla nigricans

Сравнивая видовой состав аффинных видов (табл. 1) и дендрограмму (рис. 6) (номера кластеров везде одинаковы), видим, что объединения DRSA кластеров интерпретируемы также на более высоком уровне. Кластеры 13, 16, 18 — это луговые степи; кластеры 6, 10, 12, 11, 14 — сообщества близких к ним суходольных лугов. Обособлены на дендрограмме кластеры широколиственных лесов (19, 20, 22). В одну группу объединяются сосновые леса (23, 21, 25) и смешанные и березовые леса (15, 24). Кластер (2, 3, 4, 5) объединил луговые сообщества, преимущественно мезофитные и гидромезофитные. Обособлен кластер (1, 17, 8, 7, 9) более гидрофитных сообществ.

В табл. 2 представлена сравнительная оценка по разным показателям кластерных решений, полученных методом DRSA, для четырех модельных наборов данных, о которых упоминалось в разделе «Материалы и методы». Первый массив — авторский, из Восточной Европы, три других из Центральной Европы — классифицированы чешскими фитоценологами. Эти данные удобны для апробации метода DRSA, поскольку, во-первых, имеют эталонную (авторскую) классификацию для оценки согласия с автоматической классификацией DRSA, во-вторых, представляют разнообразный материал, так как получены из разных регионов, для разных типов растительности, имеют разное альфа- и бета-разнообразие.

При сопоставлении двух классификаций (автоматической и экспертной) кластерная принадлежность описаний является номинальным признаком. Согласие двух классификаций было измерено коэффициентами корреляции для переменных с номинальной шкалой. Мы использовали статистику Крамера (Cramer's V; Cramer, 1946) и индекс Рэнда (Rand Index; Rand, 1971). Эти данные также представлены в табл. 2.

При расчете статистики Крамера и индекса Рэн-да в эталонной классификации взят за основу ранг ассоциации:

— если была указана классификация только до ранга союза или выше, такие описания не учитывались в расчетах;

— если приводится классификация до субассоциации, описания из разных субассоциаций объединялись в группы одной ассоциации, после чего рассчитывалась корреляция с использованием статистик Крамера и Рэнда.

Для всех четырех модельных наборов данных при классификации методом DRSA применялись одинаковые параметры и критерии:

• расстояния между фитоценозами рассчитаны как D = 1 - K t .;

otiai'

• параметр к определен построением симметричного k-NN графа;

• использована модификация алгоритма DRSA-2;

• при подсчете верных видов, учитывались виды с AI >= 50 %;

• «хорошими» считались кластеры, имеющие хотя бы один верный вид.

Это обеспечивает сопоставимость оценки результативности классификации методом DRSA разных наборов данных и разными методами.

В табл. 2 показатели 1-3 описывают исходные наборы данных. Эколого-фитоценотический диапазон (ЭФД) рассчитан как часть нулевых значений в матрице сходства описаний по видовому составу. Он показывает, какая часть описаний набора данных не имеет общих видов. Так, в частности, массив данных 3 имеет наиболее узкий ЭФД (1 %), а массив 4 — наиболее широкий ЭФД (55 %). По уровню альфа-разнообразия наборы данных также различны — от 20.4 до 39.1 вид/описание.

Показатель 6 характеризует отношение кластеры / шум, т. е. какая часть исходных описаний классифицирована, а какая зачислена в шум. Например, у четвертого массива данных 64 х 89 обозначает, что 64 % описаний (из 780 описаний) вошли в 25 (показатель 7) кластеров, поэтому остаток из 36 % описаний отнесен к шуму (экотонным фи-тоценозам). А также, те же 64 % описаний содержат 89 % видов из 728 видов у исходного массива. Как видим, доля классифицированных описаний изменялась от 58 % до 79 %. Чем она меньше, тем экотонных описаний больше.

Браковка переходных (экотонных) описаний в классификации Браун-Бланке осуществляется практически всегда и позволяет увеличивать отличимость фитоценонов по видовому составу. Однако определение переходных описаний происходит на усмотрение исследователя, а значит, в значительной мере субъективно. Каким образом можно доказать, что описания, отнесенные к шуму в методе DRSA, действительно являются экотонными? Свидетельством тому могут быть высокие показатели 8-10, зависящие от количества верных видов, и об этом речь пойдет дальше. Но, кроме того, это подтверждается тем, что исключение в DRSA даже

значительной части описаний из состава кластеров незначительно укорачивает объединенный список видов. Мы видим, что доля классифицированных описаний изменялась от 58 % до 79 %, а список видов укорачивался лишь от 81 до 90 % (показатель 6). Если не принимать во внимание редкие виды, то «потери» в видовом составе были бы еще меньше.

Размеры кластеров DRSA (показатель 5, числитель) близки аналогичным значениям для кластеров экспертных классификаций (показатель 5, знаменатель), при этом в массивах 1 и 2 кластеры DRSA несколько крупнее экспертных, а в массивах 3 и 4 — наоборот. Хотя количество кластеров DRSA (показатель 7, числитель) и экспертной классификации (показатель 7, знаменатель) в массивах 1 и 2 различалось почти в два раза, но, если сравнить по показателю 8 классификацию DRSA и экспертов, то видим, что число «хороших» кластеров является близким у обеих классификаций.

Корреляция автоматической и экспертной классификаций оказалась высокой (Cramer's V от 0.79 до 0.90 и Rand Index от 0.89 до 0.98). Следовательно, автоматическая классификация DRSA, что показано на примере 4 наборов данных, дает кластеры, распределение описаний (объектов) между которыми близко к их экспертной классификации (полученной по методу Браун-Бланке, разными фитоценологами, на разных данных). Кроме того, поскольку в экспертной классификации был взят признак принадлежности к одной ассоциации, то кластеры DRSA (при указанных k, параметр 4) приблизительно также соответствуют рангу ассоциации.

Особенно стоит обратить внимание на показатели 9 и 10, которые для оценки качества автоматической классификации являются, пожалуй, самыми важными. Следует сказать, что при подсчете количества верных видов (A_total, A_avg) классификация видов проводилась при равных порогах AI (AI > 50 %), чтобы обеспечить сравнимость при оценке качества классификаций. Количество верных видов

Таблица 2

Сравнительная оценка автоматической (метод DRSA) и экспертной (метод Браун-Бланке) классификаций четырех наборов фитоценотических данных

Comparative evaluation of automatic (DRSA method) and expert (Braun-Blanquet approach) classifications

of four vegetation sample datasets

Показатель Набор модельных данных (источник) 1 2 3 4

1 Число описаний х видов 215x617 210x574 203x596 780x728

2 ЭФД, % 36 12 1 55

3 Альфа-разнообразие, вид/фитоценоз 29.7 32.2 39.1 20.4

4 Значение параметра к 5 6 7 6

5 Средний размер кластера 8.4 / 5.1* 13.2 / 9.8 23.6 / 25.4 20 / 25.2

6 Доля классифицированных описаний и видов, % 79x90 69x89 58x81 64x89

7 Количество кластеров (фитоценонов) 20 / 40 11 / 21 5 / 8 25 / 31

8 Количество хороших кластеров (с верными видами) 19 / 23 11 / 13 5 / 8 24 / 22

9 Количество верных видов в общем (A_total) 174 / 137 126 / 51 64 / 48 125 / 88

10 Количество верных видов в среднем на кластер (A_avg) 8.7 / 3.4 11.5 / 2.4 12.8 / 6 5 / 2.8

11 Статистика силуэтов (avg.silh) 0.23 / 0.16 0.19 / 0.03 0.14 / 0.06 0.17 / 0.07

12 Индекс Калинского-Харабаша (CH) 19.2 / 11.2 18.5 / 10.2 14.8 / 12.3 30.1 / 24.3

13 Cramer's V 0.90 0.79 0.94 0.80

14 Rand Index 0.98 0.89 0.90 0.96

Примечание. Источник данных (см. Материалы и методы): 1 — ^у1гу, ^Легек, 1996; 2 — ^у1гу, ^Легек, 1995; 3 — ^у1гу, Ногак, 1997; 4 — авторский массив данных. * — во всех случаях, где значения записаны в виде дроби, числитель соответствует значению показателя для автоматической (ОЯБЛ) классификации, знаменатель — аналогичное значение для эталонной (экспертной) классификации.

(A_total, A_avg) у автоматической классификации во всех четырех наборах данных было высоким. Это говорит об интерпретируемости кластеров с эколого-флористических позиций. Аналогичная тенденция наблюдается для показателя 8. Например, для массива 1 получено 19 «хороших» (показатель 8, числитель) кластеров из 20 (показатель 7, числитель), для массива 2 — 11 из 11 и т. д. Если исходить из методики оценивания качества синтак-сономической классификации Optimclass (Tichy et al., 2010), можно сказать, что это говорит в пользу четкости и качества полученной классификации по методу DRSA.

Параметры 11 и 12 относятся к внутренним критериям валидации кластеров. Чем они больше, тем кластеризацию принято считать более качественной. Как видим из табл. 2, результат DRSA оказался лучше, чем для экспертной классификации. Как можно объяснить такой успех автоматической классификации? Неужели компьютер оказался «умнее» человека?! Вовсе нет. Объясняется это правильным определением шума (экотонных фитоценозов) и исключением его из состава кластеров. В результате этого значительно повышается изолированность фитоценонов, в растительном континууме вырезаются переходы, увеличивается дискретность фито-ценотических данных, а следовательно, число статистически верных видов растет.

В целом, результат, представленный в табл. 2, позволяет считать метод DRSA перспективным для задачи классификации растительности. При оценке качества фитоценонов нами были использованы внутренние (основанные на матрице расстояний, показатели 11 и 12) и флористические (богатство фитоценонов верными видами, показатели 8-10) критерии. Их расчеты, а также сравнение автоматической (по методу DRSA) и экспертной классификаций с использованием мер номинальной корреляции (показатели 13 и 14), подтверждают сказанное.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В настоящее время ведется разработка программы VEGCLASS-DRSA, позволяющей реализовать описанный в статье метод классификации фитоценозов на компьютере и использовать его при обработке полевых геоботанических данных. Дистрибутив программы будет доступен по адресу: http:// phytobank.net/drsa. О его выходе мы сообщим в отдельной публикации.

Выводы

Поскольку целью настоящей статьи было не только описание алгоритма сортирующей кластеризации, но и его апробация для классификации растительности, то основные выводы будут касаться эффективности и применимости метода в фитоценологии.

Перечислим основные преимущества использования метода DRSA для классификации растительности:

• учитывает основные этапы обработки фи-тоценотических данных и позволяет свести к минимуму субъективный фактор «ручной сортировки» классического подхода Браун-Бланке;

• нет необходимости задавать число кластеров или уровней деления до начала кластерного анализа;

• наличие параметра к, который позволяет исследователю влиять на масштаб кластеризации и исследовать структуру данных на разных уровнях;

• в ходе кластерного анализа определяется «шум» (переходные или экотонные фитоценозы), исключение которых из состава кластеров улучшает качество итоговых фитоценонов, повышая дискретность кластерной структуры;

• метод эффективен при обработке данных широкого эколого-фитоценотического диапазона, с разной плотностью кластеров, разным уровнем альфа- и бета-разнообразия, что подтверждено на модельных наборах данных;

• из-за использования рангов в определении расстояний между объектами метод помехоустойчив к выбросам и особенно перспективен для классификации данных «низкого качества» — неполных с пропущенными значениями, с асимметричными распределениями, зашумленных (именно такими являются фитоценотические данные).

В чем же ограничения данного метода и когда следует предпочесть классические методы кластерного анализа? Метод DRSA, как и другие непараметрические методы, по мощности уступает параметрическим методам. Поэтому для кластерного анализа, например, данных биометрии, где показатели количественны, выражены в интервальной шкале, классические методы и расчет эвклидовой дистанции предпочтительнее использования ранжированных расстояний.

Неиерархическая классификация (группировка) в методе DRSA и исключение части объектов из состава кластеров в некоторых исследованиях могут быть неприемлемы. Однако это не касается классификации растительности, поскольку браковка переходных описаний составляет неотъемлемую часть методологии Браун-Бланке, а исследовать иерархическую структуру данных можно, варьируя параметр к. Также можно дополнить результаты DRSA классическим иерархическим кластерным анализом, взяв в качестве операбельной единицы фитоценоны DRSA. Это позволяет оценить их сходство по видовому составу и исследовать структуру растительности на более высоких синтаксоно-мических уровнях.

В целом, предложенный метод сортирующей кластеризации DRSA, основанный на использовании ранжированных расстояний и k-NN графа, перспективен для использования в классификации растительности.

СПИСОК ЛИТЕРАТУРЫ

Гиляров А. М. 2005. Перестройка в экологии: от описания видимого к пониманию скрытого // Вестн. РАН. Т. 75. № 3. С. 214-223. Голуб В. Б. 2010. Использование геоботанических описаний в качестве коллекции образцов для классификации растительности // Растительность России. № 17-18. С. 70-83. Гончаренко I. В. 2003. Аналiз рослинного покриву швшчно-схщного .Шсостепу Украши. Монографiя // Укр. фггоцен. зб. Сер. А. № 1 (19). 203 c. Гончаренко I. В. 2015a. Свщоцтво про реестращю ав-торського права на збiрку наукових творiв № 58837 вщ 26.02.2015 р. DRSA (distance-ranked sorting assembling) — метод сортуючого кластерного аналь зу (DRSA—метод сортуючого кластерного аналiзу). Бюл. № 36. 45 с.

Гончаренко I. В. 20156. Метод «сортуючо!» кластериза-цп (DRSA) для класифжацп рослинност // Доповiдi НАН Украши. № 9. С. 129-136.

Ким Дж.-O., Мюллер Ч. У., Клекка У. Р., Олдендер-фер М. С., Блэшфильд Р. К. 1989. Факторный, дис-криминантный и кластерный анализ: Пер. с англ. / Под ред. И. С. Енюкова. М. 215 с.

Косман С. Г., аренко I. П., Соломаха В. А., Шеляг-Со-сонко Ю. Р. 1991. Новий комп'ютерний метод оброб-ки опишв рослинних угруповань // Укр. ботан. журн. Т. 48. № 2. С. 98-104.

Мандель И. Д. 1988. Кластерный анализ. М. 176 с.

Миркин Б. М., Наумова Л. Г. 2009. Метод классификации растительности по Браун-Бланке в России // Журн. общ. биологии. Т. 70. № 1. С. 66-77.

Миркин Б. М., Наумова Л. Г. 2012. Синтаксономия растительности России: вчера, сегодня, завтра // Изв. Самар. науч. центра РАН. Т. 14. № 1 (4). С. 937-941.

Belbin L., McDonald C. 1993. Comparing three classification strategies for use in ecology // J. Veg. Sci. Vol. 4. P. 341-348.

Chytry M., Horak J. 1997. Plant communities of the ther-mophilous oak forests in Moravia // Preslia. Vol. 68. P. 193-240.

Chytry M., Vicherek J. 1995. Lesni vegetace Narodniho parku Podyji / Thayatal. Die Waldvegetation des Nationalparks Podyji / Thayatal. Praha. 1995. 166 p.

Chytry M., Vicherek J. 1996. Prirozena a poloprirozena vegetace ¿doli rek Oslavy, Jihlavy a Rokytne // Prirod. Sborn. Zapadomorav. Muz. Trebic. Vol. 22. P. 1-125.

Chytry M., Tichy L., Holt J., Botta-Dukat Z. 2002. Determination of diagnostic species with statistical fidelity measures // J. Veg. Sci. Vol. 13. P. 79-90.

Cover T. M., Hart P. E. 1967. Nearest neighbor pattern classification // Information Theory. Vol. 13. P. 21-27.

Cramer H. 1946. Mathematical methods of statistics. Princeton. 282 p.

De CaceresM., FontX., Oliva F. 2008. Assessing diagnostic species value in large data sets: A comparison between phi-coefficient and Ochiai index // J. Veg. Sci. Vol. 19. P. 779-788.

Dengler J., Lobel S., Dolnik C. 2009. Species constancy depends on plot size — a problem for vegetation classification and how it can be solved // J. Veg. Sci.. Vol. 20. P. 754-766.

Dufrene M., Legendre P. 1997. Species assemblages and indicator species: the need for a flexible asymmetrical approach // Ecol. Monogr. Vol. 67. P. 345-366.

Ester M., Kriegel H. P., Sander J., Xu X. 1996. A density-based algorithm for discovering clusters in large spatial databases // Proc. 1996 Intern. Conference on knowledge discovery and data mining. Portland, USA (August 1996). Portland. P. 226-231.

Halkidi M., Batistakis Y., Vazirgiannis M. 2001. On clustering validation techniques // J. Intelligent Information Systems. Vol. 17. P. 107-145.

Hennekens S. M. 1996. MEGATAB — a visual editor for phytosociological tables. Version 1.0. Ortober 1996. Ulft., 11 p.

Hill M. O. 1979. TWINSPAN — A FORTRAN program for arranging multivariate data in an ordered two-way table by classification of the individuals and attributes. Ithaca, New York. Program manual. 90 p.

Hill M. O., Smilauer P. 2005. TWINSPAN for Windows version 2.3. Huntingdon; Ceske Budejovice. 29 p.

Ochiai A. 1957. Zoogeographic studies on the soleoid fishes found in Japan and its neighbouring regions // Bul. Japan. Society for Fish Science. Vol. 22. №. 9. P. 526-530. (In Japanese, English summary).

Rand W. M. 1971. Objective criteria for the evaluation of clustering methods // J. American Statistic. Association. Vol. 66 (336). P. 846-850.

Rendon E., Abundez I., Arizmendi A., Quiroz E. 2011. Internal versus external cluster validation indices // Int. J. Computers and Communications. Vol. 5. P. 27-34.

Rolecek J., Tichy L., Zeleny D., Chytry M. 2009. Modified TWINSPAN classification in which the hierarchy respects cluster heterogeneity // J. Veg. Sci. Vol. 20. P. 596-602.

The Plant List. 2010. Version 1.1. Published on the Internet. URL: http://www.theplantlist.org (дата обращения: 07.10.2015).

Tichy L. 2002. JUICE, software for vegetation classification

// J. Veg. Sci. Vol. 13. P. 451-453. Tichy L., Chytry M., Hajek M., Talbot S. S., Botta-Dukat Z. 2010. OptimClass: Using species-to-cluster fidelity to determine the optimal partition in classification of ecological communities // J. Veg. Sci. Vol. 21. P. 287-299.

Получено 6 апреля 2015

Summary

In this article we proposed a new method of non-hierarchical cluster analysis using k-nearest-neighbor graph and discussed it with respect to vegetation classification.

The method of k-nearest neighbor (k-NN) classification was originally developed in 1951 (Fix, Hodges, 1951). Later a term "k-NN graph" and a few algorithms of k-NN clustering appeared (Cover, Hart, 1967; Brito et al., 1997). In biology k-NN is used in analysis of protein structures and genome sequences. Most of k-NN clustering algorithms build «excessive» graph firstly, so called hypergraph, and then truncate it to subgraphs, just partitioning and coarsening hypergraph. We developed other strategy, the "upward" clustering in forming (assembling consequentially) one cluster after the other. Until today graph-based cluster analysis has not been considered concerning classification of vegetation datasets.

We called our clustering strategy "sorting by ranking" or «Distance-Ranked Sorting Assembling», DRSA in abbreviated form (Goncharenko, 2015). DRSA is extremely robust due to ranks in finding k-nearest objects (phytocoenoses). Unlike density-based clustering, DRSA is effective when density of clusters (phytocoenons) differs much. DRSA clustering algorithm consists of k-NN asymmetric graph construction and then assembling objects into clusters. Process of assembling of each cluster consists of the following steps: initializing, expanding and stopping (cutting off). We invented heuristic measure (Q-index) based on connectivity of k-NN components for cluster's stopping rule and thus in outliers detection. We proposed two indexes of «voting of objects» — freeness and connectedness for selection objects in cluster's expanding stage. Technique of determining optimal k (k-nearest neighbors) parameter was elaborated by comparing symmetric (mutual) and asymmetric k-NN graph. We developed two agglomeration modes of DRSA which is one of the greedy algorithms.

As for vegetation classification we tested DRSA on four sample datasets from the Czech Republic (Chytry, Vicherek, 1995; Chytry, Vicherek, 1996; Chytry, Horak, 1997) and Ukraine (Goncharenko, 2003). To evaluate quality of phytocoenons we used internal clustering validation measures (based on a distance matrix) and floristic (based on number of faithful species) criteria. We also measured nominal correlation between automatic (using DRSA method) and expert (according to Braun-Blanquet approach) classifications.

M. B. RjHvapeHKO

After testing DRSA method on dataset of 780 relevés from Ukraine we received 25 clusters (phytocoenons). We calculated within-cluster and between-clusters average similarities, then built pair-wise matrix for clusters and discovered diagonalization (bigger similarities concentrated along matrix diagonal). Average within-cluster similarity between phytocoenoses was also high, 46.7 % by Otiai index, as well as silhouette statistics. Therefore, we concluded DRSA clusters are valid by inner criteria of cluster validation.

Interpretability of clusters was assessed using Optimclass approach (Tichy et al., 2010). The basic idea was that if the amount of faithful species is high, the clusters are "good" in the sense of floristic diagnosability. When the threshold value of affinity index (using geometric mean of species-to-cluster constancy and specifity) was 50 %, there were from 5 to 12.8 faithful species per cluster (phytocoenon). Therefore, the DRSA gives interpretable clusters from the floristic point of view. Due to outlier removal the amount of faithful species was even more than the same indicator in case of expert (original) classifications.

DRSA method is perspective for vegetation classification thanks to several features. There is no need to specify number of clusters or depth of division before starting cluster analysis. You have the ability to vary the scale of clustering using only a few clear tuning parameters of DRSA — similarity coefficient between phytocoenoses, k-nearest neighbors taken into account and the mode of DRSA which differs by cluster's stopping rule. For the rest DRSA is full-automatic that allows avoiding of manual sorting of relevés. DRSA is non-parametric clustering, thus it is robust and remains effective even in the case of high heterogeneity of the data and varying alpha- and beta-diversity with big scope. Results of DRSA clustering are low sensitive to what similarity coefficient or distance metric was applied. DRSA is

noise-detective clustering, as well removal of ecotonic phytocoenoses allows obtaining better results by all measures (distance-based and floristic-based) of cluster validation.

References

Brito M., Chavez E., Quiroz A., Yukich J. 1997. Connectivity of the mutual k-nearest-neighbor graph in clustering and outlier detection // Statistics & Probability Letters. Vol. 35. N 1. P. 33-42.

Chytry M., Horäk J. 1997. Plant communities of the ther-mophilous oak forests in Moravia // Preslia. Vol. 68 P. 193-240.

Chytry M., Vicherek J. 1995. Lesni vegetace Narodniho parku Podyji / Thayatal. Die Waldvegetation des Nationalparks Podyji / Thayatal. Praha. 1995. 166 p.

Chytry M., Vicherek J. 1996. Prirozena a poloprirozena vegetace üdoli rek Oslavy, Jihlavy a Rokytne // Prirod. Sborn. Zapadomorav. Muz. Trebic. Vol. 22. P. 1-125.

Cover T. M., Hart P. E. 1967. Nearest neighbor pattern classification // Information Theory. Vol. 13. P. 21-27.

Fix E., Hodges Jr. J. L. 1951. Discriminatory analysis-non-parametric discrimination: consistency properties. DTIC Document. Available online. URL: http://www.dtic.mil/ dtic/tr/fulltext/u2/a800276.pdf (Accessed October, 7, 2015).

Goncharenko I. V. 2003. Analiz roslynnogo pokryvu piv-nichno-shidnogo Lisostepu Ukrai'ny. Monografija [Analysis of vegetation of the northeast Forest-Steppe of Ukraine] // Ukrainian Phytosociological Collection. Ser. A. Vol. 19. N 1. 203 p. (In Ukrainian).

Goncharenko I. V. 2015. Metod «sortujuchoi'» klasteryzacii' (DRSA) dlja klasyfikacii' roslynnosti [A method of "sorting" clustering (DRSA) for the classification of plant communities] // Reports of the National Academy of Sciences of Ukraine. N 9. P. 129-136. (In Ukrainian).

Tichy L., Chytry M., Häjek M., Talbot S. S., Botta-Dukät Z. 2010. OptimClass: Using species-to-cluster fidelity to determine the optimal partition in classification of ecological communities // J. Veg. Sci. Vol. 21. P. 287-299.

i Надоели баннеры? Вы всегда можете отключить рекламу.