Н.Н. Двоерядкина, Н.А. Чалкина
КЛАСТЕРНЫЙ АНАЛИЗ КАК ИНСТРУМЕНТ ОБРАБОТКИ ГЕОЛОГИЧЕСКИХ ДАННЫХ
In the article we have considered a workability of cluster analysis in geological exploration, particulary for grouping of sample of zircon.
При разведке месторождений встречаются такие понятия как подсчетный блок (при подсчете запасов), рудное сечение (в плоскости рудного тела), рудное пересечение разведочной выработкой (от точки входа до точки выходы из рудного тела), проба руды или минерала, состав проб. Подобные геологические тела различных порядков в настоящей работе называются геологическими объектами. Группа геологических тел одного порядка образует совокупность геологических объектов.
Сущность кластерного анализа заключается в выделении однородных групп объектов и в установлении количественной меры сходства (различия) между объектами и группами объектов. Методами кластерного анализа решается задача разбиения (классификации, кластеризации) множества геологических объектов таким образом, чтобы все объекты, принадлежащие одному кластеру (классу, группе), были более похожи друг на друга, чем на объекты других кластеров.
Все методы кластерного анализа можно разделить на иерархические (метод ближней связи, метод средней связи Кинга, метод Уорда) и неиерархические (метод k-средних Мак-Куина). В геологической практике наиболее часто используются метод ближней связи и метод к-средних Мак-Куина.
Пусть имеется совокупность геологических объектов, обладающих множеством свойств. Сведения о свойствах образуют матрицу
(1)
где п - число наблюдений; к - число свойств.
Геометрическая аналогия матрицы - облако точек в многомерном признаковом пространстве, в котором отдельные точки соответствуют единичным объектам. При кластерном анализе исследуется взаимное расположение точек. Чем ближе расположены точки, тем более сходны между собой соответствующие объекты. Задача состоит в том, чтобы объединить скопления близлежащих точек, соответствующие однородным группам объектов.
Вначале необходимо выбрать масштаб по осям координат. Если величины имеют одинаковую размерность и приблизительно один порядок, то применяют натуральный масштаб -по координатным осям откладывают исходные свойства. Если величины различаются размерностью или порядком значений, то необходима нормализация свойств. Один из способов нормализации основан на использовании размаха значений хтах — хтт и осуществляется по формуле:
х — X
t = -
min
х - х .
max min
где х - исходные; ^ - преобразованные (нормализованные) свойства, нормализованные значения меняются от 0 до +1.
х
х
x1k
Х21
Х22
Х2к
ni n2
nk2
Когда масштаб по координатным осям задан, можно приступить к определению мер сходства (различия) между объектами по множеству свойств. Наиболее распространенная мера сходства между объектом / и объектом] - это взвешенное евклидово расстояние между точками в многомерном признаковом пространстве:
11 k Г "kl=1
= J1X h -1, )
где к - число свойств. Чем меньше р , тем ближе расположены точки в признаковом
пространстве, тем больше сходство между соответствующими объектами.
В качестве меры сходства можно применять среднеарифметическое значение абсолютных значений свойств:
r
:-У \t ; - t ;
il ]1
k 1=1
(4)
Иной характер имеет угловая мера сходства, основанная на корреляционной связи между объектами:
р] =
(5)
X Ц X j
1=1 V 1=1
Она характеризует косинус угла между двумя многомерными векторами, соединяющими начало координат с точкой i и с точкой]. Эта мера заключена в пределах от -1 до +1. Чем она ближе к +1, тем больше сходство между объектами; чем ближе к -1, тем больше различие между объектами. Применение данной меры оправдано, если точки находятся приблизительно на одном удалении от начала координат, так как расстояние между точками не учитывается.
Если имеется совокупность из n объектов, то совокупность мер сходства между всеми парами объектов составляет симметричную матрицу размером пхп. Если используются формулы (3) или (4), то матрица сходства имеет вид:
р1п Л
Р 2n
( 0
Р21
Р2
0
0
(6)
V Р п1 г п2 " J
Если используется мера сходства (5), то матрица сходства имеет другой вид:
( 1 Р 21
Р12 1
Р1п
Р 2n
1
л
(7)
\Рп1 Рп2 ' "
В этой матрице чем ближе мера сходства к +1, тем объекты больше сходны между собой.
Метод ближней связи начинает процесс классификации с поиска и объединения двух наиболее похожих объектов в матрице сходства. На следующем этапе находятся два очередных наиболее похожих объекта, и процесс повторяется до полного исчерпания матрицы сходства.
В процессе кластеризации методом ближней связи явно прослеживается образование цепочек объектов. Таким образом, для выделения кластеров после окончания процесса кластеризации требуется задаться некоторым пороговым уровнем сходства, на котором выделяется число кластеров большее единицы. Процедура не всегда обнаруживает такое свойство как образование одного большого кластера на последнем этапе кластеризации и часто заканчивается явным разделением всех предъявленных объектов на кластеры.
1=1
Принцип классификации метода к-средних Мак-Куина (к внутригрупповых средних) сводится к некоторому (возможно, случайному) исходному разбиению множества объектов на заданное число кластеров (классов, групп, популяций), последующему отнесению остальных объектов к ближайшим кластерам, пересчету новых «центров тяжести» кластеров и продолжению описанной процедуры, пока не будет получено некоторое оптимальное разбиение. Кластеризация обычно продолжается, пока новые «центры тяжести» кластеров не перестанут отличаться от старых «центров тяжести». Особенностью метода является то, что выделенные в результате расчетов кластеры не будут пересекаться - гарантируется, что каждый классифицированный объект будет отнесен только к одному кластеру.
Мера сходства между элементами множеств (типа расстояния) называется метрикой, если она удовлетворяет определенным условиям: симметрии, неравенству треугольника, различимости нетождественных объектов и неразличимости тождественных объектов.
Наиболее часто выбираемый тип расстояния - это евклидова метрика - геометрическое расстояние в многомерном пространстве. Евклидова дистанция между двумя точками х и у - это наименьшее расстояние между ними.
В двух- или трехмерном случае - это прямая, соединяющая данные точки.
После проведения классификации рекомендуется визуализировать результаты кластеризации путем построения дендрограммы (дендограммы). Для большого числа объектов такая визуализация - единственный способ получить представление об общей конфигурации объектов.
Хотя от графического представления данных во многих методах можно отказаться, иерархические методы кластерного анализа становятся более наглядными, если результаты расчета представить в виде специального графика, называемого дендрограммой (дендограммой). При ее построении пары объектов соединяются в соответствии с уровнем связи, отложенным по оси ординат (рис. 1).
В силу громоздкости вычислений для проведения кластерного анализа можно использовать специализированные пакеты статистической обработки данных.
Система Statistica является одним из наиболее известных в мировой практике пакетов статистической обработки в среде Windows. Пакет Statistica отличается от большинства других программных продуктов для Windows тем, что состоит из отдельных программ-модулей, каждый из которых содержит конкретный метод обработки данных, - например, кластерный анализ, регрессионный анализ и т.д. Каждый такой модуль можно рассматривать как самостоятельную программу, независимую от остальных. Но такие операции как ввод, корректировка данных, осуществляется в любом из модулей по желанию пользователя. Таким образом, если перед
distance(x^_y) = д/Yixi- У)'
2
(8)
50 40
30
70
60
20
пользователем стоит конкретная задача (к примеру, провести классификацию данных), то достаточно вызвать модуль Cluster Analysis (кластерный анализ), чтобы провести полноценную работу: ввод данных, их корректировку, построить различные диаграммы, а также осуществить непосредственно заданную классификацию.
ю
Задача. Имеется 14 анализов циркона на пять компонентов (табл. 1). Необходимо провести кластерный анализ.
Рис. 1. Дендрограмма.
Таблица 1
Состав циркона, %
Номер пробы SiO2 ZrO2 HfO2 Fe2Os Tr2Os
1 32,74 65,27 1,29 0,12 0,23
2 32,74 64,92 1,74 0,04 0,23
3 33,03 65,30 0,50 0,18 0,23
4 32,07 66,45 1,92 0,18 0,02
5 33,65 63,65 1,63 0,15 0,23
6 31,34 66,57 1,52 0,18 0,17
7 31,03 67,33 0,51 0,09 0,49
8 31,08 68,36 0,49 0,18 0,05
9 30,96 67,84 0,49 0,09 0,20
10 34,53 63,74 1,59 0,30 0,10
11 34,00 63,58 1,45 0,40 0,23
12 34,40 63,58 1,61 0,16 0,27
13 32,81 63,64 1,50 0,18 0,62
14 31,34 66,57 1,52 0,27 0,17
Для решения поставленной задачи будем использовать специализированный пакет статистической обработки данных Statistica.
Для проведения кластерного анализа в меню с основными процедурами Statistics выберем Multivariate Exploratory Techniques ^ Cluster Analysis.
Рассчитаем матрицу расстояний (рис. 2).
Из матрицы расстояний видно, что наименьшая мера различия 0,09 - между 6 и 14 пробами. Их необходимо объединить в один кластер и усреднить. Следующая наиболее близкая пара объектов с расстоянием 0,3 между
пробами - 10 и 12. Продолжая объединение проб Рис 2 Матрица расстояний.
и кластеров далее, получим последовательность объединения проб (рис. 3).
В левом столбце полученной таблицы (рис. 3) указаны расстояния между компонентами.
Для выделения числа кластеров построим дендрограмму, на которой видна последовательность объединения проб (рис. 4).
Case No Euclidean distances Spreadsheet(4npK0H^ .sta)
С 1 С 2 С 3 С 4 С 5 С 6 С 7 С 8 С 9 С 10 С 11 С 12 С 13 С 14
С 1 С 2 0,0010,58 0,58*0,00 0,84 1,34 1,51 1,70 1,83 1,57 1,33 2,18 2,80 3,21 3,60 4,03 3,23 3,64 2,38 2,17 2,13 1,30 2,33 2,14 1,63 1,37 1,33 2,19
С 3 0,84 1,34 0,00 2,07 2,03 2,35 2,86 3,63 3,28 2,43 2,20 2,46 1,33 2,35
С 4 1,51 1,70 2,07 0,00 3,24 0,85 2,02 2,58 2,29 3,68 3,50 3,72 3,00 0,86
С 5 1,83 1,57 2,03 3,24 0,00 3,73 4,66 5,43 5,11 0,31 0,47 0,75 0,34 3,73
С 6 1,33 2,1В 2,35 0,85 3,73 0,00 1,34 2,08 1,68 4,27 4,01 4,28 3,31 0,09
С 7 2,80 3,21 2,86 2,02 4,66 1,34 0,00 1,12 0,59 5,15 4,83 5,17 4,22 1,35
С В 3,60 4,03 3,63 2,58 5,43 2,08 1,12 0,00 0,58 5,87 5,63 5,93 5,16 2,09
С Э 3,23 3,64 3,28 2,23 5,11 1,68 0,53 0,56 0,00 5,55 5,33 5,53 4,72 1,69
С 10 2,38 2,17 2,43 3,68 0,31 4,27 5,15 5,87 5,55 0,00 0,53 0,30 1,81 4,27
С 11 2,13 1,30 2,20 3,50 0,47 4,01 4,83 5,63 5,33 0,53 0,00 0,43 1,27 4,01
С 12 2,33 2,14 2,46 3,72 0,75 4,28 5,17 5,33 5,59 0,30 0,43 0,00 1,63 4,28
С 13 1,63 1,37 1,33 3,00 0,34 3,31 4,22 5,16 4,72 1,81 1,27 1,63 0,00 3,31
С 14 1,33 2,19 2,35 0,86 3,73 0,03 1,35 2,03 1,69 4,27 4,01 4,28 3,31 0,00
Amalgamation Schedule (Spreadsheet(L(M|jKOH).sta) Single Linkage Euclidean distances
linkage distance Obj. No. 1 Obj. No. 2 Obj. No. 3 Obj. No. 4 Obj. No. 5 Obj. No. 6 Obj. No. 7 Obj. No. 8 Obj. No. 9 Obj. No. 10 Obj. No. 11 Obj. No. 12 Obj. No. 13 Obj. No. 14
,0900000 С 6 С 14
,3023243 С 10 С 12
,4714870 С 5 С 11
,4947727 С 5 С 11 С 10 С 12
,5616049 С 8 С 9
,5756735 С 1 С 2
,5911853 С 7 С 8 С 9
,8442156 С 1 С 2 С 3
,8542833 С 4 С 6 С 14
,9357350 С 5 С 11 С 10 С 12 С 13
1,343242 С 4 С 6 С 14 С 7 С 8 С 9
1,368430 С 1 С 2 С 3 С 5 С 11 С 10 С 12 С 13
1,511919 С 1 С 2 С 3 С 5 С 11 С 10 С 12 С 13 С 4 С 6 С 14 С 7 С 8 С 9
Рис. 3. Последовательность объединенных проб.
Tree Diagram for 14 Cases Single Linkage Euclidean distances
1,6 -1-1-1-1-1-1-1-1-r
1,4
C_9 C_7 C_6 C_13 C_10 C_5 C_2
С 8 С 14 С 4 С 12 С 11 СЗ С 1
Рис. 4. Прямоугольная дендрограмма проб циркона.
По результатам таблицы, представленной на рис. 3, построим еще один график (рис. 5).
Полученный график является сокращением дендрограммы. В дендрограмме все большие и большие кластеры формируются из большего и большего разнообразия в пределах кластера. Этот же график показывает ровное плато, что означает: кластеры были сформированы по существу на одном и том же расстоянии. Это расстояние может быть оптимально сокращено при решении вопроса, сколько оставить кластеров, чтобы интерпретировать результаты.
На дендограмме видна последовательность объединения проб. Кроме того, на графике выделяются по крайней мере четыре группы проб (четыре типа цирконов по составу) и три пробы (13, 3 и 7), отличающиеся по составу от других проб.
Иерархический анализ является разведочным методом для последовательного кластерного анализа. Он позволяет выделить количество кластеров, состав и характеристики которых можно получить методом ^-средних.
Plot of Linkage Distances across Steps Euclidean distances
<D о с го
41 b <u
Cg
ro
1,8 1,6 1,4 1,2 1,0 0,8 0,6 0,4 0,2 0,0 -0,2
________________________i__________________________L__________________________i_________________________i__________________________i___________
____________________J__________________________1________________________
68 Step
10
12
14
Linkage Distance
Рис. 5. График по результатам объединения проб циркона.
На нулевом шаге за центры искомых k кластеров принимают случайно выбранные k наблюдений - точки xh x2, ... xk ; каждому кластеру присваивают единичный вес. На первом шаге находят расстояния точки xk+1 до центров кластеров и относят точку xk+1 к кластеру, расстояние до которого минимально; рассчитывают новый центр тяжести (как взвешенное среднее по каждому показателю) этого кластера и вес кластера увеличивают на единицу; все остальные кластеры остаются неизмененными (с прежними центрами и весами). На втором шаге аналогичную процедуру выполняют для точки xk+2 и т.д. При достаточно большом числе n классифицируемых объектов или достаточно большом числе итерации пересчет центров тяжести практически не приводит к их изменению.
Если в какой-то точке не удается, прогнав все xk+(n-1) точек, достичь практически неизменяющихся центров тяжести, то либо, используя получившееся разбиение п точек на k кластеров, в качестве начального применяют изложенную процедуру к точкам xh x2 и т.д.; либо в
качестве начального разбиения принимают различные комбинации k точек из исходных п точек и в качестве окончательного берут наиболее часто встречающееся финальное разбиение.
Итоговый отчет метода k-средних содержит несколько матриц. Сначала приводятся первичные кластерные центры - средние значения в кластерах (Cluster Means) и евклидово расстояние между кластерами (Euclidean Distances) (рис. 6).
Variable Cluster Means|
Cluster No. 1 Cluster No. 2 Cluster No. 3 Cluster No. 4
Si02 32,83667 65,16333 1,17667 0,11333 0,23000 31,58333 33,87800 31,02333
Zr02 66,53000 63,63300 67,04333
Нг02 1,65333 1,55600 0,49667
Fe203 0,21000 0,23800 0,12000
TR2O3 0,12000 0,29000 0,24667
Рис. 6. Средние значения компонентов состава проб циркона в кластерах.
0
2
4
Cluster Number Euclidean Distances between Clusters (Sp_ Distances below diagonal Squared distances above diagonal
No. 1 No. 2 No. 3 No. 4
No. 1 o,ooooooi 0,737456 0,714811 2,186660
No. 2 0,858752 0,000000 2,733663 0,680093
No. 3 0,845465 1,478736 1,653379 0,000000 5,394387
No. 4 0,824678 2,322582 0,000000
Рис. 7. Евклидовы расстояния между кластерами.
Указаны средние величины класса по всем переменным (наблюдениям). По вертикали указаны номера классов, а по горизонтали - переменные (наблюдения). Кластерные центры можно считать объединенными характеристиками всех объектов, входящих в группу (рис. 7).
Приведены расстояния между классами. И по вертикали и по горизонтали - номера кластеров. Таким образом, при пересечении строк и столбцов указаны расстояния между соответствующими классами. Причем выше диагонали (на которой стоят нули) указаны квадраты расстояний, а ниже -просто евклидово расстояние. Матрица евклидовых расстояний позволяет убедиться, что различия между кластерами действительно существуют. Нет расстояния, равного нулю, между какими-либо двумя различными группами.
Далее выводятся показатели, позволяющие анализировать каждый кластер: дисперсионный анализ (Analysis of Variance), графическое представление кластерных центров (Graph of means), основные статистики (среднее, стандартное отклонение, дисперсия) для каждого
кластера (Descriptive Statistics for each cluster) (рис. 8). В таблице приведена межгрупповая и внутригрупповая дисперсии, где строки - переменные (наблюдения), столбцы - показатели для каждой переменной: дисперсия между кластерами, число степеней свободы для межклассовой дисперсии, дисперсия внутри кластеров, число степеней свободы для внутриклассовой дисперсии, F-критерий для проверки гипотезы о неравенстве дисперсий. Проверка данной гипотезы похожа на проверку гипотезы в дисперсионном анализе, когда делается предположение, что уровни фактора не влияют на результат.
Описательная статистика для каждого из четырех кластеров приведена на рис. 9.
Analysis of Variance
Variable Between ss df Within ss df f signif. p
Si02 13,35969 3 2,323681 10 27,0546 0,000041
Zr02 37,32373 3 0,646611 10 192,4326 0,000000
Hr02 2,67005 3 0,918920 10 9,6855 0,002641
Fe203 0,04365 3 0,067947 10 2,1415 0,158397
tr2o3 0,05510 3 0,267667 10 0,6862 0,580654
Рис. 8. Результаты дисперсионного анализа.
Variable Descriptive Statistics for Cluster 1 Cluster contains 3 cases
Mean Standard Deviation Variance
SiO£ 32,83667 0,167432 0,028033
Zr02 65,16333 0,211266 0,044633
Hr02 1,17667 0,627721 0,394033
Fe203 0,11333 0,23000 0,070233 0,000000 0,004933 0,000000
tr2o3
Descriptive Statistics for Cluster 4" Cluster contains 3 cases
Variable Mean Standard Deviation Variance
Si02 31,02333 0,060277 0,003633
Zr02 67,84333 0,515008 0,265233
Hr02 0,49667 0,011547 0,000133
Fe203 0,12000 0,051962 0,002700
tr2o3 0,24667 0,223681 0,050033
Рис. 9. Описательная статистика для каждого кластера.
В каждом окне в строках указаны переменные (наблюдения), а по горизонтали их характеристики, рассчитанные для данного класса: среднее, несмещенное среднеквадратическое отклонение, несмещенная дисперсия.
Members of Cluster Number 3 (Spreadsheet(4MpK0H).sti and Distances from Respective Cluster Center Cluster contains 5 cases Members of Cluster Number 4 (S and Distances from Respective C Cluster contains 3 cases
Case No. С 5 Case No. С 10 Case No. С 11 Case No. С 12 Case No. С 13 Case No. С 7 Case No. С 8 Case No. С 9
Distance 0,117429 0,306742 0,100929 0,230851 0,501204 Distance 0,254497 0,249991 0,037001
Рис. 10. Члены каждой группы и расстояния между ними.
В каждом окне указывается общее число элементов, отнесенных к этому кластеру, в верхней строке - номер наблюдения (переменной), отнесенного к данному классу и евклидово расстояние от центра класса до этого наблюдения (переменной). Центр класса - средние величины по всем переменным (наблюдениям) для этого класса.
Кластерный анализ методом ^-средних дополняет и уточняет картину, полученную с помощью иерархического кластерного анализа. Однако конфигурация кластеров не поддается представлению в графическом виде.
1. Дюран Б., Оделл П. Кластерный анализ. - М.: Статистика, 1997.
2. Мандель И. Д. Кластерный анализ. - М.: Финансы и статистика, 1998.
3. Справочник по математическим методам в геологии / А. А. Родионов, Р.И. Коган, В. А. Голубев и др. -М.: Недра, 1987.