Научная статья на тему 'Кластерный анализ как инструмент обработки геологических данных'

Кластерный анализ как инструмент обработки геологических данных Текст научной статьи по специальности «Математика»

CC BY
375
67
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАСТЕРНЫЙ АНАЛИЗ / ОБРАБОТКА ГЕОЛОГИЧЕСКИХ ДАННЫХ

Аннотация научной статьи по математике, автор научной работы — Двоерядкина Наталья Николаевна, Чалкина Наталья Анатольевна

In the article we have considered a workability of cluster analysis in geological exploration, particulary for grouping of sample of zircon.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Двоерядкина Наталья Николаевна, Чалкина Наталья Анатольевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Кластерный анализ как инструмент обработки геологических данных»

Н.Н. Двоерядкина, Н.А. Чалкина

КЛАСТЕРНЫЙ АНАЛИЗ КАК ИНСТРУМЕНТ ОБРАБОТКИ ГЕОЛОГИЧЕСКИХ ДАННЫХ

In the article we have considered a workability of cluster analysis in geological exploration, particulary for grouping of sample of zircon.

При разведке месторождений встречаются такие понятия как подсчетный блок (при подсчете запасов), рудное сечение (в плоскости рудного тела), рудное пересечение разведочной выработкой (от точки входа до точки выходы из рудного тела), проба руды или минерала, состав проб. Подобные геологические тела различных порядков в настоящей работе называются геологическими объектами. Группа геологических тел одного порядка образует совокупность геологических объектов.

Сущность кластерного анализа заключается в выделении однородных групп объектов и в установлении количественной меры сходства (различия) между объектами и группами объектов. Методами кластерного анализа решается задача разбиения (классификации, кластеризации) множества геологических объектов таким образом, чтобы все объекты, принадлежащие одному кластеру (классу, группе), были более похожи друг на друга, чем на объекты других кластеров.

Все методы кластерного анализа можно разделить на иерархические (метод ближней связи, метод средней связи Кинга, метод Уорда) и неиерархические (метод k-средних Мак-Куина). В геологической практике наиболее часто используются метод ближней связи и метод к-средних Мак-Куина.

Пусть имеется совокупность геологических объектов, обладающих множеством свойств. Сведения о свойствах образуют матрицу

(1)

где п - число наблюдений; к - число свойств.

Геометрическая аналогия матрицы - облако точек в многомерном признаковом пространстве, в котором отдельные точки соответствуют единичным объектам. При кластерном анализе исследуется взаимное расположение точек. Чем ближе расположены точки, тем более сходны между собой соответствующие объекты. Задача состоит в том, чтобы объединить скопления близлежащих точек, соответствующие однородным группам объектов.

Вначале необходимо выбрать масштаб по осям координат. Если величины имеют одинаковую размерность и приблизительно один порядок, то применяют натуральный масштаб -по координатным осям откладывают исходные свойства. Если величины различаются размерностью или порядком значений, то необходима нормализация свойств. Один из способов нормализации основан на использовании размаха значений хтах — хтт и осуществляется по формуле:

х — X

t = -

min

х - х .

max min

где х - исходные; ^ - преобразованные (нормализованные) свойства, нормализованные значения меняются от 0 до +1.

х

х

x1k

Х21

Х22

Х2к

ni n2

nk2

Когда масштаб по координатным осям задан, можно приступить к определению мер сходства (различия) между объектами по множеству свойств. Наиболее распространенная мера сходства между объектом / и объектом] - это взвешенное евклидово расстояние между точками в многомерном признаковом пространстве:

11 k Г "kl=1

= J1X h -1, )

где к - число свойств. Чем меньше р , тем ближе расположены точки в признаковом

пространстве, тем больше сходство между соответствующими объектами.

В качестве меры сходства можно применять среднеарифметическое значение абсолютных значений свойств:

r

:-У \t ; - t ;

il ]1

k 1=1

(4)

Иной характер имеет угловая мера сходства, основанная на корреляционной связи между объектами:

р] =

(5)

X Ц X j

1=1 V 1=1

Она характеризует косинус угла между двумя многомерными векторами, соединяющими начало координат с точкой i и с точкой]. Эта мера заключена в пределах от -1 до +1. Чем она ближе к +1, тем больше сходство между объектами; чем ближе к -1, тем больше различие между объектами. Применение данной меры оправдано, если точки находятся приблизительно на одном удалении от начала координат, так как расстояние между точками не учитывается.

Если имеется совокупность из n объектов, то совокупность мер сходства между всеми парами объектов составляет симметричную матрицу размером пхп. Если используются формулы (3) или (4), то матрица сходства имеет вид:

р1п Л

Р 2n

( 0

Р21

Р2

0

0

(6)

V Р п1 г п2 " J

Если используется мера сходства (5), то матрица сходства имеет другой вид:

( 1 Р 21

Р12 1

Р1п

Р 2n

1

л

(7)

\Рп1 Рп2 ' "

В этой матрице чем ближе мера сходства к +1, тем объекты больше сходны между собой.

Метод ближней связи начинает процесс классификации с поиска и объединения двух наиболее похожих объектов в матрице сходства. На следующем этапе находятся два очередных наиболее похожих объекта, и процесс повторяется до полного исчерпания матрицы сходства.

В процессе кластеризации методом ближней связи явно прослеживается образование цепочек объектов. Таким образом, для выделения кластеров после окончания процесса кластеризации требуется задаться некоторым пороговым уровнем сходства, на котором выделяется число кластеров большее единицы. Процедура не всегда обнаруживает такое свойство как образование одного большого кластера на последнем этапе кластеризации и часто заканчивается явным разделением всех предъявленных объектов на кластеры.

1=1

Принцип классификации метода к-средних Мак-Куина (к внутригрупповых средних) сводится к некоторому (возможно, случайному) исходному разбиению множества объектов на заданное число кластеров (классов, групп, популяций), последующему отнесению остальных объектов к ближайшим кластерам, пересчету новых «центров тяжести» кластеров и продолжению описанной процедуры, пока не будет получено некоторое оптимальное разбиение. Кластеризация обычно продолжается, пока новые «центры тяжести» кластеров не перестанут отличаться от старых «центров тяжести». Особенностью метода является то, что выделенные в результате расчетов кластеры не будут пересекаться - гарантируется, что каждый классифицированный объект будет отнесен только к одному кластеру.

Мера сходства между элементами множеств (типа расстояния) называется метрикой, если она удовлетворяет определенным условиям: симметрии, неравенству треугольника, различимости нетождественных объектов и неразличимости тождественных объектов.

Наиболее часто выбираемый тип расстояния - это евклидова метрика - геометрическое расстояние в многомерном пространстве. Евклидова дистанция между двумя точками х и у - это наименьшее расстояние между ними.

В двух- или трехмерном случае - это прямая, соединяющая данные точки.

После проведения классификации рекомендуется визуализировать результаты кластеризации путем построения дендрограммы (дендограммы). Для большого числа объектов такая визуализация - единственный способ получить представление об общей конфигурации объектов.

Хотя от графического представления данных во многих методах можно отказаться, иерархические методы кластерного анализа становятся более наглядными, если результаты расчета представить в виде специального графика, называемого дендрограммой (дендограммой). При ее построении пары объектов соединяются в соответствии с уровнем связи, отложенным по оси ординат (рис. 1).

В силу громоздкости вычислений для проведения кластерного анализа можно использовать специализированные пакеты статистической обработки данных.

Система Statistica является одним из наиболее известных в мировой практике пакетов статистической обработки в среде Windows. Пакет Statistica отличается от большинства других программных продуктов для Windows тем, что состоит из отдельных программ-модулей, каждый из которых содержит конкретный метод обработки данных, - например, кластерный анализ, регрессионный анализ и т.д. Каждый такой модуль можно рассматривать как самостоятельную программу, независимую от остальных. Но такие операции как ввод, корректировка данных, осуществляется в любом из модулей по желанию пользователя. Таким образом, если перед

distance(x^_y) = д/Yixi- У)'

2

(8)

50 40

30

70

60

20

пользователем стоит конкретная задача (к примеру, провести классификацию данных), то достаточно вызвать модуль Cluster Analysis (кластерный анализ), чтобы провести полноценную работу: ввод данных, их корректировку, построить различные диаграммы, а также осуществить непосредственно заданную классификацию.

ю

Задача. Имеется 14 анализов циркона на пять компонентов (табл. 1). Необходимо провести кластерный анализ.

Рис. 1. Дендрограмма.

Таблица 1

Состав циркона, %

Номер пробы SiO2 ZrO2 HfO2 Fe2Os Tr2Os

1 32,74 65,27 1,29 0,12 0,23

2 32,74 64,92 1,74 0,04 0,23

3 33,03 65,30 0,50 0,18 0,23

4 32,07 66,45 1,92 0,18 0,02

5 33,65 63,65 1,63 0,15 0,23

6 31,34 66,57 1,52 0,18 0,17

7 31,03 67,33 0,51 0,09 0,49

8 31,08 68,36 0,49 0,18 0,05

9 30,96 67,84 0,49 0,09 0,20

10 34,53 63,74 1,59 0,30 0,10

11 34,00 63,58 1,45 0,40 0,23

12 34,40 63,58 1,61 0,16 0,27

13 32,81 63,64 1,50 0,18 0,62

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

14 31,34 66,57 1,52 0,27 0,17

Для решения поставленной задачи будем использовать специализированный пакет статистической обработки данных Statistica.

Для проведения кластерного анализа в меню с основными процедурами Statistics выберем Multivariate Exploratory Techniques ^ Cluster Analysis.

Рассчитаем матрицу расстояний (рис. 2).

Из матрицы расстояний видно, что наименьшая мера различия 0,09 - между 6 и 14 пробами. Их необходимо объединить в один кластер и усреднить. Следующая наиболее близкая пара объектов с расстоянием 0,3 между

пробами - 10 и 12. Продолжая объединение проб Рис 2 Матрица расстояний.

и кластеров далее, получим последовательность объединения проб (рис. 3).

В левом столбце полученной таблицы (рис. 3) указаны расстояния между компонентами.

Для выделения числа кластеров построим дендрограмму, на которой видна последовательность объединения проб (рис. 4).

Case No Euclidean distances Spreadsheet(4npK0H^ .sta)

С 1 С 2 С 3 С 4 С 5 С 6 С 7 С 8 С 9 С 10 С 11 С 12 С 13 С 14

С 1 С 2 0,0010,58 0,58*0,00 0,84 1,34 1,51 1,70 1,83 1,57 1,33 2,18 2,80 3,21 3,60 4,03 3,23 3,64 2,38 2,17 2,13 1,30 2,33 2,14 1,63 1,37 1,33 2,19

С 3 0,84 1,34 0,00 2,07 2,03 2,35 2,86 3,63 3,28 2,43 2,20 2,46 1,33 2,35

С 4 1,51 1,70 2,07 0,00 3,24 0,85 2,02 2,58 2,29 3,68 3,50 3,72 3,00 0,86

С 5 1,83 1,57 2,03 3,24 0,00 3,73 4,66 5,43 5,11 0,31 0,47 0,75 0,34 3,73

С 6 1,33 2,1В 2,35 0,85 3,73 0,00 1,34 2,08 1,68 4,27 4,01 4,28 3,31 0,09

С 7 2,80 3,21 2,86 2,02 4,66 1,34 0,00 1,12 0,59 5,15 4,83 5,17 4,22 1,35

С В 3,60 4,03 3,63 2,58 5,43 2,08 1,12 0,00 0,58 5,87 5,63 5,93 5,16 2,09

С Э 3,23 3,64 3,28 2,23 5,11 1,68 0,53 0,56 0,00 5,55 5,33 5,53 4,72 1,69

С 10 2,38 2,17 2,43 3,68 0,31 4,27 5,15 5,87 5,55 0,00 0,53 0,30 1,81 4,27

С 11 2,13 1,30 2,20 3,50 0,47 4,01 4,83 5,63 5,33 0,53 0,00 0,43 1,27 4,01

С 12 2,33 2,14 2,46 3,72 0,75 4,28 5,17 5,33 5,59 0,30 0,43 0,00 1,63 4,28

С 13 1,63 1,37 1,33 3,00 0,34 3,31 4,22 5,16 4,72 1,81 1,27 1,63 0,00 3,31

С 14 1,33 2,19 2,35 0,86 3,73 0,03 1,35 2,03 1,69 4,27 4,01 4,28 3,31 0,00

Amalgamation Schedule (Spreadsheet(L(M|jKOH).sta) Single Linkage Euclidean distances

linkage distance Obj. No. 1 Obj. No. 2 Obj. No. 3 Obj. No. 4 Obj. No. 5 Obj. No. 6 Obj. No. 7 Obj. No. 8 Obj. No. 9 Obj. No. 10 Obj. No. 11 Obj. No. 12 Obj. No. 13 Obj. No. 14

,0900000 С 6 С 14

,3023243 С 10 С 12

,4714870 С 5 С 11

,4947727 С 5 С 11 С 10 С 12

,5616049 С 8 С 9

,5756735 С 1 С 2

,5911853 С 7 С 8 С 9

,8442156 С 1 С 2 С 3

,8542833 С 4 С 6 С 14

,9357350 С 5 С 11 С 10 С 12 С 13

1,343242 С 4 С 6 С 14 С 7 С 8 С 9

1,368430 С 1 С 2 С 3 С 5 С 11 С 10 С 12 С 13

1,511919 С 1 С 2 С 3 С 5 С 11 С 10 С 12 С 13 С 4 С 6 С 14 С 7 С 8 С 9

Рис. 3. Последовательность объединенных проб.

Tree Diagram for 14 Cases Single Linkage Euclidean distances

1,6 -1-1-1-1-1-1-1-1-r

1,4

C_9 C_7 C_6 C_13 C_10 C_5 C_2

С 8 С 14 С 4 С 12 С 11 СЗ С 1

Рис. 4. Прямоугольная дендрограмма проб циркона.

По результатам таблицы, представленной на рис. 3, построим еще один график (рис. 5).

Полученный график является сокращением дендрограммы. В дендрограмме все большие и большие кластеры формируются из большего и большего разнообразия в пределах кластера. Этот же график показывает ровное плато, что означает: кластеры были сформированы по существу на одном и том же расстоянии. Это расстояние может быть оптимально сокращено при решении вопроса, сколько оставить кластеров, чтобы интерпретировать результаты.

На дендограмме видна последовательность объединения проб. Кроме того, на графике выделяются по крайней мере четыре группы проб (четыре типа цирконов по составу) и три пробы (13, 3 и 7), отличающиеся по составу от других проб.

Иерархический анализ является разведочным методом для последовательного кластерного анализа. Он позволяет выделить количество кластеров, состав и характеристики которых можно получить методом ^-средних.

Plot of Linkage Distances across Steps Euclidean distances

<D о с го

41 b <u

Cg

ro

1,8 1,6 1,4 1,2 1,0 0,8 0,6 0,4 0,2 0,0 -0,2

________________________i__________________________L__________________________i_________________________i__________________________i___________

____________________J__________________________1________________________

68 Step

10

12

14

Linkage Distance

Рис. 5. График по результатам объединения проб циркона.

На нулевом шаге за центры искомых k кластеров принимают случайно выбранные k наблюдений - точки xh x2, ... xk ; каждому кластеру присваивают единичный вес. На первом шаге находят расстояния точки xk+1 до центров кластеров и относят точку xk+1 к кластеру, расстояние до которого минимально; рассчитывают новый центр тяжести (как взвешенное среднее по каждому показателю) этого кластера и вес кластера увеличивают на единицу; все остальные кластеры остаются неизмененными (с прежними центрами и весами). На втором шаге аналогичную процедуру выполняют для точки xk+2 и т.д. При достаточно большом числе n классифицируемых объектов или достаточно большом числе итерации пересчет центров тяжести практически не приводит к их изменению.

Если в какой-то точке не удается, прогнав все xk+(n-1) точек, достичь практически неизменяющихся центров тяжести, то либо, используя получившееся разбиение п точек на k кластеров, в качестве начального применяют изложенную процедуру к точкам xh x2 и т.д.; либо в

качестве начального разбиения принимают различные комбинации k точек из исходных п точек и в качестве окончательного берут наиболее часто встречающееся финальное разбиение.

Итоговый отчет метода k-средних содержит несколько матриц. Сначала приводятся первичные кластерные центры - средние значения в кластерах (Cluster Means) и евклидово расстояние между кластерами (Euclidean Distances) (рис. 6).

Variable Cluster Means|

Cluster No. 1 Cluster No. 2 Cluster No. 3 Cluster No. 4

Si02 32,83667 65,16333 1,17667 0,11333 0,23000 31,58333 33,87800 31,02333

Zr02 66,53000 63,63300 67,04333

Нг02 1,65333 1,55600 0,49667

Fe203 0,21000 0,23800 0,12000

TR2O3 0,12000 0,29000 0,24667

Рис. 6. Средние значения компонентов состава проб циркона в кластерах.

0

2

4

Cluster Number Euclidean Distances between Clusters (Sp_ Distances below diagonal Squared distances above diagonal

No. 1 No. 2 No. 3 No. 4

No. 1 o,ooooooi 0,737456 0,714811 2,186660

No. 2 0,858752 0,000000 2,733663 0,680093

No. 3 0,845465 1,478736 1,653379 0,000000 5,394387

No. 4 0,824678 2,322582 0,000000

Рис. 7. Евклидовы расстояния между кластерами.

Указаны средние величины класса по всем переменным (наблюдениям). По вертикали указаны номера классов, а по горизонтали - переменные (наблюдения). Кластерные центры можно считать объединенными характеристиками всех объектов, входящих в группу (рис. 7).

Приведены расстояния между классами. И по вертикали и по горизонтали - номера кластеров. Таким образом, при пересечении строк и столбцов указаны расстояния между соответствующими классами. Причем выше диагонали (на которой стоят нули) указаны квадраты расстояний, а ниже -просто евклидово расстояние. Матрица евклидовых расстояний позволяет убедиться, что различия между кластерами действительно существуют. Нет расстояния, равного нулю, между какими-либо двумя различными группами.

Далее выводятся показатели, позволяющие анализировать каждый кластер: дисперсионный анализ (Analysis of Variance), графическое представление кластерных центров (Graph of means), основные статистики (среднее, стандартное отклонение, дисперсия) для каждого

кластера (Descriptive Statistics for each cluster) (рис. 8). В таблице приведена межгрупповая и внутригрупповая дисперсии, где строки - переменные (наблюдения), столбцы - показатели для каждой переменной: дисперсия между кластерами, число степеней свободы для межклассовой дисперсии, дисперсия внутри кластеров, число степеней свободы для внутриклассовой дисперсии, F-критерий для проверки гипотезы о неравенстве дисперсий. Проверка данной гипотезы похожа на проверку гипотезы в дисперсионном анализе, когда делается предположение, что уровни фактора не влияют на результат.

Описательная статистика для каждого из четырех кластеров приведена на рис. 9.

Analysis of Variance

Variable Between ss df Within ss df f signif. p

Si02 13,35969 3 2,323681 10 27,0546 0,000041

Zr02 37,32373 3 0,646611 10 192,4326 0,000000

Hr02 2,67005 3 0,918920 10 9,6855 0,002641

Fe203 0,04365 3 0,067947 10 2,1415 0,158397

tr2o3 0,05510 3 0,267667 10 0,6862 0,580654

Рис. 8. Результаты дисперсионного анализа.

Variable Descriptive Statistics for Cluster 1 Cluster contains 3 cases

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Mean Standard Deviation Variance

SiO£ 32,83667 0,167432 0,028033

Zr02 65,16333 0,211266 0,044633

Hr02 1,17667 0,627721 0,394033

Fe203 0,11333 0,23000 0,070233 0,000000 0,004933 0,000000

tr2o3

Descriptive Statistics for Cluster 4" Cluster contains 3 cases

Variable Mean Standard Deviation Variance

Si02 31,02333 0,060277 0,003633

Zr02 67,84333 0,515008 0,265233

Hr02 0,49667 0,011547 0,000133

Fe203 0,12000 0,051962 0,002700

tr2o3 0,24667 0,223681 0,050033

Рис. 9. Описательная статистика для каждого кластера.

В каждом окне в строках указаны переменные (наблюдения), а по горизонтали их характеристики, рассчитанные для данного класса: среднее, несмещенное среднеквадратическое отклонение, несмещенная дисперсия.

Members of Cluster Number 3 (Spreadsheet(4MpK0H).sti and Distances from Respective Cluster Center Cluster contains 5 cases Members of Cluster Number 4 (S and Distances from Respective C Cluster contains 3 cases

Case No. С 5 Case No. С 10 Case No. С 11 Case No. С 12 Case No. С 13 Case No. С 7 Case No. С 8 Case No. С 9

Distance 0,117429 0,306742 0,100929 0,230851 0,501204 Distance 0,254497 0,249991 0,037001

Рис. 10. Члены каждой группы и расстояния между ними.

В каждом окне указывается общее число элементов, отнесенных к этому кластеру, в верхней строке - номер наблюдения (переменной), отнесенного к данному классу и евклидово расстояние от центра класса до этого наблюдения (переменной). Центр класса - средние величины по всем переменным (наблюдениям) для этого класса.

Кластерный анализ методом ^-средних дополняет и уточняет картину, полученную с помощью иерархического кластерного анализа. Однако конфигурация кластеров не поддается представлению в графическом виде.

1. Дюран Б., Оделл П. Кластерный анализ. - М.: Статистика, 1997.

2. Мандель И. Д. Кластерный анализ. - М.: Финансы и статистика, 1998.

3. Справочник по математическим методам в геологии / А. А. Родионов, Р.И. Коган, В. А. Голубев и др. -М.: Недра, 1987.

i Надоели баннеры? Вы всегда можете отключить рекламу.