Научная статья на тему 'АНАЛИЗ МНОГОМЕРНЫХ ДАННЫХ ПО СОСТАВУ ГАЗОВ, ВЫДЕЛЯЕМЫХ ИЗ РАЗЛОМОВ ЗЕМНОЙ ПОВЕРХНОСТИ'

АНАЛИЗ МНОГОМЕРНЫХ ДАННЫХ ПО СОСТАВУ ГАЗОВ, ВЫДЕЛЯЕМЫХ ИЗ РАЗЛОМОВ ЗЕМНОЙ ПОВЕРХНОСТИ Текст научной статьи по специальности «Науки о Земле и смежные экологические науки»

CC BY
20
4
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЭКСПРЕСС-ДИАГНОСТИКА / КЛАСТЕРНЫЙ АНАЛИЗ / МНОГОМЕРНАЯ ПЛОТНОСТЬ ВЕРОЯТНОСТИ / ОБРАБОТКА МНОГОМЕРНЫХ ДАННЫХ

Аннотация научной статьи по наукам о Земле и смежным экологическим наукам, автор научной работы — Новиков Л. В., Кузьмин А. Г., Титов Ю. А.

Предлагается метод экспресс-прогноза состояния земной коры (в том числе прогноза землетрясений и извержений вулканов) по составу и интенсивности газов, регистрируемых в местах разломов земной поверхности. Метод основан на обучении без учителя с использованием большого объема предварительно собранных данных о составе и концентрации газов, выделяемых в зоне разломов земной коры. Состав и концентрация этих газов содержат информацию о процессах, происходящих в глубине Земли, что позволяет с некоторой вероятностью предсказать землетрясения или другие катастрофические события. Собранные данные служат для обучения системы распознавания вновь полученных данных путем формирования системы кластеров, каждый из которых является маркером того или иного процесса в земной коре. Близость в многомерном пространстве новых данных к ядру кластера является вероятностной мерой события, вызвавшего выброс газовой смеси, аналогичной кластеру.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по наукам о Земле и смежным экологическим наукам , автор научной работы — Новиков Л. В., Кузьмин А. Г., Титов Ю. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ANALYSIS OF MULTIDIMENSIONAL DATA ON THE COMPOSITION OF GASES EMITTED FROM FAULTS IN THE EARTH'S SURFACE

The composition and intensity of gases recorded at fault location on the earth's surface are used to make an express forecast of the state of the earth's crust (including the forecast of earthquakes and volcanic eruptions) by. The method is based on unsupervised learning using a large amount of pre-collected data on the composition and concentration of gases released in the fault zone of the earth's crust. The composition and concentration of these gases contain information about the processes occurring in the depths of the earth, which makes it possible to predict earthquakes or other catastrophic events with some probability. The collected data serve to train the recognition system for newly received data by forming a system of clusters, each of which is a marker of a particular process in the earth's crust. The proximity of new data in the multidimensional space to the core of the cluster is a probabilistic measure of the event that caused the release of a gas mixture similar to a cluster.

Текст научной работы на тему «АНАЛИЗ МНОГОМЕРНЫХ ДАННЫХ ПО СОСТАВУ ГАЗОВ, ВЫДЕЛЯЕМЫХ ИЗ РАЗЛОМОВ ЗЕМНОЙ ПОВЕРХНОСТИ»

ISSN 0868-5886

НАУЧНОЕ ПРИБОРОСТРОЕНИЕ, 2023, том 33, № 1, c. 86-94

МАТЕМАТИЧЕСКИЕ МЕТОДЫ -

И МОДЕЛИРОВАНИЕ В ПРИБОРОСТРОЕНИИ

УДК 543.612/ 621/ 684

© Л. В. Новиков, А. Г. Кузьмин, Ю. А. Титов, 2023

АНАЛИЗ МНОГОМЕРНЫХ ДАННЫХ ПО СОСТАВУ ГАЗОВ, ВЫДЕЛЯЕМЫХ ИЗ РАЗЛОМОВ ЗЕМНОЙ ПОВЕРХНОСТИ

Предлагается метод экспресс-прогноза состояния земной коры (в том числе прогноза землетрясений и извержений вулканов) по составу и интенсивности газов, регистрируемых в местах разломов земной поверхности. Метод основан на обучении без учителя с использованием большого объема предварительно собранных данных о составе и концентрации газов, выделяемых в зоне разломов земной коры. Состав и концентрация этих газов содержат информацию о процессах, происходящих в глубине Земли, что позволяет с некоторой вероятностью предсказать землетрясения или другие катастрофические события. Собранные данные служат для обучения системы распознавания вновь полученных данных путем формирования системы кластеров, каждый из которых является маркером того или иного процесса в земной коре. Близость в многомерном пространстве новых данных к ядру кластера является вероятностной мерой события, вызвавшего выброс газовой смеси, аналогичной кластеру.

Кл. сл.: экспресс-диагностика, кластерный анализ, многомерная плотность вероятности, обработка многомерных данных

ВВЕДЕНИЕ

Газовые смеси, выделяемые из разломов земной коры, как правило, содержат несколько компонентов. Чаще всего встречаются: СО2, СН4, Не, Н^, Н2, 02 и другие в зависимости от места расположения разлома [1]. В многомерном пространстве данных, например, семь компонентов представлены в виде точки в семимерном пространстве. Множество замеров, выполняемых в течение некоторого промежутка времени, образует "облако", которое может состоять из нескольких тысяч точек данных. При этом концентрация каждого компонента в "облаке" и в целом спектр зависят от внутренних процессов, происходящих в земной коре, т.е. содержат информацию о разломе как геологическом объекте. Если эти процессы близки и повторяются, также близки интенсивности выделяемых газов, и в многомерном пространстве каждый из таких процессов образует группу (кластер) близко расположенных точек. В результате длительного наблюдения с использованием различных приборов может быть установлена статистическая связь между спектральным составом газов и внутренними физико-химическими процессами в земной коре. В дальнейшем, используя полученные результаты, по единичным замерам состава газов можно с некоторой вероятностью предсказать характер происходящих в земной коре процессов.

Этот подход может быть положен в основу метода экспресс-прогноза текущего состояния зем-

ной коры на основе масс-спектрометрического мониторинга состава газов. Процедура прогнозирования производится в три этапа.

Первый этап:

- наблюдение в течение продолжительного времени с регистрацией спектров газов — формирование обучающей выборки;

- формирование кластеров спектров и установление их связи с физико-химическими процессами в земной коре.

Второй этап:

текущее измерение спектра газов и определение его принадлежности тому или иному кластеру по минимуму расстояния между его центром (цен-троидой) и точкой спектра в многомерном пространстве.

Третий этап:

выводы о вероятности процессов, происходящих в земной коре.

ОБРАБОТКА ДАННЫХ Теория

Для накопления данных о составе и интенсивности газов, выделяемых в разломах земной поверхности, целесообразно проводить параллельные замеры в нескольких разломах в одном геологическом районе в течение длительного промежутка времени с одновременной регистрацией процессов, происходящих в земной коре, с помощью других

приборов. Эти данные назовем обучающей группой, т.к. в дальнейшем они необходимы для сопоставления с текущими замерами и принятия решения о возможных последствиях.

В результате одного замера регистрируется несколько компонентов газа, образуя вектор-строку [хп, х,.2,..., ], где х7 р — интенсивность /-го

компонента 7-го замера обучающей группы, причем 7 = 1,2,...,I. Набор из I замеров Jрегистрируемых компонент газа образует (I, J) обучающую матрицу X, столбцы которой обозначим как X/ : X = [X!,..., X /,..., X J ] [2].

После достаточно длительного наблюдения с выполнением одного-двух замеров в сутки обучающая матрица X содержит ряд групп (кластеров), близких по времени измерений. Кластеры отличаются интенсивностью, а иногда и составом газов в зависимости от характера процессов, происходящих в земной коре в момент измерений.

Обозначим через Xk к -й кластер, к = (1, 2, 3, ..., К), где К — число кластеров. Кластер представляет собой матрицу из 1к строк (1к << I)

и J столбцов. Каждая строка матрицы образует в J-мерном пространстве точку, а все строки — "облако" из 1к точек. Центр этого "облака", центроида кластера, имеет координаты в виде средних значений по столбцам: X = [ Х1 , Х2,...., Х} ]

и дисперсий о2 = [^й, а\к, .., и]к].

Идентификация новых замеров

Разбиение обучающих замеров на кластеры и их идентификация с определенным процессом в коре завершает обучение системы обработки данных. Для надежной идентификации новых замеров по обучающим данным число элементов в кластере должно быть как минимум больше трех.

Пусть очередной замер воздуха в разломе — ^ = [хлхл,2, ..., хл; ] , где хЛ,з — текущая интенсивность компонента газовой смеси в разломе. Задача состоит в том, чтобы по этому замеру с некоторой вероятностью можно было судить о физико-химических процессах в недрах Земли, для чего оценим расстояние в многомерном пространстве между точкой Xd и центроидой к-го кластера

Xk . Это расстояние в евклидовой метрике определяется как

Рк = (Xd -^)(Xd -^),

символ транспонирования матрицы.

(1)

Принадлежность замера Xd тому или иному кластеру к0 определяется по минимуму расстояния Рк :

Рк0 = П1/)п(Рк). (2)

(к)

Очевидно, что величина рк определяет также вероятность определенного процесса, происходящего в момент замера: при рк = 0 эта вероятность должна быть равна единице, а при удалении точки Xd от центроиды — уменьшаться до нуля. Этим свойством обладает функция плотности вероятности Р (Xd) случайной величины Xd со средним

— к " значением X и дисперсией данных, входящих

в этот кластер, о2к:

Р (X , ) =

= ж • ехр {-1 (X„ - XXк)' К-1 (X„ - Xк)

(3)

где К — ковариационная матрица: К =

= Е

( X - X )•( X - X)

, Е — символ математиче-

ского ожидания, Ж — нормирующий множитель. Из условия равенства вероятности Р (Xd ) единице при р = 0, должно быть Ж = 1. Условие принадлежности замера Xd кластеру Xk имеет вид: Р (Xd ) < а , где величина а выбирается методом экспертной оценки.

Метод главных компонент

Однако непосредственное использование приведенных формул для разделения данных на кластеры и расчета величины Р сопряжено с ошибками, вызванными наличием большого числа параметров J и корреляционных связей между столбцами матрицы X . Для сжатия данных, сокращения размерности пространства измерений используют ортогональное преобразование данных в пространство главных компонент — метод главных компонент (МГК) [3].

Для перехода в пространство ГК формируется новая матрица, состоящая из всех строк матрицы X и строки Xd . Обозначим эту матрицу как X!. Тогда в новой системе координат:

X1 = Т • Р' + е = £ t р р' + е

(4)

р=1

где рр — собственные функции ковариационной матрицы К. Матрицу Т называют матрицей

счетов Т = [Т1,Т2, ...,ТА], ее размерность — (I х А);

матрицу Р называют матрицей нагрузок, ее размерность — (I х А); е — это матрица остатков (шумов) размерности (I х J); векторы-столбцы

Т (у = (1,2,...,А)) называют главными компонентами (ГК), А — число главных компонент. Величина А значительно меньше числа переменных J. Это означает, что основная информация сосредоточена в нескольких первых ГК. Последняя строка этой матрицы, вектор Тй — координаты параметров тестируемого состава воздуха в пространстве ГК: Т, = ^ ..., ^ ] .

Из данных в новой системе координат формируются кластеры Тк — матрицы из 1к строк (1к << I) и А столбцов. Центроида кластера имеет координаты в виде средних значений по столб-

Тк _ урк грк грк и ^

= 1А , T2,...., та ] и дисперсий

2 Г 2 _2 _2

°к = |_СТ1к , СТ1к , ..., СТАк ] .

Свойство разложения по ГК таково, что дисперсия быстро уменьшается уже к четвертой ГК, а столбцы матрицы Т не коррелированы, т.е.

там процессам. Затем, используя подходящий алгоритм кластеризации [4], разбивают накопленные данные на кластеры Хк, каждый из которых отображает определенный физико-химический процесс в земной коре. Может быть использован другой вариант разбиения накопленных данных на кластеры: сортировка данных по принадлежности к процессу, происходящему в земной коре в момент замера состава выделяемых газов.

На этапе диагностики выполняется следующая последовательность операций:

1. Измеряются состав и концентрация диагностируемого источника газа и формируется вектор-

стр°ка X, = {х,^ ха,2,..., ха J).

2. Отображение данных матрицы X и замера XЛ , т.е. матрицы XI = [X; XЛ ], в пространство ГК (4).

3. Вычисляется расстояние по формуле (6) и определяется ближайший кластер по минимуму расстояния (2).

4. Определяется вероятность Р по формуле (5)

5. Анализ результата вычисления вероятности.

ПРОВЕРКА АЛГОРИТМА

Тк (Тк У=10 пРи П Ф т,

"> [ст2 прип = т.

Учитывая это обстоятельство, в новой системе координат вероятность принадлежности нового замера кластеру к вычисляется по формуле:

Р(Т,) = ехр|-1 (Т, -Тк)'с-2 (Т, -Тк)

= ехр

1 А (

- 2 £(

2 у=1

'к, у

(5)

Евклидово расстояние от замера с индексом до центроиды к-го кластера равно:

, 1/2

Рк = (Т - Тк)' (т, - Тк ) = Щ^. - г:

(6)

„у=1

ОПИСАНИЕ АЛГОРИТМА

Обработка данных состоит из двух этапов: обучение и диагностика.

На этапе обучения формируется обучающая матрица X путем набора данных о составе и концентрации компонентов воздуха в местах выделения газа и привязки этих данных к происходящим

Проиллюстрируем изложенную выше теорию на примере реальных 1024 замеров состава газа, выполненных в Ленинградской области.

На рис. 1 показан пример масс-спектра одного из замеров состава газовой смеси: СН4, N2, 02, С02, Аг. Замеры выполнялись ежедневно один

ю2.

н Лп\

8 10 X

т

0

н 10

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1

I

I

!

10

Рис. 1. Спектр одного из замеров состава смеси

СН4 N2 02 С02 Аг

Газ

2

2

)

£ 100 О 50

и ь о о

X

со

0

X

ф

ь

1

0

Кластер 1

3 ю

Табл. 2. Характеристики точек-замеров кластера 3

0

100 50 0

500 1000

Кластер 2

с 3 < р с р ■ в с » с > 3

0

100 50 0

500 1000

Кластер 3

0

500 1000

День замера данных

№ кластера Расстояние Вероятность

от замера

до центроиды

кластера

1 105.8 0

2 101 0

3 0.4 0.3371

4 136.91 0

5 4.5 0.007

6 664.4 0

7 28 0

8 67.6 0

9 217.4 0

а ® ® Е С рс Р в |) ( )

Рис. 2. Связь кластеров и времени наблюдений

раз в сутки. Данные, накопленные в течение про должительного времени с использованием иер архического агломеративного алгоритма [4], разделены на кластеры, каждый из которых состоит из более чем десяти замеров близких по интенсивности компонентов газа. На рис. 2 показано расположение трех кластеров на временной шкале продолжительностью более 1000 дней наблюдений: каждый кластер связан с определенным временем и, соответственно, процессом, происходящим в земной коре. (На рисунке приведен только метан.)

В табл. 1 (столбец 2) приведено евклидово расстояние одного из замеров до девяти кластеров, вычисленных по формуле (6). Из таблицы следует, что замер принадлежит третьему кластеру с вероятностью 0.33, вычисленной по формуле (5) (столбец 3).

Табл. 1. Пример расположения замера относительно кластеров

№ замера из кластера 3 Расстояние от замера до центроиды кластера 3 Вероятность соответствующего геособытия

1 0.3442 0.0982

2 0.4309 0.1366

3 0.3153 0.1456

4 0.484 0.1709

5 0.7648 0.1825

6 1.0106 0.1833

7 0.7499 0.2241

8 0.4035 0.3371

9 0.7676 0.3864

10 0.303 0.428

11 0.143 0.4333

12 0.0725 0.4882

13 0.1344 0.546

14 0.1367 0.5643

15 0.0169 0.7377

Далее выберем пятнадцать замеров, принадлежащих третьему кластеру, но расположенных в разных точках "облака" этого кластера. В табл. 2 во втором столбце приведены расстояния до центроиды кластера, а в третьем столбце — вероятность события в земной коре, вызвавшего соответствующее выделение газов. Видно также, что чем ближе расположен замер к центру кластера, тем больше вероятность события. В приведенном примере замер номер 1 вероятнее всего принадлежит другому кластеру. Тогда по приведенной выше методике находят этот кластер и определяют соответствующую вероятность.

ЗАКЛЮЧЕНИЕ

Система диагностики процессов в земной коре, состоящая из прибора для количественного измерения состава воздуха в местах выделения газа и средства обработки данных с возможностью обучения и определения вероятности происходящих в земной коре процессов, обеспечивает экспресс-анализ состояния земной коры. Диагностика с определением вероятности принадлежности состава выделяемого газа одному из обучающих кластеров позволяет составить общую картину вероятных событий в земной коре и при необходимости принять соответствующие решения относительно вероятности определенных геологических процессов в данном регионе.

Благодарности

Авторы выражают благодарность К.Н. Котову за предоставленные образцы газовых смесей.

Работа выполнена в ИАП РАН в рамках государственного задания № 122040600002-3.

СПИСОК ЛИТЕРАТУРЫ

1. Кузьмин Ю.Д., Кузьмин А.Г. Масс-спектрометри-ческий анализ состава газов на термальных площадках Камчатки в полевых условиях // Труды III научно-технической конференции "Проблемы комплексного геофизического мониторинга Дальнего Востока России", г. Петропавловск-Камчатский, 9-15 октября 2011 г. Обнинск: ГС РАН, 2011. С. 1-5.

2. Большаков А.А., Каримов Р.Н. Методы обработки многомерных данных и временных рядов. Учебное пособие для вузов. М.: Горячая линия-Телеком, 2007. 522 с.

3. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешал-кин Л.Д. Прикладная статистика. Классификация и снижение размерности. М.: Финансы и статистика, 1989. 607 с.

4. Мандель И.Д. Кластерный анализ. М.: Финансы и статистика, 1988. 176 с.

Институт аналитического приборостроения РАН, г. Санкт-Петербург

Контакты: Кузьмин Алексей Георгиевич, agqz5 5 @rambler. ru

Материал поступил в редакцию 24.10.2022

ISSN0868-5886 NAUCHNOE PRIBOROSTROENIE, 2023, Vol. 33, No. 1, pp. 86-94

ANALYSIS OF MULTIDIMENSIONAL DATA ON THE COMPOSITION OF GASES EMITTED FROM FAULTS IN THE EARTH'S SURFACE

L. V. Novikov, A. G. Kuzmin, Yu. A. Titov

Institute for Analytical Instrumentation of RAS, Saint Petersburg, Russia

The composition and intensity of gases recorded at fault location on the earth's surface are used to make an express forecast of the state of the earth's crust (including the forecast of earthquakes and volcanic eruptions) by. The method is based on unsupervised learning using a large amount of pre-collected data on the composition and concentration of gases released in the fault zone of the earth's crust. The composition and concentration of these gases contain information about the processes occurring in the depths of the earth, which makes it possible to predict earthquakes or other catastrophic events with some probability. The collected data serve to train the recognition system for newly received data by forming a system of clusters, each of which is a marker of a particular process in the earth's crust. The proximity of new data in the multidimensional space to the core of the cluster is a probabilistic measure of the event that caused the release of a gas mixture similar to a cluster.

Keywords: express diagnostics, cluster analysis, multivariate probability density, multivariate data processing

INTRODUCTION

Gas mixtures released from faults in the earth's crust, as a rule, contain several components. Most often, there are: C02, CH4, He, H2S, H2, N2, O2 and others, depending on the location of the crust [1]. In a multivariate data space, for example, seven components are represented as a point in a seven-dimensional space. Many measurements taken over a period of time form a "cloud," which can consist of several thousand data points. The concentration of each component in the "cloud" and the spectrum as a whole depend on the internal processes occurring in the earth's crust, i.e., contain information about the fault as a geological object. If these processes are close and repeated, the intensity of the gases released is also close, and in multidimensional space each of these processes forms a group (cluster) of closely spaced points. As a result of long-term observation using various instruments, a statistical relationship can be established between the spectral composition of gases and internal physicochemical processes in the earth's crust. Subsequently, using the results obtained, from sample measurements of the composition of gases, it is possible, with some probability, to predict the nature of the processes occurring in the earth's crust.

Based on mass spectrometric monitoring of gas composition, this methodology can be used to expressly forecast the current condition of the earth's crust. The forecasting procedure is carried out in three stages.

First stage:

- long-term observation with recording of gas spectra, i.e., formation of a training sample;

- the formation of spectral clusters and establishment of their relation to physicochemical processes in the Earth's crust.

Second stage:

ongoing measurement of the spectrum of gases and determination of its belonging to a particular cluster by the minimum distance between its center (centroid) and the point of the spectrum in multidimensional space.

Third stage:

conclusions about the probability of processes occurring in the Earth's crust.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

DATA PROCESSING Theory

In order to accumulate data on the composition and intensity of gases released in faults on the earth's surface, it is advisable to carry out parallel measurements in several faults in one geological area for a long period of time with simultaneous recording of processes occurring in the earth's crust using other instruments. We will call this group of data a training group, since in the future they will be necessary for comparison with ongoing measurements and making decisions on possible consequences.

As a result of one measurement, several gas components are recorded, forming a vector row

92

K. B. HQBHKQB, A. r. KY3BMHH, ro. A. THTQB

[xn, xi2,..., xtj], where ■ is the intensity of the j-

th component of the i-th measurement of the training group, wherein i = 1,2,...,I. A set of I measurements

of J recorded gas components forms (I, J) a training

matrix X, which columns are denoted as X j:

X = [Xt,..., X j,..., X J ] [2].

After a sufficiently long observation with one or two measurements per day, the training matrix X contains a number of groups (clusters) of measurements that are close in time. Clusters differ in intensity and sometimes in composition of gases, depending on the nature of the processes taking place in the earth's crust at the time of measurements. Let's use the Xk to denote k-th cluster, k = (1, 2, 3, ..., K), where K is the number of clusters. A cluster is a matrix of Ih rows (Ik << I) and J columns. Each row of the matrix forms a point in J-dimensional space, and all rows form a "cloud" of Ik points. The center of this

"cloud," the cluster centroid, has coordinates in the form of average values in the columns Xk = [Xk, X2k,...., Xk], the variance is o2 =

= [CTi2k, °u,..., ].

Identification of new measurements

Splitting the training measurements into clusters and identifying them with a specific process in the earth's crust completes the training of the data processing system. The number of cluster elements must be greater than three in order to reliably identify new measurements using training data.

Let the next measurement of the air in the crust —

Xd =[XdXd,2, ..., XdJ ] , where Xd,j — the °ng°ing

intensity of the gas mixture component in the crust. The question is whether this measurement can be used to assess the physicochemical processes in the bowels of the earth. For this purpose, we estimate the distance in the multidimensional space between the point Xd

and the centroid Xk of the k-th cluster. This distance in the Euclidean metric is defined as

Pk = (Xd -Xk)'(Xd -Xk), (i)

t

is a matrix transpose symbol.

The minimum distance p k determines whether the measurement Xd belongs to a particular cluster

k0:

Obviously, the value pk also determines the probability of a certain process that occurs at the time of measurement: if pk = 0 this probability is equal to 1, and if a point Xd moves away from the centroid, it decreases up to zero. This property has a probability density function P ( Xd ) of a random variable Xd

with an average value xk and variance o 1 of data in this cluster:

P ( X d ) =

= W • exp 1 ( Xd

1 - ' -- ( X d - Xk ) K-1 ( X d - xk )

(3)

where K is the covariance matrix: K =

= E

i

( X - X )•( X - X )

E is the expected value

symbol, W is the normalizing factor. Under the condition of equality of probability P (Xd) to 1 if p = 0, W = 1. The condition of measurement Xd belonging to the cluster Xk has the form: P(Xd)<a, where the value a is selected by the expert assessment method.

Principal Component Analysis

However, the direct use of the given formulas to divide the data into clusters and calculate the P value is associated with errors caused by the presence of a large number of parameters J and correlation relationships between the columns of the matrix X . To compress data, reduce the dimension of the measurement space, an orthogonal transformation of the data into the space of the main components is used — the Principal Component Analysis (PCA) [3].

For the transition to the PC space, a new matrix is formed, consisting of all the rows of the matrix X and the row Xd . Denote this matrix as X1. Then in the new coordinate system:

X1 = T • P' + e = £ t . p'. + e,

j=i

(4)

where p j — eigenfunctions of the covariance matrix K. The matrix T is called the matrix of accounts T = [T1,T2,...,TA], its dimension — (I x A); a matrix

P is called a load matrix, its dimension is (I x A); e — a matrix of residues (noise) of dimension

(I x J); column vectors T;. (j = (1,2,..., A)) are

called principal components (PCs), A — the number of main components. The value A is significantly less than the number of variables J. This means that the main information is concentrated in the first few PCs.

HAYHHQE nPHBQPQCTPQEHHE, 2023, tom 33, № 1

The last row of this matrix, vector Td is the coordinates of the parameters of the tested air composition in the pC space: Td =[tdtd^

t

d, A

From the data in the new coordinate system, clusters Tk are formed — matrices of Ik rows (Ik << I) and A columns. The cluster centroid has coordinates in the form of average values in columns

Tk = [Tk, Tk,...., Tk 1. The

= 1 ff

ik>

'ik'

a

A ]

21 Ak ]•

variance

The PC decomposition property is such that the dispersion decreases rapidly by the fourth PC, and the columns of the matrix Tk are not correlated, i.e.

At the diagnostic stage, the following sequence of operations is performed:

1. The composition and concentration of the diagnosed gas source are measured, and a string vector

Xd ={Xd,1, Xd,2, ..., Xd,J } is formed.

2. Mapping of the matrix X data and measurement result X d , i.e., the matrix X1 = [X; X d ] in the

PC space (4).

3. The distance is calculated using the formula (6) and the nearest cluster is determined by the minimum distance (2).

4. Probability P is determined by formula (5)

5. Analysis of the probability calculation result is carried out.

Tk iтк \

m y n J

0 при n Ф m, Ict2 при n = m.

Given this circumstance, in the new coordinate system, the probability of belonging to the new measurement to the cluster k is calculated using the formula:

P (Td ) = exp {-1(Td - Tk )' a;2 (Td - Tk )} =

= exp

1 A

- 2 ^

2 j=i

(td,j - j )2

'k, j

(5)

The Euclidean distance from the measurement with index d to the centroid of the k-th cluster is:

ALGORITHM CHECK

Let's illustrate the above theory using the example of real 1024 gas composition measurements taken in the Leningrad Region, Russia.

Fig. 1 shows an example of the mass spectrum of one of the gas mixture composition measurements: CH4, N2, O2, CO2, Ar. The measurements were taken once a day. The data accumulated over a long period of time using the hierarchical agglomerative algorithm [4] are divided into clusters, each of which consists of more than ten measurements of gas components similar in intensity.

Fig. 1. Spectrum of one of the mixture composition measurements

Pk =

( Td - Tk )'(Td - Tk ( td, j - tk )

J=i

ALGORITHM DESCRIPTION

(6)

Fig. 2 shows the location of three clusters on a time scale lasting more than 1000 days of observations: each cluster is associated with a certain time and, accordingly, with a process occurring in the earth's crust. (The figure shows only methane).

Data processing consists of two stages: training and diagnostics.

At the training stage, a training matrix X is formed by collecting data on the composition and concentration of air components at gas release points and linking this data to the processes taking place there. Then, using a suitable clustering algorithm [4], the accumulated data is divided into clusters Xk, each of which maps a certain physicochemical process in the earth's crust. Another variant of splitting the accumulated data into clusters can be used: sorting the data according to the processes taking place in the earth's crust at the time of measuring the composition of the released gases.

Fig. 2. Example of distribution of methane concentrations assigned to 3 clusters on the time axis

Tab. 1 (column 2) shows the Euclidean distance of one of the measurements to nine clusters calculated using formula (6). It follows from the table that the measurement belongs to the third cluster with probability 0.33, calculated by formula (5) (column 3).

Tab. 1. An example of the location of the measurement result relative to clusters

2

2

2

2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

94

K. B. HQBHKQB, A. r. KY3BMHH, ro. A. THTQB

Next, we select fifteen measurement results belonging to the third cluster, and located at various points in this cluster's cloud. In Tab. 2, the second column shows the distances to the cluster centroid, and in the third column — the probability of an event in the earth's crust that caused the corresponding release of gases. You can also see that the closer the measurement result is to the center of the cluster, the more likely the event is. In the example shown, measurement result number 1 most likely belongs to another cluster. Then, using the above method, this cluster is found and the corresponding probability is determined.

Tab. 2. Characteristics of cluster 3 measurement results points

CONCLUSION

The system for diagnosing processes in the earth's crust, consisting of a device for quantitative measurement of the composition of air in places of gas release and a data processing tool capable of learning and determining the probability of processes occurring in the earth's crust, provides an express analysis of the state of the earth's crust. Diagnostics with the determination of the probability that the composition of the released gas belongs to one of the training clusters makes it possible to compile a general picture of probable

Contacts: Kuzmin Aleksey Georgievich, agqz55@rambler.ru

events in the earth's crust and, if necessary, make appropriate decisions regarding the likelihood of specific geological processes in a given region.

REFERENCES

1. Kuzmin Yu.D., Kuzmin A.G.[Mass spectrometry analysis of gas composition at Kamchatka thermal sites in the field]. Trudy III nauchno-technicheskoy konferenzii "Problemy kompleksnogo geofizicheskogo monitoringa Dal'nego Vostoka Rossii", g. Petropavlovsk-Kamchatskiy, 9-15 oktyabrya 2011 g. [Proceedings of the III Scientific and Technical Conference "Problems of Integrated Geophysical Monitoring of the Russian Far East", Petropav-lovsk-Kamchatsky, October 9-15, 2011], Obninsk, GS RAN Publ., 2011, pp. 1-5. (In Russ.).

2. Bolshakov A.A., Karimov R.N. Metody obrabotki mno-gomernych dannych i vremennych ryadov. Uchebnoe po-sobie dlya vuzov [Methods for processing multidimensional data and time series. A textbook for universities]. Moscow, Goryachaya liniya-Telekom Publ., 2007. 522 p. (In Russ.).

3. Ayvazyan S.A., Buchshtaber V.M., Enyukov I.S., Me-shalkin L.D. Prikladnaya statistika. Klassifikaziya i sniz-henie razmernosti [Applied statistics. Classification and dimensioning]. Moscow, Finansy i statistika Publ., 1989. 607 p. (In Russ.).

4. Mandel I.D. Klasternyy analiz [Cluster analysis]. Moscow, Finansy i statistika Publ., 1988. 176 p. (In Russ.).

Article received by the editorial office on 24.10.2022

i Надоели баннеры? Вы всегда можете отключить рекламу.