Научная статья на тему 'Кластеризация грозовых разрядов'

Кластеризация грозовых разрядов Текст научной статьи по специальности «Математика»

CC BY
407
53
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГРОЗА / ГРОЗОВЫЕ РАЗРЯДЫ / ГРОЗОВАЯ ЯЧЕЙКА / ФРОНТАЛЬНЫЕ ГРОЗЫ / АТМОСФЕРНОЕ ЭЛЕКТРИЧЕСТВО / КЛАСТЕРНЫЙ АНАЛИЗ / НОРМИРОВАННАЯ ЕВКЛИДОВА МЕТРИКА / МЕТРИКА МАХАЛАНОБИСА / МЕТОД МИНИМАЛЬНОГО ЛОКАЛЬНОГО РАССТОЯНИЯ / МОДАЛЬНЫЙ АНАЛИЗ

Аннотация научной статьи по математике, автор научной работы — Шабаганова Светлана Николаевна

В работе рассматриваются методы кластерного анализа для выделения и нахождения основных параметров грозового очага. В отличие от многих статистических процедур, методы кластерного анализа используются в большинстве случаев тогда, когда нет каких-либо априорных гипотез относительно классов и исследователь находится в описательной стадии исследования. Для решения задачи кластеризации грозовых разрядов предлагается использование последовательно двух методов кластерного анализа с применением метрики Махаланобиса и нормированной евклидовой метрики. Результаты, полученные при помощи первого метода, не противоречат данным, использующимся в современной теории и практике, но тем не менее требуют определенной точности определения формы кластера. Это связано с тем, что, с одной стороны, в результате применения некоторых алгоритмов создаются «волокнистые» кластеры, иными словами, кластеры эллиптической формы. С другой стороны, на фронтах действительно возникают грозовые облака в форме эллипса, именуемые фронтальными грозами. В данном случае форма очага определяется воздушным потоком, напирающим на грозовое облако с подветренной стороны, придавая ему овальную форму. Применение второго метода позволяет исключить шумы при построении карт плотностей грозовых разрядов и повысить точность определения параметров при грозорегистрации пассивными радиотехническими методами.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Шабаганова Светлана Николаевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Clustering of lightning discharges

The paper discusses cluster analysis methods for identifying and finding the main parameters of a thunderstorms. Unlike many statistical procedures, cluster analysis methods are used in most cases when there are no a priori hypotheses about classes and the researcher is in the descriptive stage of the study. To solve the problem, it is proposed to use successively two methods of cluster analysis using the Mahalanobis metric and the normalized еuclidean metric. The results obtained using the first method do not contradict the data used in modern theory and practice, but, nevertheless, require a certain accuracy in determining the shape of a cluster. This is due to the fact that, on the one hand, as a result of the use of certain algorithms, “fibrous” clusters are created, in other words, clusters of elliptical shape. On the other hand, thunderstorm clouds in the shape of an ellipse do appear on the fronts, called frontal thunderstorms. In this case, the shape of the hearth is determined by the air flow, pushing against a thunderstorm cloud on the leeward side, giving it an oval shape. The use of the second method makes it possible to exclude noise in the construction of maps of densities of lightning discharges and to improve the accuracy of determining parameters during lightning registration by passive radio engineering methods.

Текст научной работы на тему «Кластеризация грозовых разрядов»

УДК 53.088

С. Н. Шабаганова

Кластеризация грозовых разрядов

СВФУ им. М.К. Аммосова, г. Якутск, Россия

Аннотация. В работе рассматриваются методы кластерного анализа для выделения и нахождения основных параметров грозового очага. В отличие от многих статистических процедур, методы кластерного анализа используются в большинстве случаев тогда, когда нет каких-либо априорных гипотез относительно классов и исследователь находится в описательной стадии исследования. Для решения задачи кластеризации грозовых разрядов предлагается использование последовательно двух методов кластерного анализа с применением метрики Махаланобиса и нормированной евклидовой метрики. Результаты, полученные при помощи первого метода, не противоречат данным, использующимся в современной теории и практике, но тем не менее требуют определенной точности определения формы кластера. Это связано с тем, что, с одной стороны, в результате применения некоторых алгоритмов создаются «волокнистые» кластеры, иными словами, кластеры эллиптической формы. С другой стороны, на фронтах действительно возникают грозовые облака в форме эллипса, именуемые фронтальными грозами. В данном случае форма очага определяется воздушным потоком, напирающим на грозовое облако с подветренной стороны, придавая ему овальную форму. Применение второго метода позволяет исключить шумы при построении карт плотностей грозовых разрядов и повысить точность определения параметров при грозорегистрации пассивными радиотехническими методами.

Ключевые слова: гроза, грозовые разряды, грозовая ячейка, фронтальные грозы, атмосферное электричество, кластерный анализ, нормированная евклидова метрика, метрика Махаланобиса, метод минимального локального расстояния, модальный анализ.

DOI 10.25587/SVFU.2019.69.25526

S. N. Shabaganova

Clustering of lightning discharges

M.K. Ammosov North-Eastern Federal University, Yakutsk, Russia

Abstract. The paper discusses cluster analysis methods for identifying and finding the main parameters of a thunderstorms. Unlike many statistical procedures, cluster analysis methods are used in most cases when there are no a priori hypotheses about classes and the researcher is in the descriptive stage of the study. To solve the problem, it is proposed to use successively two methods of cluster analysis using the Mahalanobis metric and the normalized еuclidean metric. The results obtained using the first method do not contradict the data used in modern theory and practice, but, nevertheless, require a certain accuracy in determining the shape of a cluster. This is due to the fact that, on the one hand, as a result of the use of certain algorithms, "fibrous" clusters are created, in other words, clusters of elliptical

ШАБАГАНОВА Светлана Николаевна - ст. преп. кафедры горного дела МПТИ (ф) СВФУ им. М.К. Аммосова.

E-mail: ssnik@inbox.ru

SHABAGANOVA Svetlana Nikolaevna - Senior Lecturer Departament of Mining, Mirny Polytechnic Institute M.K. Ammosov North-Eastern Federal University.

shape. On the other hand, thunderstorm clouds in the shape of an ellipse do appear on the fronts, called frontal thunderstorms. In this case, the shape of the hearth is determined by the air flow, pushing against a thunderstorm cloud on the leeward side, giving it an oval shape. The use of the second method makes it possible to exclude noise in the construction of maps of densities of lightning discharges and to improve the accuracy of determining parameters during lightning registration by passive radio engineering methods.

Keywords: thunderstorm, lightning discharges, thunderstorm cell, frontal thunderstorms, atmospheric electricity, cluster analysis, normalized euclidean metric, Mahalanobis metric, minimum local distance method, modal analysis.

Введение

При моделировании грозы, обладая только лишь информацией о времени прихода и его координатах XY, исследователь сталкивается, в виду особенностей физического процесса, с тем, что не существует аналитических методов построения грозового очага. Для решений задач такого рода рекомендуется применять методы статистического моделирования, в частности метод кластеризации.

Под кластерным анализом понимается метод изучения однородности сложных неочевидно взаимосвязанных объектов [1, 2]. Цель применения этого метода -определение однородности изучаемых объектов, если она не может быть установлена другими более простыми методами, анализ и идентификация наблюдаемых и однородных объектов. «Однородность» отражает понятие близости объектов в многомерном пространстве признаков, и тогда задача сводится к выделению в этом пространстве естественных скоплений объектов. Фактически кластерный анализ является не столько обычным статистическим методом, сколько «набором» различных алгоритмов «распределения объектов по кластерам». Существует точка зрения [3, 4], что в отличие от многих других статистических процедур, методы кластерного анализа используются в большинстве случаев тогда, когда нет каких-либо априорных гипотез относительно классов и исследователь находится в описательной стадии исследования. В связи с этим кластерный анализ определяет «наиболее возможно значимое решение».

Постановка задачи

Рассмотрим X - множество объектов, Y - множество номеров (имён, меток) кластеров. Задана функция расстояния между объектами d , X^. Имеется конечная обучающая выборка объектов Xk = {,...,xn} ci X. Требуется разбить выборку на непересекающиеся подмножества, называемые кластерами так, чтобы каждый кластер состоял из объектов, близких по метрике d, а объекты разных кластеров существенно отличались. При этом каждому объекту xt е Xk приписывается номер кластера у..

Алгоритм кластеризации - это функция а : X ^ Y, которая любому объекту x е X ставит в соответствие номер кластера y е Y . Решением задачи кластеризации является разбиение, удовлетворяющее некоторому критерию оптимальности. Этот критерий можно представить как функционал, выражающий уровни желательности различных разбиений и группировок. Его называют целевой функцией [1].

Мера сходства - есть расстояние между объектами, если X. и X. признаки объекта, то неотрицательная вещественнозначная функция d(X ,, X) называется функцией расстояния (мерой или метрикой) и:

d, Xj ) > 0, для всех X и Xj из E2; d (Xt, Xj ) = 0 , тогда и только тогда, когда Xi = X ■;

d (Xt, Xj ) = d (Xt, Xj) ; (1)

d (, X; )> d (X, х,)+d (хк, х),

где X, Хк - любые три вектора из Е2.

В том случае, когда данные представлены в количественных шкалах, в качестве метрики применяют взвешенное евклидово расстояние:

I 2 \1/2

*(, х1 )=(х;=1 ^ (- х)) , (2)

где V. - вес степени важности каждого признака.

Здесь Евклидово расстояние вычисляется по стандартизованным данным. Границы применимости в качестве меры метрики Евклида определяются несоответствием размерностей координатных осей, по координатам которых вычисляются эти расстояния. На практике часто случается, что признаки могут быть представлены в разных единицах измерения. Нормировка показателей позволяет ввести новую условную единицу измерения, допускающую формальные сопоставления объектов.

Если признаки представлены в разных единицах измерения, то можно применять расстояние Махаланобиса [5]. К основным преимуществам обобщенного расстояния Махалонобиса следует отнести учет коррелированности признаков между собой и инвариантность относительно невырожденных линейных преобразований, что избавляет от необходимости нормировки исходной матрицы наблюдений. С использованием расстояния Махалонобиса возможна статистическая проверка гипотез о равенстве двух подмножеств векторов при неизвестной ковариационной матрице [6].

Мера Махалонобиса имеет вид:

°2 (' X) = ( - X) С^ ( - X)' (3)

где (X1 — X ^ и (Х1 — X^ - прямой и транспонированный векторы расстояний между двумя классами, С-1 - обратная матрица к матрице межгруппового рассеяния [7].

В многомерном случае элементы матрицы С-1, которая является несмещенной оценкой ковариационной матрицы С, вычисляются по следующей формуле:

С = £ - х)( - х)' (4)

где I, j - количество элементов класса, (хш — X^ и (х^ — х^ - отклонения значений переменных класса от общего среднего.

Расстояние Махаланобиса характеризует в геометрическом смысле расстояние между многомерными объектами, эталоном и образцом с учетом их парных корреляционных связей между одноименными столбцами матриц, причем расстояние отсчитывается от образца до эталона. Вычисление ковариационных матриц С для векторов, состоящих из десятков и сотен переменных, - это реализуемая устойчивая техническая задача, имеющая квадратичную сложность [6]. Когда корреляция между переменными равна нулю, расстояние Махаланобиса эквивалентно евклидову расстоянию.

Последующая кластеризация может быть проведена различными алгоритмами. Наиболее популярным алгоритмом является алгоритм «ближайшего соседа», который впервые был описан Фиксом и Ходжесом в 1951 году [8]. Этот метод использует евклидово пространство описания событий, но при его простоте и точности основным недостатком является требование большой памяти [9] и медленная и (или) нестабильная сходимость алгоритма [10]. Алгоритм строит, как правило, «волокнистые», «рыхлые» кластеры, то есть кластеры, «сцепленные вместе» только отдельными элементами, случайно оказавшимися ближе остальных друг к другу [1].

Правило «дальнего соседа», объединяющее наиболее отдаленные элементы обучающей выборки, непригодно в том случае, если кластеры имеют в некотором роде удлиненную форму или их естественный тип является «цепочечным».

Также популярным методом является метод k-средних. Он был описан в работе [11]. Алгоритм, основанный на этом методе, стремится минимизировать суммарное квадратичное отклонение точек кластеров от их центроидов.

Различные меры расстояния и методы кластеризации могут выдавать различные разбиения на кластеры для одной и той же выборки. Принятие решения о разумном числе кластеров и однозначность решения поставленной задачи зависят от исследователя.

Рассмотрим используемые алгоритмы кластеризации грозовых разрядов. В работе [12] предложена итерационная процедура, характерными особенностями которой является то, что вектор-признак представляется в составе трех компонент (координаты X и У грозового разряда и время его регистрации). Эта процедура позволяет построить пространство кластеризации и пространство признаков, а переход из одного пространства в другое осуществляется с помощью оператора линейного преобразования. При этом компоненты оператора устанавливаются с учетом как характерных линейных размеров грозы, так и погрешностей систем местоопределения ударов молний. За форму грозового кластера принимают окружность.

В работе [12] приведены конкретные оценки параметров грозовых объектов и проведен их сравнительный анализ с оценками, описанными ранее в литературных источниках. И. И. Кононов в работе [13] при исследовании грозовых процессов применяет кластеризацию на основе адаптированной модификации известного алгоритма FOREL (FORmal Element) [14]. Суть алгоритма FOREL заключается в объединении в один кластер объектов в областях их наибольшего сгущения. Целью работы данного алгоритма является поиск такого разбиения множества объектов, чтобы функционал качества F был минимален:

где К. - текущий кластер, С. - центр текущего кластера, d(x,Cj) - расстояние между объектами.

В отличие от кластеризации М. С. Александрова время появления молниевых вспышек в работе анализируется отдельно от их пространственных координат. Результат работы алгоритма предоставляет возможность оценить параметры грозовых кластеров. На основе предложенного метода по характеру формируемых кластеров авторы предлагают выделить несколько типов гроз.

Для объединения разрядов в грозовые объекты в работе А. Е. Васильева применяется правило ближайшего соседа, основанное на евклидовой метрике [15]. Рассматриваются сечения грозовых кластеров в течение одного часа, а значение параметра для выделения грозового кластера равно 75 км.

В работе [16] А. А. Аджиевой применяется метод ^-средних, который требует числа кластеров, что априорно неизвестно. Для определения числа кластеров авторами используется «разведочный» алгоритм: сначала совокупность делится на два кластера, затем на три и так до тех пор, пока не будет найдено оптимальное число кластеров. Этот алгоритм позволяет определить число кластеров и сопоставить этим кластерам конкретные грозовые объекты.

Результаты, полученные в проанализированных работах, не противоречат данным, используемым в современной теории и практике, но тем не менее требуют определенной точности определения формы кластера. Это связано с тем, что, с одной стороны, в результате применения некоторых алгоритмов создаются «волокнистые» кластеры, иными словами, кластеры эллиптической формы. С другой стороны, на фронтах действительно

(5)

возникают грозовые облака в форме эллипса [17], именуемые фронтальными грозами. В данном случае форма очага определяется воздушным потоком, напирающим на грозовое облако с подветренной стороны, придавая ему овальную форму.

Для разделения массива грозовых разрядов с целью выделения и описания основных параметров грозовых объектов применяются и адаптируются комбинации известных методов кластерного анализа.

Пусть множество I = {1г, 12,---, 1п\ обозначает п объектов, в нашем случае грозовых разрядов, принадлежащих некоторой популяции п, где ж - совокупность грозовых разрядов за любой интервал времени. При этом каждый объект из множества грозовых разрядов обладает некоторым набором наблюдаемых характеристик-признаков. При решении задач классификации грозовых разрядов, с одной стороны, можно представлять вектор признака двумя координатами (координаты грозового разряда ХУ), в этом случае предлагается производить сечения по оси времени с заданными интервалами, для рассмотрения грозовой активности в динамике. Другой вариант заключается в представлении вектора признака тремя координатами, включая время прихода сигнала грозового разряда t. Результаты измерений признаков грозовых разрядов представим в виде векторов X^ = (х,уили X^ = (х,у). Данное множество X - есть п точек (разрядов) в евклидовом пространстве.

Грозовая ячейка - событие, происходящее в сравнительно небольшом промежутке времени (минуты, часы), поэтому целесообразно рассматривать не двумерный вектор признаков, где координаты ХУ этого вектора являются координатами грозовых разрядов, а вводить в рассмотрение третью координату - время t. В связи с этим в качестве метрики вводим взвешенное евклидово расстояние, где подбором весов произведем нормировку осей пространства.

Учитывая вышесказанное, для определения расстояния между грозовыми разрядами I (, у1, и I. (х., у., вводится взвешенное евклидово расстояние:

й (Х,, X, ) =

I к=1 ^ (х - Ч])

1

^ 2

2

(6)

в нашем случае:

Принято считать, что наилучшее приближение получается путем усреднения всех

1

результатов измерений с весами: wi = —^ , поэтому в качестве веса для измерений были приняты: & i

1

=-,

^ а2'

х 1

^ = ~Г> (8)

у

1

=-,

2 2 2

где Ох, °у, О{ - эмпирические (выборочные) дисперсии признаков ХУ и t соответственно, вычисляемые по формуле:

2 _ IV (х -

— \2

п

)2

!_1

=1X(у -У)2' (9)

П ¡=1

* = 1- ± ( - ' )2.

" I =1

Устойчивость кластеризации характеризуется одинаковым разбиением на кластеры как при использовании различных методов, так и различных мер схожести объектов. Поэтому предлагается в качестве теста включить метрику Махаланобиса:

Я2 (() = (( -I,(-I, ) (10)

где (II — I ^ и (( — - прямой и транспонированный векторы расстояний между

двумя классами, С 1 - обратная матрица к матрице межгруппового рассеяния.

В многомерном случае элементы матрицы С -, которая является несмещенной оценкой ковариационной матрицы С, вычисляются по следующей формуле:

С = £ ( " X ) ( " X )' (11)

где 1 - количество элементов класса, (хй — Xи (X^ — х^ - отклонения значений переменных класса от общего среднего.

Вычисление ковариационных матриц С для векторов - это устойчивая задача, имеющая квадратичную сложность, а поиск обратных ковариационных матриц - задача кубической сложности [6].

Первичная кластеризация осуществляется с помощью алгоритма ближайшего соседа, по-другому называемого методом минимального локального расстояния. Устойчивость кластеризации в предложенном алгоритме достигается аналогично методике, применяемой в методе ^-средних. Алгоритм состоит из последовательности следующих действий.

Шаг 1. Пусть обучающая выборка 1к = {,..., 1\ образует множество кластеров {/1},...,{1п}, каждый из которых представлен как (,у1,. Составляем матрицы попарных расстояний между объектами d ((, Ij I:

D =

••• 0 у

(12)

Шаг 2. Поиск наименьшего элемента матрицы попарных расстояний:

¿1 ((, I) ) = d ((, I) ). (13)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Шаг 3. Классифицируемый объект I относится к тому же классу Yj, которому принадлежит ближайший объект обучающей выборки Ij, если расстояние между кластерами не превышает 75 км, таким образом объекты I, I^ объединяются и образуют новый кластер.

Шаг 4. Найдем координаты центра тяжести полученного кластера ¡Л1 , Y¡c,tic^ :

0

Xc =11 Xik, m

Yic = -Z Yk, (14)

m

—1У

¿ic — У ¿ik •

m

Шаг 5. Количество кластеров на этом шаге - (n — l). Далее строится новая матрица расстояний, которая будет иметь размерность (n - l)x(n -l), снова находится минимальное локальное расстояние между двумя кластерами и такие кластеры объединяются в один. Условиями остановки данной процедуры являются следующие условия:

- min d (, I^ >75 км - расстояние между отдельными кластерами не меньше, чем 75 км;

- n > 6 при te [0,l] - грозовой кластер образует кластер, в котором число разрядов в течение одного часа не меньше 6; при этом на каждом шаге пересчитываются центры кластеров, что позволяет ввести функционал качества кластеризации. Сумма средних внутрикластерных расстояний должна быть как можно меньше:

ф0 =£ ^J1 Y,y, = yd ( : Vy У

=у V ■ ■ у) ^ тт> (15)

I у I

где 1у = {I е 1к \у1 = у} - кластер с номером у.

В [12] указывается, что скорость движения грозовых ячеек находится в пределах 30-40 км/час. Средний радиус грозового очага по тем же данным составляет порядка 20-40 км. Отталкиваясь от этого и учитывая часовое объединение разрядов, было принято условие по дальности для выделения грозового очага 75 км.

Используемая процедура анализа является прямым методом алгоритма кластеризации [18], и результатом проведения данной процедуры является небольшое количество относительно больших размеров кластеров популяции п.

В работе Уишарта [19] предложен метод кластеризации, называемый модальным анализом. Здесь количество кластеров определяется как общее число непересекающихся областей, чьи плотности превышают заданное значение.

Процедура модального анализа начинается с выяснения вопроса о мультимодальности данных. В случае одной характеристики необходимо построить гистограмму и вычеркнуть данные с малой частотой (седловые области). Тогда соответствующий кластер можно установить для каждой модальной области. Данные, принадлежащие седловой области, относим к ближайшей моде. В случае равноудаленности седловой области от мод, эта область делится пополам, и половины относятся к левостоящему и правостоящему кластерам.

Перенесем методы модального анализа на случай двух характеристик, когда грозовой разряд представляется как Xj = (х,_у). Данный метод применяется для каждого из полученных кластеров I.. Для этого центр оси предполагаемого эллипса, оконтури-вающего кластер, помещается в центр рассматриваемого кластера , являющегося кандидатом на разбиение. В первоначальном состоянии ось вращения совпадает с направлением на восток в системе земных координат применительно для грозовых разрядов. Следующим этапом необходимо распределить элементы кластера по интервалам группировки, каждый из которых будет содержать некоторый диапазон значений изучаемого признака. Под признаком понимается проекция удаленности грозового разряда, принадлежащего данному кластеру от центра кластера.

Для того чтобы имелась возможность выделить минимум две моды М1 и М2 и седловую область G, необходимо, чтобы минимальное число разбиений было не менее трех, а количество точек рассматриваемого кластера - не менее 15. Потому в случае нахождения в седловой области хотя бы одного элемента соседний интервал, содержащий моду, должен отличаться минимум на 2<г стандартных отклонения.

Предполагаем, что закон распределения плотности грозовых разрядов пуассоновский, поскольку описывает вероятностное распределение дискретного типа, а при регистрации грозовых разрядов в разбиваемых интервалах часто содержится малое число элементов.

Для закона распределения Пуассона стандартное отклонение равно л/п , следовательно, минимальное значение элементов в таком интервале п = 7. Если же количество элементов рассматриваемого кластера меньше 15, то считаем, что для него модальный анализ не применим, и данный кластер оставляем без изменения.

Если количество элементов больше 15, то выбирается количество интервалов разбиения k оси X таким образом, чтобы в каждом интервале было не менее 5 элементов. Длины интервалов по оси X примем равными и ширину интервала определяем по общепринятой формуле Стерджеса:

Ь _ Хтах Хтт (16)

Х_ к '

Тест на мультимодальность проводим следующим образом. После построения гистограммы частот производится сортировка интервалов разбиения по убыванию в нем частот попадания элементов. Интервал с наибольшим значением частоты считается интервалом «главной» моды. Предполагается, что интервал со следующим максимальным значением есть интервал, содержащий выборочную моду, при условии, что она не принадлежит интервалу, смежному с интервалом «главной» моды. Определяется наличие седловой области G между ними, отличающейся по значению частот в ней от обеих мод больше, чем на 2л . Если такая область существует, то она отмечается как первая седловая область G1. Далее или в случае отсутствия седловой области, удовлетворяющей выдвинутым условиям, рассматривается следующее значение предполагаемой моды.

Из всех седловых областей находится самая протяженная, такая, что количество элементов в одном из интервалов этой области минимально относительно других таких областей. Граница рассекания будет проходить в том интервале, где имеется наименьшая частота. Элементы, принадлежащие интервалу, относятся к тому кластеру, в который входит ближайшая мода. В случае равноудаленности область делится пополам, и половины относятся к левостоящей и правостоящей модам. За центры двух новых полученных кластеров принимаются их центры тяжести.

Очевидно, что при вращении оси на гистограммах распределения частот попадания точек в интервал можно увидеть как «наслоение» кластеров, так и относительно хорошо разделенные кластеры. Вращение проводим с шагом 2,5о. Выбор шага изменения угла обусловлен тем, что стандартное отклонение погрешности пеленгования составляет 2,5о приблизительно для всех направлений (точность определения угловой координаты для грозопеленгаторов [20]). При этом для каждого угла строятся гистограммы частот по оси вращения для анализа на мультимодальность.

После изменения угла от 0 до 2п имеем характеристики мультимодальности: различным углам соответствует определенное количество пиков (локальных экстремумов - локальных мод), которые определяются с помощью вышеуказанного теста на мультимодальность. _

На выходе мы имеем два массива, содержащие количество элементов мод М1,1 = 1, п и седловых областей Gj, у = 1, т .

Оптимальный угол а разбиения находится, исходя из следующих условий:

lenG ^ шах,

т ^ тт, п

--> тах.

т

(17)

То есть определяем седловую область наибольшей протяженности с наименьшим количеством элементов в каждом интервале области, а также с максимальным отношением между значением моды и минимальным значением в седловой области. При оптимальном угле а проводится разбиение на кластеры. Граница рассекания проводится аналогично вышеописанному.

Далее для каждого нового кластера проводится итерационная процедура разбиения до тех пор, пока в каждом из рассматриваемых кластеров не окажется менее 15 элементов. В этом случае процедура считается законченной, а разбиение на кластеры -окончательным.

Таким образом, для классификации грозовых разрядов рекомендуется применять последовательно два метода кластерного анализа. Поскольку применение последовательно двух методов позволяет исключить часть элементов, входящих в небольшие кластеры, из дальнейшего рассмотрения, предполагаем, что их местоопределение сделано с большими погрешностями. Аналогичный отсев был применен в работе [21] при построении карт плотностей грозовых разрядов в Средиземноморье для повышения точности регистрации гроз.

После выделения грозового очага определяем параметры полученных кластеров. Центр грозового очага вычисляем как «центр тяжести» кластера по формулам:

Под движением грозы в радиотехнических наблюдениях за грозами понимается скорость смещения центра активности грозового очага от временного интервала к следующему временному интервалу и определяется не только перемещением грозовых облаков, но и перемещением центра активности внутри очага.

Разница в расположении центров плотности в течение двух последовательных часовых выборок по конкретной области характеризует смещение грозового очага в течение часа:

Средняя скорость движения грозового очага вычисляется из времени жизни очага, учитывая расстояние, соединяющее точки в пространстве в начале и конце времени существования очага.

Грозы состоят из конечного числа конвективных грозовых ячеек, поэтому необходимо рассматривать время жизни каждой грозовой ячейки. Учитывая, что продолжительность жизни грозовой ячейки около 30 минут, иногда до 1 часа [13], следует наблюдать за перемещением центра плотности грозовой активности внутри ячейки хотя бы с интервалом не более 15 минут в течение часа. За меньший временной интервал статистика разрядов в грозовом объекте слишком мала.

(18)

(19)

Для нахождения площади грозовой ячейки и очага вычисляется максимальное расстояние между элементами рассматриваемого кластера. При этом полученное расстояние проецируется на систему координат, центром которой является центр тяжести. Одна из координатных осей строится параллельно прямой, соединяющей разряды, расстояние между которыми максимально, а вторая - перпендикулярно первой. Далее находится проекция максимального расстояния между элементами на вторую ось. Отсекаем слева и справа от проекций максимальных расстояний по обеим осям по 2,5% от их значений, так как истинными разряды грозовой области принимаем те, которые лежат в 95%-м доверительном интервале. Как правило, границы типичных грозовых объектов имеют очертания эллипса, в ряде случаев - окружность. Поэтому площадь области находится как площадь эллипса:

S = nab, (20)

где a и b - большая и малая полуоси эллипса.

Эксцентриситет эллипса может быть выражен соотношением:

V а

и показывает, насколько идеальная форма, аппроксимирующая линию контура грозового очага, далека от окружности. Эксцентриситет эллипса характеризует степень вытянутости эллипса. Чем ближе эксцентриситет к нулю, тем больше эллипс похож на окружность и чем ближе эксцентриситет к 1, тем сильнее вытянут эллипс.

Время жизни грозовой ячейки и очага в различные промежутки времени определяется как разность времен начала и конца грозовой деятельности. Интенсивность грозового очага - это отношение количества разрядов в грозовом очаге на единичную площадку в единицу времени.

Таким образом, основными параметрами, определяющими грозовой очаг, помимо массива координат разрядов, являются значения координат центра и значения больших и малых полуосей модельного эллипса. Остальные параметры грозового очага принимаются производными, поскольку их отыскание не трудоемко.

Заключение

В данной работе были рассмотрены известные методы кластеризации и их адаптации для решения задачи о выделении грозового очага. Для решения задачи классификации грозовых разрядов предложено применять последовательно два метода кластерного анализа. Применение последовательно двух методов позволяет исключить шумы при построении карт плотностей грозовых разрядов и повысить точность регистрации гроз и оценки их параметров при грозорегистрации пассивными радиотехническими методами. Представленный в исследовании структурный подход математического моделирования позволил выделить из массива грозовых разрядов конкретные грозовые объекты, которые определяются векторами-признаками в трехмерном пространстве координат (Xt, Y, t).

Л и т е р а т у р а

1. Дюран Б. Кластерный анализ / Б. Дюран, П. Оделл. - М.: Статистика, 1977. - 128 с.

2. Леончик Е. Ю. Кластерный анализ. Терминология, методы, задачи / Е. Ю. Леончик, О. В. Савастру. - Одесса: ОНУ им. И.И. Мечникова, 2007. - 67 с.

3. Бююль А. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей / А. Бююль, П. Цефель, В.Е. Момот. - СПб.: ООО «ДивСофт ЮП», 2002. - 601 с.

4. Факторный, дискриминантный и кластерный анализ / О. Дж. Ким [и др.]; под ред. И.С. Енюкова. - М.: Финансы и статистика, 1989. - 215 с.

5. Петрук В. Применение локальных бинарных шаблонов к решению задачи распознавания лиц / В. Петрук, А. В. Самородов, И. Н. Спиридонов // Вестник Московского государственного технического университета им. Н.Э. Баумана. Серия «Приборостроение». - 2011. - №. 5. - С. 58-63.

6. Шитиков В. К. Количественная гидроэкология: методы системной идентификации / В.К. Шитиков, Г.С. Розенберг, Т.Д. Зинченко. - Тольятти: ИЭВБ РАН, 2003. - 463 с.

7. Mahalanobis P. C. Analysis of race-mixture in Bengal. Presidential Address. - Indian Science Congress, 1925.

8. Хант Э. Искусственный интеллект / Э. Хант. - М.: Мир, 1978. - 558 с.

9. Дуда Р. Распознавание образов и анализ сцен / Р. Дуда, Р. Харт. - М.: Мир, 1976. - 509 с.

10. Steinhaus H. Sur la division des corp materiels en parties / H. Steinhaus // Bull. Acad. Polon. Sci. -1956. - Т. 1, №. 804. - С. 801.

11. Lloyd S. P. Least squares quantization in PCM / S. P. Lloyd // IEEE Transactions on information theory. - 1982. - Vol. IT-28, №2. - С. 129-137.

12. Александров М. С. Исследование атмосферных радиопомех ОНЧ- и НЧ диапазонов и их источников / М. С. Александров // Успехи современной радиоэлектроники. - 1998. - №. 10. - С. 3-25.

13. Кононов И. И. Кластерный анализ грозовой активности / И.И. Кононов, И.Е. Юсупов // Радиотехника и электроника. - 2004. - Т. 49, №. 3. - С. 283-291.

14. Загоруйко Н. Г. Алгоритмы обнаружения эмпирических закономерностей / Н.Г. Загоруйко, В.Н. Елкина, Г.С. Лбов. - Новосибирск: Наука, 1985. - 110 с.

15. Васильев А. Е. Грозовая активность на Востоке Сибири по наблюдениям с помощью однопунктового грозопеленгатора-дальномера: дис. ... канд. ф.-м. наук: 25.29.00 - Физика атмосферы и гидросферы / Институт космофизических исследований и аэрономии им. Ю.Г. Шафера СО РАН. Якутск, 2005. 147 с.

16. Аджиева А. А. Кластерный анализ в автоматическом выявлении и сопровождении грозовых очагов по данным грозопеленгационной сети [Электронный ресурс] / А.А. Аджиева, В.А. Шаповалов // Инженерный вестник Дона: электр. науч. журн. - 2016. - №2. - Режим доступа: http:// ivdon.ru. - (Дата обращения: 21.12.2016).

17. Характеристики грозовых ячеек по наблюдениям в Якутии / Шабаганова С.Н. [и др.] // Метеорология и гидрология. - 2012. - № 12. - С. 35-43.

18. Мандель И. Д. Кластерный анализ / И.Д. Мандель. - М.: Финансы и статистика, 1988. - 176 с.

19. Wishart D. Mode analysis: A generalization of nearest neighbor which reduces chaining effects / D. Wishart // Numerical taxonomy. - 1969. - Т. 76, №. 282-311. - С. 17.

20. Панюков А. В. Системы пассивного мониторинга грозовой деятельности / А.В. Панюков, Д.В. Будуев, Д.Н. Малов // Вестник Южно-Уральского государственного университета. Серия: Математика. Физика. Химия. - 2003. - №. 8. - С. 24.

21. Kohn M. et al. Nowcasting thunderstorms in the Mediterranean region using lightning data / M. Kohn [et al.] // Atmospheric Research. - 2011. - Т. 100, №. 4. - С. 489-502.

R e f e r e n c e s

1. Dyuran B. Klasternyj analiz / B. Dyuran, P. Odell. - M.: Statistika, 1977. - 128 s.

2. Leonchik E. YU. Klasternyj analiz. Terminologiya, metody, zadachi / E. YU. Leonchik, O. V. Savastru. - Odessa: ONU im. I.I. Mechnikova, 2007. - 67 s.

3. Byuyul' A. SPSS: iskusstvo obrabotki informacii. Analiz statisticheskih dannyh i vosstanovlenie skrytyh zakonomernostej / A. Byuyul', P. Cefel', V.E. Momot. - SPb.: OOO «DivSoft YUP», 2002. - 601 s.

4. Faktornyj, diskriminantnyj i klasternyj analiz / O. Dzh. Kim [i dr.]; pod red. I.S. Enyukova. - M.: Finansy i statistika, 1989. - 215 s.

5. Petruk V. Primenenie lokal'nyh binarnyh shablonov k resheniyu zadachi raspoznavaniya lic / V. Petruk, A. V. Samorodov, I. N. Spiridonov // Vestnik Moskovskogo gosudarstvennogo tekhnicheskogo universiteta im. N.EH. Baumana. Seriya «Priborostroenie». - 2011. - №. 5. - S. 58-63.

6. SHitikov V. K. Kolichestvennaya gidroehkologiya: metody sistemnoj identifikacii / V.K. SHitikov, G.S. Rozenberg, T.D. Zinchenko. - Tol'yatti: IEHVB RAN, 2003. - 463 s.

7. Mahalanobis P. C. Analysis of race-mixture in Bengal. Presidential Address. - Indian Science Congress, 1925.

8. Hant EH. Iskusstvennyj intellekt / EH. Hant. - M.: Mir, 1978. - 558 s.

9. Duda R. Raspoznavanie obrazov i analiz seen / R. Duda, R. Hart. - M.: Mir, 1976. - 509 s.

10. Steinhaus H. Sur la division des corp materiels en parties / H. Steinhaus // Bull. Acad. Polon. Sci. -1956. - T. 1, №. 804. - S. 801.

11. Lloyd S. P. Least squares quantization in PCM / S. P. Lloyd // IEEE Transactions on information theory. - 1982. - Vol. IT-28, №2. - S. 129-137.

12. Aleksandrov M. S. Issledovanie atmosfernyh radiopomekh ONCH- i NCH diapazonov i ih istochnikov / M. S. Aleksandrov // Uspekhi sovremennoj radioehlektroniki. - 1998. - №. 10. - S. 3-25.

13. Kononov I. I. Klasternyj analiz grozovoj aktivnosti / I.I. Kononov, I.E. YUsupov // Radiotekhnika i ehlektronika. - 2004. - T. 49, №. 3. - S. 283-291.

14. Zagorujko N. G. Algoritmy obnaruzheniya ehmpiricheskih zakonomernostej / N.G. Zagorujko, V.N. Elkina, G.S. Lbov. - Novosibirsk: Nauka, 1985. - 110 s.

15. Vasil'ev A. E. Grozovaya aktivnost' na Vostoke Sibiri po nablyudeniyam s pomoshch'yu odnopunktovogo grozopelengatora-dal'nomera: dis. ... kand. f.-m. nauk: 25.29.00 - Fizika atmosfery i gidrosfery / Institut kosmofizicheskih issledovanij i aehronomii im. YU.G. SHafera SO RAN. YAkutsk, 2005. 147 s.

16. Adzhieva A. A. Klasternyj analiz v avtomaticheskom vyyavlenii i soprovozhdenii grozovyh ochagov po dannym grozopelengacionnoj seti [EHlektronnyj resurs] / A.A. Adzhieva, V.A. SHapovalov // Inzhenernyj vestnik Dona: ehlektr. nauch. zhurn. - 2016. - №2. - Rezhim dostupa: http://ivdon.ru. -(Data obrashcheniya: 21.12.2016).

17. Harakteristiki grozovyh yacheek po nablyudeniyam v YAkutii / SHabaganova S.N. [i dr.] // Meteorologiya i gidrologiya. - 2012. - № 12. - S. 35-43.

18. Mandel' I. D. Klasternyj analiz / I.D. Mandel'. - M.: Finansy i statistika, 1988. - 176 s.

19. Wishart D. Mode analysis: A generalization of nearest neighbor which reduces chaining effects / D. Wishart // Numerical taxonomy. - 1969. - T. 76, №. 282-311. - S. 17.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

20. Panyukov A. V. Sistemy passivnogo monitoringa grozovoj deyatel'nosti / A.V. Panyukov, D.V. Buduev, D.N. Malov // Vestnik YUzhno-Ural'skogo gosudarstvennogo universiteta. Seriya: Matematika. Fizika. Himiya. - 2003. - №. 8. - S. 24.

21. Kohn M. et al. Nowcasting thunderstorms in the Mediterranean region using lightning data / M. Kohn [et al.] // Atmospheric Research. - 2011. - T. 100, №. 4. - S. 489-502.

^MSr^Sr

i Надоели баннеры? Вы всегда можете отключить рекламу.