Cloud of Science. 2019. T. 6. № 2 http:/ / cloudofscience.ru
Подход к решению задачи выявления структурных трансформаций в группах временных рядов1
Л. А. Демидова, М. А. Степанов
Рязанский государственный радиотехнический университет 390005, Рязань, ул. Гагарина, 59/1
e-mail: [email protected], [email protected]
Аннотация. В статье рассматривается задача выявления структурных трансформаций в группах временных рядов и предлагаются алгоритмы выявления больших, средних и малых структурных трансформаций в группах временных рядов, основанные на результатах работы алгоритмов иерархической кластеризации. Приведены примеры применения алгоритмов выявления структурных трансформаций в задаче анализа временных рядов социально-экономической сферы, подтверждающие эффективность предлагаемых алгоритмов.
Ключевые слова: временные ряды, иерархическая кластеризация, дендро-грамма, оптимальное число кластеров, алгоритмы выявления структурных трансформаций временных рядов.
1. Введение
В настоящее время задачи анализа временных рядов (ВР) возникают в различных областях деятельности человека: в экономике, в социальной сфере, в медицине, в технике и т. п. При этом большое внимание уделяется не только прогнозированию ВР [1-5], характеризующих те или иные показатели развития процессов, но и анализу поведения групп тем или иным образом взаимосвязанных ВР [6-8].
Обычно для анализа поведения групп ВР используются различные алгоритмы кластерного анализа, такие, как алгоритм ^-средних (£-means algorithm) [3, 7], алгоритм нечетких с-средних (fuzzy c-means algorithm) [8, 9], а также алгоритмы иерархической кластеризации [10, 11], позволяющие применять большое число методов для группирования объектов в кластеры и большое число метрик для вычисления расстояний между объектами. При этом многие алгоритмы кластерного анализа требуют, чтобы кластеры были хорошо отделимы, в противном случае результаты кластеризации будут трудно объяснимы и применимы. В то же время алгоритмы иерархической кластеризации позволяют сформировать иерархическую структуру данных даже для плохо отделимых кластеров, опираясь лишь на расстояния между
1 Работа поддержана РФФИ, проект 18-410-623001.
объектами кластеризации. В этом случае для визуализации результатов кластеризации используются дендрограммы, а для определения оптимального числа кластеров применяются специальные методы [12-17], например, такие, как elbow/knee-метод [15, 16] или метод, основанный на оценке кластерного силуэта [17].
Одной из актуальных на настоящий момент задач в области анализа ВР является задача выявления структурных трансформаций, происходящих с течением времени в группах ВР [18-21], для решения которой предлагается использовать результаты предварительно выполненной иерархической кластеризации группы ВР с привлечением различных методов группирования объектов в кластеры и метрик для вычисления расстояний между объектами [10, 11, 22] с целью получения наиболее объективных и обоснованных решений по выявлению структурных трансформаций в группах ВР. При этом одной из проблем, присущих задачам анализа ВР, является короткая длина их актуальной части
2. Теоретическая часть
Пусть имеется группа Т из п коротких ВР длиной то есть каждый временной ряд содержит £ элементов, измеренных в отсчеты времени т (т= 1, £; £ < 20). Пусть требуется разбить группу Т на подгруппы (кластеры) с учетом некоторой меры сходства так, чтобы «похожие» ВР принадлежали одному кластеру.
Решение задачи кластеризации ВР может быть получено с применением различных алгоритмов кластерного анализа, одним из принципиальных требований которых является хорошая отделимость кластеров друг от друга. Зачастую группа ВР, подлежащая кластеризации, такова, что включенные в нее ВР в недостаточной степени отделимы друг от друга, в связи с чем такие алгоритмы кластерного анализа, как алгоритм ^-средних или алгоритм нечетких с-средних [3, 7-9], затрудняются определить оптимальное число с* кластеров, существенно меньшее, чем число ВР п, и предлагают считать, что оптимальное число кластеров с равно числу ВР п (то есть с = п), так как именно при таком числе кластеров достигается экстремум используемого показателя качества кластеризации. Алгоритмы иерархической кластеризации также выдвигают требование о том, чтобы ВР в группе характеризовались определенной степенью связности, однако это требование оказывается менее жестким: при применении алгоритмов иерархической кластеризации удается построить иерархию вложенных кластеров с учетом расстояний между ВР и определить (в соответствии с тем или иным методом) оптимальное число кластеров [10, 11, 22]. Следует отметить, что иногда результаты иерархической кластеризации могут быть неоднозначными или плохо интерпретируемыми, но в этом случае целесообразным является получение решения задачи кластеризации в комплексе посредством применения различных сочетаний методов группирования объектов в кла-
стеры (методов связывания кластеров) и метрик вычисления расстояний между ВР с последующим выбором лучшего варианта кластеризации (например, с применением метода большинства голосов). При этом достоинством алгоритмов иерархической кластеризации является возможность визуализации результатов кластеризации с помощью дендрограмм.
2.1. Иерархическая кластеризация
Алгоритмы иерархической кластеризации, называемые также алгоритмами таксономии, — это алгоритмы упорядочивания данных, реализующие создание иерархии (дерева) вложенных кластеров [10, 11, 22].
При этом выделяют два типа алгоритмов иерархической кластеризации: диви-зимные (нисходящие) алгоритмы (divisive algorithms) создают новые кластеры посредством деления более крупных кластеров на более мелкие (при этом дерево иерархии формируется от ствола к листьям); агломеративные (восходящие) алгоритмы (agglomerative algorithms) создают новые кластеры посредством объединения более мелких кластеров (при этом дерево иерархии формируется от листьев к стволу). Наибольшее применение в решении различных прикладных задач находят агломеративные алгоритмы кластеризации. В дальнейшем в данной работе под алгоритмами кластеризации будут пониматься именно агломеративные алгоритмы.
При реализации агломеративного алгоритма кластеризации сначала отдельным кластером считается каждый объект. При этом для любых двух одноэлементных кластеров U и V, состоящих соответственно из объектов x и x. (i = 1, n; j = 1,n; n — число объектов), расстояние между кластерами вычисляется с помощью метрики расстояния [22-26]:
где в качестве метрики й (X, X- ) может быть выбрана та или иная метрика вычисления расстояния между объектами.
Так, например, для вычисления расстояния между объектами X = (X1, X 2,. ., X Р) и X = (X1,X 2,. ., Х] р) в ^-мерном пространстве могут быть использованы такие метрики расстояний, как [17, 22]: - метрика евклидова расстояния:
D(U ,V) = d (х, Xj),
(1)
p
(2)
метрика квадрата евклидова расстояния:
p_
d (xi, xj)=Z(xi, r - xj, r)2;
(3)
r =1
метрика манхэттенского расстояния:
p
d(x,Xj) = r -Xj,r |; (4)
r=1
- метрика расстояния Чебышева:
d(x,Xj) = max| xir -xjr |; (5)
- метрика расстояния Минковского:
i
Xh
- r=1
косинусная метрика расстояния:
p
d(Xj, Xj) = |X|x,,r - Xj,r |h (h > 1); (6)
Z(4r , Xj,r )
d (x,, x}) = r=1 . (7)
^ )'Й X' )
Далее осуществляется итерационный процесс слияния кластеров: на каждой итерации на основе двух самых близких кластеров U и V формируется новый кластер W = U\JV. При этом расстояние от нового кластера W до любого другого кластера S вычисляется на основе уже известных расстояний D(U,V), D(U, S) и D(V, S) с помощью универсальной формулы Ланса и Уильямса [23]:
DQJ U V, S) = ц„ • IXlI, S) + а,, ■ 1XV, S) + ß • ¡XU, V) + у 11XU,S) - 1XV, ,V)|, (8) где О/, а, ß, Y — некоторые числовые параметры.
Формула (2) описывает практически все возможные методы вычисления расстояний между кластерами при определенных комбинациях значений параметров av, а, ß, Y (табл. 1, где | U |, | V |, | W| и | S | — мощности кластеров U, V, W и S соответственно).
Так, например,
- расчет расстояния между кластерами по методу одиночной связи реализуется как:
Dsmgie (W, S) = min d(w, s), (9)
^ weW ,seS
- расчет расстояния между кластерами по методу полной связи как:
DCOmpete(W, S) = m« d(w, s), (10)
weW ,seS
- расчет по методу средней связи как:
D
№, S) =
\w\-\S\WWtS
EEd (w, s),
расчет расстояния по методу центроида как:
j(W, S) = d2
s
i тлу i, Е i e i
V. weW
WYtuS\s\
- расчет расстояния Уорда как:
DwardW, S) =
\W\-\S\ \W\ + \S\
w ^ s
v ¿WT' Is FSj
(11)
(12)
(13)
Таблица 1. Значения параметров а,а,в,1 в универсальной формуле (2)
для определения метода слияния кластеров
Метод слияния кластеров au ar в Y
Метод одиночной связи (метод ближайшего соседа, (single-linkage clustering method) 1 2 1 2 0 1 2
Метод полной связи (метод дальнего соседа, (complete-linkage clustering method) 1 2 1 2 0 1 2
Метод средней связи (метод группового среднего расстояния, average-linkage clustering method) \U\ \W\ \V\ \W\ 0 0
Метод взвешенной средней связи (метод взвешенного группового среднего расстояния, weighted average-linkage clustering method) 1 2 1 2 0 0
Метод центроида (centroid-linkage clustering method) \U\ \W\ \V\ \W\ -au " av 0
Метод медианы (median-linkage clustering method) 1 2 1 2 1 4 0
Метод расчета расстояния Уорда (Ward-linkage clustering method) \U\+\S\ \V\+\S\ -\S\ 0
\W\ + \S\ \W\ + \S\ \W\ + \S\
В методе одиночной связи расстояние между двумя кластерами равно минимальному расстоянию между двумя объектами из разных кластеров. В итоге получаемые кластеры имеют предрасположенность к представлению в виде длинными «цепочек».
В методе полной связи расстояние между двумя кластерами равно максимальному расстоянию между двумя объектами. Этот метод хорошо работает, если объекты принадлежат действительно различным хорошо отделимым кластерам. Если же кластеры имеют удлиненную форму (например, если кластеры могут быть представлены в виде длинных «цепочек»), то этот метод является не эффективным.
В методе средней связи расстояние между двумя кластерами равно среднему расстоянию между всеми парами объектов этих кластеров. Этот метод эффективен, если объекты принадлежат действительно различным хорошо отделимым кластерам. При этом он может давать приемлемые результаты кластеризации и в случае протяженных кластеров «цепочного» типа.
В так называемом методе взвешенной средней связи расстояние Dweighted average
находится как среднее арифметическое расстояний от кластера S до кластеров U и V:
D (W S) - D(U,S) + D(V,S) (14)
Dweighted average(W ,S) ^ . (14)
Этот метод идентичен методу средней связи, но в нем мощности кластеров используются в качестве весовых коэффициентов для учета разницы между размерами кластеров. Метод взвешенной средней связи целесообразно использовать, если предполагается, что кластеры будут иметь существенно неравные размеры.
В методе центроида расстояние между кластерами равно расстоянию между их центроидами (центрами тяжести).
Так называемый метод медианы представляет собой взвешенную версию метода центроида, при этом расстояние D находится как среднее арифметическое расстояний от центроида кластера S до центроидов кластеров U и V :
Dm,„.,(W, S) = D(U•S) + D(V•S) -^. (15)
В этом методе мощности кластеров используются в качестве весовых коэффициентов для учета разницы между размерами кластеров и предполагается, что центр нового кластера лежит точно посередине между центрами старых кластеров. Метод медианы целесообразно использовать, если предполагается, что кластеры будут иметь существенно неравные размеры.
В методе Уорда для оценки расстояний между кластерами используются принципы дисперсионного анализа и в качестве расстояния между кластерами полагается прирост суммы квадратов расстояний объектов до центра кластера, получаемого в результате их объединения [24]. На каждом шаге метода Уорда объединяются такие два кластера, группирование которых приводит к минимальному увеличению дисперсии. Этот метод особенно эффективен для решения задач кластеризации с близко расположенными кластерами.
Базовый алгоритм иерархической кластеризации может быть описан следующей последовательностью шагов.
Шаг 1. Принять номер шага слияния l, равным 1. Выполнить инициализацию множества кластеров одноэлементными кластерами, состоящими из объектов кластеризации:
C = {{Х1},{Х2>, ..., {х„>>.
Шаг 2. Выполнить расчет матрицы расстояний между одноэлементными кластерами на основе формулы (1).
Шаг 3. Увеличить номер шага слияния l на 1. Найти в множестве Cl-1 два ближайших кластера U и V, а затем объединить их в один кластер: W = U{JV. Удалить из множества кластеров Cl-1 кластеры U и V. Добавить в множество кластеров Cw новый кластер W :C' =(CW \{U,F})\J{W}.
Шаг 3. Для всех кластеров S е Cl вычислить расстояние D(W, S) по формуле Ланса-Уильямса (2).
Шаг 4. Если число кластеров в множестве Cl больше 1, перейти к шагу 3, в противном случае завершить работу алгоритма.
Существенный интерес представляет анализ свойств используемых функций расстояний D(W, S).
Пусть D1 — расстояние между ближайшими кластерами, выбранными на l-м шаге для слияния.
Функция расстояния D = D(W, S) монотонна, если при каждом слиянии расстояние между объединяемыми кластерами только увеличивается:
D2 <D3 <... <Dk-1 <Dk, (16)
где k — число шагов слияния (в предположении, что при l = 1 выполняется расчет расстояний между объектами кластеризации, а при l, удовлетворяющем условию 1 < l < k, — слияние кластеров).
Свойство монотонности позволяет представить процесс кластеризации в виде дендрограммы, при построении которой объекты могут откладываться, например,
по горизонтальной оси, а расстояния D1 (l = 1, k) — по вертикальной. Дендрограм-ма позволяет представить кластерную структуру в виде графика в пространстве D2 независимо от того, чему равна размерность исходного пространства.
Доказано, что если процесс кластеризации идет монотонно, то есть функция расстояния обладает свойством монотонности, то дендрограмму можно построить таким образом, что она не будет иметь самопересечения. В этом случае любой кластер из множества C1 кластеров l-го шага может быть представлен сплошной последовательностью точек на горизонтальной оси. Если процесс кластеризации идет
не монотонно, то в качестве дендрограммы будет получен набор линий с самопересечениями, сложный для интерпретации.
Как показывает анализ, не все комбинации значений параметров в формуле (2) Ланса-Вильямса приводят к монотонности процесса кластеризации. В 1979 г. Г. Миллиган (Glenn W. Milligan) доказал теорему, определяющую условия монотонности процесса кластеризации [25]:
если выполняются следующие три условия:
- аи > 0, av > 0;
- au + av + в > 1;
- min(^,^) + у > 0,
то процесс кластеризации является монотонным.
Из рассмотренных выше расстояний только расстояния Dcentroid (12) и Dmedia„ (15) не являются монотонными. Расстояние Dward (13), похожее на расстояние Dcentroid (12), отличается от него мультипликативной поправкой, которая делает его монотонным.
При выборе метода слияния кластеров необходимо учитывать наличие или отсутствие у него свойств растяжения и сжатия.
Если расстояние D обладает свойством растяжения, то это означает, что по мере роста кластера расстояния от него до других кластеров увеличиваются, то есть проявляется эффект растяжения пространства вокруг кластера. Желательно, чтобы расстояние D обладало свойством растяжения, так как это способствует более четкому отделению кластеров друг от друга, однако сильная выраженность свойства растяжения может привести выявлению в реальности несуществующих кластеров.
Так, свойство растяжения присуще расстояниям D ш и Dward.
Если расстояние D обладает свойством сжатия, то это означает, что по мере роста кластера расстояния от него до других кластеров уменьшается, то есть проявляется эффект сжатия пространства вокруг кластера, при этом естественность кластеризации может быть нарушена. Так, свойство сжатия сильно выражено у расстояния DS,ngle.
Степень выраженности свойств растяжения и сжатия можно оценить через отношение D(U ,V)/d (m, ), где D(U ,V) — расстояние между ближайшими кластерами U и V, объединяемыми на текущем шаге; m и m — центры кластеров U и V соответственно. Если это отношение на каждом шаге больше единицы, то расстояние D является растягивающим; если оно всегда меньше единицы, то сжимающим. Если расстояние D не является ни сжимающим, ни растягивающим, то считается, что оно обладает свойством сохранения метрики пространства. Там свойством сохранения метрики пространства обладают, например, расстояния
Average (11) Dcentroid (12) Dweighted average (14) и Dmedian (15) [26].
Зачастую на практике используют так называемое гибкое расстояние, которое реализует компромисс между методами одиночной, полной и средней связей. Для гибкого расстояния значения параметров в формуле (2) задаются как:
1 " в
аи = ау =,у = 0,Р <1.
Гибкое расстояние является сжимающим при 0 < в < 1 и растягивающим при в < 0. Обычно в выбирают равным числу «-0.25» [22].
Следует отметить, что при выборе метода слияния кластеров необходимо учитывать его совместимость с метрикой для вычисления расстояния между объектами. Так, метод центроида, метод медианы и метод Уорда предполагают использование метрики евклидова расстояния [24].
В результате применения того или иного метода слияния кластеров формируется матрица сходства (или различия) кластеров, которая определяет уровень сходства (различия) между парами кластеров и используется для анализа и визуализации результатов кластеризации посредством построения дендрограммы.
Как и большинство визуальных способов представления зависимостей дендро-граммы теряют наглядность при значительном увеличении числа кластеров.
В контексте решения задачи выявления структурных трансформаций ВР под объектом при реализации алгоритма иерархической кластеризации будет пониматься ВР.
2.2. Алгоритмы выявления структурных трансформаций временных рядов
Пусть имеются данные о группе ВР длиной г и необходимо определить имеют ли место структурные трансформаций при переходе от ВР длиной (г — 1) и к ВР длиной г. Пусть для анализа группы ВР используется иерархическая кластеризация с визуализацией результатов кластеризации посредством дендрограмм.
Пусть в результате применения алгоритма иерархической кластеризации п ВР была получена матрица Q размером (п — 1) х 4, элементы которой определены следующим образом. На каждой 7-м шаге алгоритма кластеризации кластеры с индексами Ql'l и Q',2 объединяются в новый кластер. Кластер с индексом меньше, чем п, соответствует одному из исходных ВР. Расстояние между кластерами с индексами QI'1 и QI'2 определяется как QI'3. Число QI'4 определяет число ВР во вновь образованном кластере.
Для решения задачи выявления структурных трансформаций в группах временных рядов предлагается рассмотреть 3 типа структурных трансформаций:
большие структурные трансформации, средние структурные трансформации и малые структурные трансформации.
Будем говорить о наличии больших структурных трансформаций при переходе от ВР длиной (г — 1) и к ВР длиной г, если число кластеров, полученное при разбиении группы ВР длиной (г — 1), не совпадает с числом кластеров, полученным при разбиении группы ВР длиной г.
При этом оптимальное число кластеров предлагается определять с использованием хорошо известных методов, например, с применением elbow/knee-метода [15, 16] или метода, основанного на оценке кластерного силуэта [17].
Алгоритм выявления больших структурных трансформаций в группе ВР момент быть описан следующей последовательностью шагов.
Шаг 1. Определить оптимальное число с^ кластеров для группы ВР длиной (г — 1). Определить оптимальное число с, кластеров для группы ВР длиной г.
Шаг 2. Если с^ = сг, считать, что большие структурные трансформации при переходе от ВР длиной (г — 1) и к ВР длиной г отсутствуют. Перейти к шагу 4.
Если см ^ с, считать, что большие структурные трансформации при переходе от ВР длиной (г — 1) и к ВР длиной г присутствуют. Перейти к шагу 3.
Шаг 3. Выполнить анализ структуры кластеров для групп ВР длиной (г — 1) и длиной г. В случае уменьшения числа кластеров (то есть при с^ > сг), определить, в какие кластеры перешли ВР ликвидированных кластеров. В случае увеличения числа кластеров (то есть при с^ < сг), определить, на основе каких кластеров и соответствующих им ВР были сформированы новые кластеры. Проверить возможность реализации перемещения ВР между уже существовавшими кластерами. Перейти к шагу 4.
Шаг 4. Принять решение о результатах выявления больших структурных трансформаций в группе ВР. Завершить работу алгоритма.
Будем говорить о наличии средних структурных трансформаций при переходе от ВР длиной (г — 1) и к ВР длиной г, если число кластеров, полученное при разбиении группы ВР длиной (г — 1), совпадает с числом кластеров, полученным при разбиении группы ВР длиной г, но при этом наблюдается изменение структуры существующих кластеров.
Пусть при анализе группы ВР было выявлено отсутствие больших структурных трансформаций ВР. В этом случае предлагается дополнительно применить алгоритм выявления средних структурных трансформаций ВР.
Алгоритм выявления средних структурных трансформаций в группе ВР момент быть описан следующей последовательностью шагов.
Шаг 1. Определить структуру кластеров для группы ВР длиной (г — 1) при зафиксированном оптимальном числе кластеров с. Определить структуру кластеров для группы ВР длиной г при зафиксированном оптимальном числе кластеров с.
Шаг 2. Если структура кластеров для группы ВР длиной (г — 1) совпадает со структурой кластеров для группы ВР длиной г ' считать, что средние структурные трансформации группы ВР отсутствуют. Перейти к шагу 4.
Если структура кластеров для группы ВР длиной (г — 1) не совпадает со структурой кластеров для группы ВР длиной г ' считать, что средние структурные трансформации группы ВР присутствуют. Перейти к шагу 3.
Шаг 3. Выполнить анализ структуры кластеров для групп ВР длиной (г — 1) и длиной г. Определить, какие ВР были перемещены из одного кластера в другой. Перейти к шагу 4.
Шаг 4. Принять решение о результатах выявления средних структурных трансформаций в группе ВР. Завершить работу алгоритма.
Будем говорить о наличии малых структурных трансформаций при переходе от ВР длиной (г — 1) и к ВР длиной г, если число кластеров, полученное при разбиении группы ВР длиной (г — 1)' совпадает с числом кластеров, полученным при разбиении группы ВР длиной г' структура существующих кластеров не изменяется, но имеет место изменение порядка включения ВР в свои кластеры.
Пусть при анализе группы ВР было выявлено отсутствие больших и средних структурных трансформаций ВР. Например, при переходе от ВР длиной (г — 1) и к ВР длиной г число кластеров осталось неизменным, при этом структура (содержимое) кластеров не изменилось. В этом случае предлагается дополнительно применить алгоритм выявления малых структурных трансформаций ВР.
Пусть номер анализируемой итерации — это число г такое, что г = 1' п — 1' где п — число ВР. Пусть к — число (счетчик) выявленных изменений порядка включения ВР (или уже сформированных подкластеров) в кластеры при переходе от ВР длиной (г — 1) и к ВР длиной г. Пусть ¡Ска^в — одномерный массив ¡Ска^в размером 1х (п — 1)' инициализированный нулями и используемый для фиксации изменений порядка включения ВР (или уже сформированных подкластеров) в кластеры при переходе от ВР длиной (г — 1) и к ВР длиной г на некоторой г -й итера*
ции посредством установления значения соответствующего г -го элемента, равным 1.
Алгоритм выявления малых структурных трансформаций в группе ВР момент быть описан следующей последовательностью шагов.
Шаг 1. Принять номер текущей итерации г = 1. Принять к = 0.
Шаг 2. Выполнить сравнение результатов включения ВР (или уже сформированных подкластеров) в кластеры на г -й итерации расчета матриц ^ и Qí_1 (г = 4' гтах) размером (п — 1) х 4' а именно сравнить числа QÍI'4 и QtAv
Если ,4 = QltAl, то на 7-й итерации порядок включения ВР (или уже сформированных подкластеров) в кластеры при переходе от ВР длиной (г — 1) и к ВР длиной г не изменился, то есть не изменились ранги (а, соответственно, и списки упорядочения ВР (или уже сформированных подкластеров) с учетом расстояний между ними). Перейти к шагу 3.
Если Qt 4 Ф Ql 14, то на 7-й итерации порядок включения ВР (или уже сформированных подкластеров) в кластеры при переходе от ВР длиной (г — 1) и к ВР длиной г изменился, то есть изменились ранги (а, соответственно, и списки упорядочения ВР (или уже сформированных подкластеров) с учетом расстояний между ними). Перейти к шагу 4.
Шаг 3. Увеличить номер I анализируемой итерации на 1. Если новый номер итерации I не превосходит (п — 1) (то есть , < п — 1), перейти к шагу 2 для продолжения сравнения чисел Qíl,4 и QltAl. Иначе перейти к шагу 5.
Шаг 4. Зафиксировать в специальном одномерном массиве гСНащв размером 1 х (п — 1) номер г -й итерации, на которой порядок включения ВР (или уже сформированных подкластеров) в кластеры при переходе от ВР длиной (г — 1) и к ВР длиной г изменился: гСНащв(г) = 1. Увеличить счетчик к на 1. Увеличить номер анализируемой итерации на 1. Если новый номер итерации не превосходит (п — 1) (то есть г < п — 1), перейти к шагу 2 для продолжения сравнения чисел Qíl,4 и Q,t'4. Иначе перейти к шагу 5.
Шаг 5. Оценить значение счетчика к. Если к = 0, порядок включения ВР (или уже сформированных подкластеров) в кластеры при переходе от ВР длиной (г — 1) и к ВР длиной г не изменялся в течение всех (п — 1) итераций. Если к > 0, порядок включения ВР (или уже сформированных подкластеров) в кластеры при переходе от ВР длиной (г — 1) и к ВР длиной г изменялся, при этом значения элементов массива гСНа^в, соответствующие номерам итераций, на которых порядок включения ВР (или уже сформированных подкластеров) в кластеры при переходе от ВР длиной (г — 1) и к ВР длиной г нарушен, равны 1.
Шаг 6. Принять решение о результатах малых трансформаций в группе ВР. Завершить алгоритм.
Малые трансформации ВР при переходе от ВР длиной (г — 1) и к ВР длиной г. могут не оказывать существенного влияния на структуру сформированных итоговых кластеров. В этом случае будет получено одно и то же число итоговых кластеров, как для ВР длиной (г — 1), так и для ВР длиной г, при этом объекты не будут перемещаться из кластера в кластер при переходе от ВР длиной (г — 1) и к ВР длиной г. Сами же трансформации ВР при переходе от ВР длиной (г — 1) и к ВР длиной г. будут заключаться в изменении порядка включения ВР (или уже сформированных подкластеров) в итоговые кластеры (то есть в незначительном изменении
списков упорядочения ВР (или уже сформированных подкластеров) с учетом расстояний между ними).
3. Экспериментальные исследования
Апробация предлагаемых алгоритмов выявления структурных трансформаций в группах ВР была выполнена на примере группы показателей социально-экономического развития Рязанской области за 7 лет (с 2011 по 2017 гг.), в которой насчитывалось 89 показателей, представленных короткими временными рядами (длиной не более 7 отсчетов времени) и сгруппированных по 9 категориям: «Население», «Производство товаров и услуг», «Торговля и услуги населению», «Внешнеэкономическая деятельность», «Малое и среднее предпринимательство, включая микропредприятия», «Инвестиции», «Консолидированный бюджет субъекта Российской Федерации (включая местные бюджеты без учета территориальных внебюджетных фондов)», «Денежные доходы и расходы населения» и «Труд и занятость». При этом для категории «Консолидированный бюджет субъекта Российской Федерации (включая местные бюджеты без учета территориальных внебюджетных фондов)», содержащей более 30 показателей, статистическая информация была только за 2013-2017 гг. (то есть за 5 отсчетов времени), в связи с изменением состава показателей, включаемых в данную категорию (то есть данные за 20112012 гг. не сопоставимы с данными за последующие годы).
Трудности, имеющие место при диагностике и прогнозировании структурных трансформаций в социально-экономической сфере Рязанской области вызваны, в первую очередь, такими причинами, как наличие большого числа показателей, отражающих динамику социально-экономического развития региона, и ограниченность объема актуальной информации, что не позволяет применять многие методы и алгоритмы прогнозирования, предполагающие вовлечение в анализ данных временных рядов с большой длиной актуальной части.
В связи с тем, что полная статистическая информация была только за 20132017 гг., предварительный анализ всей группы показателей был выполнен на основе данных за 5 отсчетов времени.
На рис. 1, а и рис. 1, б представлены соответственно исходные и нормализованные ВР группы.
Предварительный анализ как всей группы показателей, так и ее отдельных категорий с применением алгоритмов ^-средних и нечетких с-средних показал плохую отделимость кластеров.
На рис. 2 представлены графические зависимости для значений показателей качества кластеризации от числа кластеров, полученные при реализации алгоритма нечетких с-средних для группы из 89 показателей.
а
б
Рисунок 1. Временные ряды группы из 89 показателей за 2013-2017 гг.: а — исходные временные ряды; б — нормализованные временные ряды
б)
Рисунок 2. Графические зависимости для показателей качества кластеризации:
а) графическая зависимость для коэффициента FPC;
б) графическая зависимость для индекса Се-Бени ХВ
Коэффициент FPC (fuzzy partition coefficient) вычисляется как [9]:
1 c n
FPC = - ,■ (X ))m,
n ,=i >=i
где m — фаззификатор; n — число ВР; с — число кластеров; ц .(x) — степень принадлежности ВР x j-му кластеру.
При этом оптимальное число кластеров соответствует максимуму значения коэффициента FPC. Как видно из рис. 2, а, максимум, равный 1, достигается при числе кластеров, равном числу объектов.
Индекс Се-Бени (Xie-Beni) XB вычисляется как [9, 16]:
,(x,)УЦхк -v, ||2
XB = ---
nmm|| vk -v, II
k*J J
где m=2 — фаззификатор; n — число ВР; с — число кластеров; ц.(x) — степень принадлежности ВР x j-му кластеру; v. — центр j-го кластера.
При этом оптимальное число кластеров соответствует минимуму значения индекса XB. Как видно из рис. 2, б, минимум, равный 9.727534Е-28, достигается при числе кластеров, равном числу объектов.
Очевидно, что кластеры, содержащиеся в рассматриваемой группе ВР, плохо отделимы друг от друга, а выявленное с применением алгоритма нечетких с-средних оптимальное число кластеров не может быть признано удовлетворительным для дальнейшего решения задачи выявления структурных трансформаций ВР. В связи с этим было принято решение об анализе как всей группы ВР, так и ее отдельных категорий ВР с применением алгоритмов иерархической кластеризации. При этом были рассмотрены все перечисленные методы связывания кластеров и такие метрики вычисления расстояний между объектами, как метрика евклидова расстояния (Euclidean metric), метрика квадрата евклидова расстояния (squared Euclidean metric), метрика нормализованного евклидова расстояния (standardized Euclidean metric) корреляционная метрика (correlation metric), метрика расстояния Минковского (Minkowski metric), метрика манхэттенского расстояния (метрика городских кварталов, cityblock metric, косинусная метрика расстояния (cosine metric), метрика расстояния Чебышева (Chebyshev metric), канберрская метрика расстояния (Canberra metric) с учетом их совместимости с методами связывания кластеров.
Анализ полученных дендрограмм для группы ВР (длиной от 3 до 5 элементов) для 89 показателей, а также для отдельных категорий показателей (с длиной ВР от 3 до 5 ли 7 элементов в зависимости от имевшихся в наличии данных по категориям) с применением метода большинства голосов позволил выбрать наиболее оптимальное сочетание метода связывания кластеров и метрики вычисления расстояний между объектами: оказалось, что с точки зрения интерпретации наилучшие результаты кластеризации позволяет получить комбинация метода Уорда и метрики евклидова расстояния. Полученный результат соответствует рекомендациям по выбору метода связывания кластеров и метрики вычисления расстояний между объектами, обеспечивающих в большинстве случаев адекватные результаты кластеризации.
На рис. 3 приведен примеры иерархической кластеризации нормированной группы ВР для 89 показателей при длине ВР в 3 (рис. 3) , 4 (рис. 4) и 5 (рис. 5) элементов.
Из рис. 3-5 видно, что группа ВР для 89 показателей может быть разбита на 3 кластера. Этот же вывод позволяют сделать такие методы оценки оптимального числа кластеров, как elbow/knee-метод или метод, основанный на оценке кластерного силуэта.
Рисунок 3. Дендрограмма для нормированной группы ВР длиной в 3 элемента
Рисунок 4. Дендрограмма для нормированной группы ВР длиной в 4 элемента
Рисунок 5. Дендрограмма для нормированной группы ВР длиной в 5 элементов
На рис. 6 приведен пример графических зависимостей для кластерного расстояния и величины изменения кластерного расстояния, полученных при применении
elbow/knee-метода к результатам кластеризации группы ВР длиной в 5 элементов, на основе которых можно сделать вывод об оптимальном числе кластеров, равном 3 (большее значение величины изменения кластерного расстояния соответствует искомому числу кластеров).
_ 8
ЕЯ Л
Я I -
а.
£
* 5
■с -
!<
сГ
г
Ь
и в К
I2 =
о.
- I
О 1
=
р,
| о
'А
О 20 40 69 «0 Число кластеров
Рисунок 6. Графические зависимости для кластерного расстояния и величины изменения кластерного расстояния для группы из 89 показателей длиной в 5 элементов
Анализ рис. 3-5 позволяет сделать вывод о наличии явных структурных трансформаций ВР внутри выявленных кластеров. При этом в виду большого числа ВР в группе и выявленном перемещении ВР из кластера в кластер при увеличении длины ВР было принято решение о выполнении иерархической кластеризации ВР, принадлежащих одной и той же категории.
В частности, были рассмотрены категории «Население», содержащей 6 ВР, и «Инвестиции», содержащей 13 ВР. ВР этих категорий имеют длину в 7 элементов, то есть содержат данные за 2011-2017 гг. Эти категории были выбраны для анализа в предположении, что ВР категории «Население» должны быть подвержены структурным трансформациям в меньшей степени, чем ВР категории «Инвестиции». Это связано с тем, что динамика показателей категории «Население» определяется, прежде всего, существующими долгосрочными тенденциями, сформированными в предшествующих периодах, тогда как показатели категории «Инвестиции» во многом определяются инвестиционным климатом в регионе, формирование которого происходит как в долгосрочной, так и в среднесрочной перспективе при реализации инвестиционной политики.
Рисунок 7. Временные ряды категорий «Население» и «Инвестиции» за 2011 -2017 гг.. а — исходные временные ряды категории «Население»; б — исходные временные ряды категории «Инвестиции»; в — нормализованные временные ряды категории «Население»; г — нормализованные временные ряды категории «Инвестиции»
На рис. 7, а и рис. 7, б приведены примеры исходных ВР категорий «Население» и «Инвестиции» соответственно; на рис. 7, в и рис. 7, г приведены нормированные аналоги ВР категорий «Население» и «Инвестиции» соответственно.
На рис. 8, а и рис. 8, б приведены дендрограммы ВР категорий «Население» и «Инвестиции» соответственно для 3 отсчетов времени, на рис. 8, в и рис. 8, г — для 4 отсчетов времени, на рис. 8, д и рис. 8, е — для 5 отсчетов времени.
На рис. 9, а и рис. 9, б приведены дендрограммы ВР категорий «Население» и «Инвестиции» соответственно для 6 отсчетов времени, а на рис. 9, в и рис. 9, г — для 7 отсчетов времени. На всех дендрограммах отмечены расстояния между кластерами и подкластерами.
Из рис. 8 и 9 видно, что ВР обеих категорий могут быть разбиты на 2 кластера. Этот же вывод позволяют сделать elbow/knee-метод или метод, основанный на оценке кластерного силуэта. На рис. 10 приведены примеры графических зависимостей для кластерного расстояния и величины изменения кластерного расстояния, полученных при применении elbow/knee-метода к результатам кластеризации ВР длиной в 7 элементов категорий «Население» и «Инвестиции», на основе которых можно сделать вывод об оптимальном числе кластеров, равном 2.
г
в
д)
временного |
е)
Рисунок 8. Дендрограммы категорий «Население» и «Инвестиции» при 7 = 3,5; а — дендрограмма нормированной группы «Население» при 7 = 3; б — дендрограмма нормированной группы «Инвестиции» при 7 = 3; в — дендрограмма нормированной группы «Население» при 7 = 4; г — дендрограмма нормированной группы «Инвестиции» при 7 = 4; д — дендрограмма нормированной группы «Население» при 7 = 5; е — дендрограмма нормированной группы «Инвестиции» при 7 = 5
в) г)
Рисунок 9. Дендрограммы категорий «Население» и «Инвестиции» при t = 6,7; а — дендрограмма нормированной группы «Население» при t = 6; б — дендрограмма нормированной группы «Инвестиции» при t = 6; в — дендрограмма нормированной группы «Население» при t = 7; г — дендрограмма нормированной группы «Инвестиции» при t = 7
В табл. 1 приведен пример матрицы Q' содержащей информацию о результатах иерархической кластеризации ВР длиной в 7 элементов категории «Население».
В ходе анализа обеих категорий ВР при всех г = 3'7 с применением elbow/knee-метода и метода, основанного на оценке кластерного силуэта, было определено оптимальное число кластеров, равное 2, то есть число кластеров не изменялось при переходе от ВР длиной (г — 1) и к ВР длиной г' поэтому было выявлено, что большие структурные трансформации для категорий «Население» и «Инвестиции» отсутствуют при всех г = 3'7.
Таблица 1. Пример матрицы Q, содержащей информацию о результатах иерархической кластеризации ВР длиной в 7 элементов категории «Население»
Номер объекта (подкластера) U Номер объекта (подкластера) V Расстояние Число объектов в подкластере
1 4 0.59921848 2
3 5 0.63245553 2
6 7 0.89338029 3
2 8 1.30526787 3
9 10 2.46781271 6
Для категории ВР были выявлены только малые структурные трансформации при переходе от ВР длиной t = 3 и к ВР длиной t = 4 (примеры дендрограмм для этой категории ВР при t = 3 и t = 4 при приведены на рис. 8, а и рис. 8, б соответственно), при t > 5 малые структурные трансформации отсутствовали. Для группы ВР «Инвестиции» при всех t > 3 были выявлены средние структурные трансформации (примеры дендрограмм для этой категории ВР приведены на рис. 8, б, рис. 8, г, рис. 8, е, рис. 9, б и рис. 9, г).
На рис. 10 приведены примеры графических зависимостей для кластерного расстояния и величины изменения кластерного расстояния, полученных при применении elbow/knee-метода к результатам кластеризации для ВР длиной в 7 элементов категорий «Население» (рис. 10, а) и «Инвестиции» (рис. 10, б), на основе которых можно сделать вывод о том, что для обеих категорий оптимальное число кластеров равно 2.
--2 А 6 S II) 12
12 3 4 5 Число кластеров
Число класи'ров
а б
Рисунок 10. Графические зависимости для кластерного расстояния и величины изменения
кластерного расстояния для ВР длиной в 7 элементов категорий «Население» и «Инвестиции»: а — графические зависимости для категории «Население»; б — графические зависимости для категории «Инвестиции»
На рис. 11 и рис. 12 приведены результаты кластеризации нормализованных ВР длиной в 7 элементов категорий «Население» и «Инвестиции» соответственно на 2 кластера.
Результаты кластеризации нормализованных ВР категории «Население» (рис. 11) могут быть признаны вполне адекватными. При этом можно высказать предположение о возможном выделении ВР № 2 в отдельный кластер в будущем.
Рисунок 11. Результаты кластеризации нормализованных ВР категории «Население»
на 2 кластера
Отечет времени Отсчёт времени
Кластер № 1 Кластер № 2
Рисунок 12. Результаты кластеризации нормализованных ВР категории «Инвестиции»
на 2 кластера
Результаты кластеризации нормализованных ВР категории «Инвестиции» (рис. 12) могут быть признаны вполне адекватными для кластера № 2 (в целом этот кластер вполне отражает общую тенденцию развития включенных в него ВР). Кластер № 1 содержит разнотипные ВР. При этом они визуально существенно отличаются и от ВР кластера № 2. Очевидно, что следует сделать вывод о необходимости
разбиения ВР этого кластера на 3 отдельных подкластера. Возможно, следовало бы применить какую-либо другую метрику вычисления расстояний между объектами, чтобы сделать различие ВР более существенным, а также — использовать другой метод слияния кластеров.
5. Заключение
Результаты экспериментов показали эффективность применения предложенных алгоритмов выявления больших, средних и малых структурных трансформаций ВР на примере на примере группы показателей социально-экономического развития Рязанской области. Целью дальнейших исследований является решение задачи выбора оптимального числа кластеров в случае противоречивых решений, формируемых с применением различных методов группирования объектов в кластеры и метрик для вычисления расстояний между объектами и развитие подхода по выявлению структурных трансформаций ВР с привлечением алгоритмов k-средних и нечетких с-средних.
Литература
[1] Андерсен Т. Статистический анализ временных рядов. — М. : Мир. 1976.
[2] Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: Классификация и снижение размерности. — М. : Финансы и статистика. 1989.
[3] Паклин Н. Б., Орешков В. И. Бизнес-аналитика от данных к знаниям. — СПб. : Питер. 2013.
[4] Демидова Л. А. Разработка однофакторных нечетких моделей для анализа тенденций временных рядов с использованием генетического алгоритма // Научно-технические ведомости Санкт-Петербургского государственного политехнического университета. 2007. № 4-2 (52). С. 156-164.
[5] Астахова Н. Н., Демидова Л. А. Использование почти полных строго бинарных деревьев и модифицированного алгоритма клонального отбора при разработке моделей прогнозирования временных рядов с короткой актуальной частью // Вестник РГРТУ. 2013. № 46-2. С. 89-96.
[6] Астахова Н. Н., Демидова Л. А. Метод прогнозирования групп временных рядов с применением алгоритмов кластерного анализа // Прикаспийский журнал: управление и высокие технологии. 2015. № 2 (30). С. 59-79.
[7] Astakhova N. N., Demidova L. A., Nikulchev E. V. Forecasting Method for Grouped Time Series with the Use of K-Means Algorithm // Applied Mathematical Sciences. 2015. Vol. 9. No. 97. P. 4813-4830.
[8] Astakhova N. N., Demidova L. A., Nikulchev E. V. Forecasting of Time Series' Groups with Application of Fuzzy C-Mean Algorithm // Contemporary Engineering Sciences. 2015. Vol. 8. No. 35. P. 1659-1677.
[9] Demidova L., Nikulchev E., Sokolova Yu. Use of Fuzzy Clustering Algorithms' Ensemble for SVM classifier Development // International Review on Modelling and Simulations. 2015. Vol. 8. No. 4. P. 446-457.
[10] Жамбю М. Иерархический кластер-анализ и соответствия. — М. : Финансы и статистика. 1988.
[11]Мандель И. Д. Кластерный анализ. — М. : Финансы и Статистика. 1988.
[12] Jung Y., Park H., Du D. Z., Drake B. L. A Decision Criterion for the Optimal Number of Clusters in Hierarchical Clustering // Journal of Global Optimization. 2003. Vol. 25. P. 91-111.
[13] Gurrutxaga I., Albisua I., Arbelaitz O. et al. SEP/COP: An efficient method to find the best partition in hierarchical clustering based on a new cluster validity index // Pattern Recognition. 2010. Vol. 43. No. 10. P. 3364.
[14] Bhargavi M. S., Sahana D. G. An hybrid validity index for dynamic cut-off in hierarchical agglomerative clustering // 2014 International Conference on Advances in Computing, Communications and Informatics (ICACCI). 2014. P. 2205.
[15] Charrad M., Nadia G., Véronique B., Azam N. NbClust: An R Package for Determining the Relevant Number of Clusters in a Data Set // Journal of Statistical Software. 2014. Vol. 61. P. 1-36.
[16] Halkidi M., Batistakis I., Vazirgiannis M. On Clustering Validation Techniques. Journal of Intelligent Information Systems. 2001. Vol. 17(2/3). P. 107-145.
[17] Rousseeuw P. Silhouettes: a graphical aid to the interpretation and validation of cluster analysis // Journal of Computational and Applied Mathematics. 1987. Vol. 20(1). P. 5365.
[18] Степанов М. А. Диагностика состояния и определение тенденций развития промышленной системы региона // Современные технологии в науке и образовании -СТН0-2017. — Рязань: РГРТУ. 2017. C. 145-149.
[19] Евдокимова Е. Н., Степанов М. А. Управление развитием кластерных структур на основе их жизненных циклов // Теория и практика общественного развития. 2015. № 12. С. 95-99.
[20] Степанов М. А., Евдокимова Е. Н. Оценка структурных сдвигов промышленной системы региона // Вестник факультета управления СПбГЭУ. 2016. Вып. 1. Ч. 2. С. 126-131.
[21] Демидова Л. А., Степанов М. А. Анализ проблемы диагностики структурных трансформаций временных рядов в социально-экономической сфере // Актуальные проблемы современной науки и производства: материалы III Всероссийской научно-технической конференции. 2018. С. 177-182.
[22] Уиллиамс У. Т., Ланс Д. Н. Методы иерархической классификации // В кн.: Статистические методы для ЭВМ. — М. : Наука, 1986. С. 269-301.
[23] Lance G. N., Willams W. T. A general theory of classification sorting strategies. 1. hierarchical systems // Computer Journal. 1967. No. 9. P. 373-380.
[24] Ward J. H. Hierarchical grouping to optimize an objective function // Journal of the American Statistical Association. 1963. Vol. 58. No. 301. P. 236-244.
[25]Milligan Glenn W. Ultrametric hierarchical clustering algorithms // Psychometrika. 1979. Vol. 44. Iss. 3. P. 343-346.
[26] Peter H. A., Sneath R. S. Numerical Taxonomy. The principles and practice of numerical classification. 1973.
[27]Mousa A., Yusof Yu. An improved Chebyshev distance metric for clustering medical images // AIP Conference Proceedings. 2015. Vol. 1691. Iss. 1. P. 040020.
[28] Weinberger K. Q., Saul L. K. Distance Metric Learning for Large Margin Nearest Neighbor Classification // Journal of Machine Learning Research. 2009. Vol. 10. P. 207-244.
Авторы:
Лилия Анатольевна Демидова — доктор технических наук, профессор кафедры вычислительной и прикладной математики, Рязанский государственный радиотехнический университет
Максим Анатольевич Степанов — аспирант, Рязанский государственный радиотехнический университет
An approach to solving problem of the structural transformations detection in the time series' groups
Liliya Demidova, Maxim Stepanov
Ryazan State Radio Engineering University
59/1, st. Gagarin, Ryazan, 390005 Russia
e-mail: [email protected], [email protected]
Abstract. The article deals with the problem of the structural transformations detection in the time series' groups and suggests the algorithms for identifying the large, medium and small structural transformations in the time series groups, based on the work results of the hierarchical clustering algorithms. The examples of application of the suggested algorithms for identifying the structural transformations in the problem of analyzing of the socio-economic sphere time series, which confirm the effectiveness of these algorithms have been given. Keywords: time series, hierarchical clustering, dendrogram, optimal number of clusters, structural transformation detection algorithms.
References
[1] Andersen T. (1976) Statisticheskiy analiz vremennykh ryadov. Moscow, Mir. [In Rus]
[2] Ayvazyan S. A., Bukhshtaber V. M., Yenyukov I. S., Meshalkin L. D. (1989) Prikladnaya statistika: Klas-sifikatsiya i snizheniye razmernosti. Moscow. [In Rus]
[3] Paklin N. B., Oreshkov V. I. (2013) Biznes-analitika ot dannykh k znaniyam. Saint-Petersburg. [In Rus]
[4] Demidova L. A. (2007) Nauchno-tekhnicheskiye vedomosti Sankt-Peterburgskogo gosudarstvennogo politekhnicheskogo universiteta, 4-2(52):156-164. [In Rus]
[5] Astakhova N. N., DemidovaL. A. (2013) VestnikRGRTU, (46-2):89-96. [In Rus]
[6] Astakhova N. N., Demidova L. A. (2015) Prikaspiyskiy zhurnal: upravleniye i vysokiye tekhnologii, (30):59-79. [In Rus]
[7] Astakhova N. N., Demidova L. A., Nikulchev E. V. (2015) Applied Mathematical Sciences, 9(97):4813-4830.
[8] Astakhova N. N., Demidova L. A., Nikulchev E. V. (2015) Contemporary Engineering Sciences, 8(35): 1659—1677.
[9] Demidova L., Nikulchev E., Sokolova Yu. (2015) International Review on Modelling and Simulations, 8(4):446-457.
[10] Zhambyu M. (1988) Iyerarkhicheskiy klaster-analiz i sootvetstviya. Moscow. [In Rus]
[11] Mandel' I. D. (1988) Klasternyy analiz. Moscow, Finansy i statistika. [In Rus]
[12] Jung Y., ParkH., Du D. Z., Drake B. L. (2003) Journal of Global Optimization, 25:91-111.
[13] Gurrutxaga I., Albisua I., Arbelaitz O., ..., Perona, I. (2010) Pattern Recognition. 43(10):3364.
[14] Bhargavi M. S., Sahana D. G. (2014) An hybrid validity index for dynamic cut-off in hierarchical ag-glomerative clustering. In 2014 International Conference on Advances in Computing, Communications and Informatics (ICACCI). 2014. P. 2205.
[15] Malika Ch., Ghazzali N., Boiteau V., Niknafs A. (2014) Journal of Statistical Software. 61:1-36.
[16] Halkidi M., Batistakis I., Vazirgiannis M. (2001) J. of Intelligent Information Systems. 17(2/3):107-145.
[17] Rousseeuw P. (1987) Journal of Computational and Applied Mathematics, 20(1):53-65.
[18] Stepanov M. A. (2017) Diagnostika sostoyaniya i opredeleniye tendentsiy razvitiya promyshlennoy sis-temy regiona . In Sovremennyye tekhnologii v nauke i obrazovanii - STN0-2017. P. 145-149. [In Rus]
[19] Yevdokimova Ye. N., Stepanov M. A. (2015) Teoriya i praktika obshchestvennogo razvitiya, (12): 95-99. [In Rus]
[20] Stepanov M. A., Yevdokimova Ye. N. (2016) Vestnik fakul'teta upravleniya SPbGEU, (1-2): 126-131. [In Rus]
[21] Demidova L. A., Stepanov M. A. (2018) Analiz problemy diagnostiki strukturnykh transformatsiy vremennykh ryadov v sotsial'no-ekonomicheskoy sfere. In Aktual'nyye problemy sovremennoy nauki i proizvodstva: materialy III Vserossiyskoy nauchno-tekhnicheskoy konferentsii. P. 177-182. [In Rus]
[22] Uilliams U. T., Lans D. N. (1986) Metody ierarhicheskoj klassifikacii. In Statisticheskie metody dlya EVM. Moscow, Nauka. P. 269-301. [In Rus]
[23] Lance G. N., Willams W. T. (1967) Computer Journal, 9:373-380.
[24] Ward J. H. (1963) Journal of the American Statistical Association, 58(301):236-244.
[25] Milligan Glenn W. (1979) Psychometrika, 44(3):343-346.
[26] Peter H. A., Sneath R. S. (1973) Numerical Taxonomy. The principles and practice of numerical classification.
[27] Mousa A., Yusof Yu. (2015) AIP Conference Proceedings, 1691(1):040020.
[28] Weinberger K. Q., Saul L. K. (2009) Journal of Machine Learning Research, 10:207-244
[29] Krasovskiy N. N., Subbotin A. I. (1974) Pozitsionnyye differentsial'nyye igry. Moscow, Nauka. [In Rus]