ВИЗУАЛИЗАЦИЯ МНОГОМЕРНЫХ ДАННЫХ НА ОСНОВЕ ПОСТРОЕНИЯ КРАТЧАЙШЕГО НЕЗАМКНУТОГО ПУТИ

Середин Олег Сергеевич; Сурков Егор Эдуардович; Копылов Андрей Валериевич; Двоенко Сергей Данилович

УДК 004.93

DOI: 10.24412/2071-6168-2021-12-299-313

ВИЗУАЛИЗАЦИЯ МНОГОМЕРНЫХ ДАННЫХ НА ОСНОВЕ ПОСТРОЕНИЯ КРАТЧАЙШЕГО НЕЗАМКНУТОГО ПУТИ

О.С. Середин, Е.Э. Сурков, А.В. Копылов, С.Д. Двоенко

В работе рассматриваются методы визуализации многомерных данных на основе поиска кратчайшего незамкнутого пути между объектами исследуемой выборки и его отображением на двумерную плоскость в виде незамкнутого графа (цепочки), столбчатой диаграммы распределения объектов вдоль найденного пути или проекции на путь. Построение кратчайшего незамкнутого пути выполняется по матрице расстояний между объектами, что позволяет применять метод как для многомерных данных, так и для данных, представленных только функциями парных сравнений объектов. В работе реализован алгоритм жадного поиска квазикратчайшего незамкнутого пути и предложены его модификации. Работа алгоритмов протестирована на модельных данных и данных, полученных в ходе исследования задачи детектирования падений при помощи Microsoft Kinect V2.

Ключевые слова: кратчайший незамкнутый путь, визуализация многомерных данных, функция попарного сходства.

Визуализация данных - это наглядное представление информации. Одна из целей визуализации данных - облегчить их восприятие для последующего анализа, например, графическая демонстрация поведения некоторого объекта. Также визуализация нужна для анализа больших наборов данных [1, 2]. Для каждой конкретной задачи применяются различные методы визуализации. Методы визуализации применяются к обработке массивов данных, которые представлены в виде чисел, действительных или комплексных, на непрерывной или дискретной шкале, полученных в процессе проведения натурных или вычислительных экспериментов. Также при визуализации необходимо учитывать важность междисциплинарных связей, когда методы и средства одной предметной области успешно применяются для решения задачи из другой области. Важно отметить, что исходные данные перед визуализацией часто подвергаются дополнительным преобразованиям. Это связано и с необходимостью извлечения информации для получения новых характеристик изучаемого процесса или явления и проблемами подготовки данных для лучшего восприятия [2].

Сложность визуализации данных появляется тогда, когда размерность пространства описаний объектов анализа становится больше трех. В простейшем случае визуализация данных предполагает изображение зависимости определенной функции от одного или нескольких параметров. Такая задача тривиальна для двухмерного и трехмерного случаев, в которых достаточно построить график соответствующей размерности. Однако в реальных задачах объект описывается не одной парой признаков - для описания объектов окружающего мира используются десятки и сотни влияющих на них факторов. Визуализировать зависимость при большом количестве описательных признаков довольно-таки проблематично. Таким образом, при выборе количества характеристик объекта учитываются как «простота» и наглядность визуализации, так и достоверность, и точность исследования [3].

Формально задача визуализации данных будет выглядеть следующим образом: необходимо найти такое отображение объектов пространства исходной размерности M в пространство меньшей размерности M < 3 , которые бы минимизировало потерю качества описания объектов. Такие методы называются целенаправленным проецированием в пространство малой размерности [4].

В работе рассматриваются методы визуализации многомерных данных на основе кратчайшего незамкнутого пути между объектами изучаемой выборки. В работе рассматриваются несколько критериев поиска кратчайшего незамкнутого пути, а также предлагаются алгоритмы для его вычисления. Приведены результаты экспериментов на модельных данных и на реальных данных, таких как Iris Data Set [5], Abalone Data Set [6]. Также проведен эксперимент на данных из исследования задачи детектирования падений [7]. Выполнено экспериментальное сравнение алгоритмов поиска кратчайшего незамкнутого пути, а также приведены сравнительные таблицы временных затрат на их вычисление.

Визуализации многомерных данных на основе построения кратчайшего незамкнутого пути. Кратчайший незамкнутый путь (КНП) - это граф из N — 1 ребер, который соединяет N объектов пространства таким образом, чтобы суммарная длинна ребер была минимальной [8]. Основной идеей визуализации многомерных данных, предлагаемой в работе, является поиск КНП между объектами изучаемой выборки и его отображением на двумерную плоскость в виде:

1. незамкнутого графа (цепочки). Такой способ визуализации заключается в том, что на двумерной плоскости отображаются точки и соединяются ребрами в порядке, найденном алгоритмом КНП. Такой подход применим только к двумерным данным;

2. столбчатой диаграммы распределения объектов вдоль найденного пути. Это основной подход визуализации данных, который используется в работе для представления данных. Такой способ визуализации заключается в том, что полученный с помощью КНП путь можно «вытянуть» в прямую линию, на которой будут отложены объекты в той последовательности, в какой они найдены КНП. Такую прямую можно визуализировать в виде столбчатой диаграммы [9]. По оси абсцисс откладывается длина пути, которую можно разделить на отрезки - бины (их максимальное количество равняется количеству объектов). По оси ординат откладывается количество объектов, попавших в бин (рис. 1);

3. проекции на путь. Третий способ визуализации представляет собой проекцию на путь, по оси абсцисс откладывается расстояние между объектами вдоль пути, по оси ординат откладывается евклидово расстояние от стартового объекта до текущего. Такой способ визуализации позволяет показать зависимость положения объектов относительно друг друга в пространстве любой размерности.

Преимуществом второго и третьего подходов визуализации является то, что алгоритмы не зависят от размерности пространства признаков, описывающих объекты. Такие алгоритмы могут быть реализованы только на матрице расстояний между объектами (далее в тексте мы будем использовать термин точка, понимая объект как точку в многомерном пространстве).

1. Описание алгоритмов поиска КНП. В работе рассматриваются два критерия поиска

КНП.

Первый критерий заключается в поиске кратчайшего незамкнутого пути и математически выражается как минимизация следующего функционала:

N

Л = т*п X ^ ,ы,

1=2

где di . - расстояние между / -й и ] -й точкой, / = 1,..., N - порядок обхода элементов в пути,

N - количество элементов.

Обратим внимание, что если объекты представлены матрицей расстояний А, то задача поиска КНП на таких объектах сводится к решению задачи поиска путем перестановки соответствующих строк и столбцов такой матрицы расстояний, чтобы сумма элементов над главной диагональю которой была минимальна:

N—1

Л = X А ,/+1, /=1

где /+1 - элемент матрицы расстояний, находящийся в / -ой строке и j -ом столбце.

Второй критерий эвристический и используется в том случае, когда необходимо найти путь с наименьшей длиной и с наибольшим расстоянием между терминальными точками, таким образом «выпрямить» КНП. Второй критерий обеспечивает минимум разницы между длиной КНП и расстоянием между терминальными точками пути должна быть минимальна:

N

J2 = Ь 4 ,/-1 — О d1, N ,

1=2

где О - весовой коэффициент (в работе используется О = 1).

В работе реализован алгоритм поиска кратчайшего незамкнутого пути, который представляет собой полный перебор всех вариантов соединений точек и выбора кратчайшего пути, то есть такого, у которого сумма расстояний между точками при обходе является минимальной (далее алгоритм А0).

Сложность данного алгоритма заключается в том, что совершается N! операций построений различных цепочек. Для вычисления суммы элементов одной цепочки необходимо N — 1 обращений к матрице расстояний. Но поскольку существуют симметричные цепочки, то в таком случае оценка сложности уменьшится вдвое и будет равной ((N — 1) • N!) / 2. Кратчайший незамкнутый путь может быть найден только алгоритмом А0, однако этот алгоритм требует больших временных затрат и реализуем лишь для небольшого числа точек (в ходе экспериментальных исследований в данной работе было выяснено, что это приблизительно 15 точек). Поэтому были предложены его модификации - алгоритмы А1, А2, А3, А4, которые являются жадными и в общем случае не способны найти КНП, однако позволяют обеспечить приемлемое время работы и квазикратчайший незамкнутый путь.

Алгоритм А1 - его идея заключается в том, что сначала надо найти пару точек (терминальные точки), расстояние между которыми будет минимальным. Далее сохранить их в массив с изолированными точками (это точки, которые включены в путь). К каждой из этих терминальных точек найти ближайшую из оставшихся свободных точек и сравнить эти расстояния. Точку, расстояние до которой от терминальных оказалось минимальным, добавить к изолированным точкам. Далее для двух терминальных (одна из которых обновилась) вновь повторить поиск ближайшей из свободных точек и сохранить ту, которая оказалась ближе, и так повторять итерации до тех пор, пока все свободные точки не станут изолированными. Сложность

данного алгоритма (3 N2 + N) / 2. Очевидный недостаток данного алгоритма заключается в

том, что он находит только один путь.

Алгоритм А2 - модификация А1, которая заключается в том, что для каждой, так называемой, затравочной точки находится ближайшая и эти две точки представляют стартовый отрезок. Далее действия повторяются по алгоритму А1. Таким образом совершается N операций построений цепочек, из которых выбирается тот, длина которого минимальна. Сложность

алгоритма N • (N2 + N) = N3 + N2.

Алгоритм А3 - модификация А1, которая заключается в том, что граф КНП строится из каждой пары точек. Таким образом совершается (N2 — N) / 2 построений графа. Сложность этого алгоритма ^2 — N 2 + N) /2 = ^4 — N 2)/2.

Очевидно, что решение, найденное при использовании А1, будет среди решений А2 и А3, а решение, найденное при помощи А2, входит в А3.

Алгоритм А4 - модификация алгоритма А3, которая заключается в том, что изначально выбирается одна точка, затем слева и справа от нее перебираются все пары, которые становятся терминальными для этой тройки. Далее выполняется поиск, как в алгоритме А1. Сложность такого алгоритма оценивается, как ^3 — N2 + N) /2 = ^5 — N 3)/2.

Также предлагаются рекурсивные варианты этих алгоритмов А1Я, А2Я, А3Я, А4Я, которые заключаются в том, что если при поиске ближайшей точки (из списка свободных) к терминальной точке будет обнаружено несколько равноудаленных точек, то рассматривается каждый вариант такого пути. В конце выбирается путь, обеспечивающий минимум используемого критерия J1 или J2. Количество построений графа зависит от того, сколько пар точек с

одинаковым расстоянием будет содержаться в данных. Временных затрат на вычисление рекурсивного жадного алгоритма требуется больше, однако, предполагается, что это время всё ещё на несколько порядков меньше, чем на вычисления алгоритмом А0.

Эксперименты на модельных и реальных данных

1. Описание данных. Тестовый набор 1 (13 точек). На рис. 2, а изображен пример расположения точек на двумерной плоскости, образующих ломаную линию. Особенность данного

301

набора заключается в том, что в нем существует несколько решений задачи поиска кратчайшего незамкнутого пути и оптимальное решение для такой простой конфигурации находится лишь одним из предложенных жадных алгоритмов (А4).

Тестовый набор 2 (15 точек). На рис. 2, б продемонстрирован тестовый набор 2, который представляет собой 15 точек, образующих три кластера.

Тестовый набор 3 (15 точек). На рис. 2, в продемонстрирован пример расположения точек, образующих две окружности.

Тестовый набор 4 (18 точек). На рис. 2, г продемонстрирован пример расположения точек, образующих три окружности.

¡2

10

4 6

2 1

и

_ £ .1

9_ J

I 2 з

5 6

а

2

12

■1 П

10

р

15 ,14

» 4

а 7

2 3 4 5

9 10 11 12 13 14 15

>5.10

У 4 J)

и

11 13 15

Й*

S

3 *7 ' >

1 2 3 4 б 6 7 в 9

9

3

12

,0 ,1 и

5 10 L3

i li IS

14

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

в г

Рис. 2. Тестовые наборы данных: а - точки образуют ломаную линию; б - точки имеют кластерную структуру; в - точки образуют две окружности; г - точки образуют три

окружности

Тестовый набор 5. В качестве тестового набора 5 используется реальный набор данных ирисов Фишера [5]. Набор данных содержит 150 объектов, каждый из которых описывается четырьмя признаками. Для этого набора данных имеется большое количество равноудаленных друг от друга объектов и КНП по такому набору точек построить сложно, так как будет соответствующее количество одинаковых потенциальных КНП.

Тестовый набор 6. В качестве тестового набора 6 используется реальный набор данных Abalone [6]. Набор данных используется для прогнозирования возраста моллюсков по физическим измерениям. Набор содержит 4177 объектов, каждый из которых описывается восемью признаками, один из которых является значением для прогнозирования (ring), следовательно, для описания объектов использоваться не будет.

2. Результаты визуализации модельных наборов данных разработанными алгоритмами.

1. Первый эксперимент проведен на тестовом наборе 1. В табл. 1 представлен сравнительный результат работы алгоритмов по значениям, которые были получены при поиске кратчайшего незамкнутого пути на данных в виде ломаной линии.

Таблица 1

Результаты работы алгоритмов для тестового набора 1 __

Алгоритм АО А1 А1Я А2 А2Я А3 А3Я А4 А4Я

Поиск по критерию Jl

Длина пути 20.832 22.339 22.339 22.339 22.339 22.339 21.004 20.832 20.832

N 9.219 8.0 8.246 8.0 8.246 8.0 8.246 9.219 9.219

Длина пути - d1 ы 11.613 14.339 14.092 14.339 14.092 14.339 12.758 11.613 11.613

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Поиск по критерию J2

Длина пути 20.832 22.339 22.339 22.339 22.339 23.217 21.69 20.832 20.832

N 10.630 8.0 8.246 8.0 8.246 9.219 9.219 9.219 10.63

Длина пути - d1 N 10.202 14.339 14.092 14.339 14.092 13.998 12.470 11.612 10.202

Алгоритм АО на этом наборе данных находит 3 КНП с длинной 20.832. Решения, найденные при минимизации критериев J1 и J2 совпадают. Решение с такой длинной пути

удалось найти алгоритмами А4 и однако все три варианта кратчайших незамкнутых путей на этом наборе данных позволяет найти только алгоритм А4Я. На рис. 3 представлен один из трех вариантов КНП для тестового набора 1.

На рис. 4, а представлена визуализация данных тестового набора 1 в виде столбчатой диаграммы для пути, найденного алгоритмами АО, А4, А4Я при оптимизации критерия J1. На рис. 4, б представлена визуализация данных тестового набора 1 в виде проекции на путь, найденный алгоритмами АО, А4, А4Я при помощи критерия J1.

2. Второй эксперимент проведен на тестовом наборе 2. В табл. 2 представлен сравнительный результат работы алгоритмов по значениям, которые были получены при поиске кратчайшего незамкнутого пути на данных в виде двух окружностей.

12

УГО

4 6

II 2 [

и

5 8

Рис. 3. Вариант КНП для тестового набора 1, найденный алгоритмами АО, А4, А4Я

при минимизации критериев и /2

О 1 2 3 4 5 6 7 8 Э 10 11 12 13 и 15 16 17 13 19 ?0 £1

а б

Рис. 4. Визуализация тестового набора 1: а - в виде столбчатой диаграммы; б - в виде

проекции на путь

303

Таблица 2

Результаты работы алгоритмов^ для тестового набора 2__

Алгоритм А0 А1 A1R А2 A2R А3 А3R А4 А4R

Поиск по критерию Ji

Длина пути 18.947 19.330 18.948 19.330 18.948 19.330 18.947 19.328 18.947

d1, N 7.159 7.159 7.159 7.159 7.159 7.159 7.159 7.159 7.159

Длина пути - d1 n 11.788 12.17 11.789 12.17 11.789 12.17 11.788 12.170 11.788

Поиск по критерию J2

Длина пути 19.857 19.357 19.357 19.357 19.357 19.357 19.265 19.857 19.857

d1, N 8.732 7.906 7.905 7.905 7.905 7.905 7.906 8.5 8.732

Длина пути - d1 n 11.125 11.451 11.451 11.451 11.451 11.451 11.360 11.357 11.125

Результат работы А1, А2, А3 совпадают (рис. 5, а). Результат работы алгоритма А2Я продемонстрирован на рис. 5, б, А4 представлен на рис. 5, в. Результат работы А0, А4Я, А3Я представлен на рис. 5, г.

<

J ч

14

11 X 15

тг

S

2 [б

.5 .10

Ш,

14

11 1) 15

W

»

3 5

12 3 4 5 6 7

а

0 1 3 5 б 6 1 3 9

Î 10

<4 ,

14

II Vis

s

- Г*

в г

Рис. 5. Результат работы алгоритмов КНП на тестовом наборе 2: а - алгоритм А0, А3Я, A4R, длина 18.947; б - алгоритмы А1, А2, А3 длина 19.330; в - алгоритм АШ, A2R, длина 18.948; г - алгоритм А4, длина 19.328

На рис. 6, а представлена визуализация данных тестового набора 2 в виде столбчатой диаграммы для пути, найденного алгоритмами А0, A3R, A4R при оптимизации критерия J. На рис. 6, б представлена визуализация данных тестового набора 2 в виде проекции на путь, найденный алгоритмами А0, A3R, A4R при оптимизации критерия J.

3. Третий эксперимент проведен на тестовом наборе 3. В табл. 3 представлен сравнительный результат работы алгоритмов по значениям, которые были получены при поиске кратчайшего незамкнутого пути на данных в виде двух окружностей.

304

10 Ц М 16

а

и» ш»

б

Рис. 6. Визуализация тестового набора 2: а - в виде столбчатой диаграммы; б - в виде

проекции на путь

Результаты работы алгоритмов для тестового набора 3

Таблица 3

Алгоритм АО А1 лт А2 A2R А3 А3R А4 А4R

Поиск по критерию 31

Длина пути 32.730 32.730 32.730 32.730 32.730 32.730 32.730 32.730 32.730

N 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0

Длина пути - d1 N 28.730 28.730 28.730 28.730 28.730 28.730 28.730 28.730 28.730

Поиск по критерию 32

Длина пути 36.024 33.828 33.828 33.828 33.828 33.828 33.724 33.724 36.128

N 11.180 8.602 8.602 8.602 8.602 8.602 8.602 8.602 11.180

Длина пути - d1 N 24.844 25.226 25.226 25.226 25.226 25.226 25.121 25.121 24.948

Результаты поиска решения всеми предложенными алгоритмами при минимизации критерия Зх совпадают (рис. 7).

ю

9 8 7 6 5 4 3 2 1 о

3

/ 12

/ 4

,13

5

15

Г4

9

8

1 ' ' Ч " 1 ч " 1 ч 1 " 1 ч ' 1 1 ч • 1 ' ч 1'''11 1 1 ' ч ..... |'' • м

О 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Рис. 7. Результат работы алгоритмов КНП на тестовом наборе 3 при оптимизации критерия ^ (все алгоритмы), длина 32.73

Результат оптимизации критерия 32 представлен на рис. 8. Алгоритмы находят разные пути при одинаковых терминальных вершинах. Минимум по критерию 32 не смог достичь

ни один из жадных алгоритмов (см. рис. 8, а). Рекурсивная версия алгоритма А4 нашла решение, очень близкое к оптимальному (см. рис. 8, б).

Для тестового набора 3 все алгоритмы вычислили одинаковый кратчайший незамкнутый путь. На рис. 9, а представлена визуализация данных тестового набора 3 в виде столбчатой диаграммы для пути при оптимизации критерия На рис. 9, б представлена визуализация

данных тестового набора 3 в виде проекции на путь при оптимизации критерия J1.

01234567

9 10 11 и 13 14 15

0 1 2 3 4 5 6 7 в 9 10 II 12 13 14 15 б

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 8. Результат работы алгоритмов поиска КНП на тестовом наборе 3 при оптимизации критерия /2: а - алгоритмом А0, /2 = 24.844; б - алгоритмом А4Я,

/2 = 24.984

0 2 4 6 в 10 12 14 16 13 20 22 24 26 20 30 3?

а б

Рис. 9. Визуализация тестового набора 3: а - в виде столбчатой диаграммы;

б - в виде проекции на путь

4. Четвертый эксперимент проведен на тестовом наборе 4. В табл. 4 представлен сравнительный результат работы алгоритмов по значениям, которые были получены при поиске кратчайшего незамкнутого пути на данных в виде трех окружностей (18 точек).

Результаты работы алгоритмов^ для тестового набора 4^

Таблица 4

Алгоритм А0 А1 А1Я А2 А2Я А3 А3Я А4 А4Я

Поиск по критерию Jl

Длина пути - 38.246 38.246 38.246 38.246 36.627 36.627 36.627 36.627

dl, N - 10.296 12.649 10.296 12.649 12.042 12.042 12.042 12.042

Длина пути - d1 N - 27.951 25.597 27.951 25.597 24.586 24.586 24.586 24.586

Поиск по критерию J2

Длина пути - 38.246 38.246 38.246 38.246 36.627 36.627 38.58 38.58

dl, N - 10.296 12.649 12.649 12.649 12.042 12.042 15.231 15.231

Длина пути - d1 N - 27.951 25.597 25.597 25.597 24.586 24.586 23.348 23.348

а

Пропуски в таблицах объясняются тем, что вычисления по алгоритму А0 невозможно выполнить за приемлемое время. Результаты вычислений по алгоритмам А3, А3Я, А4, А4Я совпадают и находят квазикратчайший незамкнутый (рис. 10, а). Результатом вычисления по алгоритмам А1, А2, А1Я., А2Я является более длинный путь (рис. 10, б), однако, путь, вычисленный рекурсивными версии алгоритмов, имеет большее расстояние между терминальными точками (рис. 10, в).

На рис. 11, а представлена визуализация данных тестового набора 4 в виде столбчатой диаграммы для пути, найденного жадными алгоритмами А3, А4, А3Я, А4Я при оптимизации

306

критерия Зх. На рис. 11, б представлена визуализация данных тестового набора 4 в виде проекции на путь, найденный жадными алгоритмами А3, А4, A3R, A4R при оптимизации критерия «/1. Из анализа рис. 11, а и 11, б видно, что хорошо отделим только третий кластер (объекты 1418).

9

10

1

.11

i:

!

» s .13

4 1S J tu.

\ /

0 3 5 6 10 11 12 13 14 1 16

9

la

и

i;

n J7

3 li

4 is IS

О 1 г 3 4 5 6 7

9 10 11 12 13 14 15 16 б

v

10

7

ii

t 17

_ 1}

4 15 !Î

О 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Рис. 10. Результат работы алгоритмов КНП тестовом наборе 4: а - алгоритмы A3, A4, A3R, A4R, длина 36.627; б - алгоритмы А1Я, A2R, длина 38.246;

в - алгоритмы А1, А2, длина 38.246

а

в

Рис. 11. Визуализация тестового набора 4: а - в виде столбчатой диаграммы; б - в виде

проекции на путь

2. Результаты визуализации реальных наборов данных разработанными алгоритмами

5. Пятый эксперимент проведен на ирисах Фишера (тестовый набор 5). В табл. 5 представлен сравнительный результат работы алгоритмов по значениям, которые были получены при поиске кратчайшего незамкнутого пути.

Визуализация построенного квазикратчайшего пути жадным алгоритмом A3R представлена на рис. 12. Для представления четырехмерного объекта на двумерном графике не использовались два последних описательных признака.

На рис. 13, а представлена визуализация данных тестового набора 4 в виде столбчатой диаграммы для пути, найденного алгоритмом A3R при оптимизации критерия . На рис. 13, б представлена визуализация данных тестового набора 4 в виде проекции на путь, найденный

алгоритмом A3R при оптимизации критерия J1.

Таблица 5

_Результаты работы алгоритмов^ для тестового набора 5__

Алгоритм А0 А1 А1Я А2 А2Я А3 А3Я А4 А4Я

Поиск по критерию Jl

Длина пути - 53.719 51.685 53.370 51.685 53.122 51.627 52.972 -

^1, N - 5.893 6.535 6.583 6.535 6.535 6.535 5.944 -

Длина пути - N - 47.825 45.150 46.788 45.150 46.587 45.091 47.028 -

Поиск по критерию J2

Длина пути - 53.719 51.685 53.370 51.685 53.1222 51.627 53.102 -

^1, N - 5.893 6.535 6.583 6.535 6.535 6.535 6.535 -

Длина пути - N - 47.825 45.150 46.788 45.150 46.587 45.091 46.567 -

Рис. 12. Результат работы алгоритма поиска КНП А3Я тестовом наборе 5

б

Рис. 13. Визуализация тестового набора 5: а - в виде столбчатой диаграммы; б - в виде

проекции на путь

Анализ рис. 12-13 показывает хорошую отделимость первого класса цветов, что является хорошо известным результатом для данных Ирис.

6. Шестой эксперимент проведен на данных о моллюсках (тестовый набор 6). В табл. 6

представлен сравнительный результат работы алгоритмов по значениям, которые были получены при поиске кратчайшего незамкнутого пути.

Таблица 6

Алгоритм АО А1 Л1Я А2 Л2Я А3 А3Я А4 А4Я

Поиск по критерию 31

Длина пути - 175.185 175.185 173.392 173.392 - - - -

^1, N - 2.715 2.715 2.715 2.715 - - - -

Длина пути - N - 172.469 172.469 170.677 170.677 - - - -

Поиск по критерию 32

Длина пути - 175.185 175.185 173.392 173.392 - - - -

^1, N - 2.715 2.715 2.715 2.715 - - - -

Длина пути - N - 172.469 172.469 170.677 170.677 - - - -

На рис. 14, а представлена визуализация данных тестового набора 6 в виде столбчатой диаграммы для пути, найденного алгоритмами А2, А2R при оптимизации критерия 3у. На рис. 14, б представлена визуализация данных тестового набора 6 в виде проекции на путь, найденный алгоритмами А2, A2R при оптимизации критерия 3у.

1« 1М 111 40 141

а б

Рис. 14. Визуализация тестового набора 6: а - в виде столбчатой диаграммы; б - в виде

проекции на путь

Из анализа данных, продемонстрированных в виде графиков и столбчатых диаграмм на рис. 2-14, а также в табл. 1-6, можно сделать следующие выводы. Алгоритм АО показывает наилучший результат, однако его невозможно использовать на больших выборках, с количеством объектов более 15. Однако, такой же результат удалось получить при помощи различных модификаций жадного алгоритма (табл. 1-3). Также можно заметить, что рекурсивные версии алгоритмов позволяют находить более короткие пути. Однако, их недостаток заключается в том, что для их реализации необходимо большое количество оперативной памяти и времени вычислений. Из приведенных таблиц следует, что стоит отдать предпочтение алгоритму А4R.

Эксперимент на данных, полученных в ходе исследования задачи детектирования падений человека

1. Описание данных. В задаче детектирования падений [10, 11] поставлена цель - получить базисную совокупность скелетных моделей для дальнейшего сравнения с ней тестовой выборки [7]. Сравнение вычисляется при помощи заранее выбранной меры несходства между скелетными моделями. Результат сравнения базисной совокупности с тестовой выборкой объектов представляется в виде визуализированной матрицы расстояний. Предполагается, что качество визуализированной матрицы напрямую зависит от структуры базисной совокупности объектов, а именно порядка скелетных моделей в базисной совокупности. Изначально порядок строк в матрице расстояний между базисными скелетными представлениями строго не определён. Однако, структура базисной совокупности должна отражать сходство между самими объектами базисной совокупности. В задаче детектирования падений поиск кратчайшего незамкнутого пути между объектами как раз предоставит возможность выполнить упорядочивание объектов базисной совокупности.

Вследствие того, что элементы базисной совокупности представляются матрицей рас-

309

стояний, проведем эксперимент с таким набором данных. Тестовый набор 7 составляет 136 элементов.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2. Результаты визуализации набора данных. В табл. 7 представлен сравнительный результат работы алгоритмов по значениям, которые были получены при поиске кратчайшего незамкнутого пути на реальных данных, полученных в ходе исследования задачи детектирования падений человека. Результаты работы А4 и А4R совпадают и обеспечивают наименьший путь.

На рис. 15, а представлена визуализация данных тестового набора 7 в виде столбчатой диаграммы для пути, найденного алгоритмами А4, A4R с помощью критерия 3х. На рис. 15, б представлена визуализация данных тестового набора 7 в виде проекции на путь, найденный алгоритмами А4, A4R для критерия 3у.

Результаты работы алгоритмов для тестового набора 7

Таблица 7

Алгоритм АО А1 A1R А2 A2R А3 А3R А4 А4R

Поиск по критерию Ji

Длина пути - 6.000 6.000 5.984 5.984 5.971 5.971 5.950 5.950

d1, N - 0.455 0.455 0.415 0.415 0.420 0.420 0.420 0.420

Длина пути - d1 n - 5.545 5.545 5.569 5.569 5.551 5.551 5.529 5.529

Поиск по критерию J2

Длина пути - 6.000 6.000 5.999 5.999 5.989 5.989 5.957 5.957

d1, N - 0.455 0.455 0.455 0.455 0.455 0.455 0.455 0.455

Длина пути - d1 n - 5.545 5.545 5.544 5.544 5.544 5.533 5.502 5.502

■ЛУУУМк

0 12 3 4 5 6

а

-м-..

О Э 4

Рис. 15. Визуализация тестового набора 7: а - в виде столбчатой диаграммы; б - в виде

проекции на путь

Из анализа рис. 15 видно, что в данных четко различимы три кластера. Рассматривая базисную совокупность объектов в задаче детектирования падений [7], можно убедиться, что на графиках наблюдается та же структура данных, объекты четко разделяются на скелетные модели трех групп (в положении стоя, сидя, лежа).

Временные оценки работы алгоритмов. В табл. 8 приведены сравнительные результаты времени работы алгоритмов на данных различных объемов. Алгоритмы были реализованы средствами языка программирования высокого уровня Java. Эксперименты проводились на вычислительном устройстве с процессором Intel core i7 8800HQ и 16 ГБ ОЗУ.

Анализируя полученные временные характеристики, можно сделать следующие выводы: алгоритм АО (полный перебор) хоть и обеспечивает поиск кратчайшего пути, но с точки зрения временных затрат он не реализуем для данных, которые содержат в себе больше 15 объектов. Алгоритм А1 самый быстродействующий, но его модификации A2, А3, А4 способны отыскать более короткие пути. Среди всех предложенных версий жадного алгоритма, именно

310

рекурсивные позволяют найти наиболее короткие пути, при этом временные затраты зависят количества равноудаленных объектов в данных. Однако временные затраты на вычисления рекурсивных алгоритмов по-прежнему намного меньше, чем на вычисления по алгоритму А0. Все версии жадных алгоритмов менее, чем за 5 секунд способны рассчитать квазикратчайший путь для 50 точек.

Таблица 8

Временные оценки работы алгоритмов (ч:мин:с.мс)__

Точки А0 А1 А2 А3 А4 А№ А2R А3R А4R

10 00:00:00.15 00:00:00.01 00:00:00.01 00:00:00.01 00:00:00.156 00:00:00.135 00:00:00.140 00:00:00.183 00:00:00.200

11 00:00:00.159 00:00:00.01 00:00:00.01 00:00:00.01 00:00:00.197 00:00:00.133 00:00:00.129 00:00:00.192 00:00:00.201

12 00:00:01.885 00:00:00.01 00:00:00.01 00:00:00.01 00:00:00.190 00:00:00.124 00:00:00.177 00:00:00.164 00:00:00.205

13 00:00:23.590 00:00:00.01 00:00:00.01 00:00:00.02 00:00:00.213 00:00:00.133 00:00:00.139 00:00:00.172 00:00:00.225

14 00:05:28.203 00:00:00.01 00:00:00.01 00:00:00.02 00:00:00.202 00:00:00.132 00:00:00.128 00:00:00.163 00:00:00.277

15 01:23:25.670 00:00:00.01 00:00:00.01 00:00:00.03 00:00:00.205 00:00:00.135 00:00:00.135 00:00:00.167 00:00:00.263

50 - 00:00:00.02 00:00:00.07 00:00:00.68 00:00:03.327 00:00:00.184 00:00:00.200 00:00:00.345 00:00:04.796

100 - 00:00:00.03 00:00:00.30 00:00:01.220 00:01:44.368 00:00:00.138 00:00:00.250 00:00:01.867 00:02:35.542

136 - 00:00:00.06 00:00:00.68 00:00:02.858 00:10:33.835 00:00:00.173 00:00:00.350 00:00:6.680 00:14:31.741

150 - 00:00:00.16 00:00:00.145 00:00:05.867 00:16:59.998 00:01:25.904 02:15:39.300 92:39:20:100 -

4177 - 00:00:22.760 37:25:00:01 - - 00:00:22.760 37:25:00:01 - -

Заключение. Основной идеей визуализации многомерных данных, предложенной и реализованной в данной работе, является поиск кратчайшего незамкнутого пути между объектами изучаемой выборки и его отображением на двумерную плоскость в виде незамкнутого графа (цепочки), столбчатой диаграммы распределения объектов вдоль найденного пути или проекции на путь. в работе предлагается методы поиска кнп, такие как полный перебор, жадный алгоритм и его различные модификации. приведены таблицы сравнения результатов, полученных при вычислении кнп предложенными в работе алгоритмами, а также временные оценки работы этих алгоритмов.

Предложенный в работе способ отображения позволяет оценить наличие локальных сгущений (кластеров) в данных. Преимуществом такого подхода визуализации является то, что алгоритм не зависит от размерности пространства признаков, описывающих объекты, и может быть реализован только на матрице расстояний между объектами.

Работа выполнена при финансовой поддержке Министерства науки и высшего образования РФ в рамках государственного задания FEWG-2021-0012, частично гранта РФФИ 20-0700055 (С.Д. Двоенко), а также гранта ректора ТулГУ 8925ГРР_М.

Список литературы

1. Зиновьев, А. Ю. Визуализация многомерных данных. Издательство Красноярского ГТУ, 2000. 180 с.

2. Романова И.К. Современные методы визуализации многомерных данных: анализ, классификация, реализация, приложения в технических системах // Наука и Образование. МГТУ им. Н.Э. Баумана. Электрон. журн. 2016. № 03. С. 133-167.

3. Яковлев С.С., Середин О.С. Использование деревьев решений при визуализации многомерных данных // Известия Тульского государственного университета. Технические науки. 2018. Вып. 10. С. 137-145.

4. Терехина А.Ю. Анализ данных методами многомерного шкалирования. М.: Наука, 1986. 168 с.

5. Ирисы Фишера. [Электронный ресурс] -URL: https://гu.wikipedia.oгg/wiki/Ирисы Фишера(дата обращения:15.05.2021).

6. Dua D., Graff C. UCI Machine Learning Repository // Irvine, CA: University of California, School of Information and Computer Science. [Электронный ресурс]. -URL: http://aгchive.ics.uci.edu/ml(дата обращения:15.05.2021).

7. Сурков Е.Э. Исследование базисной совокупности скелетных представлений в задаче детектирования падений // Ломоносов-2021: Сборник тезисов XXVIII Международной научной конференции студентов, аспирантов и молодых ученых, Москва, 12-23 апреля 2021 года / Сост. Е.И. Атамась, А.В. Мальцева. М.: Издательский отдел факультета ВМК МГУ, ООО "МАКС Пресс", 2021. С. 82-83.

8. Воронцов К.С. Лекции по алгоритмам кластеризации и многомерного шкалирова-

ния, 2010. 18 с.

9. Дюк В., Самойленко А. Data Mining: Учебный курс. СПб: Питер, 2001. 368 с.

10. Seredin O.S. et al. A skeleton features-based fall detection using microsoft kinect v2 with one-class classifier outlier removal // International Archives of the Photogrammetry, Remote Sensing & Spatial Information Sciences. 2019. P. 189-195.

11. Seredin O.S., Kopylov A.V., Surkov E.E. The study of skeleton description reduction in the human fall-detection task. Computer Optics 2020; 44(6). P. 951-958. DOI: 10.18287/2412-6179-CO-753.

Середин Олег Сергеевич, канд. физ.-мат. наук, доцент, oseredin@yandex.ru, Россия, Тула, Тульский государственный университет,

Сурков Егор Эдуардович, студент, eg-su@mail.ru, Россия, Тула, Тульский государственный университет,

Копылов Андрей Валериевич, канд. техн. наук, доцент, and.kopylov@,gmail.com, Россия, Тула, Тульский государственный университет,

Двоенко Сергей Данилович, д-р физ.-мат. наук, профессор, sergedv@yandex.ru, Россия, Тула, Тульский государственный университет

MULTIDIMENSIONAL DATA VISUALIZATION BASED ON THE CONSTRUCTION OF THE

SHORTEST UNCLOSED PATH

O.S. Seredin, E.E. Surkov, A.V. Kopylov, S.D. Dvoenko

In the work we consider approaches for multidimensional data visualization based on the shortest unclosed path search. Also, this paper proposes mapping it to two-dimensional plane as an unclosed graph (chain), a column chart of the objects distribution along the found path and projection onto the path. Also, we propose several criteria for path search and greedy algorithms and its modifications for quasi-shortest path computing and its comparations also.

Key words: shortest unclosed path, multidimensional data visualization, pairwise similarity

function.

Seredin Oleg Sergeevich, candidate of physics and mathematical science, docent, oseredin@yandex.ru, Russia, Tula, Tula State University,

Surkov Egor Eduardovich, student, eg-su@mail. ru, Russia, Tula, Tula State University,

Kopylov Andrei Valerievich, candidate of technical science, docent, and.kopylov@,gmail.com, Russia, Tula, Tula State University,

Dvoenko Sergey Danilovich, doctor of physics and mathematical science, professor, sergedv@yandex.ru, Russia, Tula, Tula State University

ВИЗУАЛИЗАЦИЯ МНОГОМЕРНЫХ ДАННЫХ НА ОСНОВЕ ПОСТРОЕНИЯ КРАТЧАЙШЕГО НЕЗАМКНУТОГО ПУТИ Текст научной статьи по специальности «Компьютерные и информационные науки»

MULTIDIMENSIONAL DATA VISUALIZATION BASED ON THE CONSTRUCTION OF THE SHORTEST UNCLOSED PATH

Текст научной работы на тему «ВИЗУАЛИЗАЦИЯ МНОГОМЕРНЫХ ДАННЫХ НА ОСНОВЕ ПОСТРОЕНИЯ КРАТЧАЙШЕГО НЕЗАМКНУТОГО ПУТИ»