Формирование признаков на основе методов вычислительной топологии
С.Н. Чуканов1
1 Институт математики им. С.Л. Соболева СО РАН, Омский филиал, 644043, Россия, г. Омск, ул. Певцова, д. 13
Аннотация
Использование традиционных методов алгебраической топологии для получения информации о форме объекта связано с проблемой формирования малого количества информации: чисел Бетти и характеристик Эйлера. Центральным инструментом топологического анализа данных является метод персистентной гомологии, который суммирует геометрическую и топологическую информацию в данных с использованием персистентных диаграмм и баркодов. На основе методов персистентной гомологии может быть выполнен анализ топологических данных для получения информации о форме объекта. Построение перси-стентных баркодов и персистентных диаграмм в вычислительной топологии не позволяет построить гильбертово пространство со скалярным произведением. Возможность применения методов топологического анализа данных основана на отображении персистентных диаграмм в гильбертово пространство; одним из способов такого отображения является метод построения персистентного ландшафта. Его преимущества заключаются в том, что он обратим, поэтому он не теряет никакой информации и имеет свойства персистентности.
В работе рассматриваются математические модели и функции представления объектов персистентного ландшафта на основе метода персистентной гомологии. Рассмотрены методы преобразования персистентных баркодов и персистентных диаграмм в функции перси-стентного ландшафта. С функциями персистентного ландшафта ассоциируется ядро персистентного ландшафта, которое формирует отображение в гильбертово пространство со скалярным произведением. Предложена формула для определения расстояния между перси-стентными ландшафтами, которая позволяет находить расстояния между изображениями объектов.
Функции персистентного ландшафта отображают персистентные диаграммы в гильбертово пространство. Приведены примеры определения расстояния между изображениями на основании построения функций персистентного ландшафта этих изображений. Рассмотрены представления топологических характеристик в различных моделях вычислительной топологии. Расширены результаты для модулей персистентности с одним параметром на многопараметрические модули персистентности.
Ключевые слова: распознавание образов, многопараметрический персистентный ландшафт, гильбертово пространство, топологический анализ данных.
Цитирование: Чуканов, С.Н. Формирование признаков на основе методов вычислительной топологии / С.Н. Чуканов // Компьютерная оптика. - 2023. - Т. 47, № 3. - С. 482-490. - DOI: I0.18287/2412-6179-C0-I190.
Citation: Chukanov SN. Formation of features based on computational topology methods. Computer Optics 2023; 47(3): 482-490. DOI: 10.18287/2412-6179-C0-1190.
Введение
В последние годы возрос интерес к использованию методов алгебраической топологии для топологического анализа данных [1] и применению в различных областях знаний. Целью топологического анализа данных является определение информативных топологических свойств и использование их в качестве дескрипторов.
Ключевым математическим инструментом в топологическом анализе данных является метод перси-стентных гомологий, который используется для извлечения топологической информации из данных. Рассмотрим способ формирования персистентной гомологии из точек данных в евклидовом пространстве.
Целью является получение топологии из конечных данных. Рассмотрим г-шары (радиуса г) для реконструкции топологии. Ожидается, что модель г-шаров может представлять основные топологические структуры. Если г мал, то объединение всех г-шаров состоит из непересекающихся г-шаров. Если радиусы г-шаров слишком большие, то объединение становится одним пространственным компонентом. Персистент-ная гомология [2] рассматривает все значения г одновременно и обеспечивает выражение для топологических свойств.
Персистентная гомология может быть визуализирована персистентной диаграммой Б = {(Ь,, ё,) е М2|/ е I, Ь, <ё,}. Каждая точка (Ь,, ё,) е В, которая называется генератором персистентной го-
мологии, представляет топологическое свойство, появляющееся при Xbj и исчезающее при Xdj в модели шаров с изменяющемся радиусом r; здесь b - - диаметр шара при появлении (birth) i-й персистентной гомологии; di - диаметр шара при исчезновении (death) i-й персистентной гомологии. Топологическое свойство с высокой персистентностью dt - bt может рассматриваться как надежная структура, в то время как топологическое свойство с низкой персистентно-стью может рассматриваться как шум. Персистент-ные диаграммы кодируют топологическую и геометрическую информацию о точках данных.
Применение методов для получения информации о форме объекта для сложных систем большой размерности затруднено из-за методов адекватного представления функций, так как формирование баркодов не обеспечивает функциональную зависимость [4]. Геометрический анализ характеризует локальную структуру, но приводит к сложности представления данных. Элементы, полученные из топологических моделей, определяют глобальную внутреннюю структурную информацию, но редуцируют много локальной структурной информации [5].
Метод персистентных гомологий разработан для многомасштабного представления топологических признаков [1, 2, 6]; метод персистентных гомологий обеспечивает связь между топологическими и геометрическими методами. Основная идея персистент-ных гомологий - применение фильтрации для присвоения каждому топологическому признаку геометрической размерности. Процесс фильтрации генерирует серии симплициальных комплексов, кодируемых со структурной информацией различных масштабов. Персистентная гомология может быть представлена персистентным баркодом или персистентной диаграммой.
Персистентные гомологии могут быть использованы для анализа топологических данных. Существуют подходы к формированию персистентных го-мологий, основанные на построении персистентных диаграмм. Однако стандартные меры для персистент-ных диаграмм (например, расстояние Вассерштейна) не подходят для топологического анализа данных из-за большого количества вычислительных операций. Одним из подходов к топологическому анализу данных является отображение персистентных диаграмм в гильбертово пространство на основе формирования функций персистентного ландшафта (landscape functions) [7, 8].
В работе представлено расширение результатов для модулей персистентности с одним параметром на многопараметрические модули персистентности. Многопараметрический персистентный ландшафт сводится к семейству ландшафтов персистентности с одним параметром. В пространстве Лебега измеримых функций Lp многопараметрических ландшафтов можно построить функции расстояния; естественная
структура внутреннего произведения ландшафтных функций порождает положительно определенное ядро. Использование многопараметрических функций персистентного ландшафта повышает разнообразие параметров, характеризующих форму объекта, точность определения расстояния между изображениями объектов.
1. Персистентные гомологии
Предположим, что к + 1 точек u0,..., uk е Жк аф-финно независимы. Тогда симплекс - это множество точек:
C = j|0U +. + ЦкИк| XHi = 1;Hi- ^ 0,i = 0,.,к|.
Симплициальный комплекс K - это множество симплексов, удовлетворяющее условиям: 1) каждая грань K принадлежит K; 2) [(ст1 п ст2) е ст1] л [(ст1 п ст2) е ст2].
Функцию на симплициальном комплексе K / : K^ Ж; /(ст) < / (т); т е K, для любой грани ст е т. Множество подуровней K (а) = / -1[- да, а]; У а е Ж является подкомплексом в K, и упорядочение значений / на симплексах K индуцирует фильтрацию 0 = Ko с Ki с ••• Kn = K. Включение K-^ K; 0 < i <j< n индуцирует гомоморфизм fp;j: Hp (Kt) ^ Hp (Kj) на симплициальных группах гомологий для каждой размерности p. p-е персистентные группы гомологий являются образами этих гомоморфизмов; p-е числа Бетти являются рангами этих групп [2].
Персистентные гомологии можно представить в виде топологических генераторов (баркодов) - пар появления (BT - birth time) и исчезновения (DT -death time) баркодов, которые можно обозначить как
l* = {,d*}, j е {1,2,...,Nk},
где Nk - общее число k-мерных топологических генераторов [9]. Определим множество баркодов k-го измерения:
L ={{ = {, dk Ц^}}
Топологическая персистентность может быть представлена персистентным баркодом (каждый l* рассматривается как баркод) или персистентной диаграммой (каждый l* рассматривается как двумерная
точка с координатой lj = (k, dk)) [10].
Пусть X = {x1,..., xn} - множество точек в метрическом пространстве (M, du). Чтобы проанализировать топологические свойства X, рассмотрим модель
Xr = (}Б(х-;r) ,
1=1
состоящую из шаров Б (x-, r) = {x е M | du (x, x) < r} с радиусом r, где du (x-, x) - метрическое расстояние от точки xi до точки х, и используем гомологии Hq (Xr )
для описания топологии Xr. Здесь для топологического пространства S его q-я гомология Hq (S), q = 0,1,..., определяется как векторное пространство. Так как Xr с Xs для r < s множество X = {Xr | r > 0} становится фильтрацией. При изменении радиуса новый генератор ai е Hq (Xr) появляется на каком-то радиусе r = bi (birth) и исчезает на радиусе r = d ( death) большем, чем b. Собирая все ai (i е I) в фильтрации X, получаем множество пар Dq (X ) = {(b i, di) е R2 | i е I} в виде мультимножества. Персистентная диаграмма Dq (X ) определяется несвязным объединением Dq (X ) и диагонального множества Д = {(a, a) | a е R}, учитываемого с бесконечной кратностью. Точку x = (b, d ) е Dq (X) называют генератором персистентной диаграммы. Персистентность точки x равна: pers (x) = d - b.
Желательно, чтобы персистентные диаграммы были устойчивыми при возмущении данных. Мерой для изучения сходства между двумя персистентными диаграммами D и E является расстояние bottleneck
dB (D, E) = inf sup ||x - у (x
где у - это различные биекции от Б до Е: (х е Б) ^ (у (х) е Е ). В качестве расстояния между конечными множествами X,, У в метрическом пространстве М можно использовать Hаusdorff расстояние, определяемое формулой:
dH (X,Y) =
= max
supinf dM (x,y),supinf dM (x,y) k
.. yeY " xe X ^ ' \
yeY
(1)
Для представления топологической информации были предложены различные функции, основанные на результатах обработки баркодов.
Непрерывная персистентная функция Бетти определяется как [11]:
f (х; Lk ) = £ exp
bk + dk
(wj (dk - bk))
(2)
где Wj - значения весов.
Для каждого отдельного баркода можно определить кусочно-линейную функцию /(х, 1к) [7]:
f (x, ik )=
if x g(bk, dk), bk + dk
x - bk if x e I bk -j
(3)
-x + dk if x e
, d^ I.
2. Персистентные ландшафты
Персистентный ландшафт k-мерного баркода Lk -это последовательность функций:
x m
. ^
[0, да], m = 1,2,3,
где Xm (x) - m-е наибольшее значение jf (x, lk).
Для баркодов B = {j можно определить функцию персистентного ландшафта как:
X(k, t ) =
=sup (h > 0| [t - h, t + h] с I j, по > k различных j).
Определим функцию для персистентных диаграмм: D = {(bi, di)}, bi < d:
fbd) (t) = max (0,min (b +1, d -1));
тогда X (k, t) = kmax{(bi, di) (t)}ei, где kmax обозначает k -й наибольший элемент.
Пусть задано множество S. Функция F : S ^ Н, где Н - гильбертово пространство, называется функцией отображения признаков. Ядро на S является таким симметричным отображением K : S* S ^ R, что для любого n и всех
n
x1,...,xn e S,a1,...,an e К: £ aiajK(xt,xj) > 0.
i, j =1
RKHS (Reproducing kernel Hilbert space) на множестве S - это гильбертово пространство функций на S, где точечная оценка - непрерывный линейный функционал. Для заданного отображения характеристик существует ассоциированное ядро, определяемое формулой: K (x, y) = (F(x), F (y)H
С ядром K связано гильбертово пространство RKHS Hk, которое является пополнением множества функций Kx : S ^ R, заданных формулой: Kx (y) = K (x, y), Vx e S, относительно скалярного произведения : (Kx, Ky) = K (x, y).
Поскольку функция персистентного ландшафта является отображением характеристик из множества персистентных диаграмм в L2(N * R), то с ней ассоциируется ядро персистентного ландшафта:
да ^
K(,D«) = (X«,X«) = £ j X« (t)х(2) (t)dt. (4)
k=1 -да
Для персистентного ландшафта сформируем p-норму:
j(X k (t ))Pdt
if 1 < p < с
и:
= supXk (t), ifp = да.
Ядро можно рассматривать как ассоциированное отображение признаков:
да
Б к (Б),
к =1
которое формирует отображение в гильбертово пространство со скалярным произведением:
k=1
да ^
(f,g) = £i fk ((t)dt.
к=1 -да
(5)
Расстояния между персистентными ландшафтами можно определить с помощью нормы Ьх:
||Х--Х'-||я= 8ир|XГ (г)-ХР (г)),
к,г
или нормы [12, 13]:
-X'PL|| =
Ij|xf (t )-xp (t )| pdt
(6)
,1 < p <C
Пример 1.
Аппроксимируем контур 2D-изображения House пятью точками одинаковой яркости и одинакового цвета в нотации Matlab:
qq_x = [-1 1 1 -1 0];
qq_y = [0 0 2 2 3];
plot (qq_x, qq_y); plot (qq_x, qq_y).
Используя пакет JavaPlex [12, 13], определим баркоды размерности 0:2 [0 1,4142), 2 [0 2), [0 да); и размерности 1: [2 2,82825); см. табл. 1.
Табл. 1. Баркоды изображения House
Barcode dim birth peak death
bar1,2 0 (0, 0) (0,707, 0,707) (1,41, 0)
bar3,4 0 (0, 0) (1, 1) (2, 0)
bar5 1 (2, 0) (2,414, 0,414) (2,828, 0)
Получим функции персистентного ландшафта изображения (см. (3)) для размерности 0:
Xн°ше (1,г) = г • 8г (г, (0.1])+(2 - г)• 8г (г, (1. 2]),
хн°ше (2, г ) =
= г • sг (г, (0 .0,707])+(1,414 - г) • sг (г, (0,707 .„1,414]), где (г, (а.Ь]) - ступенчатая функция:
, . пЧ Г1 if t е (a...bl, st (t, (a...b]) = -| ) V
V V |0 if t *(a...b].
Аппроксимируем контур 2D-изображения House 1 пятью точками одинаковой яркости и одинакового цвета в нотации Matlab:
qq_x = [-1 1 1 -1 0];
qq_y = [0 0 2 2 4];
plot(qq_x,qq_y);plot(qq_x,qq_y).
Используя пакет JavaPlex [12, 13], определим баркоды размерности 0: 0: 3 [0, 2,0), [0, 2,233), [0, да); и размерности 1: [2,0, 2,828); см. табл. 2.
Получим функции персистентного ландшафта изображения (см. (3)) для размерности 0:
XHousel (1, t) =
= t • st (t, (0.1,116])+(2,233 -1)• st (t, (1,116...2,233]), XHouse1 (2, t) = t • st (t, (0.1]) + (2 -1) • st (t, (1. 2]).
Табл. 2. Баркоды изображения Housel
Barcode dim birth peak death
bar 1,2,3 0 (0, 0) (1,0,1,0) (2,0, 0)
bar4 0 (0, 0) (1,116, 1,116) (2,233, 0)
bar5 1 .:.... (2,414,1,298) (2,828, 0)
Определим расстояние между изображениями на основании нормы L2, используя соотношение (6) и методы топологического анализа данных:
\\XHouse - XHouse% = 0,5451.
Использование методов традиционной алгебраической топологии не позволяет различить изображения House и House1, так как они имеют одинаковые числа Бетти. □
Пример 2. Рассмотрим пример, аналогичный примеру 1, в котором находится расстояние между изображениями стеклянных бутылок.
Аппроксимируем шестнадцатью точками контур 2D-изображения бутылки молока (в нотации Matlab):
qq_x = [0 -1 -1,75 -1,75 -1,75 -0,75 -1 -
1 1 1 0,75 1,75 1,75 1,75 1 0];
qq_y = [0 0 1 3,75 6,5 9,25 9,25 10 10
9,25 9,25 6,5 3,75 1 0 0];
plot (qq_x,qq_y); plot(qq_x,qq_y);
и бутылки шампанского (в нотации Matlab):
qq_x = [0 -1,25 -1,75 -1,75 -1,075 - 0,4 - 0,5 - 0,5 0,5 0,5 0,4 1,075 1,75 1,75 1,25 0]; qq_y =[0 0 0,5 4 6,75 9,5 9,75 10 10 9,75 9,5 6,75 4 0,5 0 0]; plot (qq_x,qq_y);
По полученным баркодам сформируем функции персистентных ландшафтов X (к/ ) изображения бутылки молока для размерности 0:
Xmilk (1, t) =
= t • st (t, (0. 2,75]) + (5,5 -1 )• st (t, (2,75...5,5));
XтШ (2, t) =
= t • st (t, (0 .1,45 ]) + (2,9 -1 )• st (t, (1,45 .2,9));
Xmm (3, t) =
= t • st (t, (0___0,75]) + (1,5 -1 )• st (t, (0,75...1,5));
X т"к (4, t ) =
= t • st (t, (0.0,615]) + (1,23 -1 )• st (t, (0,615...1,23));
Хт'ш (5, t) =
= t • st (t, (0.0,5])+ (1,0 -1 )• st (t, (0,5...1,0)); и изображения для бутылки шампанского:
0...1,75])+ (3.5 -t )• st (t, (1,75.3,5)); ) =
0.1,4])+ (2,8 -1 )• st (t, (1,4. 2,8)); ) =
0 .1,065]) + (2,13 -1 )• st (t, (1,065 .2,13)); ) =
0.0,615])+ (1,23 -1 )• st (t, (0,615.1,23)); ) =
0.0,4])+ (0,8 -1 )• st (t, (0,4.0,8)); ) =
0.0,35])+(0,7 -1 )• st (t, (0,35.0,7 )); ) =
0.0,13])+ (0,26 -1 )• st (t, (0,13.0,26)); ) =
0.0,115])+ (0,23 -1 )• st (t, (0,115.0,23)).
Для нахождения расстояния между контурами 2D-изображений бутылки молока и бутылки шампанского используем соотношение (6):
шЛ champj|2 = X J шШ (, t)-XchamP (k, t)) dt.
2 V к -„
В результате получим расстояние между аппроксимированными контурами 2D-изображений бутылки молока и бутылки шампанского: ||Xmilk - Xchamp\\2 = 2,68, что указывает на возможность сравнения аппроксимированных контуров 2D-изображений и распознавание различий между этими изображениями. □
Выводы по параграфу 2. В параграфе рассмотрен метод отображения персистентных диаграмм в гильбертово пространство на основе построения функций персистентного ландшафта. Его преимущества в том, что он обратим, поэтому он не теряет никакой информации и имеет свойства персистентности. Нахождение расстояния между объектами (изображениями) с использованием функций персистентного ландшафта (по формуле (6)) значительно уменьшает объем вычислительных операций по сравнению методом нахождения расстояния по формуле Л. Вассерштейна [2].
3. Методы ядра для персистентных диаграмм
Рассмотрим ядро для персистентных диаграмм, называемое персистентным взвешенным ядром Гаусса (PWGK - persistent weighted Gaussian kernel) [3]. Пусть kw (x, y) = w (x) w (y) к (x, y) - взвешенное ядро весовой функцией w (•); рассмотрим отображение:
^сшгпр (1
= t • st (t, Xchamp (2 = t • st (t,
^jchamp (3
= t • st (t,
^champ (4
= t • st (t,
^jchamp (5
= t • st (t, Xchamp (6. = t • st (t,
^jchamp (7
= t • st (t,
Xchamp (8, = t • st (t,
Ekw : цd w (x)w (-)k (•, x) e Uk,.
Для практических целей выбираем ядро Гаусса
kG (x,y) = exp
^ llx - yi2 ^
2ct2
; ст>0
для к и ^аго (х) = агс1ап (С(Ьх- ох) р ); С> 0, р > 0 для весовой функции.
Персистентное взвешенное ядро Гаусса (PWGK) определяется следующим образом:
КPWGK (Lk, Lk , Ст) =
= X ware (l* )warc (lk ) exp
( № - l/|Г '
2СТ7-
(7)
^с (¡4) = агСап (С (ак - Ьк )р); С, р > 0.
Коэффициент ^агс (х) является возрастающей функцией по отношению к персистентности х. Следовательно, генератор х дает малое значение ^щ-с (х) при малых х. Изменяя параметры С, р, можно контролировать эффект персистентности.
По расстоянию между множествами точек перси-стентных диаграмм Ьк и Ь'к можно оценить расстояния между соответствующими изображениями. Если персистентные диаграммы представлены векторами в ККН8, можно применять к этим векторам методы ядра для определения расстояния между Ьк и Ь'к. Самый простой выбор - рассмотреть линейное ядро на ККШ:
кь (Б,Е) = Х Х^атс (х)и'агс (у)ко (х,у). (8)
хеЬ} уеЬ'к
Также можно рассмотреть нелинейное ядро на ККШ, такое как ядро Гаусса:
*g (Lk, Lk ) = exp
dk"° (Lk,L'k ) ' 2x2
>\2 ^
,T> 0,
(9)
(10)
где
dkG'r (Lk, ) =
= SS Wrc (x)warc (x')kG (x, x') +
хеЬк x'еЬк
+ S S Warc (У) Warc (У )kG (^ У')-
уеЦ yеЦ
-2 S S Warc (x)Warc (y )kG (x, У).
%еЬк уеЬ1
Пример 2. Рассмотрим изображение House из пяти точек [-1 0; 1 0; 1 2; -1 2; 0 4] с баркодами в размерности 0: 2 [0 1,4142), 2 [0 2), [0 да) и изображение House1 из пяти точек [-1 0; 1 0; 1 2; -1 2; 0 4] с баркодами в размерности 0: 3 [0, 2, 0), [0, 2,233), [0, да).
Определим расстояние Ско(Иоше, Иоиве\)2 на основе соотношения (9) при м>ИГе = м>И°ше1 = 1, 2т2 = 1:
XX ко (х,х') = 4,838;
хе£к х'е£к
XX ко (у, У) =5,841;
уе£к у' е£к
XX ко (х, у ) = 4,098;
хе£к уе£к
С*? (£к,£к)2 = 2,482.
Для оценивания расстояния между изображениями по формуле (8): ко (£к,£'к) = 0,0836. □
Выводы по параграфу 3. В параграфе рассмотрена структура ядра для топологического анализа данных на основе анализа персистентных диаграмм. Использование персистентного взвешенного ядра позволяет повысить точность определения расстояния между изображениями объектов.
4. Многопараметрические персистентные ландшафты
Пусть X - топологическое пространство и /: X ^ М",
называемая фильтрующей функцией. Можно связать семейство топологических подпространств, индексированных векторами а = (а1,...,а") е М", индуцированными /: X, = {х е X: / (х) < а,¥/=1,., "}; это известно как фильтрация множества подуровней. Для любого Ь е ММ" такого, что {а < Ь | а^< Ь, V/ = 1,., "}, имеем отображение включения X, ^Хь. Если И - функтор гомологий, то применение этого функтора к набору {Xa}aеR" и соответствующим отображениям включения приведет к семейству векторных пространств {И (X,)}aеR" и линейных
отображений {И (X,) ^ И (Xь)}a<ь , известному как многопараметрический персистентный модуль с множеством подуровней.
Пусть М - многопараметрический персистентный модуль, тогда при а < Ь функция р (•,•), задающая соответствующее число Бетти, является ранговым инвариантом М:
P(a, b) = dim(im(Ma ^ Mb)).
Многопараметрическая ранговая функция r.к : R2n ^ R задается формулой:
rk(b,d) = iP(b,d) if Ь < d, I 0 otherwise.
(11)
Перемасштабированная ранговая функция r : R2n ^ R:
, ч ip(m - h, m + h) if h > 0, r (m, h) = i
j 0 otherwise.
Многопараметрический персистентный ландшафт рассматривает максимальный радиус, в котором к
признаков сохраняются в каждом (положительном) направлении через х в пространстве параметров
X : N х К" ^ К :
Х(к, x ) =
= sup{s > 0: p(x - h, x + h) > к, Vh > 0,||h||да < s}.
(12)
Пусть wе{uеR" : и/> 0, || и ||м =1} - весовой вектор, соответствующий перемасштабированию пространства параметров М". Определим w-взвешенную норму
1М|W : |Н1 W = ||(w © Ь)) . w-взвешенный персистент-представляет собой функцию
ный ландшафт Xw : N х 1n ^ 1:
X w (к, x ) =
= sup{s > 0: p(x-h,x + h) > к,Vh >0,||h|[ < s}.
(13)
Декартово произведение функций p-ландшафта соответствует использованию функции персистент-ного ландшафта по каждой координате и последующему применению p-нормы, Xp : N х 1n ^ 1:
Xp (к, x) = (sup{ > 0: p(x - he; x+hiei )> к}) .(14)
* p
Определим ландшафтное q-расстояние:
dX^> (M, M') = ||X p (M ) - X p (M ' )), (15)
где M, M' - многопараметрические персистентные модули.
Пример 3. Поскольку изображение числа 6 можно получить из изображения числа 9 с помощью евклидова преобразования (поворота относительно центра изображения на л рад), то топологические характеристики этих изображений неразличимы.
Определим координаты точек изображения цифры 9 (в нотации Matlab):
9x =[1 1 2 3 4 4 4 4 4 4 4 3 2 1 1 1 1 2 3 4];
9y =[2 111123 4 5 6 7 7 7 7 6 5 4 4 4 4].
Традиционным методом определения баркодов является метод изменения радиусов r шаров [2]. Найдем баркоды при сканировании изображений цифр 9 и 6 слева направо (то есть прямая вертикальная линия сканируется слева направо, при этом становится известна информация об изображении слева от прямой, но неизвестна информация об изображении справа от прямой) и при сканировании изображений снизу вверх, то есть прямая горизонтальная линия сканируется снизу вверх, при этом становится известна информация об изображении снизу от прямой, но неизвестна информация об изображении сверху от прямой) (см. табл. 3 и 4). Баркоды, полученные при сканировании изображений слева напра-
во и снизу вверх, повышают разнообразие информации об объекте (изображении) и повышают надежность определения характеристик; например, расстояния между изображениями.
Табл. 3. Баркоды при сканировании изображения цифры 9 слева направо и снизу вверх
Баркоды при сканировании изображения цифры 9 слева направо (right) [16]
Р Р1 = 1
Баркоды [1,5]; [1,4] [1,5]
Баркоды при сканировании изображения цифры 9 снизу вверх (up) [16]
Р Р0 = 1 Р1 = 1
Баркоды [1,8] [4,8]
Функции персистентного ландшафта для р0 = 1: (1, хпф,) = г • sг(г, (1.3])+(5 - г) • sг (г, (3.5]); № (2, хг1ф,) = г • sг(г, (1.2,5])+(4 - г) • sг(г, (2,5.4]); Хи (1, хр )= г • sг (г, (1.4,5 ])+(8 - г )• sг (г, (4,5 .8 ]).
Определим координаты точек изображения цифры 6 (в нотации МаИаЪ):
6х =[4 4 3 2 1 1 1 1 1 1 1 2 3 4 4 4 4 3 2 1]; 6у =[6 77776 5 4 3 2 1 1 1 1 2 3 4 4 4 4].
Табл. 4. Баркоды при сканировании изображения цифры 6 слева направо и снизу вверх
Баркоды при сканировании изображения цифры 6 слева направо (right)
Р Р0 = 1 Р1 = 1
Баркоды [1,5] [4,5]
Баркоды при сканировании изображения цифры 6 снизу вверх (up)
Р Р0 = 1 Р1 = 1
Баркоды [1,8]; [6,7] [1,8]
Функции персистентного ландшафта для Р0 = 1: X(1, хг1ф,) = г • sг (г, (1.3])+(5 - г) • sг (г, (3.5]); Хи (1, хир ) = г • sг (г, (1.4,5 ])+(8 - г )• sг (г, (4,5 .8 ]); Хир (2, хир ) = г • sг (г, (6. 6,5])+(7 - г )• sг (г, (6,5.7]).
Найдем q - расстояние между изображениями цифры 9 и цифры 6:
С (М (9), М (6)) =
да
X X} |Х' (к, М' (9)) - X' (к, М' (6))|р Ж
i = right, up.
При p = q = 2 получим: в случае i = right:
I \q p
да . 2 X j |t• st(t,(1.2,5]) + (4-1)• st(t,(A.^])) dt
= 2,449; в случае i = up:
да 2 Xj|t• st(t,(6___6,5]) + (7-1)st(t,(6,5.7]) dt
= 4,425.
q - расстояние между многопараметрическими перси-стентными ландшафтами равно:
С (М (9), М (6)) =(2,4492 + 4,4252)0,5 = 5,057;
то есть изображение цифры 9 отличается от изображения цифры 6.
Выводы по параграфу 4. В параграфе представлены методы формирования инвариантов для многопараметрических модулей персистентности, которые расширяют результаты для модулей персистентности с одним параметром на многопараметрические модули персистентности. Использование многопараметрических функций персистентного ландшафта повышает разнообразие параметров, характеризующих форму объекта, точность определения расстояния между изображениями объектов.
Заключение
Для повышения производительности моделей топологического анализа данных необходимо ввести функциональные возможности, способные сохранить внутреннюю информацию данных и уменьшить размерность данных. Использование традиционных методов алгебраической топологии для получения информации о форме объекта связано с проблемой формирования малого количества информации. Основным инструментом топологического анализа данных является метод персистентной гомологий, который суммирует геометрическую и топологическую информацию в данных. Использование методов пер-систентной гомологии по отношению к традиционным методам алгебраической топологии дает дополнительную информацию о форме объекта. Применение методов топологического анализа данных для сложных систем большой размерности затруднено из-за методов адекватного представления функций, так как формирование баркодов не обеспечивает функциональную зависимость. Использование стандартных метрик для персистентных диаграмм затрудняет выполнение вычислительных операций. Построение персистентных баркодов и персистентных диаграмм в вычислительной топологии не позволяет построить гильбертово пространство со скалярным произведением. Возможность применения методов топологического анализа данных основано на отображении пер-систентных диаграмм в гильбертово пространство;
одним из способов такого отображения является метод построения персистентного ландшафта. Его преимущества в том, что он обратим, поэтому он не теряет никакой информации и имеет свойства перси-стентности. В работе рассматриваются математические модели персистентных гомологий и функции персистентных ландшафтов представления признаков в методах топологического анализа данных. Функции персистентных ландшафтов отображают диаграммы персистентности в гильбертово пространство. Рассмотрена структура ядра для анализа персистентных диаграмм. Представлены инварианты для многопараметрических модулей персистентности, которые расширяют результаты для модулей персистентности с одним параметром на многопараметрические модули персистентности. Использование многопараметрических функций персистентного ландшафта повышает разнообразие параметров, характеризующих форму объекта, точность определения расстояния между изображениями объектов.
Благодарности
Работа выполнена при поддержке Программы фундаментальных исследований СО РАН I.5.1, проект № 0314-2019-0020 и Российского научного фонда, грант № 22-21-00035.
References
[1] Carlsson G. Topology and data. Bulletin of the American Mathematical Society 2009; 46(2): 255-308. DOI: 10.1090/S0273-0979-09-01249-X.
[2] Edelsbrunner H, Harer JL. Computational topology: an introduction. American Mathematical Society, 2010. ISBN: 978-0-8218-4925-5.
[3] Kusano G, Hiraoka Y, Fukumizu K. Persistence weighted Gaussian kernel for topological data analysis. Int Conf on Machine Learning (PMLR) 2016: 2004-2013.
[4] Hofer C, et al. Deep learning with topological signatures. NIPS'17: Proc 31st Int Conf on Neural Information Processing Systems 2017: 1633-1643.
[5] Hatcher A. Algebraic topology. Cambridge UP; 2005. ISBN: 978-0-521-79160-1.
[6] Zomorodian A J. Topology for computing. Cambridge University Press; 2005. ISBN: 978-0-521-83666-1.
[7] Bubenik P. The persistence landscape and some of its properties. In Book: Topological data analysis. Cham: Springer; 2020: 97-117. DOI: 10.1007/978-3-030-43408-3_4.
[8] Pun CS, Xia K, Lee SX. Persistent-homology-based machine learning and its applications—A survey. arXiv preprint. 2018. Source: <https://arxiv.org/abs/1811.00252>. DOI: 10.48550/arXiv.1811.00252.
[9] Ghrist R. Barcodes: the persistent topology of data. Bulletin of the American Mathematical Society 2008; 45(1): 61-75. DOI: 10.1090/S0273-0979-07-01191-3.
[10] Mischaikow K, Nanda V. Morse theory for filtrations and efficient computation of persistent homology. Discrete & Computational Geometry 2013; 50(2): 330-353. DOI: 10.1007/s00454-013-9529-6.
[11] Xia K. A quantitative structure comparison with persistent similarity. arXiv preprint. 2017. Source: <https://arxiv.org/abs/1707.03572>. DOI: 10.48550/arXiv.1707.03572.
[12] Chukanov SN. Comparison of objects' images based on computational topology methods. Informatics and Automation 2019; 18(5): 1043-1065. DOI: 10.15622/sp.2019.18.5.1043-1065.
[13] Chukanov SN. The comparison of diffeomorphic images based on the construction of persistent homology. Automatic Control and Computer Sciences 2020; 54(7): 758-771. DOI: 10.3103/S0146411620070056.
[14] Vipond O. Multiparameter persistence landscapes. J Mach Learn Res 2020; 21(61): 1-38.
[15] Botnan MB, Lesnick M. An introduction to multiparameter persistence. arXiv preprint. 2022. Source: <https://arxiv.org/abs/2203.14289>. DOI: 10.48550/arXiv.2203.14289.
[16] Adcock A, Carlsson E, Carlsson G. The ring of algebraic functions on persistence bar codes. arXiv preprint. 2013. Source: <https://arxiv.org/abs/1304.0530>.
[17] Kwitt R, et al. Statistical topological data analysis-a kernel perspective. NIPS'15: Proc 28th Int Conf on Neural Information Processing Systems 2015; 2: 3070-3078.
[18] Sriperumbudur BK, Fukumizu K, Lanckriet GRG. Universality, characteristic kernels and RKHS embedding of measures. J Mach Learn Res 2011; 12(7): 2389-2410.
Приложение. Метод ядра в машинном обучении [17,18]
В задачах анализа данных нас интересует классификация данных во входном пространстве с помощью разделения гиперплоскостью. Однако использование линейного разделения ограничивает эффективность такого подхода. Можно использовать нелинейное разделение во входном пространстве, и метод RKHS (Reproducing kernel Hilbert space) обеспечивает основу для достижения этого разделения.
Рассмотрим симметричную меру подобия, называемую ядром:
к : QxQ^ К, (x, x' )^k(x, x'), x, x' eQe Кd.
Так как Q e Rd, то существует возможность рассмотреть евклидово скалярное произведение для вычисления мер подобия: к (x, y) = xT y.
Предположим, что к - это положительно определенное ядро с действительными значениями и Q - непустое множество. Если RQ ={ / : Q ^ R}, то отображение признаков - это такая функция, что Ф: Q ^ RQ, x = k (x,-)
Ф отображает образы в функции на RQ. Это позволяет нам встраивать данные в векторное пространство признаков:
n e N,х, e Q,e К,i = 1,...,n
F = j£ai к(, -)
Используя эту концепцию, можно построить предгильбертово пространство. Пусть /, g е Т ассоциируются с образами х, х^ е О; i = 1,..., п;] = 1,..., п':
п П
/ = X«Iк(х,•),g = XР]к(,•);аI,Рj е К.
1=1 /=1
Определим внутреннее (скалярное) произведение:
(/, g)=X XX ар > ф , х))=х Р jf (х))=X(х|). (16)
j =1 1=1 j=1 1=1
Функция к, определенная на О х О, является воспроизводящим ядром если и только если существуют гильбертово пространство Н и отображение Ф : О ^ Н, такие что к (х, х') = (Фх, Фх') Н, Vx, х'е О. С точки зрения внутреннего произведения пространства: к (х, х') = (к(-, х), к^, х'))Нк(О). Дополнительно (/,g) = (g, / ) и:
n n
(f, f) = X «уф,х,) > 0, £cf,Xcf ) > 0.
i, ,=i \ ,=i ,=i /
Это означает, что (•,•) является положительно определенным ядром в пространстве признаков. Равенство (/, /) = 0 подразумевает / = 0 и |/ (х)|2 = |к (х,0, /|2 < к(х, х) • (/, /). Таким образом, (•,•) - это хорошо определенное скалярное произведение.
Вспоминая воспроизводящее свойство положительно определенных ядер, получим, что для всех функций из Т имеем (к (х,-), /) = / (х), и в частности (kernel trick):
(ф(х), Ф(х' )) = к (х, х). (17)
Сведения об авторе
Чуканов Сергей Николаевич, 1951 года рождения. Д-р техн. наук, профессор; ведущий научный сотрудник ФГБУН Института математики им. С.Л. Соболева СО РАН (Омский филиал). Область научных интересов: системы управления летательными аппаратами, распознавание образов. Число научных публикаций - 100. E-mail: [email protected] .
ГРНТИ: 28.23.15.
Поступила в редакцию 11 июля 2022 г. Окончательный вариант - 8 октября 2022 г.
Formation of features based on computational topology methods
S.N. Chukanov1 1 Sobolev Institute of Mathematics, SB RAS, Omsk Branch, 644043, Omsk, Russia, st. Pevtsova 13
Abstract
The use of traditional methods of algebraic topology to obtain information about the shape of an object is associated with the problem of forming a small amount of information, namely, Betti numbers and Euler characteristics. The central tool for topological data analysis is the persistent homology method, which summarizes the geometric and topological information in the data using persistent diagrams and barcodes. Based on persistent homology methods, topological data can be analyzed to obtain information about the shape of an object. The construction of persistent barcodes and persistent diagrams in computational topology does not allow one to construct a Hilbert space with a scalar product. The possibility of applying the methods of topological data analysis is based on mapping persistent diagrams into a Hilbert space; one of the ways of such mapping is a method of constructing a persistence landscape. It has an advantage of being reversible, so it does not lose any information and has persistence properties.
The paper considers mathematical models and functions for representing persistence landscape objects based on the persistent homology method. Methods for converting persistent barcodes and persistent diagrams into persistence landscape functions are considered. Associated with persistence landscape functions is a persistence landscape kernel that forms a mapping into a Hilbert space with a dot product. A formula is proposed for determining a distance between the persistence landscapes, which allows the distance between images of objects to be found.
The persistence landscape functions map persistent diagrams into a Hilbert space. Examples of determining the distance between images based on the construction of persistence landscape functions for these images are given. Representations of topological characteristics in various models of computational topology are considered. Results for one-parameter persistence modules are extended onto multi-parameter persistence modules.
Keywords: pattern recognition, multivariate persistent landscape, Hilbert space. topological data analysis.
Citation: Chukanov SN. Formation of features based on computational topology methods. Computer Optics 2023; 47(2): 482-490. DOI: 10.18287/2412-6179-CO-1190.
Acknowledgements: This work was supported by the Basic Research Program of the Siberian Branch of the Russian Academy of Sciences I.5.1, Project no. 0314-2019-0020 and the Russian Science Foundation, Project no. 22-21-00035.
Authors' information
Sergey Nikolayevich Chukanov (b. 1951) - Doctor of Technical Sciences, professor; Leading Researcher, Sobolev Institute of Mathematics of the Siberian Branch of the Russian Academy of Sciences. Research interests: spacecraft control systems, pattern recognition. The number of publications - 100. E-mail: [email protected] .
Received July 11, 2022. The final version - October 8, 2022.