Научная статья на тему 'ФОРМИРОВАНИЕ ПРИЗНАКОВ МАШИННОГО ОБУЧЕНИЯ НА ОСНОВЕ МЕТОДОВ ВЫЧИСЛИТЕЛЬНОЙ ТОПОЛОГИИ'

ФОРМИРОВАНИЕ ПРИЗНАКОВ МАШИННОГО ОБУЧЕНИЯ НА ОСНОВЕ МЕТОДОВ ВЫЧИСЛИТЕЛЬНОЙ ТОПОЛОГИИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
59
20
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
распознавание образов / многопараметрический персистентный ландшафт / гильбертово пространство / топологический анализ данных / pattern recognition / multiparameter persistent landscape / Hilbert space / topological data analysis

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — С.Н. Чуканов, И.С. Чуканов, С.В. Лейхтер

Использование традиционных методов алгебраической топологии для получения информации о форме объекта связано с проблемой формирования малого количества информации: чисел Бетти и характеристик Эйлера. Центральным инструментом топологического анализа данных является метод персистентной гомологии, который суммирует геометрическую и топологическую информацию в данных с использованием персистентных диаграмм и баркодов. На основе методов персистентной гомологии может быть выполнен анализ топологических данных для получения информации о форме объекта. Построение персистентных баркодов и персистентных диаграмм в вычислительной топологии не позволяет построить гильбертово пространство со скалярным произведением. Возможность применения методов топологического анализа данных основана на отображении персистентных диаграмм в гильбертово пространство; одним из способов такого отображения является метод построения персистентного ландшафта. Его преимущества заключаются в том что он обратим, поэтому он не теряет никакой информации, и имеет свойства персистентности. В работе рассматриваются математические модели и функции представления объектов персистентного ландшафта на основе метода персистентной гомологии. Рассмотрены методы преобразования персистентных баркодов и персистентных диаграмм в функции персистентного ландшафта.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — С.Н. Чуканов, И.С. Чуканов, С.В. Лейхтер

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

FORMATION OF MACHINE LEARNING FEATURES BASED ON COMPUTATIONAL TOPOLOGY METHODS

The use of traditional methods of algebraic topology to obtain information about the shape of an object is associated with the problem of forming a small amount of information: Betti numbers and Euler characteristics. The central tool for topological data analysis is the persistent homology method, which summarizes the geometric and topological information in the data using persistent diagrams and barcodes. Based on persistent homology methods, analysis of topological data can be performed to obtain information about the shape of an object. The construction of persistent barcodes and persistent diagrams in computational topology does not allow one to construct a Hilbert space with a scalar product. The possibility of applying the methods of topological data analysis is based on the mapping of persistent diagrams into the Hilbert space; one of the ways of such mapping is the method of constructing a persistent landscape. Its advantages are that it is reversible, so it does not lose any information, and it has persistence properties. The paper considers mathematical models and functions for representing persistent landscape objects based on the persistent homology method. Methods for converting persistent barcodes and persistent diagrams into persistent landscape functions are considered. Associated with persistent landscape functions is a persistent landscape kernel that forms a mapping into a Hilbert space with a dot product. A formula is proposed for determining the distance between persistent landscapes, which allows you to find the distance between images of objects. The persistent landscape functions map persistent diagrams to Hilbert space. Examples of determining the distance between images based on the construction of persistent landscape functions for these images are given. Representations of topological characteristics in various models of computational topology are considered. Extended results for singleparameter persistence modules to multiparameter persistence modules.

Текст научной работы на тему «ФОРМИРОВАНИЕ ПРИЗНАКОВ МАШИННОГО ОБУЧЕНИЯ НА ОСНОВЕ МЕТОДОВ ВЫЧИСЛИТЕЛЬНОЙ ТОПОЛОГИИ»

УДК 004.93'1 DOI 10.24147/2222-8772.2022.4.89-99

ФОРМИРОВАНИЕ ПРИЗНАКОВ МАШИННОГО ОБУЧЕНИЯ НА ОСНОВЕ МЕТОДОВ ВЫЧИСЛИТЕЛЬНОЙ ТОПОЛОГИИ

С.Н. Чуканов1

д-р техн. наук, профессор, ведущий научный сотрудник, e-mail: ch_sn@mail.ru

И.С. Чуканов2 студент, e-mail: chukanov022@gmail.com С.В. Лейхтер3

старший преподаватель, e-mail: leykhter@mail.ru

1 Институт математики им. С.Л. Соболева СО РАН, Омский филиал, Омск, Россия 2Уральский федеральный университет имени первого Президента России Б.Н. Ельцина, Екатеринбург, Россия

3Омский государственный университет им. Ф.М. Достоевского, Омск, Россия

Аннотация. Использование традиционных методов алгебраической топологии для получения информации о форме объекта связано с проблемой формирования малого количества информации: чисел Бетти и характеристик Эйлера. Центральным инструментом топологического анализа данных является метод персистентной гомологии, который суммирует геометрическую и топологическую информацию в данных с использованием перси-стентных диаграмм и баркодов. На основе методов персистентной гомологии может быть выполнен анализ топологических данных для получения информации о форме объекта. Построение персистентных баркодов и пер-систентных диаграмм в вычислительной топологии не позволяет построить гильбертово пространство со скалярным произведением. Возможность применения методов топологического анализа данных основана на отображении персистентных диаграмм в гильбертово пространство; одним из способов такого отображения является метод построения персистентного ландшафта. Его преимущества заключаются в том что он обратим, поэтому он не теряет никакой информации, и имеет свойства персистентности. В работе рассматриваются математические модели и функции представления объектов персистентного ландшафта на основе метода персистентной гомологии. Рассмотрены методы преобразования персистентных баркодов и персистентных диаграмм в функции персистентного ландшафта.

Ключевые слова: распознавание образов, многопараметрический перси-стентный ландшафт, гильбертово пространство, топологический анализ данных.

Введение

В последние годы возрос интерес к использованию методов алгебраической топологии для топологического анализа данных [1] и применению в различных областях знаний. Целью топологического анализа данных является определение информативных топологических свойств и использование их в качестве дескрипторов.

Ключевым математическим инструментом в топологическом анализе данных является метод персистентных гомологий, который используется для извлечения топологической информации из данных. Рассмотрим способ формирования персистентной гомологии из точек данных в евклидовом пространстве. Целью является получение топологии из конечных данных. Рассмотрим r-шары (радиуса г) для реконструкции топологии. Ожидается, что модель r-шаров может представлять основные топологические структуры. Если г мал, то объединение всех r-шаров состоит из непересекающихся r-шаров. Если радиусы г-шаров слишком большие, то объединение становится одним пространственным компонентом. Персистентная гомология [2] рассматривает все значения одновременно и обеспечивает выражение для топологических свойств.

Персистентная гомология может быть визуализирована персистентной диаграммой D = {(bi,di) е R2| г е I,h ^ di} . Каждая точка (bi,di) е D, которая называется генератором персистентной гомологии, представляет топологическое свойство, появляющееся при Хь. и исчезающее при Xd. в модели шаров с изменяющемся радиусом г; здесь bi - диаметр шара при появлении (birth) г-й персистентной гомологии; di- диаметр шара при исчезновении (death) г-й персистентной гомологии. Топологическое свойство с большим значением di — bi может рассматриваться как структура с высокой персистентностью, в то время как топологическое свойство с низкой персистентностью может рассматриваться как шум. Персистентные диаграммы кодируют топологическую и геометрическую информацию о точках данных.

Применение методов для получения информации о форме объекта для сложных систем большой размерности затруднено из-за методов адекватного представления функций, так как формирование баркодов не обеспечивает функциональную зависимость [3,4]. Геометрический анализ характеризует локальную структуру, но приводит к сложности представления данных. Элементы, полученные из топологических моделей определяют глобальную внутреннюю структурную информацию, но редуцируют много локальной структурной информации [5].

Метод персистентных гомологий разработан для многомасштабного представления топологических признаков [1,2,6]; метод персистентных гомологий обеспечивает связь между топологическими и геометрическими методами. Основная идея персистентных гомологий - применение фильтрации для присвоения каждому топологическому признаку геометрической размерности. Процесс фильтрации генерирует серии симплициальных комплексов, кодируемых со структурной информацией различных масштабов. Персистентная гомология может быть представлена персистентным баркодом или персистентной диаграм-

мой.

Персистентные гомологии могут быть использованы для анализа топологических данных. Существуют подходы к формированию персистентных гомоло-гий, основанные на построении персистентных диаграмм. Однако, стандартные меры для персистентных диаграмм (например, расстояние Вассерштейна) не подходят для топологического анализа данных из-за большого количества вычислительных операций. Одним из подходов к топологическому анализу данных является отображение персистентных диаграмм в гильбертово пространство на основе формирования функций персистентного ландшафта (landscape functions) [7,8].

В работе представлено расширение результатов для модулей персистент-ности с одним параметром на многопараметрические модули персистентности. Многопараметрический персистентный ландшафт сводится к семейству ландшафтов персистентности с одним параметром. В пространстве Лебега измеримых функций Lp многопараметрических ландшафтов можно построить функции расстояния; естественная структура внутреннего произведения ландшафтных функций порождает положительно определенное ядро. Использование многопараметрических функций персистентного ландшафта повышает разнообразие параметров, характеризующих форму объекта, точность определения расстояния между изображениями объектов.

1. Персистентные гомологии

Предположим, что к + 1 точек и0,... ,Uk Е Rk аффинно независимы. Тогда симплекс это множество точек:

С = | ¡лощ + ... + Uk | ^ = 1; ^ 0,г = 0,..., k^j .

Симплициальный комплекс К — это множество симплексов, удовлетворяющее условиям: 1) каждая грань К принадлежит К; 2) [(ai П (72) Е 0\] Л [(ai П Е

Функцию на симплициальном комплексе К f : К ^ R; f (a) ^ f (т); т Е К, для любой грани а Е т. Множество подуровней К (a) = f-1 (-ж, a); Va Е R является подкомплексом в К, и упорядочение значений f на симплексах К индуцирует фильтрацию 0 = К0 С К1 С ■ ■ ■ С Кп = К. Включение К^ ^ Kj; 0 ^ г ^ j ^ п индуцирует гомоморфизм : Нр (Ki) ^ Нр (Kj) на симплициаль-ных группах гомологий для каждой размерности р. р-е персистентные группы гомологий являются образами этих гомоморфизмов; р-е числа Бетти являются рангами этих групп [2].

Персистентные гомологии можно представить в виде топологических генераторов (баркодов) — пар появления (BT — birth time) и исчезновения (DT — death time) баркодов, которые можно обозначить как = Щ ,dj} ,j Е {1,2,...,Nk}, где Nk - общее число fc-мерных топологических генераторов [9]. Определим множество баркодов k-го измерения: Lk =

11

J je{l,2,...,Nk}

Топологическая персистентность может быть представлена персистентным баркодом (каждый 1к рассматривается как баркод) или персистентной диаграммой (каждый 1!к рассматривается как двумерная точка с координатой 1!к — йк

= (Ь),dk)) [10]].

Пусть X = {х1,...,хп} - множество точек в метрическом пространстве

(M,d,M). Чтобы проанализировать топологические свойства X, рассмотрим мота

дель Xr = U В (xi, г), состоящую из шаров В г) = {х Е М| dM (xi, х) ^ г}

г=1

с радиусом г, где dм (xi,x) - метрическое расстояние от точки Xi до точки х, и используем гомологии Hq (Хг) для описания топологии Хг. Здесь для топологического пространства S его q-я гомология Hq (S) ,q = 0,1,... определяется как векторное пространство. Так как Хг с Xs для г ^ s множество X = {Xr| г ^ 0} становится фильтрацией. При изменении радиуса новый генератор ai Е Hq (Хг) появляется на каком-то радиусе г = bi (birth) и исчезает на радиусе г = di ( death) большем чем bi. Собирая все ai (i Е I) в фильтрации X, получаем множество пар (X) = {(bi,di) Е R2| i Е I} в виде мультимножества. Персистентная диаграмма Dq (X) определяется несвязным объединением (X) и диагонального множества А = {(а,а)| а Е R} , учитываемого с бесконечной кратностью. Точку х = (b,d) Е Dq (X) называют генератором персистентной диаграммы. Персистентность точки s равна: pers (х) = d — Ъ.

Желательно, чтобы персистентные диаграммы были устойчивыми при возмущении данных. Мерой для изучения сходства между двумя персистент-ными диаграммами D и Е является расстояние bottleneck de (D,E) = infsup ||ж — 7 (ж)!!^, где 7 это различные биекции от D до Е:

т xeD

(х Е D) ^ (7 (х) Е Е). В качестве расстояния между конечными множествами X,Y в метрическом пространстве М можно использовать расстояние Хаусдор-фа, определяемое формулой:

du (X, Y) = max < sup inf dn (x,y), sup inf dn (x,y)\ .

(1)

Для представления топологической информации были предложены различные функции, основанные на результатах обработки баркодов. Непрерывная персистентная функция Бетти определяется как [11]:

f (х; Lk) = Y^

exp

( ( b) + d)\ l— Г — ~

Ьч (4 — Щ))

1

(2)

где Wj - значения весов.

Для каждого отдельного баркода можно определить кусочно-линейную функцию $ (х, 1к) [7]:

f М)

х — bk

if х Е (b), d) b),

(3)

~L+TL ,dkj)

0

2. Персистентные ландшафты

Персистентный ландшафт fc-мерного баркода Lk - это последовательность функций: : R ^ [0, то) ,m = 1,2, 3,..., где \т (х) - т-е наибольшее значение {/ (xjj)}^^ . Для баркодов В = [Ij} можно определить функцию перси-стентного ландшафта как:

А (k, t) = sup (h ^ 0| [t - h,t + h] С Ij, for ^ k different j).

Определим функцию для персистентных диаграмм: D = [(bi,di)} ,bi < di: f(b,d) (t) = max (0, min (b + t,d - t)); тогда A (k,t) = kmax [f (h,di) (t)}ieI, где kmax обозначает к-й наибольший элемент.

Пусть задано множество S. Функция F : S ^ V, где V - гильбертово пространство, называется функцией отображения признаков. Ядро на S является таким симметричным отображением К : S х S ^ R, что для любого п и всех

п

х\, ...,хп € S,a1, ...,an € R : aiaj К (xi, хз) ^ 0.

i,j=1

RKHS (Reproducing kernel Hilbert space) на множестве S - это гильбертово пространство функций на S, где точечная оценка - непрерывный линейный функционал. Для заданного отображения характеристик существует ассоциированное ядро, определяемое формулой:

К (х,у) = (F (х), F (у))

н ■

С ядром К связано гильбертово пространство RKHS , которое является пополнением множества функций Кх : 5 ^ Е, заданных формулой: Кх (у) = К (х, у), Ух е в, относительно скалярного произведения: {Кх, Ку} = К (х, у).

Поскольку функция персистентного ландшафта является отображением характеристик из множества персистентных диаграмм в Ь2 (М х Е), то с ней ассоциируется ядро персистентного ландшафта:

K(D(1),D(2)) = <А«А(2)) = £ / A« (t) (t) dt, (4)

k=i L

—те

Для персистентного ландшафта сформируем р-норму:

Е

р i=1

(Xi (t))p dt

1 ^ p < то,

и: 11Л11те = Хк (г) ,р = то.

Ядро можно рассматривать как ассоциированное отображение признаков:

те

Б ^ ^ \к (Б), которое формирует отображение в гильбертово пространство

к=1

со скалярным произведением:

_ те

те „

(1,9} = Е / ^к V) 9к (г) <И. (5)

к=1-те

Расстояния между персистентными ландшафтами можно определить с помощью нормы Ь^:

XPL- X'PL

sup

),

*PL (t) — X'PL (t)

или нормы [12, 13] :

\PL- X'PL

)

XPL (t) — X'PL (t)

dt

1 ^ p < ж.

(6)

Пример. Аппроксимируем контур 2D изображения House пятью точками одинаковой яркости и одинакового цвета в нотации Matlab:

qqx = [—1,1,1, —1, 0]; qqy = [0,0, 2, 2, 3].

Используя пакет JavaPlex [12, 13], определим баркоды размерности 0:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2

0 1,4142 ) , 2 0 2 ) , 0 ж ) ; и размерности 1:

2 2,82825 ; см.

таблицу 1.

Таблица 1. Баркоды изображения House

00

р

Barcode dim birth peak death

bar1,2 0 (0,0) (0.707, 0.707) (1.41,0)

bar3,4 0 (0,0) (1,1) (2,0)

bar5 1 (2,0) (2.414,0.414) (2.828,0)

Получим функции персистентного ландшафта изображения (см. (3)) для размерности 0:

ХНоизе (1, ¿) = £ . ^ (¿, (0 ... 1]) + (2 - г) ■ зг (Ь, (1 ... 2]) ,

хНоизе (2, г) = г ■ вг (г, (о... 0.707]) + (1.414 - г) ■ вг (г, (0.707... 1.414]), где зЬ (¿, (а... Ь]) - ступенчатая функция:

I

st (t, (а...Ь])Н 1 if ' Е ,

^ 0 if t = (a...b].

Аппроксимируем контур 2Э изображения Иои8е1 пятью точками одинаковой яркости и одинакового цвета в нотации МаИаЬ:

ОДх = [-1,1,1,-1,0]; дду = [0,0, 2, 2,4].

Используя пакет ЛауаР1ех [12, 13], определим баркоды размерности 0: 3[0,2.0), [0, 2.233), [0, то); и размерности 1: [2.0,2.828); см. таблицу 2.

Таблица 2. Баркоды изображения Ноиэе!

Barcode dim birth peak death

bar1,2,3 0 (0,0) (1.0, 1.0) (2.0,0)

bar4 0 (0,0) (1.116, 1.116) (2.233,0)

bar5 1 (2,0) (2.414,1.298) (2.828,0)

Получим функции персистентного ландшафта изображения (см. (3)) для размерности 0:

yHousei (i,t) = t • st (t, (0 ... 1.116]) + (2.233 - t) • st (t, (1.116 ... 2.233]),

yHousel (2, t)= t • st (t, (o ... 1]) + (2 - t) • st (t, (1... 2]).

Определим расстояние между изображениями на основании нормы L2, используя соотношение (6) и методы топологического анализа данных:

||peruse - yHouse = 0.5451.

Использование методов традиционной алгебраической топологии не позволяет различить изображения House и Housel, так как они имеют одинаковые числа Бетти. □

Выводы по разделу 2. В разделе рассмотрен метод отображения перси-стентных диаграмм в гильбертово пространство на основе построения функций персистентного ландшафта. Его преимущества в том что он обратим, поэтому он не теряет никакой информации, и имеет свойства персистентности. Нахождение расстояния между объектами (изображениями) с использованием функций персистентного ландшафта (по формуле (6)) значительно уменьшает объем вычислительных операций по сравнению методом нахождения расстояния по формуле Л. Вассерштейна [2].

3. Многопараметрические персистентные ландшафты

Пусть X - топологическое пространство и f : X ^ Rn, называемая фильтрующей функцией. Можно связать семейство топологических подпространств, индексированных векторами a = (а1,... ,ап) Е Rn, индуцированными F: Xa = [х Е X : f (х) i < a^i = 1,... ,п] ; это известно как фильтрация множества подуровней. Для любого b Е Rn такого, что [a < b| ai < bi,= 1,... ,п] , имеем отображение включения Xa м- Хь. Если Н - функтор гомологий, то применение этого функтора к набору {^"a}aeRn и соответствующим отображениям включения приведёт к семейству векторных пространств [Н (Xa)}aeRn и линейных отображений [Н (Xa) ^ Н (Хъ)}a<b , известному как многопараметрический персистентный модуль с множеством подуровней [14,15].

Пусть М - многопараметрический персистентный модуль, тогда при a < b функция [3 (•, •), задающая соответствующее число Бетти, является ранговым инвариантом М :

¡3 (a, b) = dim (Im (Ma ^ Мъ)).

Многопараметрическая ранговая функция rk : R2n ^ R задается формулой:

!

rk(b, d)H "<b'd) if b < d' (7)

0 otherwise.

Перемасштабированная ранговая функция г : R2ra ^ R :

р (m — h, m + h) if h ^ 0,

!

r (m, h)

0 otherwise.

Многопараметрический персистентный ландшафт рассматривает максимальный радиус, в котором к признаков сохраняются в каждом (положительном) направлении через x в пространстве параметров Л : N х Rra ^ R :

Л (к, x) = sup [е ^ 0: р (x — h, x + h) ^ к, Vh ^ 0, ||h||^ ^ e} . (8)

Пусть w Е [u Е Rra : ui > 0, ||u||^ = 1} - весовой вектор, соответствующий перемасштабированию пространства параметров Rra. Определим w-взвешенную норму ||h||W: ||h||W = ||(w © h)^ . w-взвешенный персистентный ландшафт представляет собой функцию Aw : N х Rra ^ R:

Aw (к, x) = sup [е > 0 : р (x — h, x + h) ^ к, Vh ^ 0, ||h||™ ^ e} . (9)

Декартово произведение функций р-ландшафта соответствует использованию функции персистентного ландшафта по каждой координате и последующему применению р-нормы, Хр : N х Rra ^ R :

Хр (к, x) = || (sup [hi ^ 0 : р (x — hiei; x + hei) ^ k})i ||р .

Определим ландшафтное g-расстояние:

(M,M') = ||Лр (М) — Ар (M')||ff , (10)

где М, М' - многопараметрические персистентные модули.

Выводы по разделу 3. В разделе представлены методы формирования инвариантов для многопараметрических модулей персистентности, которые расширяют результаты для модулей персистентности с одним параметром на многопараметрические модули персистентности. Использование многопараметрических функций персистентного ландшафта повышает разнообразие параметров, характеризующих форму объекта, точность определения расстояния между изображениями объектов.

Заключение

Для повышения производительности моделей топологического анализа данных необходимо ввести функциональные возможности, способные сохранить внутреннюю информацию данных и уменьшить размерность данных. Использование традиционных методов алгебраической топологии для получения информации о форме объекта связано с проблемой формирования малого количества информации. Основным инструментом топологического анализа данных является метод персистентной гомологии, который суммирует геометрическую и топологическую информацию в данных. Использование метода персистентной

гомологии по отношению к традиционным методам алгебраической топологии даёт дополнительную информацию о форме объекта. Применение методов топологического анализа данных для сложных систем большой размерности затруднено из-за методов адекватного представления функций, так как формирование баркодов не обеспечивает функциональную зависимость. Использование стандартных метрик для персистентных диаграмм затрудняет выполнение вычислительных операций. Построение персистентных баркодов и персистентных диаграмм в вычислительной топологии не позволяет построить гильбертово пространство со скалярным произведением. Возможность применения методов топологического анализа данных основано на отображении персистентных диаграмм в гильбертово пространство; одним из способов такого отображения является метод построения персистентного ландшафта.

В работе рассматриваются математические модели персистентных гомоло-гий и функции персистентных ландшафтов представления признаков в методах топологического анализа данных. Функции персистентных ландшафтов отображают диаграммы персистентности в гильбертово пространство. Рассмотрена структура ядра для анализа персистентных диаграмм. Представлены инварианты для многопараметрических модулей персистентности, которые расширяют результаты для модулей персистентности с одним параметром на многопараметрические модули персистентности. Использование многопараметрических функций персистентного ландшафта повышает разнообразие параметров, характеризующих форму объекта, точность определения расстояния между изображениями объектов.

Благодарности

Работа выполнена при поддержке Программы фундаментальных научных исследований СО РАН 1.5.1., проект № 0314-2019-0020 и Российского научного фонда, грант № 22-21-00035.

Литература

1. Carlsson G. Topology and data // Bulletin of the American Mathematical Society. 2009. V. 46, No. 2. P. 255-308.

2. Edelsbrunner H., Harer J.L. Computational topology: an introduction. American Mathematical Society. 2010.

3. Kusano G., Hiraoka Y., Fukumizu K. Persistence weighted Gaussian kernel for topological data analysis // International conference on machine learning — PMLR. 2016. V. 3. IEEE. P. 2004-2013.

4. Hofer C., Kwitt R., Niethammer M., Uhl A. Deep learning with topological signatures // Advances in neural information processing systems. 2017. V. 30.

5. Hatcher A. Algebraic Topology. Cambridge UP, 2005.

6. Zomorodian A.J. Topology for computing. V. 16. Cambridge UP, 2005.

7. Bubenik P. The persistence landscape and some of its properties / Topological Data Analysis. Springer, Cham, 2012. P. 97-117.

98 С.Н. MyKaHOB, M.C. MyKaHOB, C.B. fleüxTep. QopMupoBaHue npu3HaK0B

8. Pun C.S., Xia K., Lee S.X. Persistent-Homology-based Machine Learning and its Applications - A Survey. arXiv preprint arXiv:1811.00252. 2018.

9. Ghrist R. Barcodes: the persistent topology of data // Bulletin of the American Mathematical Society. 2008. V. 45, No. 1. P. 61-75.

10. Mischaikow K., Nanda V. Morse theory for filtrations and efficient computation of persistent homology // Discrete & Computational Geometry. 2013. V. 50, No. 2. P. 330-353.

11. Xia K. A quantitative structure comparison with persistent similarity. arXiv preprint arXiv:1707.03572. 2017.

12. Chukanov S. N. Comparison of objects' images based on computational topology methods // Informatics and Automation. 2019. V. 18, No. 5. P. 1043-1065.

13. Chukanov S. N. The Comparison of Diffeomorphic Images based on the Construction of Persistent Homology // Automatic Control and Computer Sciences. 2020. V. 54, No. 7. P. 758-771.

14. Vipond O. Multiparameter Persistence Landscapes // J. Mach. Learn. Res. 2020. V. 21, No. 61, P. 1-38.

15. Botnan M. B., Lesnick M. An introduction to multiparameter persistence. arXiv preprint arXiv:2203.14289. 2022.

FORMATION OF MACHINE LEARNING FEATURES BASED ON COMPUTATIONAL TOPOLOGY METHODS

S.N. Chukanov1

Professor, Dr.Sc. (Technical), Leading Researcher, e-mail: a@a.ru

I.S. Chukanov2 Student, e-mail: chukanov022@gmail.com S.V. Leykhter3

Senior Lecturer, e-mail: leykhter@mail.ru

1Sobolev Institute of Mathematics, Omsk branch, Russia 2Ural Federal University named after the first President of Russia B.N. Yeltsin,

Ekaterinburg, Russia 3Dostoevsky Omsk State University, Omsk, Russia

Abstract. The use of traditional methods of algebraic topology to obtain information about the shape of an object is associated with the problem of forming a small amount of information: Betti numbers and Euler characteristics. The central tool for topological data analysis is the persistent homology method, which summarizes the geometric and topological information in the data using persistent diagrams and barcodes. Based on persistent homology methods, analysis of topological data can be performed to obtain information about the shape of an object. The construction of persistent barcodes and persistent diagrams in computational topology does not allow one to construct a Hilbert space with a scalar product. The possibility of applying the methods of topological data analysis is based on the mapping of persistent diagrams into the Hilbert space; one of the ways of such mapping is the method of constructing a persistent landscape. Its advantages are that it is reversible, so it does not lose any information, and it has persistence properties. The paper considers mathematical

models and functions for representing persistent landscape objects based on the persistent homology method. Methods for converting persistent barcodes and persistent diagrams into persistent landscape functions are considered. Associated with persistent landscape functions is a persistent landscape kernel that forms a mapping into a Hilbert space with a dot product. A formula is proposed for determining the distance between persistent landscapes, which allows you to find the distance between images of objects. The persistent landscape functions map persistent diagrams to Hilbert space. Examples of determining the distance between images based on the construction of persistent landscape functions for these images are given. Representations of topological characteristics in various models of computational topology are considered. Extended results for single-parameter persistence modules to multi-parameter persistence modules.

Keywords: pattern recognition, multi-parameter persistent landscape, Hilbert space, topological data analysis.

Дата поступления в редакцию: 20.11.2022

i Надоели баннеры? Вы всегда можете отключить рекламу.