Научная статья на тему 'ИСПОЛЬЗОВАНИЕ ПЕРСИСТЕНТНОЙ ЭНТРОПИИ ДЛЯ ТОПОЛОГИЧЕСКОГО АНАЛИЗА ДАННЫХ'

ИСПОЛЬЗОВАНИЕ ПЕРСИСТЕНТНОЙ ЭНТРОПИИ ДЛЯ ТОПОЛОГИЧЕСКОГО АНАЛИЗА ДАННЫХ Текст научной статьи по специальности «Математика»

CC BY
10
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
топологический анализ данных / персистентная гомология / персистентная энтропия / суммирующие функции / topological data analysis / persistent homology / persistent entropy / summary functions

Аннотация научной статьи по математике, автор научной работы — С.Н. Чуканов, И.С. Чуканов, С.В. Лейхтер

Персистентная гомология и персистентная энтропия в последнее время стали полезными инструментами для распознавания образов. В работе найдены требования, при которых персистентная энтропия устойчива к малым возмущениям входных данных и инвариантна к масштабу. Описаны устойчивые суммирующие функции, сочетающие персистентную энтропию и кривую Бетти.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — С.Н. Чуканов, И.С. Чуканов, С.В. Лейхтер

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

USING PERSISTENT ENTROPY FOR TOPOLOGICAL DATA ANALYSIS

Persistent homology and persistent entropy have recently become useful tools for pattern recognition. In the paper, requirements are found under which the persistent entropy is stable to small perturbations of the input data and is scale invariant. Stable summary functions are described that combine the persistent entropy and the Betti curve.

Текст научной работы на тему «ИСПОЛЬЗОВАНИЕ ПЕРСИСТЕНТНОЙ ЭНТРОПИИ ДЛЯ ТОПОЛОГИЧЕСКОГО АНАЛИЗА ДАННЫХ»

УДК 004.93'1 DOI 10.24147/2222-8772.2023.3.94-103

ИСПОЛЬЗОВАНИЕ ПЕРСИСТЕНТНОИ ЭНТРОПИИ ДЛЯ ТОПОЛОГИЧЕСКОГО АНАЛИЗА ДАННЫХ

С.Н. Чуканов1

д.т.н., профессор, ведущий научный сотрудник, e-mail: ch_sn@mail.ru

И.С. Чуканов2 студент, e-mail: chukanov022@gmail.com С.В. Лейхтер3 старший преподаватель, e-mail: leykhter@mail.ru

1 Институт математики им. С.Л. Соболева СО РАН, Омский филиал, Омск, Россия 2Уральский федеральный университет имени первого Президента России Б.Н. Ельцина,

Екатеринбург, Россия

3Омский государственный университет им. Ф.М. Достоевского, Омск, Россия

Аннотация. Персистентная гомология и персистентная энтропия в последнее время стали полезными инструментами для распознавания образов. В работе найдены требования, при которых персистентная энтропия устойчива к малым возмущениям входных данных и инвариантна к масштабу. Описаны устойчивые суммирующие функции, сочетающие персистентную энтропию и кривую Бетти.

Ключевые слова: топологический анализ данных, персистентная гомология, персистентная энтропия, суммирующие функции.

1. Введение

Топологический анализ данных (TDA) использует инструменты вычислительной топологии для изучения наборов данных [1]. Интуитивно топологические признаки, такие как гомологии, можно рассматривать как качественные геометрические свойства, связанные с понятиями близости и непрерывности, следовательно, они могут быть полезными инструментами для распознавания образов. TDA стал областью исследований с персистентной гомологией в качестве ключевого инструмента.

Стандартный рабочий процесс TDA выглядит следующим образом:

- Начало с набора данных, снабжённого некоторым понятием близости (обычно метрикой).

- Построение симплициального комплекса и фильтрующей функции. Вычисление вложенной последовательности возрастающих подкомплексов, используя функцию фильтра.

- Вычисление гомологии каждого подкомплекса (интуитивно гомология захватывает «дыры» лежащего в основе пространства) и изучение того, как он развивается в последовательности, что приводит к ключевой концепции персистентной гомологии.

Персистентная гомология может быть компактно представлена с использованием персистентных бар-кодов [2], диаграмм [3] и ландшафтов [4, 5]. Эти представления устойчивы к малым возмущениям заданных данных. Существует множество программных пакетов для расчёта персистентной гомологии и её представлений.

Хотя бар-коды, диаграммы и ландшафты персистентности представляют собой метрические пространства, используемые для сравнения персистентной гомологии наборов данных, бар-коды и диаграммы персистентности не работают должным образом для статистического анализа; например, они не могут иметь уникальное среднее значение. Полезнее суммировать информацию, содержащуюся в персистентной гомологии, используя только числа. Это становится особенно целесообразным, когда доступны только небольшие выборки, поскольку в этих случаях требуются одномерные непараметрические тесты.

Персистентная энтропия является кандидатом для суммирования персистентной гомологии с использованием только чисел. В частности, персистентная энтропия -это энтропия Шеннона распределения вероятности, полученного из персистентной гомологии. Некоторые успешные приложения персистентной энтропии были разработаны для распознавания образов сигналов [6], сложных систем [7] и кластеризации [8]. Теоретический подход позволяет использовать персистентную энтропию, чтобы отличить топологические признаки от шума [9,10]. Персистентная энтропия уже реализована как метод в библиотеке Gudhi, библиотеке scikit-TDA и библиотеке Giotto.

Когда нет необходимости находить существенные различия в данных, но нужна задача классификации, обычный подход заключается в замене статистических тестов методами машинного обучения. В этом случае суммирование персистентных гомологий в числах может быть слишком ограничительным, поскольку мы проецируем бесконечномерное пространство (постоянство бар-кодов) только на одно измерение (персистентная энтропия). Одним из решений может быть использование вместо этого суммирующих функций. Общие подходы к обобщению бар-кодов персистентности включают функции ядра, такие как многомасштабное ядро перси-стентности [11], взвешенное гауссовское ядро персистентности [12], а также векторизации диаграммы персистентности, такие как уже упомянутый ландшафт пер-систентности, силуэты персистентности [13], характеристические кривые Эйлера [14], топологические отображения интенсивности [15] и кривые Бетти [16].

2. Обзор TDA

Чтобы применить инструменты алгебраической топологии к анализу данных, мы должны обобщить информацию, предоставленную данными, в комбинаторной структуре; наиболее часто используется симплициальная структура. Напомним, что и-симплекс - это выпуклая оболочка (п +1) аффинно независимых точек. 0-симплекс - это точка, 1-симплекс - это отрезок, 2-симплекс - это треугольник, 3-симплекс - это тетраэдр и т. д.

Симплициальный комплекс - это множество симплексов, склеенных определённым образом. Абстрактный симплициальный комплекс можно рассматривать как способ хранения комбинаторной структуры симплициального комплекса.

Пусть X - конечное множество.

Семейство К подмножеств X называется абстрактным симплициальным комплексом, если для любых подмножеств о G К; о' G X имеем, что а' С а влечёт a' G К (т. е. непустые пересечения симплексов в К также являются симплексами К). Подмножество в К из (га + 1) элемента X называется га-симплексом.

Когда конечное множество X представляет данные, геометрическая структура связанного с ним симплициального комплекса может предоставить информацию о том, как связаны данные. Обычно эти отношения не являются одинаково значимыми, поэтому обычно определяют порядок их симплексов, чтобы представить их важность. Это можно сделать неявно, используя функцию фильтра.

Функция фильтра на симплициальном комплексе К является монотонной функцией f : К ^ R; и' С а подразумевает f (а') ^ f (а). Фильтрацией на К, полученной из f, называется последовательность подкомплексов (Kt)teR, где Kt = = f-1 (-го, ¿]. Заметим, что из-за монотонности f множество Kt является симплициальным комплексом для всех t и из t1 < t2 следует, что Ktl С Kt2. Параметр t будем называть временем, хотя его физический смысл может быть совершенно другим.

Пусть X - конечное множество точек, наделённых расстоянием dX. Фильтрацией Виеториса-РипсаX называется последовательность (Rips (X, t))teR, полученная из функции фильтра f ([ж0, ...,Хт\) = max dx (xi,Xj), где для каждого t G R,

симплексы симплициального комплекса Виеториса-Рипса Rips (X, t) определяются как: а = (х0,..., хт) G Rips (X, t) ^ f ([ж0, ...,Хт\) ^ t.

Группы гомологий симплициальных комплексов дают формальную интерпретацию того, что такое n-мерная «дыра». Интуитивно понятно, что 0-мерное отверстие - это компонент связности, 1-мерное отверстие - это петля, 2-мерное отверстие -

это полость и т. д. Для симплициального комплекса К га-цепь c является формаль-

k

ной суммой га-симплексов К. То есть с = Y1 a^i, где при 1 ^ i ^ k, Oi является

г=1

m-симплексом К, a,i - коэффициент в унитальном кольце R.

Чтобы связать га-цепи данного симплициального комплекса К с его га-мерными дырами, нам понадобится граничный оператор дт: если (х0,..., хт) есть га-симплекс поля К, то

т

дт ((хо,...

, %т) ) ^Т (1)г (хо, . . . ,Xi-i,Xi+i, ... ,хт).

г=0

Мы можем распространить это определение на любую га-цепь по линейности. Так как граница границы равна нулю, то дт- 1одт = 0. га-мерные дыры К обнаруживаются по га-цепочкам, граница которых равна нулю, но сами не являются «границами». Более конкретно, га-мерная группа гомологий К определяется как факторгруппа Нт (К) = j^gd^ и его га-мерное число Бетти как = rankHm (К). Интуитивно понятно, что подсчитывает количество независимых компонентов связности К, /31 - количество независимых петель и т. д.

Пусть Нт - га-я персистентная гомология фильтрации Т. Для а < b и га G Z

а<Ъ

называется га-й постоянной го-

определим:

^ = {rank (Im- rank (Imv^)) - (rank (Imv^1'6-1) - rank (Imvca-1'b) ,

что можно интерпретировать как число га-мерных классов гомологии, которые «рождаются» в момент времени а и «умирают» в момент времени Ь. Тогда Нт может быть представлено мультимножеством интервалов {[ха, Уа)}«п, называемым га-м персистентным бар-кодом или диаграммой , где каждый интервал [xi, yi) появляется раз. При вычислении над полем группы гомологии представляют собой векторное пространство. Этот факт позволяет использовать постоянные гомологии для изучения фильтраций.

Пусть Т = (Kt)teR - фильтрация. Предположим, что основное кольцо R является полем и Vt G R,ra G Z: га-мерная группа гомологий Нт (Kt) является векторным пространством. Для Va < b и га рассмотрим линейные отображения: vmb : Нт (Ка) ^ Нт (Къ), индуцированные включением Ка ^ Къ. га-е перси-стентные группы гомологии являются образами линейных отображений v^, обозначаемых через Imут. Множество {Imуть} мологией фильтрации Т и обозначается Нт.

Мы предполагаем, что ранг Нт (Kt) конечен Vt G R, га G Z. В этом случае пер-систентную гомологию можно компактно представить с помощью бар-кодов (или диаграмм) персистентности.

В работе мы предполагаем, что бар-коды имеют конечное число элементов. Пусть В обозначает набор стойких бар-кодов. Для бар-кода персистентности A G В его па интервалов будут обозначаться [хса,уа), 1 < г < па. Длину [хса,уа)

Па

будем обозначать через 1а = Уа — ^ Lа будет обозначать сумму: Ьа = ^ 1а. Кроме

г=1

того, для двух бар-кодов персистентности А, В обозначим max {па, щ} через nmax и max {Ьа, Lb} через L max-

Определим следующие подмножества В.

Множество конечных бар-кодов персистентности определяется как:

BF = {А €В : уа < Ж, V [хаг,уа) G А} .

Множество бар-кодов персистентности, все интервалы которых начинаются с 0, обозначается как В0: В0 = {A G В : ха = 0, V [ха,уса) G А}. Множество нормализованных бар-кодов персистентности определяется как:

В

N =

€В : 1а =l|

Будем считать, что па > 1 для всех А £ Вр, чтобы избежать вырожденных случаев. Существует соответствие между бар-кодами персистентности в Вр и бар-кодами персистентности в Во П Вм. Пусть ф : Вр ^ В0 П Вм - проекция, которая определяется как композиция: ф = ф о -к, где ф и ж определяются следующим образом:

ф : Вр ^ Вм,

где

и

А = ^ V (А)

ж : BF ^ В0

■ьг Ui

La La

1

где

A = №,уа)}1<г<па ^ * (A) = {{0,®}

1<i<na'

Следующие метрики могут быть определены на В. Пусть А, В Е Вр и 1 < р < < то. Определим р-е расстояние Вассерштейна как:

dp (А, В)

/ п

min >

V 7 ti

max

(К —

Jb lP \i,a xb(i) | , \ Уг

УЬ7(i) \Р}^

7p

где 7 - любая биекция между мультимножествами (множества, элементы которых

могут повторяться) А = {{ха,Уа)}

1 <i<nc

и

А ={ [хЬ,уЬ)}

1

, а п7 - кардинальное

число 7. В случае р = ж это расстояние называется bottleneck расстоянием:

d(А, В) = min min max{ \ х°а — xb7(i) \ , \уЫ — уЪ7(г) \} .

Пусть /,д : X ^ М - две ручные функции Липшица на метрическом пространстве X, триангуляции которых растут полиномиально с постоянным показателем ] ^ 1. Тогда существуют константы с ^ 1,к ^ ] такие, что р-е расстояние Вассерштейна между их соответствующими бар-кодами персистентности А, В удовле-

творяет условию: dp (А, В) ^ с \\fg\\

1-Vp

,Ур ^ к [17]. Пусть К - симплициальный

комплекс и /,д : К ^ М - две монотонные функции. Если А, В - соответствующие бар-коды персистентности, полученные из ¡, д, то (А, В) < Н/^Ноо [18].

3. Устойчивость персистентной энтропии

В этом разделе показано, при каких условиях персистентная энтропия устойчива, т. е. она равномерно непрерывна или существует граница, которая «управляет» возмущением, вызванным шумом во входных данных.

Персистентная гомология может быть представлена с использованием перси-стентных бар-кодов. Тем не менее иногда мы можем предпочесть использовать только число для суммирования персистентной гомологии (например, персистентная энтропия), даже если при этом теряется информация.

Персистентная энтропия Е (А) персистентного бар-кода А = {[х*, у*)} 1<л<Па в Вр определяется как:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ра / ра\

* («)=- е ^ ч ¿).

Для вычисления персистентной энтропии необходимо учитывать только длину I каждого интервала [х*,у*). Если А Е Вр, то Е (ф (А)) = Е (А).

Пусть А, В Е Bf и 1 ^ р ^ то. Относительная ошибка гр (А, В) определяется

' р

как: ^

гр (А, В) = 2(пр]) /Р dp (А, В).

Выполняется неравенство

dp (п (А) (В)) гр (А, В).

(пр)1 /р

Обобщим результат непрерывности персистентной энтропии относительно bottleneck расстояния на расстояние Вассерштейна [9,10].

Пусть А, В Е Bf и пусть dp - р-е расстоянием Вассерштейна (1 ^ р ^ то). Если мы зафиксируем максимальное количество интервалов и минимальную сумму длин интервалов в бар-коде персистентности, то персистентная энтропия Е непрерывна на (Bp, dp): Уе35 : dp (А, В) ^ 8 ^ \Е (А) — Е (В)\ ^ е.

Пусть P,Q е R - два конечных распределения вероятностей, Es (Р), Es (Q) - их энтропии Шеннона. Если \\Р — ^ )/2, то \Es (Р) — Es (Q)\ ^

\\Р — (log (и) — log (\\Р — Q\)))[ Cover]. Поскольку пространство B0 nBN можно интерпретировать как конечное распределение вероятностей, мы можем сначала спроецировать бар-коды персистентности Bf на Bo П Bn, а затем применить предыдущую теорему для получения желаемого результата устойчивости.

Пусть А, В е Bf. Предположим, что Гр (А, В) ^ )/4. Тогда: \Е (А) — Е (В)\ ^ 2гр (А, В) (log (па + nb) — log (2гр (А, В))).

Хотя \Е (А) — Е (В)\ может стремиться к то при сколь угодно большом п = па + пь, относительное значение Еп(д)| ограничено, так как гр (А, В) ^ )/4:

\Е (А) — Е (В)\ ^ ,

lim sup ^-— = 2гр (А, В).

ßF log П

Чтобы расширить определение персистентной энтропии на бар-коды персистентности с интервалами бесконечной длины, обычно определяют проекцию B ^ Bf , которая преобразует интервалы бесконечной длины в интервалы конечной длины. Есть много способов сделать это, и в зависимости от выбора персистентная энтропия может больше не быть устойчивой или масштабно-инвариантной. Рассмотрим некоторые проекции и их свойства.

Пусть с Е R. Определим проекцию : B ^ Bf таким образом, что для

а = {[xa,za)}EB: Сс (А) = {[xa,za)},

где

а = ^ У<а = Zj —

!

у<, otherwise

Следующий результат подтверждает устойчивость проекции. Пусть А, В Е В. Тогда проекция удовлетворяет неравенству: dp (А) , (В)) ^ dp (А, В).

Несмотря на устойчивость, не является масштабно-инвариантной. По определению проекция / : В ^ Вр масштабно-инвариантна, если f (АА) = (А); величина АА является скалярным произведением каждого из интервалов (Л •то = то).

Определим устойчивые и масштабно-инвариантные проекции В ^ Вр. Пусть Л ^ 0; 1 ^ р ^ то и А = {[ха,уа)} Е В.

Запишем выражения для проекций тх,^х:

^х (А) = {№,%)} ,

где

{

а + yf = ж;

zî ,

уа, otherwise;

Imax - максимальное конечное значение для 1а = уса — х(. их,р (А) = {[х(, z^)},

{

1а,Р = (^ ; 1 = ^ : 1 ^г ^ М ,еа < то.

Для двух персистентных бар-кодов с одинаковым числом т интервалов бесконечной длины, имеем:

dp (»х (А) , (В)) ^ (1 + т2Р\Р)1/»¿р (А, В) ; р (иХрр (А), иХрр (В)) ^ (1 + т2РХР)1/р¿рр (А, В).

z.а + XL(,p, уЧ = ж; уа, otherwise;

4. Суммирующие функции на основе энтропии

Суммирующие функции (такие как уже упомянутые силуэты персистентно-сти, характеристические кривые Эйлера, топологические карты интенсивности или ландшафты персистентности) использовались для получения статистической информации из бар-кодов персистентности. Например, простым способом обобщения бар-кода персистентности является кривая Бетти, определяемая следующим образом: если А = {[х;,у;)} Е В, то ¡3 (А) (t) = card{[х;,у;) : х" ^ t ^ у";}. То есть ¡3 (A) (t) - это количество интервалов в А, которые «живы» в момент времени t.

Определим новую суммирующую кусочно-постоянную функцию. Она похожа на кривую Бетти, но использует постоянную энтропию вместо чисел Бетти. Нормализация этой функции является устойчивой.

Определим новую функцию, которая связывает бар-код персистентности А Е Bf с вещественной кусочно-персистентной функцией. Эта новая функция суммирует информацию о количестве интервалов данного бар-кода персистентности и их однородности и является устойчивой по отношению к bottleneck расстоянию.

Суммирующая функция энтропии (ББ-функция) персистентного бар-кода А = )} Е Вр представляет собой кусочно-линейную знакопостоянную вещественную функцию:

fa / ра\

s (A) {t] =(t) f logi jL)

j_1 a \ aZ

где

Wa (t)

t

1, xa С t С ya 0, otherwise

Другими словами, ES-функция связывает бар-код персистентности А = {{xa,za)} и момент времени t с частичной суммой Е (А), соответствующей интервалам {xa, Za) Е А, которые «живы» в этот момент t, т. е. xa С t С ya. Обратите внимание на то, что S (A): R ^ R и S : BF ^ С, являющееся С пространством кусочно-постоянных вещественных функций.

Пусть S будет ES-функцией, dте - bottleneck расстояние, А, В Е BF - бар-коды персистентности. Пусть пте - кардинальное число биекции, обозначаемой как 7те, когда dте (А, В) достигается.

Если Гте (А, В) С 2, то

\\S (A) — S (В)\\1 С Гте (А, В) Lmax (— ¡log(3 Гте (А, В )) ) .

ES-функция основана на персистентной энтропии, тогда как кривая Бетти состоит из подсчёта количества «живых» интервалов. Обе функции (ES-функция и кривая Бетти) непрерывны относительно bottleneck расстояния, если фиксировано максимальное число интервалов. ES-функция работает лучше, чем кривая Бетти, в шумном контексте, поскольку персистентная энтропия является устойчивой, а подсчёт количества интервалов - нет.

Одной из основных целей персистентной гомологии является представление формы входных данных. В некоторых приложениях, таких как анализ изображений, может быть важно обнаруживать некоторые повторяющиеся закономерности независимо от размера входного набора данных. Возможным инструментом для этого является нормализованная версия суммирующей функции, чтобы попытаться зафиксировать форму пространства, а не размер.

Нормализованная суммирующая функция энтропии (NES-функция) бар-кода персистентности А = {{xa, za)} Е BF определяется как:

NES {Ат = то-

Как и ES-функция, эта функция также является устойчивой. Если гте (А, В) С ||,

_2_ 3е'

то

^ (А, В) LmaJX-°^ — | log (| ^ (А, В)))

\\NES W - NES т> * -„j, s{B) 2 -1

5. Заключение

В работе рассматривается устойчивость персистентной энтропии. Персистент-ная энтропия использовалась для формирования устойчивой суммирующей функции (ES-функции) и её нормализованной версии (NES-функции). В целом они работают лучше, чем кривая Бетти, в шумном контексте и могут быть полезны для задач машинного обучения. Несколько типов кривых персистентности, были также определены Y.M Chung и A. Lawson в [20].

6. Благодарности

Работа выполнена в рамках государственного задания ИМ СО РАН, проект FWNF-2022-0016, и при поддержке Российского научного фонда, грант № 22-2100035.

Литература

1. Чуканов С.Н., Чуканов И.С., Лейхтер С.В. Формирование признаков машинного обучения на основе методов вычислительной топологии // Математические структуры и моделирование. 2022. № 4 (64). С. 89-99.

2. Carlson G., Zomorodian A., Collins A., Guibas L. Persistence barcodes for shapes // International Journal of Shape Modeling. 2005. Vol. 11, No. 2. P. 149-187.

3. Edelsbrunner H., Letscher D., Zomorodian A. Topological persistence and simplification // Discrete & Computational Geometry. 2002. Vol. 28, No. 4. P. 511-533.

4. Bubenik P. Statistical topology using persistence landscapes // Journal of Machine Learning Research. 2015. Vol. 16. P. 77-102.

5. Лейхтер С.В., Чуканов С.Н., Чуканов И.С., Широков И.В. Анализ данных. Омск : ОмГУ, 2022. 108 с.

6. Rucco M. et al. A new topological entropy-based approach for measuring similarities among piecewise linear functions // Signal Processing. 2017. Vol. 134. P. 130-138.

7. Binchi J. et al. Jholes: A tool for understanding biological complex networks via clique weight rank persistent homology // Electronic Notes in Theoretical Computer Science. 2014. Vol. 306. P. 5-18.

8. Wang X. et al. Scale space clustering evolution for salient region detection on 3d deformable shapes // Pattern Recognition. 2017. Vol. 71. P. 414-427.

9. Atienza N., Gonzalez-Diaz R., Rucco M. Persistent entropy for separating topological features from noise in Vietoris-Rips complexes // Journal of Intelligent Information Systems. 2019. Vol. 52. P. 637-655.

10. Atienza N., Gonzalez-Diaz R., Soriano-Trigueros M. On the stability of persistent entropy and new summary functions for topological data analysis // Pattern Recognition. 2020. Vol. 107. P. 107509.

11. Reininghaus J. et al. A stable multi-scale kernel for topological machine learning // Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.

P. 4741-4748.

12. Kusano G., Hiraoka Y., Fukumizu K. Persistence weighted Gaussian kernel for topological data analysis // International conference on machine learning. PMLR, 2016. P. 2004-2013.

13. Chazal F. et al. Stochastic convergence of persistence landscapes and silhouettes // Proceedings of the thirtieth annual symposium on Computational geometry. 2014. P. 474-483.

14. Richardson E., Werman M. Efficient classification using the Euler characteristic // Pattern Recognition Letters. 2014. Vol. 49. P. 99-106.

15. Pranav P. et al. The topology of the cosmic web in terms of persistent Betti numbers // Monthly Notices of the Royal Astronomical Society. 2017. Vol. 465, No. 4. P. 4281-4310.

16. Umeda Y. Time series classification via topological data analysis // Information and Media Technologies. 2017. Vol. 12. P. 228-239.

17. Cohen-Steiner D. et al. Lipschitz functions have L p-stable persistence // Foundations of computational mathematics. 2010. Vol. 10, No. 2. P. 127-139.

18. Edelsbrunner H., Harer J. Computational Topology: An Introduction. American Mathematical Society, 2010. 241 p.

19. Cover T.M. Elements of information theory. John Wiley & Sons, 2006. 784 p.

20. Chung Y.M. et al. Topological approaches to skin disease image analysis // 2018 IEEE International Conference on Big Data. IEEE, 2018. P. 100-105.

USING PERSISTENT ENTROPY FOR TOPOLOGICAL DATA ANALYSIS

S.N. Chukanov1

Dr.Sc. (Techn.), Professor, Leading Scientist Researcher, e-mail: a@a.ru

I.S. Chukanov2 Student, e-mail: chukanov022@gmail.com S.V. leykhter3 Assistant Professor, e-mail: leykhter@mail.ru

1Sobolev Institute of Mathematics, Omsk branch, Omsk, Russia 2Ural Federal University named after the first President of Russia B.N. Yeltsin, Ekaterinburg,

Russia

3Dostoevsky Omsk State University, Omsk, Russia

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Abstract. Persistent homology and persistent entropy have recently become useful tools for pattern recognition. In the paper, requirements are found under which the persistent entropy is stable to small perturbations of the input data and is scale invariant. Stable summary functions are described that combine the persistent entropy and the Betti curve.

Keywords: topological data analysis, persistent homology, persistent entropy, summary functions.

Дата поступления в редакцию: 10.07.2023

i Надоели баннеры? Вы всегда можете отключить рекламу.