Научная статья на тему 'Использование топологического анализа данных для построения байесовских нейронных сетей'

Использование топологического анализа данных для построения байесовских нейронных сетей Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
93
18
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
байесовские нейронные сети / персистентная гомология / нормированная персистентная энтропия / эмбеддинг / баркод / Bayesian neural networks / persistent homology / normalized persistent entropy / embedding / barcode

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Александра Сергеевна Ватьян, Наталия Федоровна Гусарова, Дмитрий Александрович Добренко, Кристина Сергеевна Панкова, Иван Вячеславович Томилов

Введение. Впервые предложен упрощенный подход к построению байесовских нейронных сетей, сочетающий вычислительную эффективность с возможностью анализа процесса обучения. Метод. Предлагаемый подход основан на байесианизации детерминированной нейронной сети посредством рандомизации параметров только на уровне интерфейса. Формирование байесовской нейронной сети на основе заданной сети осуществляется путем замены ее параметров на вероятностные распределения, которые имеют в качестве среднего значения параметры исходной модели. Оценки метрик эффективности нейронной сети, полученной в рамках рассматриваемого подхода, и байесовской нейронной сети, построенной посредством вариационного вывода, выполнены с использованием методов топологического анализа данных. Основные результаты. Процедура байесианизации реализована с помощью градуированного варьирования интенсивности рандомизации. В качестве альтернативы использованы две нейронные сети с идентичной структурой — детерминированная и классическая байесовская. На вход нейронной сети подавались исходные данные двух датасетов из медицинского домена в вариантах без зашумления и с добавленным гауссовским шумом. Рассчитаны нулевые и первые персистентные гомологии для эмбеддингов формируемых нейронных сетей на каждом из слоев. Для оценки качества классификации использована метрика точности (accuracy). Показано, что баркоды для эмбеддингов на каждом слое байесианизированной нейронной сети во всех четырех сценариях находятся между соответствующими баркодами детерминированной и байесовской нейронной сетей как для нулевых, так и для первых персистентных гомологий. При этом детерминированная нейронная сеть является нижней границей, а байесовская — верхней. Показано, что структура ассоциаций данных внутри байесианизированной нейронной сети наследуется от детерминированной модели, однако приобретает свойства байесовской. Экспериментально установлено наличие взаимосвязи между нормированной персистентной энтропией, вычисляемой на эмбеддингах нейронной сети, и точностью нейронной сети. Для предсказания точности наиболее показательной оказалась топология эмбеддингов на среднем слое модели нейронной сети. Обсуждение. Предлагаемый подход может быть использован для упрощения построения байесовской нейронной сети из уже обученной детерминированной нейронной сети. Это открывает возможности повышения точности существующей нейронной сети без ансамблирования с дополнительными классификаторами. Появляется возможность проактивной оценки эффективности формируемой нейронной сети на упрощенных данных без запуска на реальном датасете, что сокращает ресурсоемкость ее разработки.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Александра Сергеевна Ватьян, Наталия Федоровна Гусарова, Дмитрий Александрович Добренко, Кристина Сергеевна Панкова, Иван Вячеславович Томилов

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Using topological data analysis for building Bayesan neural networks

For the first time, a simplified approach to constructing Bayesian neural networks is proposed, combining computational efficiency with the ability to analyze the learning process. The proposed approach is based on Bayesianization of a deterministic neural network by randomizing parameters only at the interface level, i.e., the formation of a Bayesian neural network based on a given network by replacing its parameters with probability distributions that have the parameters of the original model as the average value. Evaluations of the efficiency metrics of the neural network were obtained within the framework of the approach under consideration, and the Bayesian neural network constructed through variation inference were performed using topological data analysis methods. The Bayesianization procedure is implemented through graded variation of the randomization intensity. As an alternative, two neural networks with identical structure were used — deterministic and classical Bayesian networks. The input of the neural network was supplied with the original data of two datasets in versions without noise and with added Gaussian noise. The zero and first persistent homologies for the embeddings of the formed neural networks on each layer were calculated. To assess the quality of classification, the accuracy metric was used. It is shown that the barcodes for embeddings on each layer of the Bayesianized neural network in all four scenarios are between the corresponding barcodes of the deterministic and Bayesian neural networks for both zero and first persistent homologies. In this case, the deterministic neural network is the lower bound, and the Bayesian neural network is the upper bound. It is shown that the structure of data associations within a Bayesianized neural network is inherited from a deterministic model, but acquires the properties of a Bayesian one. It has been experimentally established that there is a relationship between the normalized persistent entropy calculated on neural network embeddings and the accuracy of the neural network. For predicting accuracy, the topology of embeddings on the middle layer of the neural network model turned out to be the most revealing. The proposed approach can be used to simplify the construction of a Bayesian neural network from an already trained deterministic neural network, which opens up the possibility of increasing the accuracy of an existing neural network without ensemble with additional classifiers. It becomes possible to proactively evaluate the effectiveness of the generated neural network on simplified data without running it on a real dataset, which reduces the resource intensity of its development.

Текст научной работы на тему «Использование топологического анализа данных для построения байесовских нейронных сетей»

НАУЧНО-ТЕХНИЧЕСКИЙ ВЕСТНИК ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ, МЕХАНИКИ И ОПТИКИ ноябрь-декабрь 2023 Том 23 № 6 http://ntv.ifmo.ru/

I/ITMO SCIENTIFIC AND TECHNICAL JOURNAL OF INFORMATION TECHNOLOGIES, MECHANICS AND OPTICS ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ, МЕХАНИКИ И ОПТИКИ

November-December 2023 Vol. 23 No 6 http://ntv.ifmo.ru/en/

ISSN 2226-1494 (print) ISSN 2500-0373 (online)

doi: 10.17586/2226-1494-2023-23-6-1187-1197

УДК 004.048

Использование топологического анализа данных для построения байесовских нейронных сетей

Александра Сергеевна Ватьян1, Наталия Федоровна Гусарова2^, Дмитрий Александрович Добренко3, Кристина Сергеевна Панкова4, Иван Вячеславович Томилов5

I,2,3,4,5 Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация

1 [email protected], https://orcid.org/0000-0002-5483-716X

2 [email protected], https://orcid.org/0000-0002-1361-6037

3 [email protected], https://orcid.org/0009-0006-1485-1166

4 [email protected], https://orcid.org/0009-0002-0490-0148

5 [email protected], https://orcid.org/0000-0003-1886-2867

Аннотация

Введение. Впервые предложен упрощенный подход к построению байесовских нейронных сетей, сочетающий вычислительную эффективность с возможностью анализа процесса обучения. Метод. Предлагаемый подход основан на байесианизации детерминированной нейронной сети посредством рандомизации параметров только на уровне интерфейса. Формирование байесовской нейронной сети на основе заданной сети осуществляется путем замены ее параметров на вероятностные распределения, которые имеют в качестве среднего значения параметры исходной модели. Оценки метрик эффективности нейронной сети, полученной в рамках рассматриваемого подхода, и байесовской нейронной сети, построенной посредством вариационного вывода, выполнены с использованием методов топологического анализа данных. Основные результаты. Процедура байесианизации реализована с помощью градуированного варьирования интенсивности рандомизации. В качестве альтернативы использованы две нейронные сети с идентичной структурой — детерминированная и классическая байесовская. На вход нейронной сети подавались исходные данные двух датасетов из медицинского домена в вариантах без зашумления и с добавленным гауссовским шумом. Рассчитаны нулевые и первые персистентные гомологии для эмбеддингов формируемых нейронных сетей на каждом из слоев. Для оценки качества классификации использована метрика точности (accuracy). Показано, что баркоды для эмбеддингов на каждом слое байесианизированной нейронной сети во всех четырех сценариях находятся между соответствующими баркодами детерминированной и байесовской нейронной сетей как для нулевых, так и для первых персистентных гомологий. При этом детерминированная нейронная сеть является нижней границей, а байесовская — верхней. Показано, что структура ассоциаций данных внутри байесианизированной нейронной сети наследуется от детерминированной модели, однако приобретает свойства байесовской. Экспериментально установлено наличие взаимосвязи между нормированной персистентной энтропией, вычисляемой на эмбеддингах нейронной сети, и точностью нейронной сети. Для предсказания точности наиболее показательной оказалась топология эмбеддингов на среднем слое модели нейронной сети. Обсуждение. Предлагаемый подход может быть использован для упрощения построения байесовской нейронной сети из уже обученной детерминированной нейронной сети. Это открывает возможности повышения точности существующей нейронной сети без ансамблирования с дополнительными классификаторами. Появляется возможность проактивной оценки эффективности формируемой нейронной сети на упрощенных данных без запуска на реальном датасете, что сокращает ресурсоемкость ее разработки. Ключевые слова

байесовские нейронные сети, персистентная гомология, нормированная персистентная энтропия, эмбеддинг, баркод

Благодарности

Работа поддержана грантом Российского научного фонда 23-11-00346.

© Ватьян А.С., Гусарова Н.Ф., Добренко Д.А., Панкова К.С., Томилов И.В., 2023

Ссылка для цитирования: Ватьян А.С., Гусарова Н.Ф., Добренко Д.А., Панкова К.С., Томилов И.В. Использование топологического анализа данных для построения байесовских нейронных сетей // Научно-технический вестник информационных технологий, механики и оптики. 2023. Т. 23, № 6. С. 1187-1197. doi: 10.17586/2226-1494-2023-23-6-1187-1197

Using topological data analysis for building Bayesan neural networks

Alexandra S. Vatian1, Natalia F. Gusarova2H, Dmitriy A. Dobrenko3, Kristina S. Pankova4, Ivan V. Tomilov5

1,2,3,4,5 ITMO University, Saint Petersburg, 197101, Russian Federation

1 [email protected], https://orcid.org/0000-0002-5483-716X

2 [email protected]», https://orcid.org/0000-0002-1361-6037

3 [email protected], https://orcid.org/0009-0006-1485-1166

4 [email protected], https://orcid.org/0009-0002-0490-0148

5 [email protected], https://orcid.org/0000-0003-1886-2867

Abstract

For the first time, a simplified approach to constructing Bayesian neural networks is proposed, combining computational efficiency with the ability to analyze the learning process. The proposed approach is based on Bayesianization of a deterministic neural network by randomizing parameters only at the interface level, i.e., the formation of a Bayesian neural network based on a given network by replacing its parameters with probability distributions that have the parameters of the original model as the average value. Evaluations of the efficiency metrics of the neural network were obtained within the framework of the approach under consideration, and the Bayesian neural network constructed through variation inference were performed using topological data analysis methods. The Bayesianization procedure is implemented through graded variation of the randomization intensity. As an alternative, two neural networks with identical structure were used — deterministic and classical Bayesian networks. The input of the neural network was supplied with the original data of two datasets in versions without noise and with added Gaussian noise. The zero and first persistent homologies for the embeddings of the formed neural networks on each layer were calculated. To assess the quality of classification, the accuracy metric was used. It is shown that the barcodes for embeddings on each layer of the Bayesianized neural network in all four scenarios are between the corresponding barcodes of the deterministic and Bayesian neural networks for both zero and first persistent homologies. In this case, the deterministic neural network is the lower bound, and the Bayesian neural network is the upper bound. It is shown that the structure of data associations within a Bayesianized neural network is inherited from a deterministic model, but acquires the properties of a Bayesian one. It has been experimentally established that there is a relationship between the normalized persistent entropy calculated on neural network embeddings and the accuracy of the neural network. For predicting accuracy, the topology of embeddings on the middle layer of the neural network model turned out to be the most revealing. The proposed approach can be used to simplify the construction of a Bayesian neural network from an already trained deterministic neural network, which opens up the possibility of increasing the accuracy of an existing neural network without ensemble with additional classifiers. It becomes possible to proactively evaluate the effectiveness of the generated neural network on simplified data without running it on a real dataset, which reduces the resource intensity of its development. Keywords

Bayesian neural networks, persistent homology, normalized persistent entropy, embedding, barcode Acknowledgements

The work is supported by Grant RSF 23-11-00346.

For citation: Vatian A.S., Gusarova N.F., Dobrenko D.A., Pankova K.S., Tomilov I.V. Using topological data analysis for building Bayesan neural networks. Scientific and Technical Journal of Information Technologies, Mechanics and Optics, 2023, vol. 23, no. 6, pp. 1187-1197 (in Russian). doi: 10.17586/2226-1494-2023-23-6-1187-1197

Введение

Байесовские нейронные сети (БНС) занимают важное место в ряду нейросетевых архитектур. Они строятся путем введения в обычную архитектуру нейронной сети (НС), воспроизводящей произвольную функцию у = Ф(х), стохастических компонентов, например, стохастической функции активации 5 или стохастического вектора параметров 0 ~ р(0), т. е. параметр 0 распределен по некоторому вероятностному закону />(0). В результате функция Ф становится аппроксимацией значения у при наличии случайной шумовой компоненты е: у = Фе(х) + е.

Работу БНС можно рассматривать как моделирование нескольких возможных моделей 0 с соответ-

ствующим распределением вероятностей р(0), т. е. как частный случай ансамблевого обучения, при этом практически для любой детерминированной НС можно построить ее байесовский аналог. Так как агрегирование прогнозов большого набора независимых предикторов средней эффективности может привести к лучшим прогнозам, чем один высокоэффективный предиктор, то БНС могут обеспечить лучшую эффективность, а также принципиально являются более робастными по сравнению с детерминированными НС (с точечной оценкой).

Тем не менее, несмотря на явные достоинства, БНС пока не получили значительного распространения, что объясняется повышенной сложностью процедуры их обучения и настройки. Во-первых, в БНС кратно (по сравнению с соответствующим детерминированным

аналогом) возрастает число настраиваемых гиперпараметров, а во-вторых, необходимо получить оценку не отдельного вектора параметров 9, а его распределения ^(9). В этих условиях упрощающие методы оценки ^(9), такие как сэмплирование методом Монте-Карло и вариационный вывод на базе типовых распределений, оказываются ресурсозатратными в плане времени и вычислительных мощностей. С другой стороны, стандартная процедура подбора гиперпараметров по сетке практически теряет сходимость, так как разработчик не имеет инструментария для отслеживания изменений внутреннего состояния БНС в ходе рандомизации.

В последние годы появились предложения использовать в качестве такого инструментария топологический анализ данных [1], в первую очередь аппарат персистентных гомологий (ПГ) [2]. ПГ позволяют эффективно вычислять и оценивать мультимасштабные топологические особенности вложенных семейств симплициальных комплексов и топологических пространств, характеризующих внутреннее состояние НС и его трансформации в ходе оценки функции у = Ф(х), и тем самым вывести НС из парадигмы «черного ящика». Однако известные работы (см. далее в разделе «Состояние проблемы») ограничиваются приложением аппарата ПГ только к детерминированным НС, в то время как переход к стохастическим НС и, в частности к БНС, остается вне поля зрения исследователей.

Таким образом, разработка подходов к построению БНС, сочетающих вычислительную эффективность с возможностью анализа процесса обучения, является актуальной задачей. В настоящей работе с этой целью предложен подход, основанный на байесианизации детерминированной НС посредством рандомизации параметров на уровне инференса. Под байесианизаци-ей НС [3, 4] понимается формирование БНС на основе заданной НС путем замены параметров последней на вероятностные распределения, которые имеют в качестве среднего значения параметры исходной модели. Полученная в ходе этого процесса НС в работе называется байесианизированной НС. С использованием методов топологического анализа данных проведены оценки метрик эффективности НС, полученной в рам-

ках рассматриваемого подхода, и БНС, построенной посредством вариационного вывода. Сравнение классических для НС метрик, а также метрик, основанных на вычислении ПГ, показало, что оба варианта НС обеспечивают сопоставимые показатели эффективности, при этом предложенный подход является менее ресурсозатратным по сравнению с вариационным выводом.

Состояние проблемы

Топологический анализ данных (ТАД) [1, 5, 6] представляет собою комплекс методов анализа топологических и геометрических структур, лежащих в основе данных, причем последние часто репрезентируются как облака точек в евклидовом или более общих метрических пространствах. В частности, ТАД — один из наиболее продвинутых средств изучения внутренней структуры признакового пространства НС [7-10].

Основными объектами в ТАД являются симплици-альные комплексы. На рис. 1 схематично изображено построение симплициального комплекса Чеха [1]. Для этого вокруг каждой точки, принадлежащей облаку данных (рис. 1, а), строятся шары нарастающего радиуса в (рис. 1, Ь). Пока в мал, объединение всех 8-шаров состоит из непересекающихся в-шаров. Если в велик, то их объединение становится одним пространственным компонентом. Промежуточные значения в позволяют проследить постепенную фильтрацию, т. е. объединение отдельных точек и формирование своего рода многомерной кластерной структуры данных.

ПГ позволяет рассматривать все значения в одновременно, обеспечивая тем самым единое представление топологических свойств облака данных. ПГ чаще всего графически представляется в виде диаграммы, называемой баркодом (рис. 2), содержащей отрезки, которые отвечают за время жизни свойств, соответствующих той или иной группе гомологий фильтрации Н0, И], .... Каждый интервал баркода имеет начало tьirth, которое соответствует моменту появления определенной гомологии, и конец tdeath, который соответствует моменту ее исчезновения. Гомологии могут иметь разные размер-

40

30

20

10

40

30-

20

10

Рис. 1. Облако точек (а) и построение симплициального комплекса Чеха (b) Fig. 1. Cloud of points (a) and construction of the Cech simplicial complex (b)

а

0,0 1,0 2,0 3,0 8

Рис. 2. Примеры баркода для групп гомологий Н0 (а) и Hj (b).

Е — параметр фильтрации, N — номер гомологий в порядке рождения

Fig. 2. Example of a barcode: H0, Hj — homology groups, е — filtration parameter, N — homology number in birth order

ности. Так, нулевая группа гомологий Но описывает отсутствие путей между группами точек — каждая гомология в некотором смысле сигнализирует об отсутствии пути между конкретной парой кластеров. Первая группа гомологий Hj описывает ситуации, когда между группами точек есть различные пути, которые нельзя деформировать друг в друга — ближайшим примером является окружность, между любыми двумя точками которой есть два варианта пути. Более многомерные группы гомологий описывают более абстрактные характеристики, которые можно описать как наличие n-мерной пустоты в пространстве. Таким образом, ПГ позволяют увидеть на разных масштабах наличие и отсутствие «многомерных дыр» в датасете в формате баркода.

Ранг n-ой группы гомологии симплициального комплекса называется числом Бетти bn. В частности, bo характеризует число связанных компонентов, bj — число одномерных отверстий, и т. д.

Построение ПГ и вычисление чисел Бетти — наиболее широко применяемые приложения аппарата ТАД к анализу НС, при этом предметом анализа являются различные аспекты НС. В работе [11] изучена топология индуцированного графа, описывающего распространение вычислительного процесса от входа к выходу НС, в работах [12, 13] — топология границы раздела классификаторов на основе НС, в работах [14, 15] — топология эмбеддингов, которые НС формирует на отдельных слоях. Отметим, что последний подход представляется наиболее выразительным для описания трансформаций внутреннего пространства НС, поэтому в настоящей работе использован именно он.

Для количественной оценки топологических свойств НС используется постоянно расширяющийся ряд метрик, в том числе топологическая сложность (topological complexity) [12], нейронная устойчивость (neural persistence) [15], нейронное сшивание (neural stitching) и центрированное выравнивание ядра

(centered kernel alignment) [16], и др. Однако анализ существующего спектра метрик показывает, что общепризнанный их набор в настоящее время отсутствует; они во многом являются проблемно-ориентированными, т. е. конструируются и применяются авторами в соответствии с конкретной решаемой задачей. В связи с этим в настоящей работе были опробованы 6 типов метрик, отражающих как общетопологические, так и информационные аспекты топологии анализируемых НС (топологии подробно охарактеризованы в следующем разделе «Материалы и методы»).

В большинстве рассмотренных работ изучены фактически топологические аспекты работы НС, главным образом — закономерности выполняемых ею топологических изменений [14, 17-20]. В то же время связь между топологическими характеристиками НС и ее типовыми метриками рассмотрены в единичных работах. Например, в работе [14] показана связь между точностью на тестовых данных (accuracy) и временем жизни наиболее стойких одномерных гомологий пространственных фильтров первого слоя НС. В [17] получены оценки минимально достижимой ошибки обучения НС в зависимости от топологических характеристик входных данных и первых слоев полносвязных НС.

Следует отметить, что практически все найденные работы используют в качестве объекта изучения топологических свойств детерминированные полносвязные НС низкой размерности, значительно реже [15] рассматриваются детерминированные НС глубокого обучения. В то же время попыток топологического анализа стохастических НС в доступных авторам научных работах не обнаружено.

Байесианизация детерминированной НС как средство создания БНС основывается на предложенном в [3] методе индуцирующих весов, который позволяет заменить вариационный вывод в БНС на низкоразмерные аналоги реальных матриц весов. Его программная реализация представлена в открытом доступе в виде процедуры bayesianize в пакете PyTorch, которая содержательно сводится к рандомизации параметров НС. Однако в большинстве известных работ [21] процедура bayesianize применяется на этапах обучения НС и ее применения (инференса). В этом случае полноценная байесианизация предобученных нейросетей крайне затруднена.

Таким образом, проведенный анализ научных работ подтверждает актуальность проблемы, рассматриваемой в настоящей работе, и позволяет сформулировать основные ее задачи:

— выявить и экспериментально оценить возможность упрощенного построения БНС путем рандомизации параметров уже обученной детерминированной НС только на уровне инференса;

— экспериментально оценить наличие связи между метриками ПГ, вычисляемыми на эмбеддингах НС, и эффективностью работы обученной НС на реальных датасетах;

— выделить метрику ПГ, вычисляемую на эмбеддин-гах НС, которая позволяет наиболее выразительно оценить эффективность работы обученной НС на реальных датасетах.

Материалы и методы

Рассмотрим три варианта НС:

— детерминированная НС — полносвязная НС, для которой процессы обучения и инференса являются детерминированными;

— вариационная БНС — БНС, полученная из детерминированной НС посредством вариационного вывода с параметрами, рандомизированными на основе мультипликативного шума Бернулли, причем рандомизация происходит как в процессе обучения, так и в процессе инференса; в качестве меры близости между используемой вариационной функцией и апостериорным распределением p(0|D), где D — тренировочные данные, используется дивергенция Кульбаха-Лейблера;

— байесианизированная НС-НС, полученная из детерминированной НС посредством рандомизации параметров на основе мультипликативного шума Бернулли, причем рандомизация происходит только в процессе инференса. В этом случае выполняется обучение детерминированной НС, но на этапе инференса к параметрам модели применяется мультипликативный шум типа Бернулли, который фактически реализует dropout за счет случайного обнуления некоторых параметров уже обученной сети. В результате формируется ансамбль глубоких нейронных сетей, который, по гипотезе авторов, можно рассматривать как БНС. Задачей работы является экспериментальное подтверждение этой гипотезы.

Для формирования байесианизированной НС предложена следующая процедура байесианизации: варьируем интенсивность рандомизации (параметр p в шуме Бернулли) градуировано от 0 до 1 до тех пор, пока выбранная метрика на основе ПГ не изменится на 10 % от изначальной величины (без рандомизации).

Структура исследуемых НС была выбрана идентичной (с точностью до параметризации) и послойно представлена на рис. 3. Слой Flatten переводит входное многомерное изображение в двумерное. Затем последовательно используются два линейных (Linear) слоя со стандартной функцией активации LeakyReLU, что увеличивает глубину сети и ее сложность.

Исследование проведено на следующих датасетах:

— COVID-датасет - набор данных1, содержащий 3093 изображения, полученных с помощью рентгеновской томографии, которые были разделены на две категории: здоровые и больные COVID-19;

— FETUS-датасет - набор данных2, содержащий 2126 записей, каждая из которых содержит информацию о 21 свойстве, извлеченном из кардиотоко-грамм, классифицированными экспертами-акушерами на три категории: нормальный, подозрение на наличие патологии и патологический.

1 [Электронный ресурс]. Режим доступа: https://www. kaggle.com/datasets/ahemateja19bec1025/covid-xray-dataset (дата обращения: 11.11.2023).

2 [Электронный ресурс]. Режим доступа: https://www. kaggle.com/datasets/andrewmvd/fetal-health-dassitication (дата обращения: 11.11.2023).

Рис. 3. Структура исследуемых нейронных сетей Fig. 3. Structure of the studied NN

Эксперименты выполнены по четырем сценариям.

На всех трех сетях решалась задача классификации. На вход НС подавались COVID-датасет и FETUS-датасет без зашумления и с добавленным гауссовского шума соответственно. Были рассчитаны нулевые и первые ПГ для эмбеддингов, формируемых НС на каждом из трех слоев.

Для оценки качества классификации использована метрика точности (accuracy):

TP + TN

accuracy :

TP + FP + TN + FN

(1)

где TP — true positive; FN — false negative; TN — true negative; FN — false negative.

Кроме того, для полносвязной НС из трех слоев рассчитаны следующие метрики для эмбеддингов на каждом из слоев:

— максимальное время жизни гомологий:

max len = max[deathj - birth]; (2)

— среднее время жизни гомологий:

1 n

mean len = — £ [death t - birth] ; (3)

П i=1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

— стандартное отклонение времени жизни гомологий:

и n ^ 2

std len = — £ [[deathi - birth] - mean_len\ ; (4) Vn ¿=i

— отношение two to one наибольшего времени жизни гомологий:

second_max[deathi - birth]

twotoone =-; (5)

maTi[deathi — birth]

— персистентная энтропия:

n death, ~ birthj

entropy = - £plogpi, pt = -ц-; (6)

i=i X [deathi ~ birth]

M

нормированная персистентная энтропия:

entropy

normedentropy = -

log £ [deathi ~ birth]

i= 1

(7)

Для оценки связи между метриками и значением accuracy использован коэффициент корреляции Пирсона, оценивающий линейную связь между элементами,

ppearson({xi}i=h ^iip=1) I п

¡=1

(8)

а также коэффициент корреляции Спирмена, оценивающий взаимосвязь между рангами элементов в множестве г(-):

р.реагтап({х1} г=1, 1уг'}г=1) =

ХСК^-гШКУ,)-^))

1=1

(9)

,Z(r(xl)-r(x))2JZ(r(y!)-r(y))2

Результаты и обсуждение

На рис. 4, 5 и рис. 6, 7 в виде баркодов показаны результаты расчета нулевых (рис. 3-6, а) и первых (рис. 3-6, Ь) ПГ, полученные в соответствии с описанными сценариями в разделе «Материалы и методы».

Как видно из рис. 4-7, баркоды для эмбеддингов на каждом слое байесианизированной НС во всех четырех сценариях находится между соответствующими баркодами детерминированной и БНС как для нулевых, так и для первых ПГ, при этом детерминирован-

ная НС является нижней границей, а БНС — верхней. Это означает, что структура ассоциаций данных внутри байесианизированной НС наследуется от детерминированной модели, однако приобретает свойства БНС.

Также следует отдельно отметить явление, явно заметное при сравнении картин баркодов на рис. 4-7 для трех слоев и нулевых и первых ПГ: на слое 1 байесианизация оказывает минимальный эффект на топологию, и баркод эмбеддингов на нем значительно ближе к детерминированной НС; в то же время на слоях 2 и 3 соответственно баркоды эмбеддингов приближаются к некоторому среднему положению между детерминированной НС и БНС. Это означает, что процедура байесианизации оказывает наибольший эффект на высокоуровневые ассоциации, которые модель формирует на более глубоких слоях.

Было проведено исследование взаимосвязи между метриками для эмбеддингов на каждом из слоев (2)-(7) и значением точности (accuracy) классификации, достигаемой сетью на каждому из датасетов. Для этого были рассчитаны средние значения коэффициента корреляции Пирсона (8) и Спирмена (9), оцениваемые на основе данных обо всех трех слоях модели и двух датасетах. Результаты расчетов представлены в табл. 1. Из табл. 1 видно, что наиболее показательной оказалась нормированная персистентная энтропия (7).

На рис. 8, 9 приведены результаты вычисления метрики (7) для трех слоев байесианизированной модели с вариацией параметра байесианизации от 0,0 до 0,9 с шагом 0,1 на обоих датасетах (рис. 7, a, рис. 8, a). Для

СЛОЙ 1

Рис. 4. Персистентные гомологии для COVID-датасета: слои 1-3, Н0 (a) и Н1 (b) Fig. 4. Zero and first persistent homologies for the COVID dataset, layers 1-3, Н0 (a) и Н1 (b)

слой 1

2 6 10

Рис. 5. Персистентные гомологии для зашумленного COVID-датасета: слои 1-3, Н0 (а) и Н1 (b) Fig. 5. Zero and first persistent homologies for a noisy COVID dataset, layers 1-3, Н0 (а) и Н1 (b)

наглядности на этих же рисунках приведены значения мальное значение параметра байесианизации, на кото-метрики точности (1), полученные в аналогичных ус- ром падение метрики нормированной персистентной ловиях. Вертикальной красной линией отмечено мини- энтропии достигает 10 %.

СЛОЙ 1

Рис. 6. Персистентные гомологии для FETUS-датасета: слои 1-3, Н0 (а) и Н1 (b) Fig. 6. Zero and first persistent homologies for the FETUS dataset, layers 1-3, Н0 (а) и Н1 (b)

слой 1

Рис. 7. Персистентные гомологии для зашумленного FETUS-датасета: слои 1-3, Н0 (а) и Нх (b) Fig. 7. Zero and first persistent homologies for a noisy FETUS dataset, layers 1-3, Н0 (а) и Нх (b)

слой 1

^ 0,4 . Dropout intensity

^ 0,4 . Dropout intensity

Рис. 8. Изменение нормированной персистентной энтропии (а) и значения метрики точности (1) (b) с ростом интенсивности

dropout для FETUS-датасета

Fig. 8. Change in normalized persistent entropy (а) and the value of the accuracy metric (1) (b) with increasing dropout intensity for

the FETUS dataset

Dropout intensity

0,4

Dropout intensity

Рис. 9. Изменение нормированной персистентной энтропии (a) и значения метрики точности (1) (b) с ростом интенсивности

dropout для COVID-датасета

Fig. 9. Change in normalized persistent entropy (a) and the value of the accuracy metric (1) (b) with increasing dropout intensity for

the COVID dataset

Из рис. 8-9 видно, что в обоих случаях значение параметра, на котором персистентная энтропия на слое 2 НС падает на 10 % от изначальной величины, что является показательным для предсказания момента, на котором начинает наблюдаться резкое падение качества модели. Для слоев 1 и 3 эта величина оказывается менее выразительной.

Следует отдельно отметить, что на FETUS-датасете наблюдается неизменность величины энтропии на слое 1 — можно предположить, что это означает, что модель еще не выявила релевантной информации на данном слое.

Таблица 1. Взаимосвязь между метриками для персистент-ных гомологий, рассчитанных по эмбеддингам, и средним

значением accuracy HC Table 1. Relationship between metrics for persistent homologies calculated from embeddings and the average HC accuracy value

Метрика Среднее значение (8) на всем промежутке масштабов Среднее значение (9) на всем промежутке масштабов

(2) 0,04 0,190

(3) 0,10 0,170

(4) -0,03 -0,060

(5) 0,07 0,153

(6) -0,0001 -0,004

(7) 0,80 0,940

Для дополнительной оценки взаимосвязи между нормированной персистентной энтропией эмбеддин-гов на различных слоях для полученных данных были вычислены корреляция Пирсона (8) и корреляция Спирмена (9) (табл. 2, 3).

Данные табл. 2 и 3 подтверждают наличие взаимосвязи между нормированной персистентной энтропией, вычисляемой на эмбеддингах НС, и точностью НС. При этом взаимосвязь, вычисляемая в соответствии с ранговой корреляцией (9), оказалась идентичной для

Таблица 2. Значения метрик (8) и (9) для COVID-датасета Table 2. Values of metrics (8) and (9) for the COVID dataset

Номер слоя Значения метрики (8) Значения метрики (9)

1 0,902969 0,924016

2 0,939143 0,924016

3 0,882078 0,924016

Таблица 3. Значения метрик (8) и (9) для FETUS-датасета Table 3. Values of metrics (8) and (9) for the FETUS dataset

Номер слоя Значения метрики (8) Значения метрики (9)

1 0,412223 0,381257

2 0,800925 0,766929

3 0,667187 0,766929

всех трех слоев в СОУГО-датасете и для слоев 2 и 3 в FETUS-датасете. В то же время использование метрики (8), выявляющей степень более сильной, а именно, линейной взаимосвязи, выделяет топологию эмбеддин-гов на слое 2 модели как наиболее показательную для предсказания точности модели.

Сопоставляя полученные результаты (рис. 8, 9 и табл. 1, 2), можно предположить, что наиболее полезную информацию из структуры ассоциаций между эмбеддингами можно извлечь для слоев, близких к середине архитектуры, однако проверка этого предположения требует дополнительных исследований.

Заключение

В работе предложен упрощенный подход к построению байесовской нейронной сети, основанный на байесианизации уже обученной детерминированной нейронной сети посредством рандомизации параметров на уровне инференса, причем для рандомизации используется мультипликативный шум Бернулли, что фактически эквивалентно хорошо известной процедуре дропаута. Тем самым показана возможность практически для любой детерминированной нейронной сети построить ее байесовский аналог, что позволяет упростить процедуру обучения за счет уменьшения количества параметров.

Методы топологического анализа данных впервые применены к стохастическим нейронным сетям.

Исследованы различные метрики, основанные на вычислении персистентных гомологий на эмбеддингах нейронных сетях, и их связь с базовыми метриками эффективности нейронной сети; выявлено, что расчет изменений нормированной персистентной энтропии позволяет с высокой точностью предсказать предельно допустимое значение уровня дропаута, с которого начинается резкое падение качества модели. Тем самым появляется возможность проактивно оценить эффективность байесовской нейронной сети на упрощенных датасетах, без запуска нейронной сети на реальном датасете, что сокращает ресурсоемкость разработки байесовской нейронной сети.

Сопоставление полученных результатов дает основания предполагать, что с ростом глубины модели баланс между наследуемостью ассоциаций от детерминированной модели и приобретением свойств байесовской модели будет выравниваться, однако это предположение требует дальнейших исследований.

В качестве направления дальнейших исследований авторы выделяют переход к более глубоким, в том числе сверточным нейронным сетям. В рамках этого перехода предполагается исследовать динамику баланса между наследуемостью ассоциаций от детерминированной модели и приобретением свойств байесовской моделей, а также позиционирование изменений в структуре ассоциаций между эмбеддингами соседних слоев, наиболее важных с точки зрения предсказания свойств нейронной сети как классификатора в целом.

Литература

1. Chazal F., Michel B. An introduction to topological data analysis: fundamental and practical aspects for data scientists // Frontiers in Artificial Intelligence. 2021. V. 4. https://doi.org/10.3389/ frai.2021.667963

2. Edelsbrunner H., Harer J. Computational topology: an introduction. American Mathe-matical Soc., 2010 [Электронный ресурс]. URL: https://www.maths.ed.ac.uk/~v1ranick/papers/edelcomp.pdf (дата обращения: 10.11.2023).

3. Ritter H., Kukla M., Zhang C., Li Y. Sparse uncertainty representation in deep learning with inducing weights // Advances in Neural Information Processing Systems. 2021. V. 8. P. 6515-6528.

4. Prabhudesai S., Hauth J., Guo D., Rao A., Banovic N., Huan X. Lowering the computational barrier: Partially Bayesian neural networks for transparency in medical imaging AI // Frontiers in Computer Science. 2023. V. 5. https://doi.org/10.3389/ fcomp.2023.1071174

5. Zomorodian A., Carlsson G. Computing persistent homology // Discrete & Computational Geometry. 2005. V. 33. N 2. P. 249-274. https://doi.org/10.1007/s00454-004-1146-y

6. Wasserman L. Topological data analysis // Annual Review of Statistics and Its Application. 2018. V. 5. P. 501-532. https://doi. org/10.1146/annurev-statistics-031017-100045

7. Carlsson G., Gabrielsson R.B. Topological approaches to deep learning // Topological Data Analysis. Springer, 2020. P. 119-146. https://doi.org/10.1007/978-3-030-43408-3_5

8. Hensel F., Moor M., Rieck B. A survey of topological machine learning methods // Frontiers in Artificial Intelligence. 2021. V. 4. https://doi.org/10.3389/frai.2021.681108

9. Moroni D., Pascali M.A. Learning topology: bridging computational topology and machine learning // Pattern Recognition and Image Analysis. 2021. V. 31. N 3. P. 443-453. https://doi.org/10.1134/ S1054661821030184

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

10. Zia A., Khamis A., Nichols J., Hayder Z., Rolland V., Peterssonet L. Topological deep learning: A review of an emerging paradigm //

References

1. Chazal F., Michel B. An introduction to topological data analysis: fundamental and practical aspects for data scientists. Frontiers in Artificial Intelligence, 2021, vol. 4. https://doi.org/10.3389/ frai.2021.667963

2. Edelsbrunner H., Harer J. Computational topology: an introduction. American Mathe-matical Soc., 2010. Available at: https://www.maths. ed.ac.uk/~v1ranick/papers/edelcomp.pdf (accessed: 10.11.2023).

3. Ritter H., Kukla M., Zhang C., Li Y. Sparse uncertainty representation in deep learning with inducing weights. Advances in Neural Information Processing Systems, 2021, vol. 8, pp. 6515-6528.

4. Prabhudesai S., Hauth J., Guo D., Rao A., Banovic N., Huan X. Lowering the computational barrier: Partially Bayesian neural networks for transparency in medical imaging AI. Frontiers in Computer Science, 2023, vol. 5. https://doi.org/10.3389/ fcomp.2023.1071174

5. Zomorodian A., Carlsson G. Computing persistent homology. Discrete & Computational Geometry, 2005, vol. 33, no. 2, pp. 249274. https://doi.org/10.1007/s00454-004-1146-y

6. Wasserman L. Topological data analysis. Annual Review of Statistics and Its Application, 2018, vol. 5, pp. 501-532. https://doi. org/10.1146/annurev-statistics-031017-100045

7. Carlsson G., Gabrielsson R.B. Topological approaches to deep learning. Topological Data Analysis. Springer, 2020, pp. 119-146. https://doi.org/10.1007/978-3-030-43408-3_5

8. Hensel F., Moor M., Rieck B. A survey of topological machine learning methods. Frontiers in Artificial Intelligence, 2021, vol. 4. https://doi.org/10.3389/frai.2021.681108

9. Moroni D., Pascali M.A. Learning topology: bridging computational topology and machine learning. Pattern Recognition and Image Analysis, 2021, vol. 31, no. 3, pp. 443-453. https://doi.org/10.1134/ S1054661821030184

10. Zia A., Khamis A., Nichols J., Hayder Z., Rolland V., Peterssonet L. Topological deep learning: A review of an emerging paradigm. arXiv, arXiv:2302.03836v1, 2023. https://doi.org/10.48 5 50/ arXiv.2302.03836

arXiv. arXiv:2302.03836v1. 2023. https://doi.org/10.48550/ arXiv.2302.03836

11. Goibert M., Ricatte T., Dohmatob E. An adversarial robustness perspective on the topology of neural networks // arXiv. 2022. arXiv:2211.02675. https://doi.org/10.48550/arXiv.2211.02675

12. Chen C., Ni X., Bai Q., Wang Y. A topological regularizer for classifiers via persistent homology // Proc. of the AISTATS 2019 — 22nd International Conference on Artificial Intelligence and Statistics. 2020.

13. Ramamurthy K.N., Varshney K.R., Mody K. Topological data analysis of decision boundaries with application to model selection // Proc. of the 36th International Conference on Machine Learning (ICML). 2019. P. 9316-9325.

14. Gabrielsson R.B., Carlsson G. Exposition and interpretation of the topology of neural networks // Proc. of the 18th IEEE International Conference on Machine Learning and Applications (ICMLA). 2019. P. 1069-1076.

15. Rieck B., Togninalli M., Bock C., Moor M., Horn M., Gumbsch T., Borwardt K. Neural persistence: A complexity measure for deep neural networks using algebraic topology // Proc. of the 7th International Conference on Learning Representations (ICLR). 2019.

16. McGuire S., Jackson S., Emerson T., Kvinge H. Do neural networks trained with topological features learn different internal representations? // Proceedings of Machine Learning Research. 2023. V. 197. P. 122-136.

17. Guss W.H., Salakhutdinov R. On characterizing the capacity of neural networks using algebraic topology // arXiv. 2018. arXiv:1802.04443v1. https://doi.org/10.48550/arXiv.1802.04443

18. Bergomi M.G., Frosini P., Giorgi D., Quercioli N. Towards a topological-geometrical theory of group equivariant non-expansive operators for data analysis and machine learning // Nature Machine Intelligence. 2019. V. 1. N 9. P. 423-433. https://doi.org/10.1038/ s42256-019-0087-3

19. Hofer C.D., Graf F., Niethammer M., Kwitt R. Topologically densified distributions // Proc. of the 37th International Conference on Machine Learning (ICML). 2020. P. 4254-4263.

20. Naitzat G., Zhitnikov A., Lim L.-H. Topology of deep neural networks // The Journal of Machine Learning Research. 2020. V. 21. N 1. P. 7503-7542.

21. Gal Y., Ghahramani Z. Dropout as a Bayesian approximation: Representing model uncertainty in deep learning // Proc. of the 33rd International Conference on Machine Learning (ICML). 2016. P. 1651-1660.

11. Goibert M., Ricatte T., Dohmatob E. An adversarial robustness perspective on the topology of neural networks. arXiv, 2022, arXiv:2211.02675. https://doi.org/10.48550/arXiv.2211.02675

12. Chen C., Ni X., Bai Q., Wang Y. A topological regularizer for classifiers via persistent homology. Proc. of the AISTATS 2019 — 22nd International Conference on Artificial Intelligence and Statistics, 2020.

13. Ramamurthy K.N., Varshney K.R., Mody K. Topological data analysis of decision boundaries with application to model selection.

Proc. of the 36th International Conference on Machine Learning (ICML), 2019, pp. 9316-9325.

14. Gabrielsson R.B., Carlsson G. Exposition and interpretation of the topology of neural networks. Proc. of the 18th IEEE International Conference on Machine Learning and Applications (ICMLA), 2019, pp. 1069-1076.

15. Rieck B., Togninalli M., Bock C., Moor M., Horn M., Gumbsch T., Borwardt K. Neural persistence: A complexity measure for deep neural networks using algebraic topology. Proc. of the 7th International Conference on Learning Representations (ICLR), 2019.

16. McGuire S., Jackson S., Emerson T., Kvinge H. Do neural networks trained with topological features learn different internal representations? Proceedings of Machine Learning Research, 2023, vol. 197, pp. 122-136.

17. Guss W.H., Salakhutdinov R. On characterizing the capacity of neural networks using algebraic topology. arXiv, 2018, arXiv:1802.04443v1. https://doi.org/10.48550/arXiv.1802.04443

18. Bergomi M.G., Frosini P., Giorgi D., Quercioli N. Towards a topological-geometrical theory of group equivariant non-expansive operators for data analysis and machine learning. Nature Machine Intelligence, 2019, vol. 1, no. 9, pp. 423-433. https://doi.org/10.1038/ s42256-019-0087-3

19. Hofer C.D., Graf F., Niethammer M., Kwitt R. Topologically densified distributions. Proc. of the 37th International Conference on Machine Learning (ICML), 2020, pp. 4254-4263.

20. Naitzat G., Zhitnikov A., Lim L.-H. Topology of deep neural networks. The Journal of Machine Learning Research, 2020, vol. 21, no. 1, pp. 7503-7542.

21. Gal Y., Ghahramani Z. Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning. Proc. of the 33rd International Conference on Machine Learning (ICML), 2016, pp. 1651-1660.

Авторы

Ватьян Александра Сергеевна — кандидат технических наук, доцент, Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация, sc 57191870868, https://orcid.org/0000-0002-5483-716X, [email protected]

Гусарова Наталия Федоровна — кандидат технических наук, доцент, Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация, sc 57162764200, https://orcid.org/0000-0002-1361-6037, [email protected]

Добренко Дмитрий Александрович — аспирант, Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация, https://orcid. org/0009-0006-1485-1166, [email protected] Панкова Кристина Сергеевна — студент, Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация, https://orcid. org/0009-0002-0490-0148, [email protected] Томилов Иван Вячеславович — старший лаборант, Университет ИТМО, Санкт-Петербург, 1 97101, Российская Федерация, sc 57772599000, https://orcid.org/0000-0003-1886-2867, ^п[email protected]

Authors

Alexandra S. Vatian — PhD, Associate Professor, ITMO University, Saint Petersburg, 197101, Russian Federation, sc 57191870868, https:// orcid.org/0000-0002-5483-716X, [email protected]

Natalia F. Gusarova — PhD, Associate Professor, ITMO University, Saint Petersburg, 197101, Russian Federation, sc 57162764200, https:// orcid.org/0000-0002-1361-6037, [email protected]

Dmitriy A. Dobrenko — PhD Student, ITMO University, Saint Petersburg, 197101, Russian Federation, https://orcid.org/0009-0006-1485-1166, [email protected]

Kristina S. Pankova — Student, ITMO University, Saint Petersburg, 197101, Russian Federation, https://orcid.org/0009-0002-0490-0148, [email protected]

Ivan V. Tomilov — Senior Laboratory Assistant, ITMO University, Saint Petersburg, 197101, Russian Federation, sc 57772599000, https://orcid. org/0000-0003-1886-2867, [email protected]

Статья поступила в редакцию 26.10.2023 Одобрена после рецензирования 10.11.2023 Принята к печати 27.11.2023

Received 26.10.2023

Approved after reviewing 10.11.2023

Accepted 27.11.2023

Работа доступна по лицензии Creative Commons «Attribution-NonCommercial»

i Надоели баннеры? Вы всегда можете отключить рекламу.