Научная статья на тему 'Метод порождения графов с контролем статистических свойств'

Метод порождения графов с контролем статистических свойств Текст научной статьи по специальности «Математика»

CC BY
6
6
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
порождение данных / порождение графов / графы / вариационный автокодировщик / теория графов / генеративные модели / условное порождение / вариационный вывод / data generation / graph generation / graphs / variational autoencoder / graph theory / generative models / conditional generation / variational inference

Аннотация научной статьи по математике, автор научной работы — А Ю. Бишук, А В. Зухба

В работе предлагается метод условного порождения графов, учитывающий статистические характеристики графов. Данные характеристики разделяются на две группы. Первая группа, называемая простыми статистиками, может быть вычислена эффективными детерминированными алгоритмами со сложностью не более квадратичной от числа вершин. Такое разделение диктуется дороговизной использования вычислительно сложных алгоритмов на графах, по размеру приближенных к реальным. Вторая группа характеристик порождается в скрытом пространстве и отвечает за закономерности графа, которые невозможно описать «простыми статистиками». Этот подход позволяет порождать графы с точно заданными статистическими характеристиками, при этом сохраняя их разнообразие. Более того, данный метод может быть применен для порождения графов, имеющих схожую структуру с исходным. Работоспособность предложенного метода подтверждается вычислительным экспериментом, проведенном на датасетах Citeseer и Cora.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Method for generating graphs with control of statistical properties

In this paper we propose a method of conditional graph generation that takes into account statistical characteristics of graphs. These characteristics are divided into two groups. The first group, called simple features, can be computed by efficient deterministic algorithms with complexity not more than quadratic of the number of vertices. This is dictated by the costliness of using computationally complex algorithms on graphs that are close to real graphs in size. The second group of features is generated in the hidden space and is responsible for graph regularities that cannot be described by «simple features». This approach allows to generate graphs with precisely defined statistical characteristics, while preserving their diversity. Moreover, this method can be applied to generate graphs with similar structure to the original one. The performance of the proposed method is confirmed by a computational experiment conducted on the Citeseer and Cora datasets.

Текст научной работы на тему «Метод порождения графов с контролем статистических свойств»

ТРУДЫ МФТИ. 2024. Том 16, № 3

Информатика и управление

5

УДК 519.25, 519.7

А.Ю. Бишук, A.B. Зухба

Московский физико-технический институт (национальный исследовательский университет)

Метод порождения графов с контролем статистических

свойств

В работе предлагается метод условного порождения графов, учитывающий статистические характеристики графов. Данные характирстики разделяются на две группы. Первая группа, называемая простыми статистиками, может быть вычислена эффективными детерминированными алгоритмами со сложностью не более квадратичной от числа вершин. Такое разделение диктуется дороговизной использования вычислительно сложных алгоритмов на графах, по размеру приближенных к реальным. Вторая группа характеристик порождается в скрытом пространстве и отвечает за закономерности графа, которые невозможно описать «простыми статистиками». Этот подход позволяет порождать графы с точно заданными статистическими характеристиками, при этом сохраняя их разнообразие. Более того, данный метод может быть применен для порождения графов, имеющих схожую структуру с исходным. Работоспособность предложенного метода подтверждается вычислительным экспериментом, проведенном на датасетах Citeseer и Cora.

Ключевые слова: порождение данных, порождение графов, графы, вариационный автокодировщик, теория графов, генеративные модели, условное порождение, вариационный вывод

A. Y. Bishuk, A. V. Zukhba

Moscow Institute of Physics and Technology

Method for generating graphs with control of statistical

properties

In this paper we propose a method of conditional graph generation that takes into account statistical characteristics of graphs. These characteristics are divided into two groups. The first group, called simple features, can be computed by efficient deterministic algorithms with complexity not more than quadratic of the number of vertices. This is dictated by the costliness of using computationally complex algorithms on graphs that are close to real graphs in size. The second group of features is generated in the hidden space and is responsible for graph regularities that cannot be described by «simple features». This approach allows to generate graphs with precisely defined statistical characteristics, while preserving their diversity. Moreover, this method can be applied to generate graphs with similar structure to the original one. The performance of the proposed method is confirmed by a computational experiment conducted on the Citeseer and Cora datasets.

Key words: data generation, graph generation, graphs, variational autoencoder, graph theory, generative models, conditional generation, variational inference

© Бишук А. Ю., Зухба А. В., 2024

(с) Федеральное государственное автономное образовательное учреждение высшего образования

«Московский физико-технический институт (национальный исследовательский университет)», 2024

1. Введение

Проблема сложности получения болышло числа данных для обучения нейросетевых моделей становится все более актуальной. Особенно это заметно в задачах, где данные предетавлят собой храфовыс структуры. Для решения этой проблемы часто используются подходы но порождению данных [4|.

Кроме тшх), часто возникает потребность в графах, имеющих схожее распределение с исходным. Это важно, например, в случае графа ежедневных контактов фиксировавших) сообщества, где необходимо порождать ряд графов, похожих на изначальный. Для этой задачи традиционно используются х'снсративныс модели, такие как ОгарЬУАЕ [5] или диффузионные [6].

Однако существующие методы [14], [15] фокусируются на реконструкции исходншх) графа и не способны учитывать при порождении интуитивно понятные характеристики. Например, в случае графа контактов время взаимодействия людей в офисе ограничено, а потому есть ограничения на время и число контактов. Предлагается использовать в качестве ограничения на порождение не столько качество реконструкции, сколько заранее выбранные глобальные характеристики графа (например число ребер, вершин, кластерное число и так далее). Тем самым порождаются графы с заранее выбранными статистиками и имеющие распределение, схожее с исходным графом.

Рис. 1. Схема предложенного метода. Здесь MF векторное представление графа. EF вектор статистик из теории графов. hEF преобразованный вектор EF. DF вектор, содержащий информацию о графе, которую невозможно получить преобразованием предпосчитанных статистик графа, е — случайная величина G N(0,1), a Z — матрица из распределения N(^,а)

Предложенный в данной работе метод может быть использован для поиска «сложных» статистик графа, таких как цикл максимальной длины или центральность смежности вершин [7], поиск которых до сих нор остается нерешенным на достаточно высоком уровне. Это может быть сделано путем контроля фокуса обучения сети на таких сложных характеристиках графа, если добавить в группу простых статистик больше независимых характеристик.

Первое упоминание идеи использования дополнительной информации для порождении данных встречается в статье «Learning Structured Output Representation using Deep Conditional Generative Models» [13], где была представлена модель Conditional Variational Autoencoders (CVAE). CVAE это модификация VAE, которая может порождать данные с заданными условиями. В стандартном вариационном автокодировщике (VAE) модель порождает данные на основе скрытшх) пространства, которое не зависит от каких-либо внешних неременных. В CVAE модель использует дополнительную информацию для порождения данных. Авторы в статье показывают, как CVAE может быть использована для порождения изображений с заданными свойствами. Они используют MNIST [11] для порождения цифр с определенными свойствами, такими как цвет и положение цифры на изображении. Также описывается, как CVAE может быть использована для классификации

изображений. Например, авторы статьи применяют CVAE к задаче классификации CIFAR-10 [12], показывая, что CVAE может значительно улучшить точность. Впоследствии было предложено множество модификаций идей CVAE, таких как AC-CAN (Auxiliary Classifier CAN) и InfoCAN (Information Maximizing CAN), которые используют схожие идеи для порождения изображений с более сложными свойствами.

Для иллюстрации работы предложенного метода проводится ряд вычислительных экспериментов для задачи порождения графов с заданными статистиками на примере да-тасетов Cora [9] и Citeeser [10]. Также проводится теоретический анализ предложенного метода, подтверждающий работоспособность предложенного метода, а также схожих эвристических методов [16].

2. Постановка задачи

Пусть задано множество графов [Gi} фиксированного размера по числу вершин п. Каждый элемент задается матрицей смежности А и матрицей признаков вершин Vf. Необходимо породить графы, близкие к исходным по статистическим свойствам.

В ходе решения проблемы порождения возникают две задачи задача правильного восстановления матрицы смежности из скрытого пространства и задача построения неизвестного распределения данных.

Задача реконструкции. Для того чтобы обучить модель порождать новый элемент данных, необходимо научиться реконструировать объект из скрытого пространства. В работе будет предсказываться наличие и отсутствие ребра в графе.

Формально постановка этой задачи может быть описана следующим образом.

Дано: граф G с матрицей смежности А е ^.пхп, где А^ = 1, если ребро (i,j) существует в графе, и 0 в противном случае. Матрица признаков вершин Vf е ^пхк, а также набор скрытых ребер Е = {(г, j)}. Здесь к — размер вектора признаков вершин.

Задача

Построить модель, предсказывающую наличие ребра в графе на основе признаков вершин и существующих ребер. Однако особый интерес представляет предсказание наличия маркированных ребер. Задача может быть сформулирована как задача бинарной классификации: для каждой пары вершин г и j нужно предсказать вероятность того, что ребро (i,j) существует в графе, то есть принимает значение 1 в матрице смежности.

Рис. 2. Процесс маркировки ребер при порождении и тестировании модели

Модель обучается на данных, которые представляют собой множество пар вершин с маркированными и немаркированными ребрами. Она должна определить, какие признаки графа могут помочь в предсказании наличия ребер. На основе этих признаков необходимо построить модель, которая может классифицировать каждую пару вершин в графе.

Результатом работы модели является матрица предсказанных вероятностей существования ребер между всеми парами вершин в графе, включая немаркированные ребра.

Задача порождения. Задача по получению новых графов из неизвестного распределения выглядит следующим образом.

Дано: множество е 'Япхп матриц смежности графов ^ из неизвестного рас-

пределения к (О), построенного на основ е графа С.

Задача

Получить распределение ■к(О) в целях оценки к(С) для нового графа С и порождения новых графов из распределения ж(С).

Задача, решаемая в работе. В отличие от ряда работ [17], [18], где для создания алгоритма порождения графов решаются только задачи реконструкции и порождения, в данной работе дополнительно решается задача сохранения характеристик исходного графа.

Для удобства обозначений введем следующие понятия:

Определение 1. Простые статистики в предложенном методе — это числовые характеристики используемые в теории графов, которые могут быть вычислены не более чем за квадратичное время.

В качестве простых статистик графа были выбраны следующие характеристики:

• Размерные показатели [0(1)]:

— число ребер,

— число вершин.

• Вершины специального вида [0(У)]:

— изолированные вершины — вершины без единого ребра,

— висячие вершины — вершины с одним ребром,

— промежуточные вершины — вершины с двумя ребрами,

— вершины, связанные с каждой вершиной графа.

• Статистики на степенях вершин [0(У)]:

— максимальная степень вершины,

— средняя степень вершины,

— медианная степень вершины,

— модальная степень вершины,

— стандартное отклонение степеней вершин в графе.

• Гистограмма степеней вершин графа [0(У)] (здесь ^ — средняя степень вершин в графе, а — среднеквадратичное отклонение степеней вершин в графе). Доля вершин со степенью па интервалах: (ц, — а,ц), (ц,, ц. + а), (ц. — 2а, ^ — а), (ц. + а,^ + 2а), (ц. — 3а, ц. — 2а), (ц. + 2а,^ + 3а).

• Оценка размера наибольшей клики в графе \0(Уй2), й — максимальная степень вершины] [2].

• Коэффициент кластеризации \0(У2)] [3].

Определение 2. Смешанными статистиками назовем любое численное описание графа, которое однозначно описывает граф.

Под скрытым представлением обычно понимают сжатое представление входных данных, которого достаточно для их восстановления.

Определение 3. Сложными статистиками назовем вектор ^ такой что каждая компонента вектора ^ ^^^^^^^^^^^^^ ^^^^^^^^^^^^ ^^ ^^^^^понент вектора простых статистик 8, и при этом вектор смешанных статистик т выражается через линейно.

Иными словами, под сложными статистиками будут пониматься те особенности графа, которые невозможно выразить при помощи простых статистик.

Введем поняыие распределения графа. Допустим, структура х-рафа задается матрицей смежности А е Мпхп. Сопоставим графу матрицу Р е Мгахга, в ячейке (г,]) которой находится вероятность того, что значение в матрице А в ячей ке (г, ]) изменит свое значение на противоположное. Величина вероятности может отличаться для исходных единиц и нулей или основываться на структурных особенностях графа, но в данной работе они выбирались одинаковыми для всех ячеек и были достаточно небольшими, чтобы порождать по большей части графы, похожие на исходный. Таким образом, порождение графа, похожих) на данный (например, имеющий одно линшнее ребро), будет более вероятным событием, чем порождение близкого к обратному.

Скрытое представление графа, полученное при помощи 6СМ

Представление графа на основе простых статистик

Рис. 3. Процесс создания распределения графа на основе имеющегося

Таким образом, отождествляется скрытое представление графа со смешанными статистиками. Также простые статистики переводятся в некоторое скрытое пространство линейной сверткой, требуя, чтобы получившееся представление имело нормальное распределение с нулевым математическим ожиданием, а линейные комбинации его компонент наилучшим образом приближали смешанные статистики в скрытом представлении графа. Под распределением скрытых представлений (они же смешанные статистики) и распределением простых статистик будем понимать множество скрытых представлений и векторов простых статистик, соответствующих графам из распределения графа G.

Подводя итог, задача, решаемая в этой работе, состоит в том, чтобы, подавая в порождающую модель графы из распределения графа G с их векторами простых статистик, получать представления, на основе которых при помощи вектора простых статистик исходного графа породить граф, схожий с исходным.

3. Предлагаемый метод

Предложенный метод порождения графов основан на модели графового вариационного автокодировщика (GraphVAE). В основе данного метода лежит аппроксимация апостериорного распределения матриц смежности графов р(А1Х). Вводится предположение, что процесс порождения графов и соответствующих матриц смежности зависит от скрытых переменных Z. Для оценки апостериорного распределения с учетом скрытой переменной Z используется вариационное распределение q(ZIX, А), приближающее распределение p(ZIX, А). Итоговая вариационная нижняя оценка:

Cvae = Щ(Z|X, A) logp(A|Z) - DKLq(Z\X, A)\\p(Z),

где A — матрица смежности, Z — матрица скрытых переменных, X — матрица признаков вершин, q(-),p(-) — соответствующие распределения.

Основным преимуществом нового подхода является возможность контролировать порождение, задавая определенные свойства графа. Это делает его более удобным и гибким по сравнению с обычным VAE.

3.1. Описание метода

Идея описываемого метода основывается на выводах, что использование дополнительной информации улучшает качество порождения данных. В качестве дополнительной информации используются простые статистики, посчитанные на исходном графе. С этой точки зрения предложенный метод можно назвать самоусловным GraphVAE по аналогии с CVAE, в котором оптимизируется следующий функционал:

CcaadVAE = Eg(z|x,c)[logР(X|Z,c)] — DKL[Q(Z\X, с)\\Р(Z|c)], Алгоритм 1 Алгоритм обучения порождающей модели

Require: G — граф. G = (А — Матрица смежности, V — Признаки вершин) Ensure: А — матрица смежности реконструированного графа. 1: so ^ DeterministicAlgo(G') > Расчет простых статистик исходного графа

2: for i in fl, 2, ...] do

3: G[f] ^ SampleFromDistribution(G) > Получение графа из распределения

исходного графа

4: s[г] ^ DeterministicAlgo(G') > Расчет простых статистик семплированного графа 5: end for

6: MF ^ Encoder(G) > Вычисление матрицы смешанных статистик

7: hEF ^ LL(s) > Вычисление оценки смешанных статистик

8: DF ^ LL(MF — hEF) > Выделение сложных статистик

9: у ^ GCN(DF), a ^ GCN(DF), е ^ N(0,1) 10: Z ^ у + £ •a

11: Z ^ LL((Z) + LL(so)) > Учет простых статистик при декодировании

12: А ^ Decoder(Z) > Преобразование порожденной матрицы в матрицу смежности

Следующим шагом алгоритма происходит вычитание оценки смешанных стати-hEF

MF

стики графа, которые нельзя линейно выразить через простые. Такие характеристики мы

DF

DF

ского ожидания (у) и дисперсии (а) сложных статистик исходного графа. Затем, при помощи трюка репараметризации, происходит порождение матрицы сложных статистик (Z). Путем сложения полученной матрицы сложных статистик и преобразованного вектора про-

so

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Z

Итоговая функция потерь для предложенной модели имеет следующий вид:

1 N N

L(Y, Y, M, s, D) = — ^ £ £ wij [Yij log (Yij) + (1 — Yl3) log (1 — Yij)] —

i=0 j=0

1 N

—DKL(D, N(0,1)) — - ^ Yl(Mij — sj)2,

i=0 j

где

Y

• Y — матрица смежности порожденного графа, где в ячейке Y^ стоит вероятность

• M — матрица смешанных статистик;

• s — вектор простых статистик входного графа;

• D — матрица порожденных сложных статистик;

• Wij — веса перед элементами в матрице смежности. Самый большой вес v маркированных ребер, затем у маркированных мест, где ребра нет, меньший вес у существующих не маркированных ребер и самый маленький вес у мест, где ребер нет и они не маркированы. Вес зависит от того, было ли место в матрице маркировано и сколько всего ребер есть в рассматриваемом графе.

3.2. Анализ предложенного метода

Вариационный автокодировщик (VAE) — это генеративная модель, которая обучается отображать объекты в заданное скрытое пространство, после чего порождать новые объекты из этого скрытого пространства.

Часто важно, чтобы элементы скрытого пространства были распределены стандартно нормально. В данной работе это достигается стандартизацией скрытого представления по всем скрытым представлениям, полученным от преобразованных графов.

Далее в этом разделе под простыми статистиками будем понимать скрытое представление простых статистик, которое также будет иметь нормальное распределение с нулевым математическим ожиданием. Это будет достигаться теми же способами, которые используются для получения нормально распределенных смешанных статистик.

Глобальная цель — разложить смешанные статистики графа G в линейную комбинацию независимых друг от друга простых и сложных статистик.

Замечание 1. Далее будет рассматриваться лишь один из векторов смешанных статистик. Однако рассуждения можно провести для каждого вектора из матрицы смешанных статистик.

Замечание 2. В общем смысле все статистики графа представляют собой некоторые функции, которые переводят граф в действительное числовое пространство. В этой работе будет подразумеваться под той или иной статистикой реализация функции на заданном графе.

Пусть v нас есть вектор смешанных статистик m и вектор простых статистик s, такие, что |m| > |s|, принадлежащие соответствующим распределениям. Причем оба вектора состоят из независимых одинаково (стандартно нормально) распределенных случайных величин .

s

построению.

В силу статистической независимости элементов векторов, не существует линейного

sm двинем следующую гипотезу.

Гипотеза. Существует линейное отображение вектора смешанных статистик в вектор простых статистик.

Иными словами, существует матрица

A|sxm|

задающая следующее отображение:

Am = s.

Введем следующую лемму.

Лемма 1. Пусть дан набор независимых, одинаково распределенных нормально случайных величин 7i, 72,...Jn- Случайная вели чина { = + a2j2 + ... + anjn ст,ат,ист,ически зависима, от, каждой из случайных величин ^i, коэффициент для которой сц = 0.

Доказательство

Докажем это утверждение для 71.

В силу теоремы [1] о сохранении нормальности при линейном преобразовании, случайная величина £ будет также иметь нормальное распределение.

Для нормальных величин существует критерий независимости, который можно записать для 7г и

ж(7ге)—жыж(о = о.

Распишем этот критерий, воспользовавшись тем фактом, что 7г и 7^ являются независимыми для У г =

й1Е( 72) + а2Е(7!)Е(72) + ... + апЕ( 71)Е( 7п) — ЕЫ^ЕЫ + ... + агаЕЫ) = 0,

^ В(71) = 0.

зависима от каждого слагаемого, коэффициент при котором не равен нулю. Лемма 2. Матрица А имеет, максимально возможный ранг. Доказательство

Докажем это от противного — в матрице А есть линейно зависимая строка. Для простоты дальнейших выкладок пусть есть строка, которая является линейной комбинацией двух других, которые между собой линейно не зависят. Каждой из этих строк соответствуют компоненты вектора в:

£ = кщ + к2 (, V = а171 + ... ап7п

С = Ь171 + ... Пп7п.

, ,

мальности при линейном преобразовании [1].

п

Е(£г,) = Е((к^ + к2()г!) = кгЕ(^2) + к2Е(<^) = кгЕ(^2) + к2 ^ ЪгТН,

г=1

п

Е(0Е(г]) = (к1Е(г?) + к2Е(С))Е(г?) = (к1Е(г?) +к2 ^ &гЕЫ)Е(г?),

г=1

п

Е(£п) — Е(0Е(V) = к1(Е(V2) — (Е(г?))2) +к2 ^ Ьг(ЕЫ) — Е(7г)Е(г?)),

г=1

В силу леммы 1: Ьг(Е(7гг]) — Е(7г)Е(?у)) = ЬгагВ7г. Тогда

п

Е(£г,) — Е(£)Е(V) = к1©(г?) + к2 ^ агЪгЩг.

г=1

г

п

Е(£ Г]) — Е(£)Е(Г]) = кф(г1) + к2 ^ агЬг.

г=1

В силу линейной независимости строк матрицы А, соответствующих г] и (, агЬг = 0. Тогда критерий преобразуется в следующий вид:

Е(£г/) — Е(£)Е(^) = к1В(^) = 0, поскольку к1 = 0 и В(^) > 0.

Таким образом, £ и ^ — зависимые случайные величины, что противоречит условию о статистической независимости компонент вектора б.

На основе данного отображения построим следующие преобразования:

Дополним матрицу А|йХт| до матрицы А|тхт|. Существует бесконечно много способов дополнить матрицу таким образом. Для того чтобы уйти от неоднозначности, нужно наложить дополнительные ограничения, о которых будет сказано далее.

А

рицей Ю а , а пзначальную А а . Кроме того, часть нового вектора § будем называть ^

Рис. 4. Построенное линейное преобразование смешанных статистик

В качестве дополнительных ограничений на матрицу D^ примем требование на максимально возможный ранг матрицы D^ и линейную независимость каждой строки матрицы Da от строк матрицы A^. В силу леммы 2, матрица D^ будет ортогональным дополнением матрицы A^.

При линейной независимости строк матрицы A компоненты векторов s и d будут статистически независимы.

Таким образом, получившийся вектор d будет нормальным вектором в силу теоремы о сохранении нормальности при линейном преобразовании [1]. Также каждая его компо-

sA

d

сложных статистик по определению.

Теорема [Бишук]. Преобразование, описанное выше, соответствует разложению смешанных статистик на простые и сложные.

4. Вычислительный эксперимент

В этом разделе производится проверка предложенного метода и сравнение его с существующими методами на реальных данных.

4.1. Наборы данных

Эксперимент проводился на наборах данных «Cora» [9] и «Citeseer» [10], которые представляют собой информацию о научных статьях и их цитировании. Cora

Датасет «Cora» [9] — это один из наиболее часто используемых датасетов в задачах классификации и кластеризации графов. Он состоит из 2708 статей, взятых из базы arXiv и разбитых на семь категорий: биология, информатика, право, математика, медицина, физика и социология. Каждая статья представлена в виде узла графа, а связи между статьями — это ссылки между ними.

Каждая статья представлена в виде признаков, являющихся мешком слов (bag-of-words) из 1433 уникальных терминов, которые были извлечены из полного текста статей.

Таким образом, датасет представляет собой ориентированный граф, каждая вершина которого представлена набором из 1433 признаков. Citeseer

В качестве второго датасета для тестирования предложенного метода был выбран датасет «Citeseer» [10], который традиционно используется для задачи классификации статей

по научным темам. Датасет содержит статьи из компьютерных наук и связанных с ними областей, таких как базы данных, информационный поиск и машинное обучение. Каждая статья представляет собой узел в графе, а ссылки на другие статьи формируют ребра. В датасете всего 6 классов научных тем: базы данных, интеллектуальная обработка информации, машинное обучение, информационный поиск, распределенные системы и робототехника. Он содержит 3327 статьи и 9228 ссылки между ними. Каждая статья представлена в виде метаданных, включающих название, список авторов, перечень ссылок на другие статьи и аннотацию.

Данные датасета были собраны из различных источников, включая базы данных АСМ, DBLP и PubMed. В оригинальной статье, описывающей датасет, авторы провели анализ структуры сети цитирования, выделили основные сообщества статей и оценили качество работы алгоритмов кластеризации и классификации на этих данных.

4.2. Протокол эксперимента

Обучение происходило на популярных датасетах Cora, Citeseer. Для обучения использовалась матрица смежности графов датасета, а также матрица признаков вершин. Кроме того, матрица смежности преобразовывалась согласно алгоритму, предложенному в оригинальной статье GraphVAE [8] и показавшему свою эффективность.

Модель получает на вход матрицу смежности графа, признаки вершин, а также вектор простых статистик, которые вычислялись детерминированными алгоритмами.

На каждой эпохе обучения происходило разбиение графа — выбирались ребра и разбивались на три группы — валидация, обучение и тест. Затем выбирались пары вершин, между которыми ребра отсутствовали, которые также распределялись по этим группам. Процент распределения является параметром обучения, но наиболее стабильные результаты были получены при выделении 15% для теста, 25% для валидации и 65% для обучения.

4.3. Результаты

Для стандартной задачи порождения графов используются критери качества классификации, не требующих порога бинаризации — ROC-AUC и Average Precision. Однако для поставленной задачи необходимо зафиксировать порог бинаризации для подсчета разницы между статистиками поданного на вход и порожденного графов. Для этого происходит проход со всеми возможными порогами для вероятности в матрице смежности порожденного графа и рассчитываем простые статистики. После чего выбирается тот порог, который соответствует минимуму средней абсолютной ошибки между простыми статистиками входного графа и порожденного.

Такой минимум считается лучшим результатом, который может получить алгоритм порождения и записываем его в таблицу результатов.

Таблица 1

Результаты вычислительного эксперимента по классификации наличия ребер

Dataset ROC-AUC AP MAE (global statistics)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

GraphVAE Cora 75.18 ± 0.02% 75.81 ± 0.02 % 0.066 ± 0.002

Our method 76.68 ± 0.02 % 75.18 ± 0.02 % 0.046 ± 0.002 (-30%)

GraphVAE Citeseer 82.09 ± 0.01% 79.94 ± 0.01% 0.072 ± 0.001

Our method 76.28 ± 0.01 % 76.44 ± 0.01 % 0.060 ± 0.001 (-17%)

Как видно из табл. 1, предложенный метод порождает графы с статистиками, более близкими к исходным, чем обычная модель ОгарЬУАЕ.

Предполагается, что уменьшение значения критериев качества реконструкции можно нивелировать, используя другой подход к агрегации простых статистик либо более тон-

кой настройкой параметров обучения. Подробнее этот вопрос будет исследован в будущих работах.

5. Заключение

В ходе данной работы был разработан и теоретически обоснован новый метод порождения графов, использующий идею разделения статистик графа на простые (легко вычислимые и интерпретируемые) и сложные. Эксперименты, проведенные на наборах данных Cora и Citesser, показали эффективность предложенного метода в сравнении с оригинальной моделью графового мариационного автокодировщика.

Небольшое снижение критериев качества реконструкции оставляет модель на уровне актуальных моделей оригинальной архитектуры, но при этом позволяет порождать графы с заранее заданными свойствами.

Предложенный подход можно обобщить на прочие модели, преобразующие данные в некоторое скрытое представление. Это может быть полезным, например, при порождении молекулярных структур или сетей связей между людьми.

В будущих работах планируется расширить предложенный метод, используя дополнительно новые простые статистики; исследовать влияние различных простых статистик на ограничение свободы порождения графов; рассмотреть разнообразные методы агрегации графов в векторе одной вершины.

Список литературы

1. Боровков А.А. Теория вероятностей. Москва : Наука, Физматлит, 1986. 432 с.

2. Pattabiraman В. [et al.\. Fast algorithms for the maximum clique problem on massive sparse graphs // Algorithms and Models for the Web Graph: 10th International Workshop. 2013. P. 156-169.

3. Saramaki J. [et al.}. Generalizations of the clustering coefficient to weighted complex networks // Physical Review E. 2007. V. 75(2). P. 027105.

4. Ying Z. [et al.}. Gnnexplainer: Generating explanations for graph neural networks // Advances in neural information processing systems. 2019. V. 32.

5. Kipf T.N., Welling M. Variational Graph Auto-Encoders // Stat. 2016. V. 1050. P. 21.

6. Chamberlain B. [et al.}. Grand: Graph neural diffusion // International Conference on Machine Learning. 2021. P. 1407-1418.

7. Latora V., Marchiori M. A measure of centralitv based on network efficiency // New Journal of Physics. 2007. V. 9(6). P. 188.

8. Kingma D.P., Welling M. Auto-Encoding Variational Baves // Stat. 2022. V. 1050. P. 10.

9. Sen P. [et al.}. Collective classification in network data // Al magazine. 2008. V. 29(3). P. 93.

10. Rossi R., Ahmed N. The network data repository with interactive graph analytics and visualization // Proceedings of the AAAI conference on artificial intelligence. 2015. V. 29(1).

11. Deng L. The mnist database of handwritten digit images for machine learning research [best of the web] // IEEE signal processing magazine. 2012. V. 29(6). P. 141-142.

12. Krizhevsky A. [et al.}. Learning multiple layers of features from tiny images // Technical Report University of Toronto. Toronto, Ontario. 2009.

13. Sohn K., Lee H., Yan X. Learning structured output representation using deep conditional generative models // Advances in neural information processing systems. 2015. V. 28.

14. Mitton J. [et al.}. A Graph VAE and Graph Transformer Approach to Generating Molecular Graphs // ArXiv, abs/2104.04345.

15. Simonovsky M., Komodakis N. Graphvae: Towards generation of small graphs using variational autoencoders // Artificial Neural Networks and Machine I.earning K'AXX 2018: 27th International Conference on Artificial Neural Networks. 2018. P. 412-422.

16. Zhao J. [et al.}. GraphTune: An Efficient Dependency-Aware Substrate to Alleviate Irregularity in Concurrent Graph Processing // ACM Transactions on Architecture and Code Optimization. 2023. V. 20(3). P. 1-24.

17. De Cao N., Kipf T. An implicit generative model for small molecular graphs // ICML 2018 workshop on Theoretical Foundations and Applications of Deep Generative Models. 2018.

18. Velickovic P. [et al.}. Graph attention networks // Stat. 2017. V. 1050(20). P. 10-48550.

References

1. Borovkov A.A. Probability theory. Moscow : Nauka, Fizmatlit, 1986. 432 p. (in Russian).

2. Pattabiraman B., et al., Fast algorithms for the maximum clique problem on massive sparse graphs. Algorithms and Models for the Web Graph: 10th International Workshop. 2013. P. 156-169.

3. Saramaki J., et al, Generalizations of the clustering coefficient to weighted complex networks. Physical Review E. 2007. V. 75(2). P. 027105.

4. Ying Z., et al., Gnnexplainer: Generating explanations for graph neural networks. Advances in neural information processing systems. 2019. V. 32.

5. Kipf T.N., Welling M. Variational Graph Auto-Encoders. Stat. 2016. V. 1050. P. 21.

6. Chamberlain B., et al, Grand: Graph neural diffusion. International Conference on Machine Learning. 2021. P. 1407-1418.

7. Latora V., Marchiori M. A measure of centralitv based on network efficiency. New Journal of Physics. 2007. V. 9(6). P. 188.

8. Kingma D.P., Welling M. Auto-Encoding Variational Baves. Stat. 2022. V. 1050. P. 10.

9. Sen P., et al, Collective classification in network data. AI magazine. 2008. V. 29(3). P. 93.

10. Rossi R., Ahmed N. The network data repository with interactive graph analytics and visualization. Proceedings of the AAAI conference on artificial intelligence. 2015. V. 29(1).

11. Deng L. The mnist database of handwritten digit images for machine learning research [best of the web]. IEEE signal processing magazine. 2012. V. 29(6). P. 141-142.

12. Krizhevsky A., et al, Learning multiple layers of features from tiny images. Technical Report University of Toronto. Toronto, Ontario. 2009.

13. Sohn K., Lee H., Yan X. Learning structured output representation using deep conditional generative models. Advances in neural information processing systems. 2015. V. 28.

14. Mitton J., et al, A Graph VAE and Graph Transformer Approach to Generating Molecular Graphs. ArXiv, abs/2104.04345.

15. Simonovsky M., Komodakis N. Graphvae: Towards generation of small graphs using variational autoencoders. Artificial Neural Networks and Machine Learning-ICANN 2018: 27th International Conference on Artificial Neural Networks. 2018. P. 412-422.

16. Zhao J., et al, GraphTune: An Efficient Dependency-Aware Substrate to Alleviate Irregularity in Concurrent Graph Processing. ACM Transactions on Architecture and Code Optimization. 2023. V. 20(3). P. 1-24.

17. De Cao N., Kipf T. An implicit generative model for small molecular graphs. ICML 2018 workshop on Theoretical Foundations and Applications of Deep Generative Models. 2018.

18. Velickovic P., et al, Graph attention networks. Stat. 2017. V. 1050(20). P. 10-48550.

Поступим в редакцию 05.07.2024

i Надоели баннеры? Вы всегда можете отключить рекламу.