Оценка применимости векторного представления рёбер графа с целью уменьшения информационного объема графа

Лещев Артем Олегович; Лясковский Максим Альбертович; Мельников Константин Игоревич

УДК 004.627

ОЦЕНКА ПРИМЕНИМОСТИ ВЕКТОРНОГО ПРЕДСТАВЛЕНИЯ РЁБЕР ГРАФА С ЦЕЛЬЮ УМЕНЬШЕНИЯ ИНФОРМАЦИОННОГО ОБЪЕМА ГРАФА

Лещев Артем Олегович, магистрант, Лясковский Максим Альбертович, магистрант, Мельников Константин Игоревич, магистрант, Научный руководитель: Варламов Олег Олегович, доктор технических наук,

профессор;

МГТУ им. Н.Э. Баумана, Москва, Российская Федерация

Аннотация: В статье рассмотрен метод сжатия информационного представления графов на основе векторного представления рёбер графа. Предлагается для каждой вершины графа сгенерировать вектор, описывающий связи данной вершины со смежными, и обучить нейронную сеть для предсказания существования ребра между двумя заданными вершинами. Данный метод сравнивается с представлением рёбер графа в виде матрицы смежности и в виде списка рёбер. Показано, что предлагаемый метод становится самым эффективным с точки зрения объема информационного представления в случае, когда в графе содержатся сотни вершин или больше. Также предлагается способ коррекции ошибок, допускаемых нейронной сетью в ходе предсказания наличия ребра, с помощью специального списка ошибочных рёбер. Определены направления дальнейших исследований предлагаемого метода сжатия графов. Ключевые слова: графовые вложения; сжатие графов; нейронные сети; векторное представление; мивар; миварные сети

EVALUATING APPLICABILITY OF GRAPH EDGES VECTOR REPRESENTATIONS FOR REDUCING INFORMATION SIZE OF A GRAPH

Leshchev Artem Olegovich, master student, Lyaskovsky Maksim Albertovich, master student, Melnikov Konstantin Igorevich, master student, Scientific adviser: Varlamov Oleg Olegovich, Doctor of Engineering Sciences, Professor;

BMSTU, Moscow, Russia

Abstract: The article considers the method for compressing the information representation of graphs based on the vector representation of graph edges. It is proposed to generate a vector for each vertex of the graph describing the connections of this vertex with adjacent ones and train a neural network to predict the existence of an edge between two specified vertices. This method is compared with the representation of graph edges as an adjacency matrix and as a list of edges. It is shown that the proposed method becomes the most effective in terms of the size of information representation in the case when the graph contains hundreds of vertices or more. The article also proposes a method for correcting errors made by the neural network while predicting the presence of an edge using a special list of erroneous edges. The directions for further research of the proposed graph compression method are defined. Keywords: graph embeddings; graph compression; neural networks; vector representation; mivar; mivar networks.

Для цитирования: Лещев, А. О. Оценка применимости векторного представления рёбер графа с целью уменьшения информационного объема графа / А. О. Лещев, М. А. Лясковский, К. И. Мельников. -Текст : электронный // Наука без границ. - 2020. - № 6 (46). - С. 67-73. - URL: https://nauka-bez-granic. ru/№-6-46-2020/6-46-2020/

For citation: Leshchev A.O., Lyaskovsky M.A., Melnikov K.I. Evaluating applicability of graph edges vector representations for reducing information size of a graph // Scince without borders, 2020, no. 6 (46), pp. 67-73.

В настоящее время активно развиваются технологии Big Data, в рамках которых, в том числе, нужно оперировать большими графами данных. В связи с этим становятся актуальны различные методы сжатия информационных представлений графов для повышения эффективности их хранения и передачи, а также для обеспечения возможности обработки такого графа на обычном компьютере или мобильном устройстве.

Также сейчас активно развиваются графовые вложения: способ представления некоторой информации о графе с помощью n-мерных векторов, встраиваемых в вершины графа, рёбра графа, подграфы или граф целиком. Частный случай графовых вложений -векторное представление рёбер графа, встраиваемое в вершины графа. Информация о смежных вершинах по некоторому алгоритму преобразуется в векторное представление, прикрепляемое к вершине. При этом смежные вершины зачастую получают похожие векторные представления [1].

Обычно графовые вложения применяются для анализа уже имеющегося графа, например, для поиска похожих элементов или для замены группы похожих объектов одним объединяющим объектом. Однако теоретически возможно использовать графовые вложения для восстановления рёбер, из которых они были сгенерированы. Таким образом можно сэкономить место на хранении рёбер: зачастую они занимают наибольший объем в представлении графа (порядка O(n2), где n -

количество вершин в графе), а вектора, связанные с вершинами, из которых рёбра можно восстановить, будут занимать меньше места (порядка О(п)).

Предлагается следующий метод сжатия графов: для каждой вершины создается векторное представление связей данной вершины, затем обучается небольшая нейронная сеть, которая по паре сгенерированных векторных представлений предсказывает наличие ребра между соответствующими переданным на вход векторным представлениям вершинами. Для увеличения точности модель генерации векторных представлений и предсказывающая нейронная сеть могут обучаться вместе. Соответственно для того, чтобы было возможно восстановить наличие рёбер между узлами, необходимо сохранить сгенерированные векторные представления и предсказывающую нейронную сеть. Также, если необходимо в точности воспроизвести структуру графа, можно сохранить список рёбер, на которых нейронная сеть даёт неправильный ответ.

Данный метод может быть применен как для ориентированных, так и для неориентированных графов. Далее рассматриваются только неориентированные графы, однако все те же выкладки можно провести и для ориентированных графов, соответствующим образом изменив обучающую выборку нейронной сети.

Для оценки необходимого размера нейронной сети был сгенерирован следующий неориентированный граф (рис. 1). Вершины изображены

точками, рёбра - линиями. В центре связан кластер из 5 связанных друг с

изображения находятся 7 связанных другом вершин. На данном рисунке

друг с другом центральных вершин, с 5 = 20, но в ходе исследования рассма-

каждой из этих центральных вершин тривались графы с 5 вплоть до 500.

Рисунок 1 - Изображение одного из сгенерированных графов

Для каждой вершины было искусственно создано векторное представление из 8 бинарных элементов:

• Ь, где г = 1..7 - является ли вершина частью кластера i (или центральной вершиной, связанной с этим кластером);

• Ь8 - является ли вершина центральной.

Так как данные элементы векторного представления являются бинарными (то есть, по сути, битами), и их 8, то их удобно передавать с помощью одного байта, и дальнейшее уменьшение количества переменных в данном векторном представлении нецелесо-

образно (трудозатраты по упаковке и извлечению нецелого числа байтов слишком высоки для практического применения описанного метода).

По данному выше описанию видно, как по векторным представлениям двух вершин определить, есть ли между ними ребро в данном графе или нет, но с целью демонстрации общности применяемого подхода была обучена нейронная сеть для определения наличия связи между узлами по их векторным описаниям. Подбор параметров показал, что для обеспечения точности 100 % для данного графа достаточно нейронной сети с одним

скрытым слоем, состоящим из 15 нейронов с функцией активации ReLU [2]. В выходном слое находятся два нейрона с функцией активации Softmax [3]. Данная нейронная сеть была конвертирована в формат TensorFlow Lite и подвергнута процедуре квантования, что уменьшило размер модели до 2404 байтов [4].

Для определения области применимости предлагаемого метода было решено провести моделирование информационного объема графа в зависимости от метода представления связей данного графа. В качестве методов представления связей, помимо предлагаемого векторного представления, были рассмотрены матрица смежности и список рёбер [5].

Для единообразия было решено моделировать информационный объем графа, сохраненного с помощью метода сериализации структурированных данных Protocol Buffers. Данный метод позволяет более компактно сохранять небольшие числа, что актуально в случае небольших графов [6].

Моделирование было произведено в программном комплексе «Конструктор экспертных систем мивар-ный (КЭСМИ) Wi!Mi РАЗУМАТОР». Данный программный комплекс позволяет эффективно переиспользовать различные части модели и, благодаря технологии миварного логического вывода, вычислять только необходимые для запрошенных выходов параметры [7]. Впоследствии построенную в КЭСМИ модель можно будет дополнить логикой подбора оптимального для заданного графа метода сжатия, чтобы автоматизировать принятие данного решения и избежать использования сложного с вычислительной точки зрения метода

сжатия графов на основе векторного предложения в случае, если параметры графа выходят за границы применимости данного метода [8]. Таким образом будет создана гибридная информационная система, сочетающая в себе миварный модуль решения и нейросетевую модель извлечения знаний из графа [9].

Были определены следующие входные параметры модели:

• IVI - число вершин в графе (порядок графа);

• V - плотность графа (вместо неё можно задать 1Е1 - число рёбер в графе (размер графа));

• Vsize - объём информации о вершине графа в байтах;

• С - объём нейронной сети, предсказывающей наличие связи между вершинами по паре связанных с этими вершинами векторов, в байтах;

• V , . - объём векторного пред-

emb_size Г Г "

ставления связей вершины в байтах;

• ргр - вероятность ложнополо-жительного срабатывания нейронной сети;

• рш - вероятность ложноотри-цательного срабатывания нейронной сети.

Моделирование было выполнено с параметрами, полученными в ходе обучения нейронной сети на специально сгенерированном графе, описанном выше. Таким образом, объём нейронной сети С был равен 2404 байта, объём векторного представления связей вершины V , был равен 1 байту

Г emb_size Г J

(8 битам), вероятность ложнополо-жительного срабатывания нейронной сети ррр и вероятность ложноотрица-тельного срабатывания нейронной сети р были равны нулю. Объём информации о вершине графа Vsize не столь важен, поскольку от него не

зависит объём представлений рёбер и он, по сути, обозначает константу, прибавляемую к объёму представлений рёбер; в ходе моделирования этот параметр был равен 8 байтам.

Число вершин в графе и плотность графа изменялись с целью определения области, в которой векторное представление рёбер становится более эффективным. При V = 0,1 (что примерно соответствует графу, рас-

смотренному выше) векторное представление становится наиболее эффективным, если в графе больше сотни вершин (рис. 2). Был получен ожидаемый квадратичный рост для объёмов матрицы смежности и списка рёбер (отличие которых во многом сводится к константе перед квадратом числа вершин) и практически линейный рост объёма векторного представления рёбер.

с

г-

зК

Я

й"

-S-

я р.

!—I

Е

С

к =!

С -

rt

с

-S-

=

N

10.000.000

1.000.000

100

Число вершин в графе

1.000

■Матрица смежности

■Список ребер

• Векторное представление

Рисунок 2 - Зависимость информационного объёма графа в различных представлениях от числа вершин в графе (при О = 0,1)

Также был рассмотрен случай V = 0,5: в графе содержится ровно половина всех возможных рёбер (рис. 3). Дальнейшее увеличение плотности графа V бессмысленно, поскольку в этом случае становится эффективнее хранить не список присутствующих рёбер, а список отсутствующих рёбер, что сводит эту задачу к случаю, когда V < 0,5. Видно, что увеличение плотности графа влияет только на объём списка рёбер, что логично: остальные методы зависят только от количества вершин в графе, тогда как объём спи-

ска рёбер линейно зависит от плотности графа (то есть его рост можно оценить как O(D•n2)).

Таким образом, было показано, что предложенный метод сжатия графов на основе векторного представления рёбер эффективен в тех случаях, когда число вершин измеряется сотнями (или большими порядками). Для достаточно плотных графов векторное представление становится эффективнее списка связей, если в графе содержится от 50 вершин. Если нейронная сеть неиде-

ально предсказывает наличие рёбер таком случае граница применимости

по векторным представлениям, воз- предлагаемого метода дополнитель-

можна компенсация ошибок с по- но смещается в сторону увеличения

мощью списков ошибочных рёбер, в числа узлов.

10.000.000

Число вершин в графе

• Матрица см ежности ■ Список рёб ер * В екгорно е представлени е

Рисунок 3 - Зависимость информационного объёма графа в различных представлениях от числа вершин в графе (при О = 0,5)

В дальнейших работах будут рассмотрены алгоритмы генерации векторных представлений, подходящих для поставленной задачи, изучена работа предложенного метода для реаль-

ных графов, оценено влияние данного метода на возможность дальнейшего сжатия графа с помощью алгоритмов сжатия информации без потерь общего назначения.

СПИСОК ЛИТЕРАТУРЫ

1. Cai H., Zheng V.W., Chang K.C. A Comprehensive Survey of Graph Embedding: Problems, Techniques and Applications // IEEE Transactions on Knowledge and Data Engineering. 2018. Vol. 30. No. 9. pp. 1616-1637.

2. Nair V., Hinton G.E. Rectified Linear Units Improve Restricted Boltzmann Machines // Proceedings of the 27th International Conference on Machine Learning. 2010. pp. 807-814.

3. Goodfellow I., Bengio Y., Courville A. Deep Learning. - Cambridge: The MIT Press, 2016. - 800 pp.

4. Post-training quantization - Текст : электронный / TensorFlow : [сайт]. - URL: https:// www.tensorflow.org/lite/performance/post_training_quantization.

5. Kolaczyk E.D. Statistical Analysis of Network Data: Methods and Models. - New York: Springer Science+Business Media, 2009. - 386 pp.

6. Protocol Buffers - Текст : электронный Google Developers : [сайт] . - URL: https:// developers.google.com/protocol-buffers.

7. Varlamov O.O. Wi!Mi Expert System Shell as the Novel Tool for Building Knowledge-

Based Systems with Linear Computational Complexity // International Review of Automatic Control. 2018. Vol. 11. No. 6. pp. 314-325.

8. Варламов, О. О. Миварные технологии как некоторые направления искусственного интеллекта - О. О. Варламов - Текст : непосредственный // Проблемы искусственного интеллекта. - 2015. - № 0(1). - С. 23-37.

9. Черненький, В. М. Структура гибридной интеллектуальной информационной системы на основе метаграфов / В. М. Черненький, В. И. Терехов, Ю. Е. Гапанюк -Текст : непосредственный // Нейрокомпьютеры: разработка, применение. - 2016.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- № 9. - С. 3-13.

REFERENCES

1. Cai H., Zheng V.W., Chang K.C. A Comprehensive Survey of Graph Embedding: Problems, Techniques and Applications // IEEE Transactions on Knowledge and Data Engineering, 2018, vol. 30, no. 9, pp. 1616-1637.

2. Nair V., Hinton G.E. Rectified Linear Units Improve Restricted Boltzmann Machines // Proceedings of the 27th International Conference on Machine Learning. 2010. pp. 807-814.

3. Goodfellow I., Bengio Y., Courville A. Deep Learning. - Cambridge: The MIT Press, 2016.

- 800 pp.

4. Post-training quantization // TensorFlow. Available at: https://www.tensorflow.org/lite/ performance/post_training_quantization (accessed: 13.12.2019).

5. Kolaczyk E.D. Statistical Analysis of Network Data: Methods and Models. - New York: Springer Science+Business Media, 2009. - 386 pp.

6. Protocol Buffers // Google Developers. Available at: https://developers.google.com/ protocol-buffers (accessed: 19.10.2019).

7. Varlamov O.O. Wi!Mi Expert System Shell as the Novel Tool for Building Knowledge-Based Systems with Linear Computational Complexity // International Review of Automatic Control, 2018, vol. 11, no. 6, pp. 314-325.

8. Varlamov О.О. Mivarnye tehnologii kak nekotorye napravlenija iskusstvennogo intellekta [Mivar technologies as some areas of artificial intelligence]. Problemy iskusstvennogo intellekta, 2015, no. 0(1), pp. 23-37.

9. Chernenkiy V.M., Terekhov V.I., Gapanyuk Yu.E. Struktura gibridnoy intellektual'noy informacionnoy sistemy na osnove metagrafov [Structure of a hybrid intelligent information system based on metagraphs]. Nejrokompyutery: razrabotka, primenenie, 2016, no. 9, pp. 3-13.

EVALUATING APPLICABILITY OF GRAPH EDGES VECTOR REPRESENTATIONS FOR REDUCING INFORMATION SIZE OF A GRAPH

Текст научной работы на тему «Оценка применимости векторного представления рёбер графа с целью уменьшения информационного объема графа»