Научная статья на тему 'Развитие матричного представления обобщенных графовых структур в задачах описания и анализа больших данных'

Развитие матричного представления обобщенных графовых структур в задачах описания и анализа больших данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
261
52
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГРАФОСТРУКТУРНОЕ МОДЕЛИРОВАНИЕ / МАТРИЧНОЕ ПРЕДСТАВЛЕНИЕ / ГИПЕРГРАФ / МЕТАГРАФ / БОЛЬШИЕ ДАННЫЕ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Блюмин Семён Львович, Приньков Алексей Сергеевич

Задача. Рассмотреть практические аспекты графоструктурного моделирования в задачах описания и анализа больших данных, а также развить матричные представления обобщенных графовых структур, в числе которых: графы, гиперграфы, сети, гиперсети и метаграфы [1-4]. Изложить полученные результаты предварительных исследований и обозначить перспективы дальнейших. Описать теоретико-множественный и матричный варианты представления графовых структур в контексте оптимизации вычислений в задачах описания и анализа больших данных, выделив недостатки и преимущества данных подходов. На этом основании показать обоснованность мотивации использования обобщенных графовых структур в таких зада чах [5, 6]. Разработать алгоритм преобразования произвольного графа в метаграф, использующий матричное представление. Модели. Область исследования обобщенные графовые структуры и варианты их представления, в особенности матричные, а также практическое применение в области моделирования и анализа больших данных, сложных систем и сетей. В качестве моделей использованы обобщенные графовые структуры [1-4]. Выводы. В работе рассмотрены графы и обобщенные графовые структуры и приведены варианты их практического использования. Описаны теоретико-множественный и матричный варианты представления этих структур в контексте оптимизации вычислений в задачах описания и анализа больших данных. На этом основании показана обоснованность мотивации использования обобщенных графовых структур в таких задачах. Разработан эвристический алгоритм преобразования произвольного графа в метаграф, использующий матричное представление. Данный алгоритм преобразует матрицу инцидентности графа в матрицу инцидентности изоморфного ему метаграфа. Построена иерархия, отражающая последовательность обобщения одних структур другими. Выделены особенности обобщенных графовых структур, в частности метаграфа, как наиболее обобщенной и в то же время достаточной для моделирования произвольных связей структуры. Каждый раздел сопровожден выводами в контексте оптимизации вычислений и эффективности моделирования с перспективой применения технологий параллельных и распределенных вычислений.Рамки исследования и возможность последующего использования результатов научной работы. В данной работе были рассмотрены основные средства графоструктурного моделирования в задачах описания и анализа больших данных, в числе которых: графы, гиперграфы, сети, гиперсети и метаграфы. Задача разработки матричной алгебры и развития матричного представления этих структур для применения в анализе и описании больших данных является перспективной, что подтверждается материалами данной работы. Конечным продуктом исследования матричного представления обобщенных графовых структур будет развитие идей GraphBLAS [7], программной библиотеки и одноименного направления научных исследований для развития этой библиотеки, главная идея которых попытка описания алгоритмов на графах в терминах операций линейной алгебры.Практическое значение. В данной работе рассматривается применение полученных результатов в задачах описания и анализа больших данных. Выделяются два пути: представление исходных данных и моделирование информационных систем, с помощью которых обрабатываются эти данные. Особое внимание в работе уделяется построению гибридных интеллектуальных информационных систем, которое в общем случае возможно исключительно при использовании обобщенных графовых структур. Стоит отметить, что практическая значимость не ограничивается этими областями. Также в работе упоминается возможность решения классических задач путем изменения формализации исходных и ограничивающих условий на примере задачи китайского почтальона.Оригинальность/ценность. Статья может быть интересна специалистам из области дискретной математики формализацией и ее следствиями относительно графовых структур, развитием матричного представления и разработанным алгоритмом преобразования графа в метаграф. Работа представляет ценность и для специалистов по статистике и анализу данных применением полученных результатов по обобщенным графовым структурам в задачах моделирования и анализа больших данных, по снижению сложности интерпретации промежуточных и конечных результатов за счет повышения уровня абстракции рассматриваемого объекта и описанием структуры и функционального назначения гибридных интеллектуальных информационных систем. Все вышеперечисленные темы могут быть полезны специалистам, занимающимся непосредственной разработкой программного обеспечения в этих и смежных областях. Данная статья представляет ценность в качестве обзора по ранее полученным результатам, ссылки на материалы по которым можно найти в тексте.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DEVELOPMENT OF A MATRIX REPRESENTATION OF GENERALIZED GRAPH STRUCTURES IN PROBLEMS OF BIG DATA DESCRIPTION AND ANALYSIS

Objective. To consider the practical aspects of graph-structural modeling in problems of describing and analyzing big data, and to develop matrix representations of generalized graph structures: graphs, hypergraphs, networks, hypernetworks and metagraphs [1-4]. To outline the results of preliminary studies and to outline the prospects for further research. Describe the set-theoretic and matrix variants of representation of graph structures in the context of optimization of computations in problems of describing and analyzing big data, highlighting the shortcomings and advantages of these approaches. On this basis, show the validity of the motivation for using generalized graph structures in such problems [5, 6]. Develop an algorithm that uses a matrix representation, transforming an arbitrary graph into a metagraph.Model and methods. The field of research is generalized graph structures and variants of their representation, especially matrix ones, as well as a practical application in the field of modeling and analysis of big data, complex systems and networks. Generalized graph structures are used as models [1-4].Conclusions. In this paper, graphs and generalized graph structures were considered and variants of their practical use are presented. The set-theoretic and matrix variants of the representation of these structures in the context of optimization of computations in problems of describing and analyzing big data are described. On this basis, the validity of the motivation for using generalized graph structures in such problems is shown. A heuristic algorithm is developed that uses a matrix representation, transforming an arbitrary graph into a metagraph. This algorithm transforms the incidence matrix of the graph into the incidence matrix of an isomorphic metagraph. A hierarchy is constructed that reflects the sequence of generalization of some structures by others. The features of generalized graph structures, in particular metagraphs, are identified as the most general and at the same time sufficient for modeling arbitrary relationships of the structure. Each chapter is accompanied by conclusions in the context of optimization of computations and modeling efficiency with the prospect of using parallel and distributed computing technologies. Bounds of the research and the possibility of subsequent use of the results of scientific work. In this paper, the main tools of graphstructural modeling in the problems of describing and analyzing big data were considered, including graphs, hypergraphs, networks, hypernetworks and metagraphs. The task of developing matrix algebra and matrix representation of these structures for application in the analysis and description of big data is promising, as is confirmed by the materials of this work. GraphBLAS [7] is a developed software library and the same direction of scientific research for the development of this library, the main idea of which is an attempt to describe algorithms on graphs in terms of operations of linear algebra. The final product of the study of the matrix representationof generalized graph structures will be the evolution of the GraphBLAS ideas.Practical significance. In this paper, we consider the application of the results obtained in the problems of describing and analyzing big data. There are two ways: presentation of the raw data and modeling of information systems with which to process this data. Particular attention is paid to the constructionof hybrid intelligent systems, which in general is possible only with the use of generalized graph structures. It is worth noting that practical significance is not limited to these areas. Also, the work mentions the possibility of solving classical problems by changing the formalization of the initial and limiting conditions by the example of the task of the Chinese postman.Originality/value. The article may be of interest to specialists in the field of discrete mathematics by formalization and its consequences with respect to graph structures, the development of a matrix representation and the developed algorithm for converting a graph to a metagraph. Also, the work is valuable for specialists in statistics and data analysis by using the results obtained from generalized graph structures in the problems of modeling and analysis of big data, reducing the complexity of interpreting intermediate and final results by raising the level of abstraction of the object under consideration and describing the structure and functional purpose of hybrid intelligent systems. All of the above topics can be useful to specialists engaged in the direct development of software in these and related application areas. This article is of value as a review of previously obtained results, links to materials on which can be found in the text.

Текст научной работы на тему «Развитие матричного представления обобщенных графовых структур в задачах описания и анализа больших данных»

05.13.00. ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ

05.13.01. СИСТЕМНЫЙ АНАЛИЗ, УПРАВЛЕНИЕ И ОБРАБОТКА ИНФОРМАЦИИ

РАЗВИТИЕ МАТРИЧНОГО ПРЕДСТАВЛЕНИЯ ОБОБЩЕННЫХ ГРАФОВЫХ СТРУКТУР В ЗАДАЧАХ ОПИСАНИЯ И АНАЛИЗА БОЛЬШИХ ДАННЫХ

Блюмин Семён Львович, профессор, доктор физ.-мат. наук, кафедра прикладной математики, Липецкий государственный технический университет, Россия, Липецк. E-mail: sabl@lipetsk.ru

Приньков Алексей Сергеевич, студент, кафедра прикладной математики, Липецкий государственный технический университет, Россия, Липецк. E-mail: aprinkov@gmail.com

Аннотация

Задача. Рассмотреть практические аспекты графоструктурного моделирования в задачах описания и анализа больших данных, а также развить матричные представления обобщенных графовых структур, в числе которых: графы, гиперграфы, сети, гиперсети и метаграфы [1-4]. Изложить полученные результаты предварительных исследований и обозначить перспективы дальнейших. Описать теоретико-множественный и матричный варианты представления графовых структур в контексте оптимизации вычислений в задачах описания и анализа больших данных, выделив недостатки и преимущества данных подходов. На этом основании показать обоснованность мотивации использования обобщенных графовых структур в таких задачах [5, 6]. Разработать алгоритм преобразования произвольного графа в метаграф, использующий матричное представление.

Модели. Область исследования - обобщенные графовые структуры и варианты их представления, в особенности матричные, а также практическое применение в области моделирования и анализа больших данных, сложных систем и сетей. В качестве моделей использованы обобщенные графовые структуры [1-4].

Выводы. В работе рассмотрены графы и обобщенные графовые структуры и приведены варианты их практического использования. Описаны теоретико-множественный и матричный варианты представления этих структур в контексте оптимизации вычислений в задачах описания и анализа больших данных. На этом основании показана обоснованность мотивации использования обобщенных графовых структур в таких задачах. Разработан эвристический алгоритм преобразования произвольного графа в метаграф, использующий матричное представление. Данный алгоритм преобразует матрицу инцидентности графа в матрицу инцидентности изоморфного ему метаграфа. Построена иерархия, отражающая последовательность обобщения одних структур другими. Выделены особенности обобщенных графовых структур, в частности метаграфа, как наиболее обобщенной и в то же время достаточной для моделирования произвольных связей структуры. Каждый раздел сопровожден выводами в контексте оптимизации вычислений и эффективности моделирования с перспективой применения технологий параллельных и распределенных вычислений.

Рамки исследования и возможность последующего использования результатов научной работы. В данной работе были рассмотрены основные средства графоструктурного моделирования в задачах описания и анализа больших данных, в числе которых: графы, гиперграфы, сети, гиперсети и метаграфы. Задача разработки матричной алгебры и развития матричного представления этих структур для применения в анализе и описании больших данных является перспективной, что подтверждается материалами данной работы. Конечным продуктом исследования матричного представления обобщенных графовых структур будет развитие идей GraphBLAS [7], программной библиотеки и одноименного направления научных исследований для развития этой библиотеки, главная идея которых - попытка описания алгоритмов на графах в терминах операций линейной алгебры.

Практическое значение. В данной работе рассматривается применение полученных результатов в задачах описания и анализа больших данных. Выделяются два пути: представление исходных данных и моделирование информационных систем, с помощью которых обрабатываются эти данные. Особое внимание в работе уделяется построению гибридных интеллектуальных информационных систем, которое в общем случае возможно исключительно при использовании обобщенных графовых структур. Стоит отметить, что практическая значимость не ограничивается этими областями. Также в работе упоминается возможность решения классических задач путем изменения формализации исходных и ограничивающих условий на примере задачи китайского почтальона.

Оригинальность/ценность. Статья может быть интересна специалистам из области дискретной математики формализацией и ее следствиями относительно графовых структур, развитием матричного представления и разработанным алгоритмом преобразования графа в метаграф. Работа представляет ценность и для специалистов по статистике и анализу данных

применением полученных результатов по обобщенным графовым структурам в задачах моделирования и анализа больших данных, по снижению сложности интерпретации промежуточных и конечных результатов за счет повышения уровня абстракции рассматриваемого объекта и описанием структуры и функционального назначения гибридных интеллектуальных информационных систем. Все вышеперечисленные темы могут быть полезны специалистам, занимающимся непосредственной разработкой программного обеспечения в этих и смежных областях. Данная статья представляет ценность в качестве обзора по ранее полученным результатам, ссылки на материалы по которым можно найти в тексте.

Ключевые слова: графоструктурное моделирование, матричное представление, гиперграф, метаграф, большие данные.

DEVELOPMENT OF A MATRIX REPRESENTATION OF GENERALIZED GRAPH STRUCTURES IN PROBLEMS OF BIG DATA DESCRIPTION AND ANALYSIS

Blyumin Semyon L., professor, Dr. Sci. (Phys.-Math.), Department of Applied Mathematics, Lipetsk State Technical University, Lipetsk, Russia

Prinkov Alexey S., student, Department of Applied Mathematics, Lipetsk State Technical University, Lipetsk, Russia

Abstract

Objective. To consider the practical aspects of graph-structural modeling in problems of describing and analyzing big data, and to develop matrix representations of generalized graph structures: graphs, hypergraphs, networks, hypernetworks and metagraphs [1-4]. To outline the results of preliminary studies and to outline the prospects for further research. Describe the set-theoretic and matrix variants of representation of graph structures in the context of optimization of computations in problems of describing and analyzing big data, highlighting the shortcomings and advantages of these approaches. On this basis, show the validity of the motivation for using generalized graph structures in such problems [5, 6]. Develop an algorithm that uses a matrix representation, transforming an arbitrary graph into a metagraph.

Model and methods. The field of research is generalized graph structures and variants of their representation, especially matrix ones, as well as a practical application in the field of modeling and analysis of big data, complex systems and networks. Generalized graph structures are used as models [1-4].

Conclusions. In this paper, graphs and generalized graph structures were considered and variants of their practical use are presented. The set-theoretic and matrix variants of the representation of these structures in the context of optimization of computations in problems of describing and analyzing big data are described. On this basis, the validity of the motivation for using generalized graph structures in such problems is shown. A heuristic algorithm is developed that uses a matrix representation, transforming an arbitrary graph into a metagraph. This algorithm transforms the incidence matrix of the graph into the incidence matrix of an isomorphic metagraph. A hierarchy is constructed that reflects the sequence of generalization of some structures by others. The features of generalized graph structures, in particular metagraphs, are identified as the most general and at the same time sufficient for modeling arbitrary relationships of the structure. Each chapter is accompanied by conclusions in the context of optimization of computations and modeling efficiency with the prospect of using parallel and distributed computing technologies.

Bounds of the research and the possibility of subsequent use of the results of scientific work. In this paper, the main tools of graph-structural modeling in the problems of describing and analyzing big data were considered, including graphs, hypergraphs, networks, hypernetworks and metagraphs. The task of developing matrix algebra and matrix representation of these structures for application in the analysis and description of big data is promising, as is confirmed by the materials of this work. GraphBLAS [7] is a developed software library and the same direction of scientific research for the development of this library, the main idea of which is an attempt to describe algorithms on graphs in terms of operations of linear algebra. The final product of the study of the matrix representation of generalized graph structures will be the evolution of the GraphBLAS ideas.

Practical significance. In this paper, we consider the application of the results obtained in the problems of describing and analyzing big data. There are two ways: presentation of the raw data and modeling of information systems with which to process this data. Particular attention is paid to the constructionof hybrid intelligent systems, which in general is possible only with the use of generalized graph structures. It is worth noting that practical significance is not limited to these areas. Also, the work mentions the possibility of solving classical problems by changing the formalization of the initial and limiting conditions by the example of the task of the Chinese postman.

Originality/value. The article may be of interest to specialists in the field of discrete mathematics by formalization and its consequences with respect to graph structures, the development of a matrix representation and the developed algorithm for converting a graph to a metagraph. Also, the work is valuable for specialists in statistics and data analysis by using the results obtained from generalized graph structures in the problems of modeling and analysis of big data, reducing the complexity of interpreting intermediate and final results by raising the level of abstraction of the object under consideration and describing the structure and functional purpose of hybrid intelligent systems. All of the above topics can be useful to specialists engaged in the direct development of software in these and related application areas. This article is of value as a review of previously obtained results, links to materials on which can be found in the text.

Key words: graph-structural modeling, matrix representation, hypergraph, metagraph, big data.

Введение

Для описания и анализа больших данных, в зависимости от предметной области и требуемых результатов, могут быть применены как различные подходы к моделированию, так и различные модели из одного кластера, присущего конкретному подходу. Графы являются наиболее популярными моделями графоструктурного подхода, это обусловлено, прежде всего интуитивной геометрической интерпретацией и тем, что они являются простейшим типом графовых структур, имеющим широкий спектр прикладного применения. Хотя графы и покрывают значительную часть разнообразия задач дискретного моделирования, но обобщенные графовые структуры в последнее время укрепляют свои позиции в задачах моделирования систем в различных областях, которые в принципе формально представимы графами, но слишком усложнены либо количественными показателями, что непосредственно сказывается на эффективности вычислений, либо структурой, которая в свою очередь может быть столь сложной, что ее декомпозиция на бинарные отношения для моделирования на графах приведет к невозможности анализа и интерпретации конечных результатов и трудностям целостного моделирования без потери системного эффекта, так называемых эмерджентных свойств. Хорошей иллюстрацией системы с эмерджентными свойствами может служить текст на естественном языке. Каждое предложение, как и слово, несет в себе определенную информацию, предысторию, свойства, и только при рассмотрении текста как целостной системы возникает характерная ему уникальность, определенная структурой и информацией, в общем случае не выводимая из элементов его декомпозиции. Необходимо заметить, под моделированием системы целостно понимается моделирование нескольких уровней абстракции этой системы в совокупности, что является, в некотором смысле, противоположностью методологии редукционизма; так как модель, по определению, - один из способов описания существенных особенностей изучаемого явления, то описание всех уровней невозможно в силу того, что модель отображает объект исследования лишь в конечном числе его отношений и свойств, кроме того, ресурсы моделирования также конечны, и усложнение модели согласно принципу «бритва Оккама» имеет смысл только в том случае, если из него можно получить новое представление, результатами оправдывающее это усложнение. Иными словами, обобщенные графовые структуры [1-4] позволяют более эффективно моделировать сложные системы, в том числе и усложненные, в терминах больших данных, варьируя степень декомпозиции и уровень абстракции.

Прямым подтверждением вышеизложенного являются задачи описания и анализа таких систем, как социум (социальные сети), Интернет (веб-графы), транспортные системы, биологические сети и т.д. Актуальность тем изучения обобщенных графовых структур и развития методов и алгоритмов, которые их используют, в равной степени обусловлена уже полученными результатами в этой области. Например, использование гиперграфов взамен графов дает значительный количественный прирост эффективности в алгоритмах машинного обучения [5, 6].

Помимо сложной структуры, большие данные характеризуются, sic et simpliciter, большими объемами данных. В этом аспекте после структурной идентификации для оптимизации вычислений используются различные варианты

представления выбранной модели. Как правило, математическая модель допускает несколько вариантов представления, предпочтение определенным из них отдается в том числе из соображения эффективности вычислений и полноты описания. Например, граф может быть представлен в матричном виде: матрица инцидентности, матрица смежности, матрица валентности, лапласиан; в теоретико-множественной нотации: с помощью определения графа как некоторого множества вершин и подмножества множества его строго двухэлементных подмножеств G = ([v1t v2, ..., vn}, ^ [vt, Vj ; графически: в виде точек и соединяющих их линий и т.д. Для обработки больших графов в основном используются парадигмы, так или иначе основанные на представлении графа как связного списка, например, модель обработки vertex-centric. Такой вариант имеет существенные преимущества при хранении больших объемов данных и при распределенных вычислениях. Реализация этой парадигмы представлена огромным количеством фреймворков: GraphX, NetworkX, Igraph, Gephi и т.д. Матричное представление графов, которое сейчас редко используется в программном обеспечении, также обладает рядом преимуществ, в числе которых возможность использования архитектуры CUDA, в частности cuBLAS, для параллельных вычислений на уровне примитивов, строгая алгебраическая формализация, применимость средств линейной алгебры и основанных на ней методов прикладной математики, а также вариативность представления в зависимости от условий задачи.

GraphBLAS [7] - это разрабатываемая программная библиотека и одноименное направление научных исследований для развития этой библиотеки, главная идея которого - попытка описания алгоритмов на графах в терминах операций линейной алгебры. Конечным продуктом исследования матричного представления обобщенных графовых структур будет развитие идей GraphBLAS.

Целью данной работы является рассмотрение практических аспектов графоструктурного моделирования в задачах описания и анализа больших данных, а также развитие матричного представления обобщенных графовых структур; на этом основании будут изложены полученные результаты предварительных исследований и обозначены перспективы дальнейших.

Первый раздел статьи посвящен описанию графовых структур, где приведены основные результаты по их формализации и построена иерархия, отражающая последовательность обобщения одних структур другими. Также показана особенность матаграфов как наиболее обобщенной и в тоже время достаточной для моделирования произвольных связей структуры. Во втором разделе рассматриваются практические аспекты использования обобщенных графовых структур в задачах описания и анализа больших данных, а именно выделяются два пути: представление исходных данных и моделирование информационных систем, с помощью которых обрабатываются эти данные. Особое внимание в этом разделе уделено построению гибридных интеллектуальных информационных систем, которое в общем случае возможно исключительно при использовании обобщенных графовых структур. В третьем разделе описаны матричные варианты представления графовых структур и их взаимосвязь. Далее в заключительной четвертом разделе описан разработанный алгоритм преобразования графа в метаграф в матричной форме, сопровожденный примером и иллюстрациями.

1. Графовые структуры

Графовая структура - это структура, основанная на множестве элементов, которые в свою очередь также могут быть множествами, и множестве произвольной структуры, которое однозначно определяет связи между элементами. К таким структурам можно отнести графы, гиперграфы, ме-таграфы и т.д. Определим функцию В как V = Б(У, п) = С", где в V' войдут только п-элементные подмножества булеана множества V; при п = 2 это будет множество всех возможных двухэлементных подножеств множества V, т.е. множество ребер графа. Далее приведены теоретико-множественные определения основных графовых структур.

Метаграф - множество Мб = (V, МЕ) [2], где V - множество вершин; МЕ - множество метаребер,

м

ME'

B U B(V, i),

Для любого метаграфа MG = {V, ME) можно получить однозначную до изоморфизма эквивалентную запись с выделением метавершин как отдельных сущностей MG = <V, MV, ME>, где MV (множество метавершин) - множество, состоящее из всех множеств вершин, включенных в метаребра данного метаграфа.

Граф - это множество MG = {V, E ), где E ç B(V, 2). Отсюда следует, что любое ребро графа - это метавершина, состоящая ровно из двух элементов, и граф - это такой метаграф, что:

G {V, E) = MG {V, MV, ME),

где ME = 0; MV ç B(V, 2) и E равны с точностью до перестановки. В [8] сформулированы и доказаны изоморфизмы наиболее популярных классов графов и метаграфов.

Гиперграф определен как {V, HE ), где ME = 0. Любое гиперребро - это не что иное, как метавершина, а любой гиперграф - это такой метаграф, что:

где ME = 0;

HG (V, HE> = MG (V, MV, ME>,

M

HE Ç U B(V, i)

i=1

и НЕ равны с точностью до перестановки.

Гиперсеть - это множество гиперребер и множество отображений между ними НЫ = ({МБ}, {Ф,}), где 'МБ1 - гиперребро, а Ф.: МБ. ^ МБ._ [3, 4]. Очевидно, что гиперсеть иерар-хична, а ее иерархия строго детерминирована множеством отображений.

Характерной особенностью метаграфа является то, что он обобщает приведенное понятие гиперсети, которая является рекуррентно определенным метаграфом. Иными словами, любая гиперсеть - это метаграф, метаребра которого упорядочены и последовательно соединяют метавершины, т.е. MG = (у, }, , WS¡_...^ .

Таким образом, графы, гиперграфы, сети и гиперсети обобщаются метаграфами, определенными как Мб = (V, Е), и являются их частными случаями. Доказательство этого приведено в общем виде, и кроме того, что это всегда верно для тривиального изоморфизма [8, 9], вдобавок в некоторых случаях существует другой способ представления метаграфа, который может быть более пригоден для конкретных задач. Например, при моделировании сильно связных графов можно

кластеризовать вершины с максимальными степенями в различные метавершины, тем самым сокращая размерность.

Если у графа К ровно ——— ребер, то у изоморфного ему " 2

метаграфа всего п - 1 ребро.

В [10] на основании понятия итерированных булеанов множеств, где функция, возвращающая булеан множества, применяется к множеству по итерационной схеме, доказывается связь графовых структур и прослеживается их последовательное усложнение, которое является прямым подтверждением полученных результатов по обобщению одних графовых структур другими. На этом основании вводится понятие итергиперграфа с произвольным показателем итерации, в том числе и дробным, которое включает в себя всевозможные графовые структуры, в том числе классы графов, гиперграфов и метаграфов, и позволяет производить их практическое построение.

2. Графоструктурный подход

к решению задач больших данных

Применение графоструктурного подхода к решению задач больших данных можно условно разделить на два вида -это непосредственно моделирование исходных данных графовыми структурами и моделирование информационных систем (ИС), с помощью которых решаются эти задачи [11].

Для того, чтобы перевести исходные данные в графоструктурный вид, необходимо, чтобы данные были предста-вимы графами в контексте решаемой задачи. Важно заметить, что любой объект может быть сведен к составляющим и описан с некоторой точностью графовыми структурами, но это описание должно иметь прямую связь с постановкой задачи. Наиболее продуктивен этот подход для задач с разнообразными сетями, где исходные данные - это и есть структура, описываемая графами; например, социальные сети, веб-графы, биологические сети, сети транспортных дорог и т.д. Стоит также отметить, что эти сети являются очень большими и сложно структурированными, поэтому вопрос о применении обобщенных графовых структур более чем актуален для данного рода объектов. В качестве обоснования можно выделить ряд преимуществ: сокращение размерности исходных данных без потери информации, снижение сложности интерпретации промежуточных и конечных результатов за счет повышения уровня абстракции рассматриваемого объекта, а также возможность новой постановки задачи с вытекающей возможностью применения других методов. Например, задача, известная как задача китайского почтальона [12]. Суть класса таких задач состоит в принадлежности дуг к определенным множествам, не обязательно дизъюнктным, где нужно найти кратчайший путь через дуги всех этих множеств. В классической постановке задача формализуется через ряд ограничений. Если рассматривать задачу в терминах метаграфов, то вместо введения ограничений и отображения множества ребер в другое множество (обычно множество цветов) можно определить для каждого цвета метавершину, и тогда решением будет кратчайший путь через все метавершины.

Большинство сложных задач интеллектуального анализа данных ставится таким образом, что адекватное решение становится возможным исключительно при использовании нескольких информационных интеллектуальных систем (ИИС), работающих как одно целое, так называемых гибридных интеллектуальных информационных систем (ГИИС) [4, 13].

Для конструирования таких ГИИС возможно последовательное применение алгоритмов к исходным данным, такие системы моделируются с помощью графов, иными словами, это тогда, когда ГИИС имеет линейное графоструктурное представление, где вершины последовательно связаны между собой, при этом возможны петли и циклы. Для представления более сложных интеллектуальных систем, например, когда одна ИИС может модифицировать другую в зависимости от результатов обработки исходных данных в текущий момент времени или когда ГИИС может дифференцироваться на другие ГИИС, которые, в свою очередь, также имеют произвольную структуру, необходимо применять более развитые графовые структуры - такие, как гиперграфы, метагра-фы. Это также важно, когда нужно параллельно применить несколько алгоритмов из одного класса и корректно совместить результаты в один.

Программную реализацию простейших видов ГИИС можно найти в библиотеке машинного обучения sklearn. Pipeline - это линейная структура ГИИС, в которой последовательно выполняются статистические алгоритмы. Это обеспечивает автоматизацию решения задачи, где вместо того, чтобы вручную выполнять каждый из алгоритмов на тренировочном и тестовом наборах данных, используется декларативный интерфейс. В качестве применяемых алгоритмов могут выступать как методы извлечения, преобразования, нормализации данных, так непосредственно и сама модель предиктора. Эта структура (рис. 1) не описывает ГИИС, принципиально отличимую от ИИС, в отличие от структуры FeatureUnions. FeatureUnions позволяет применять алгоритмы параллельно к одному набору данных и объединять результаты, что очень полезно, например, при преобразовании текста в численный вид в связи с тем, что после применения одного из алгоритмов исходные данные будут переведены в численную форму и информация, присутствующая в априорном виде набора данных, станет недоступной. Таким образом, комбинируя эти две структуры, можно моделировать различные варианты ГИИС. Справа на рис. 1 показана ГИИС структуры FeatureUnions, предназначенная для классификации предложений на естественном языке по некоторым признакам. Исходя из вышесказанного, разработка структур моделей представления более сложных ГИИС обобщенными графовыми структурами является весьма актуальной.

Extract _essays

Counts

tfjdf

Extract_essays

Features

Counts Essayjength Misspellings

1 tfjdf

ребрами, тем самым сокращая размерность и структурируя исходные данные, а эта задача является вычислительно неполиномиальной, в отличие от задачи кластеризации ребер в метаребра, которая носит более эвристический характер и позволяет добиться результатов не хуже, чем гиперграфовый подход, причем наряду с этим вычислительно менее затратна. Один из подобных алгоритмов был разработан и описан в работе [11], также пример его применения будет продемонстрирован в разделе 4.

3. Матричное представление

Графовые структуры удобно представлять с помощью матриц. Для такого представления наиболее популярны матрицы инцидентности I, смежности А, валентности й и лапласиан I, которые связаны равенством [14]

I • 1Т = I = й ± А,

а в [10] указана связь между матричными представлениями разных графовых структур как частных случаев итергипер-графов. Например, для метаграфа матрица инцидентности определяется как I(V, МЕ) = I(V, НЕ) • I(МУ, МЕ). Все представления графовых структур отражают сущность одного объекта, но с разных сторон, и используются в зависимости от постановки задачи. Для графов известны различные алгоритмы, для которых форма записи может играть существенную роль прежде всего с точки зрения формализации и оптимизации вычислений.

4. Алгоритм преобразования графа в метаграф

Для преобразования графа в метаграф нами разработан следующий алгоритм. Запишем графовое представление ИИС, ГИИС или исходных данных в виде матрицы инцидентности. Далее находим строку с максимальным количеством единиц, т.е. находим вершину с максимальной степенью валентности; если таких несколько, то берем любую. Для такой вершины определяем метаребро в метаграфе, содержащее в одной метавершине эту вершину, а в другой метавершине вершины, смежные с данной. После этого обнуляем в исходной матрице найденную строку и столбцы, значения которых в этой строке равны единице. Для получившейся матрицы повторяем эти действия до тех пор, пока она не станет нулевой. В результате работы алгоритма получим метаграфовое представление. Для наглядности изложения приведем пример.

Дан граф

С = ({ ^ ^ V ^} ^} 1/3}

/3 } {//2 , /4 } {^ /4 } {V /5 }},

описывающий структуру ИИС, ГИИС или исходных данных (рис. 2).

Classifier

Classifier

Рис. 1. ГИИС структуры Pipeline и FeatureUnions

В различных прикладных областях применения ИИС и ГИИС свою эффективность показал подход использования гиперграфов взамен графов в алгоритмах машинного обучения. Основная проблема такого подхода - это то, что для такого применения необходимо находить максимально полные подграфы в графе, впоследствии заменяя их гипер-

Рис. 2. Исходная графовая модель G

Перед началом выполнения алгоритма матрица инцидентности графа в и матрица инцидентности метаграфа Мв равны

I (У, E ) =

1 1 0 0 0 0

1 0 1 1 0 0

0 1 1 0 1 0

0 0 0 1 1 1

0 0 0 0 0 1

I(V, ME) = ( ).

Первая итерация:

110 0 0 0 Ч 0 : —I. О О

I (V, E)

0 1 1

0 О О

0 О О L 1 1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

0 1 О

0 О 1

О 1 О О О О

О О О О О О

О 1 О О 1 О

О О О О 1 1

О О О О О 1

I (V, ME ) =

Вторая итерация:

I (V, E) =

0 0 . 0 0 ( ) 0 0 ( ) 0' 0

0 0 ( ) 0 0 ) 0 0 ( 1 ) 1

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1

I(V, ME) -

Третья итерация:

0 0 0 0 0

0 0 0 0 0

0 0 0 0 0

0 0 0 0 0

0 0 0 0 0

1 1 1 0

I (V, E ) =

0' 0 0 0 0 0 0'

0 0 0 0 0 0 0

0 = 0 0 0 0 0 0

1 0 0 0 0 0 0

-1 0 0 0 0 0 0

1 1 0

-1 0 0

1 -1 0

1 1 1

0 0 -1

Рис. 3. Полученная метаграфовая модель Мб

I (V, ME) =

В итоге получим метаграфовую модель (рис. 3).

Эту графовую модель можно было бы представить в виде гиперграфа, итеративно заменив клики в графе гиперребрами (рис. 4). Для поиска клик, например, можно использовать алгоритм [15]. Матрица инцидентности такого гиперграфа равна

1 0 0 0' 110 0 I (V, НЕ)= 1 0 1 0 .

0111 0 0 0 1

Рис. 4. Гиперграфовая модель Нб

Задача разработки матричной алгебры и развития матричного представления для применения в анализе и описании больших данных является перспективной, что подтверждается материалами данной работы. Одной из отличительных особенностей является то, что у обобщенных графовых структур матричная запись может быть не обязательно разреженной, вследствие чего для оптимизации операций с плотными матрицами могут быть применены технологии параллельного программирования, основанные на архитектуре CUDA.

Заключение

В данной работе были рассмотрены основные средства графоструктурного моделирования в задачах описания и анализа больших данных, в числе которых: графы, сети, гиперграфы, гиперсети и метаграфы.

Описаны теоретико-множественный и матричный варианты представления обобщенных графовых структур в контексте оптимизации вычислений в задачах описания и анализа больших данных. На этом основании показана обоснованность мотивации использования обобщенных графовых структур в таких задачах. Приведен эвристический алгоритм, использующий матричное представление, преобразования произвольного графа в метаграф. Каждый раздел сопровожден выводами в контексте оптимизации вычислений и эффективности моделирования, в частности вычислений посредством применения технологий параллельных и распределенных вычислений.

Исследование выполнено при финансовой поддержке РФФИ и Липецкой области в рамках научного проекта 17-47-480305-р_а.

1

1

Литература

1. Voloshin V. Introduction to Graph and Hypergraph Theory. Nova Kro-shka Books. UK edition, 2013. 231 p.

2. Basu A., Blanning R. Metagraphs and Their Applications. NY: Springer, 2007. 172 р.

3. Анохин К.В. Когнитом: гиперсетевая модель мозга // XVII Всероссийская науч.-техн. конф. «Нейроинформатика-2015». Сб. науч. тр. Ч. 1. М.: МИФИ, 2015. С. 14-15.

4. Черненький В.М., Гапанюк Ю.Е., Ревунков Г.И., Терехов В.И., Каганов Ю.Т. Метаграфовый подход для описания гибридных интеллектуальных информационных систем // Прикладная информатика. Т. 12. № 3 (69). М.: Изд-во Моск. фин.-пром. ун-та «Синергия», 2017. С 57-79.

5. Huang J., Zhang R., Xu Yu J. Scalable Hypergraph Learning and Processing // Data Mining (ICDM), International Conference on. Atlantic City, NJ, USA, 14-17 Nov. 2015.

6. Zhou D., Huang J., Scholkopf B. Learning with Hypergraphs: Clustering, Classification and Embedding // Advances in Neural Information Processing Systems. 19, 2007. Р. 1601-1608.

7. Kepner J., Aaltonen P., Bader D. Mathematical foundations of the GraphBLAS // High Performance Extreme Computing Conference. Waltham, MA, USA, 13-15 Sept. 2016.

8. Приньков А.С. Графоструктурное ремоделирование метагра-фами сложных систем на примере московского метрополитена // Материалы XII междунар. науч.-практ. конф. «HTCS'2017», 25-27 октября 2017 г. В 2 ч. Ч. 1. Изд-во ЛГТУ, 2017. С. 125-129.

9. Приньков А.С. Разработка программного обеспечения для гра-фоструктурного ремоделирования сложных систем. В 2 ч. Ч. 2. // Материалы XII междунар. науч.-практ. конф. «HTCS'2017», 25-27 октября 2017 г. Изд-во ЛГТУ, 2017. С. 65-69.

10. Блюмин С.Л. Итергиперграфы: расширенный класс графовых моделей больших систем // Труды конф. «Теория активных си-стем-2011» (ТАС) в рамках Междунар. науч.-практ. мультиконф. «Управление большими системами» (УБС-2011). М.: ИПУ РАН, 2011. С. 11-15.

11. Блюмин С.Л., Приньков А.С. Графоструктурные тенденции развития ИИС: применение гиперграфов, метаграфов, итерграфов и их матричных представлений // Проблемы фундаментальной и прикладной информатики в управлении, автоматизации и ме-хатронике. Курск: Изд-во Юго-Зап. гос. ун-та ЗАО «Университетская книга», 2017. С. 5-13.

12. Drexl M. On the generalized directed rural postman problem // J. of the Operational Research Society. V. 65, Issue 8. NY: Springer, August 2014. Pp. 1143-1154.

13. Черненький В.М., Терехов В.И., Гапанюк Ю.Е. Структура гибридной интеллектуальной информационной системы на основе метаграфов // Нейрокомпьютеры: разработка, применение. М.: Радиотехника, 2016. C. 3-13.

14. Блюмин С.Л. Оргипергиперграфы: матрицы инцидентности и лапласианы // Вестник ЛГТУ. № 1 (21), 2013. С. 15-27.

15. Etsuji T., Akira T., Haruhisa T. The worst-case time complexity for generating all maximal cliques and computational experiments // Theoretical Computer Science. V. 363, Issue 1, 2006. Pp. 28-42.

i Надоели баннеры? Вы всегда можете отключить рекламу.