Нахождение подобия между неструктурированными объектами данных на основе метода сингулярного разложения спектра графа

Мизюков Г.С.

Г. С. Мизюков

Ростовский государственный университет путей сообщения, Ростов-на-Дону

Аннотация: В статье рассматривается вопрос нахождения подобия между объектами, содержащими неструктурированную информацию на основании спектров двух объектов. Для нахождения спектра используется матрица смежности графа. Подобие между объектов сравнения определяется с использованием подхода основанного на сингулярном разложении матриц смежности графов. Также в статье рассматриваются существующие решения и приведены примеры сфер возможного применения описанного подхода. Ключевые слова: спектр графа, сингулярное разложение, матрица смежности, неструктурированная информация, анализ больших массивов информации.

Большие данные сейчас являются новым трендом в области высоких технологий, в частности рынок аналитических инструментов, представлен широким спектром инструментов, позволяющим проводит различные манипуляции с информацией, хранящейся на серверах и представлять аналитические отчеты компании в различных разрезах. Росту информации, в свою очередь, способствует колоссальный «информации взрыв», произошедший в результате удешевления элементарной базы компонентов, необходимых для производства, как устройств хранения информации, так и устройств, которые генерируют информацию различной природы. Из-за этого многократного увеличения объема информации, а также многообразия хранимой информации различной природы, усложняется процесс управления данными. По данным аналитической компании International Data Corporation (IDC) до 60% информации, которая хранится на серверах в компаниях, не несёт в себе пользы. Эта информация представляет собой информационный шум, который усложняет процесс обработки и анализа информации. На рис. 1 представлен один из прогнозов представленных IDC, на котором можно увидеть динамику роста объемов информации. Так например, объем данных на планете вырастет до 40 зеттабайт к 2020 году,

J

т.е. каждый активный пользователь сети интернет будет генерировать по 5200 Гб. данных (рис. 1).

Рис. 1. - Прогноз компании IDC до 2020 года Однако основной информационный поток будут формировать не люди, а устройства: сенсоры, смартфоны, интеллектуальные системы и т.д. Это в свою очередь приводит к потребности появления новых направлений в сфере информационных технологий, а также увеличению количество серверов, способных хранить и обрабатывать огромные массивы данных. На текущий момент все больше компаний заинтересовано в эффективном управлении информаций, так как неэффективное управление информацией, в условиях рыночных отношений, где преобладают информационные технологии, может оказать негативную динамику на прибыль компании, поэтому нельзя не отметить роль компаний в формировании мировоззрения по отношению к большим массивам информации и проблеме их анализа. Что в свою очередь обусловлено тем, что умение эффективно и качественно проводить анализ информации, а также оперативно реагировать на все изменения в структуре информации является одним из основных показателей зрелости компании в области информационной политики.

Тематике анализа данных посвящён один из документов представленных исследовательской и консалтинговой компанией, специализирующейся на рынках информационных технологий Gartner под названием «Market Guide for File Analysis Software». В документе приводится информация, касающаяся типовых сценариев использования аналитических инструментов, среди которых можно отметить следующие:

1. Оптимизация хранения;

2. Выявление ненужных данных и избавление от них при миграции ИТ-инфраструктуры;

3. Классификация;

4. Соблюдение нормативов и требований (compliance);

5. Управление уровнями доступа;

6. Автоматизация проведения расследований.

Для нас наиболее интересны первые три позиции, а именно: оптимизация хранения, выявление ненужных данных и классификация. На рынке существуют два инструмента, которые в равной степени позволяют качественно выполнять перечисленные выше сценарии при работе, в особенности с неструктурированной информацией. Это программные продукты компании Hewlett-Packard под названием HP Storage Optimizer и HP Control Point. Первый продукт специализируется на оптимизации хранения, второй продукт ориентирован на комплексный анализ с целью снижения бизнес-рисков, связанных с хранением данных. Оба инструмента обладают широким спектром функций, позволяющих качественно и эффективно управлять информацией. В частности хотелось бы отметить типы визуализации данных, которые могут представлять программные продукты - это карта кластеров информации рис. 2, а и спектограф рис. 2, б отображающий процесс изменения информации во времени внутри документа.

Il Инженерный вестник Дона, №1 (2018) Н| ivdon.ru/ru/magazine/arcliive/nly2018/4651

а) б)

Рис. 2. - Типы визуализации данных программных продуктов Hewlett-

Packard

а - карта кластеров; б - спектограф Для определения подобия или схожести двух и более объектов информации программные продукты Hewlett-Packard использую мета данные содержащиеся в структуре документов. На основании метаданных осуществляется классификация и кластеризация данных со схожими наборами метаданных.

В качестве альтернативы программным продуктам Hewlett-Packard и методам, которые используются для нахождения подобия между объектами сравнения, мы будем использовать подход, основанный на спектральном разложении графа с использованием метода сингулярного разложения [1 - 3, 8]. Данный метод хорошо себя зарекомендовал в реконструкции и распознании 3Б-объектов по спутниковым изображениям, с чем можно ознакомиться в статье с одноимённым названием [4]. Однако мы будем применять данный метод для нахождения подобия между неструктурированной информацией, на основе их спектра. В качестве исходных данных мы также будем использовать метаданные, содержащиеся в структуре документов.

1К1 Инженерный вестник Дона. №1 (2018) Н| ivdon.ru/ru/magazine/arcliive/nly2018/4651

На первом этапе нам необходимо построить два графа и описать их с помощью матрицы смежности (рис. 3). Первый граф будет выступать в качестве эталона, с которым необходимо будет производить математические операции, с целью определение подобия. Второй граф - это граф, полученный в результате выявления метаданных одного из множества документов хранящихся в п мерном массиве. Так как в данном решении предлагается взаимодействие с неструктурированными данными, построение графов и их структура может сильно отличаться, вплоть до использования вложенных метаграфом, которые в полной мере могут описать структуру документа и взаимосвязи внутри документа [5]. Для хранения подобных структур наиболее подходящими будут являться NoSQL базы данных, которые обладают широкими возможностями по описанию сложных структур данных с большим количеством связей [6, 7, 9, 10]. Однако же в нашем примере мы будем использовать простые полносвязные неориентированные графы. Матрица смежности неориентированного графа имеет вид: Ст = (К Е) - квадратная симметричная матрица А (С) порядка п,

элементы ау которой равны числу ребер, соединяющих вершины VI и

а) б)

Рис. 3. - Нахождение подобия между вершинами графа а - граф эталон; б - граф построенный на основе мета данных

1К1 Инженерный вестник Дона. №1 (2018) Н| ivdon.ru/ru/magazine/arcliive/nly2018/4651

В результате того, что оба графа изоморфны, матрица смежности обеих графов представленных на рис. 3 будут идентичны:

0 1 I 1 1 1 0 1 1 1 1 1 1

1 0 1 1 1 1 1 1 1 0 1 1 1 1 1

110 1 1 1 1 1 1 1 о 1 1 1 1

1 1 1 0 1 1 1 1 1 1 1 1 1 1 1

111 1 0 1 1 1 = 1 1 1 0 1 1 1

111 1 1 0 1 1 1 1 1 1 0 1 1

111 1 1 1 1 1 1 1 1 1 1 1 1

1 1 1 1 1 1 С 1 1 1 1 1 1 0 1

111 1 1 1 1 0 ■1 1 1 1 1 1 0

Рис. 4. - Матрицы смежности графа А и В Нахождение подобия между сравниваемыми объектами на основе построенных графов состоит в поиске соответствий между структурами графов, поэтому предлагается использовать методы нахождения подобия на основе спектральной теории графов. Спектр графа представляет собой множества собственных значений .., А\у\]■ упорядоченных по

убыванию или возрастанию. Спектральные методы основаны на следующем свойстве: собственные значения и собственные векторы матрицы смежности графа инвариантны относительно перестановок вершин в матрице. Следовательно, если два графа изоморфны, их матрицы смежности будут иметь одинаковые собственные значения и векторы, что собственно и показано на рис. 4. [4].

Из-за изоморфности двух графов мы будем производить разложение только матрицы 0А. Разложение матрицы размерности тХп на

собственные значения с использованием сингулярного разложения, можно представить в виде следующих формул:

0А = иШ (1)

или

Ъ - (2)

где и и V - ортогонали матриц, если &А - действительная или унитарная матрица; если £гд - комплексная матрица; - сопряжённо-

транспонированная матрица V с порядками тип соответственно; И -диагонали матрица т X II с действительными элементами <73 :

где £7,; - сингулярные значения матрицы С^, а первые тт(т,п) столбцы матриц и и V - левые и правые вектора матрицы €гл. которые должны удовлетворять следующему отношению:

и

где У; /-ые столбцы матриц IIи Vсоответственно.

Следующим этапом выполним сингулярное разложение матрицы смежности графа представленного на рис. 3 на основе формулы 1. В

результате мы получим следующие результаты: Сингулярные значения: 8,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 Матрица собственных векторов:

-0.3333 -0.0000 -0.0000 -0.0000 -0.0000 -С 0000 0.0000 0.0000 0.942 В

-0.3333 -0,0000 -0,0000 -0 0000 -0,0000 -0,0000 0.0000 0,9354 -0.1179

-0.3333 0,34-27 0 1349 0,7586 0,2182 0,2976 -00994 -0,1336 -0 1179

-0.3333 0,1449 0,0570 -0.0406 -0,5175 0.0602 0.7482 -0,1336 -0,1179

-0.3333 -0,0691 0,1301 0.0527 0,0599 0.2800 -0,0108 -0,1336 -0.1179

-0.3333 -0,0356 -0,3906 0,0527 0,0599 -0,2313 -0,0533 -0,1336 -0.1179

-0.3333 0,2518 0,0991 -0.5623 0,6372 0,2004 0.1468 -0,1336 -0,1179

-0-3333 -0,0356 0.3903 00527 0,0599 -0 3236 -ОД 029 -0,1336 -01179

-0.3333 0,2008 0,0791 -0.3136 -0,5175 0.2215 -0,6286 -0,1336 -0,1179

Рис. 5. - Матрица собственных векторов графа &А В матрице собственных векторов II& изменим значения отрицательных

элементов, используя модуль числа, в результате получим матрицу .

0.3333 о.ооос 0 0000 о.оооо о.оооо о.оооо С.000С о.оооо 0.9423"

0,3333 3,0003 0 0000 0,0000 0,0000 0,0000 C.00QC 0,9354 0,1179

о.зззз 3.342?" 0.1344 о.?53б 0,2132 Q.Z9?fr С 0994 0,133fr 0,1179

0,3333 0.144* 0 0Е70 0,0400- Q.SJ7E 0,0002 Q,133fr

0.3333 0,3691 ОД 301 0.Q527 0.0S99 0.2300 С. 010« 0,133fr 0,1179

0.3353 0.03Ei' 0 090fr 0,053? Ü.0E99 0.2333 С 0532 Q, 133fr 0.1179

0.3333 0.251& Q.Q991 0.56-23 0.6372 0.2004 Ü146S 0,133fr 0,1179

0.3333 и.озьс' U 3903 и.иь^у и.иьуу вдага L,iuas 0,133fr 0,11V9

о.зззз 0.200& 0 0791 0.il3fr 0.5175 Q.ZZ1S с. 6-236 0,133fr 0,117?J

Затем транспонируем полученную матрицу \ИА\:

0,3333 0.3333 0.3333 0.3333 0.3333 3.3333 0.3333 0.3333 0.3333-

0.0000 0.0000 0.3427" 0,1449 0,3691 3.035fr 0,2313 0.035fr 0,2003

0.0000 0.0000 0.1349 0.0570 0,1301 3.390fr 0.0991 0.3903 0.0791

0.0000 0.0000 0.753fr 0.040fr 0.0527 3.0527 0.5623 0.0527 0,313fr

0,0'J'J'J 0.0000 0,ZUB 0.5175 0.0599 J.0D99 0,fr37ü 0.0593 0.5175

0.0000 0.0000 Q.29?fr Q.QÖQZ 0.2300 3,2313 0.2004 0.323fr 0,2213

0.0000 0.0000 Q.Q9H 0.7432 0.0103 3.0533 0.1463 0,1023 0,6-236

0.0000 0,9354 0.133fr 0.133fr 0,133fr 3,133fr 0,133fr 0,133fr 0,133fr

0,9423 0,1179 0,114 0.1179 0.1179 >,1179 0,1179 0,1179 0,1179 J

Для нахождения подобия необходимо перемножить матрицу с матрицей

собственных векторов сравниваемого объекта, т.е графа Св. За счет того, что

в нашем методе будут применяться только изофорфные графы, матрицы собственных векторов, следовательно, будут идентичны с матрицей В

результате перемножения матриц UJ в |, мы получим матрицу E^Uj.

0,9993 0.G-263 0.5336 0,frll0 0.fr9C0 8.706fr 0.596P- 0.6233 Q.KSfr'

Q.&2&S i то 0.2:40 0.5200 0.47C4 3.4ВСЙ 0.320t Q.2S12 0x1X17

0f593fr 0.2540 1,0D00 0,2595 0 2475 0 6463 0-2094 0.2330 0 2161

0,frllQ 0.Ё200 0,2iPE 1,0000 0,71tfr 0,4811 0.3943 0.244A Q,21frl

Q,fr900 0 .+704 Q.247E QjTlfiü xooco J.4I00 (KffJFF 0,2441

0.706fr 0.+363 Q.Ö46S 0,4SL1 D,4J£S l.OOÜJ 0,3441 0.2332 0,2499

o.sy&o tUilffl о.ауад aitaw u.yyyv 0.Z391 ОШО

0,6-235 Q.2S1Z 0.2330 0.2449 0.276fr 0.2332 0.23Я 0.999? 0,:£05

Ü.fr2Sfr 0.2217 0.2100 ftZlfrl 0.2441 Э.24ЭД 0.2118 0.2205 l.OOOO-

J

В матрице максимальные значения заменим на 1 остальные значения

приравняем к 0, в итоге мы получим матрицу Р.

В полученной матрице Р номер столбца равен номеру узла в графе ,

номер строки - номеру узла в графе с которым производилась операция сравнения GB. Единица в матрице Р указывает на соответствие между

сравниваемыми объектами. Из всего выше перечисленного можно сделать вывод, что два объекта сравнения, описанные в виде графом подобны.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В заключении хотелось бы отметить, что в статье описан пример с идеально подобранными параметрами и, который является одним из немногих исключений из правил, но даже он нам демонстрирует, что на основании спектра графа, полученного путем сингулярного разложения матриц смежности графов, может использоваться для нахождения подобия между различными структурами. При этом в отличие от программных продуктов Hewlett-Packard, которые используют промежуточные состояния для хранения и анализа информации в структурированных БД, описанный метод позволяет работать напрямую с n мерным массивом данных и сохранять результаты как с использованием структурированных баз данных, так и базы данных основанные на NoSql подходе, что в свою очередь способствует не только сбалансированному распределению нагрузки, но и более эффективному и быстрому процессу анализа данных.

IH Инженерный вестник Дона. №1 (2018) Н| ivdon.ru/ru/magazine/arcliive/nly2018/4651

Литература

1. Chung F.R.K. Spectral graph theory. - AMS. - 1997. - 207 p.

2. Shokoufandeh A., Dickinson S.J., Siddiqi K., Zucker S.W. Indexing using a spectral encoding of topological structure // Int'l Conf. Computer Vision and Pattern Recognition. -1999. - Vol. 2. - pp. 491 - 497.

3. Zakharov A., Zhiznyakov A. Synthesis of threedimensional models from drawings based on spectral graph theory // Applied Mechanics and Materials. - 2015. - Vol. 756. - pp. 598 -603.

4. Тужилкин А.Ю. Распознавание и реконструкция 3D-объектов по спутниковым изображениям на основе сравнения спектров графов // Фундаментальные исследования. -2015. - № 2-17. - С. 3727-3732; URL: fundamental-research.ru/ru/article/view?id=37846.

5. Г.Е. Засядко, А.В. Карпов, Проблемы разработки графовых баз данных // Инженерный вестник Дона, 2017, №1. URL: ivdon.ru/ru/magazine/archive/n1y2017/3994.

6. С.В. Астанин, Н.В. Драгныш, Н.К. Жуковская, Вложенные метаграфы как модели сложных объектов // Инженерный вестник Дона, 2012, №4. URL: ivdon.ru/ru/magazine/archive/n4p2y2012/1434.

7. Ian Robinson, Jim Webber, Graph Databases. O'Reilly, 2015. pp. 8 - 10.

8. Umeyama S. An eigendecomposition approach to weighted graph matching problems // IEEE transactions on pattern analysis and machine intelligence. - 1988. - Vol. 10, № 5. - pp. 695 - 703

9. Gavin Powell, Beginning Database Design. Wrox, 2006. p. 219.

10. Niklaus Wirth, Algorithms and Data Structures. Prentice-Hall, Inc, 1986. pp. 109 - 111.

References

1. Chung F.R.K. Spectral graph theory. AMS. 1997. 207 p.

2. Shokoufandeh A., Dickinson S.J., Siddiqi K., Zucker S.W. Int'l Conf. Computer Vision and Pattern Recognition. 1999. Vol. 2. pp. 491 - 497.

3. Zakharov A., Zhiznyakov A. Applied Mechanics and Materials. 2015. Vol. 756. pp. 598 - 603.

4. Tuzhilkin A.Ju. Fundamental'nye issledovanija. 2015. № 2-17. pp. 3727-3732; URL: fundamental-research.ru/ru/article/view?id=37846.

5. Zasjadko G.E., Karpov A.V. Inzenernyj vestnik Dona (Rus). 2017, №1. URL: ivdon.ru/ru/magazine/archive/n1y2017/3994.

In Инженерный вестник Дона. №1 (2018) Н| ivdon.ru/ru/magazine/arcliive/nly2018/4651

6. Astanin S.V., Dragnysh N.V., Zhukovskaja N.K., Inzenernyj vestnik Dona (Rus). 2012, №4. URL: ivdon.ru/ru/magazine/archive/n4p2y2012/1434.

7. Ian Robinson, Jim Webber, Graph Databases. O'Reilly, 2015. pp. 8 - 10.

8. Umeyama S. IEEE transactions on pattern analysis and machine intelligence. 1988. Vol. 10, № 5. pp. 695 - 703

9. Gavin Powell, Beginning Database Design. Wrox, 2006. p. 219.

10. Niklaus Wirth, Algorithms and Data Structures. Prentice-Hall, Inc, 1986. pp. 109 - 111.

Аннотация научной статьи по математике, автор научной работы — Мизюков Г. С.

Похожие темы научных работ по математике , автор научной работы — Мизюков Г. С.

Finding similarity between unstructured data objects on the basis of the method of singular decomposition of the spectrum of a graph

Текст научной работы на тему «Нахождение подобия между неструктурированными объектами данных на основе метода сингулярного разложения спектра графа»