МОДЕЛЬ ФОРМИРОВАНИЯ КЛАСТЕРОВ ИНФОРМАТИВНЫХ УЗЛОВ ИНТЕГРИРОВАННОЙ И РАСПРЕДЕЛЕННОЙ ОБРАБОТКИ ДАННЫХ В ВЫЧИСЛИТЕЛЬНОЙ СЕТИ

Бочков Александр Петрович; Хомоненко Анатолий Дмитриевич; Барановский Анатолий Михайлович

doi: 10.36724/2409-5419-2021-13-1-44-57

МОДЕЛЬ ФОРМИРОВАНИЯ КЛАСТЕРОВ ИНФОРМАТИВНЫХ УЗЛОВ ИНТЕГРИРОВАННОЙ И РАСПРЕДЕЛЕННОЙ ОБРАБОТКИ ДАННЫХ В ВЫЧИСЛИТЕЛЬНОЙ СЕТИ

БОЧКОВ

Александр Петрович1

ХОМОНЕНКО Анатолий Дмитриевич2

БАРАНОВСКИЙ Анатолий Михайлович3

Сведения об авторах:

д.т.н., профессор, профессор Петербургского государственного университета путей сообщения Императора Александра I, г. Санкт-Петербург, Россия, kostpea@mall.ru

2д.т.н., профессор, заведующий кафедрой Петербургского государственного университета путей сообщения Императора Александра I; профессор Военно-космической академии имени А.Ф. Можайского, г. Санкт-Петербург, Россия, khomon@mall.ru

3к.т.н., доцент, доцент Петербургского государственного университета путей сообщения Императора Александра I; доцент Военно-космической академии имени А.Ф. Можайского, г. Санкт-Петербург, Россия, bamvka@mall.ru

АННОТАЦИЯ

Распространение сетевых и вычислительных технологий актуально при решении прикладных вопросов в разнообразных областях деятельности человека. Одним из таких вопросов является накопление данных в сетевых и вычислительных структурах. Решение соответствующей задачи производится на основе интегрированной и распределенной обработки данных в вычислительных сетях, для которой характерно использование интеллектуального и когнитивного анализа данных, а также метрик расстояний. Целью настоящего исследования является разработка математической модели, учитывающей особенности вычислительной активности устройств сетевого узла для расчета его информативной нагрузки за расчетное время и формирование кластеров информативных узлов (их пространств) в вычислительных сетях. На основе интеллектуального анализа данных предлагается рассматривать отклонения в вычислительной активности сетевых устройств как информационное наполнение сетевого узла, способность генерировать большие данные. При дальнейшем моделировании использовались методы теорий распознавания образов и имитационного моделирования, инструментарий метрик расстоянии, позволяющих формализовать разнородные данные, учитывающие особенности вычислительных сетей. Элементом новизны предлагаемой математической модели является то, что в ней учитываются особенности по данным вычислительной активности устройств сетевого узла за расчетное время путем использования метрики Манхэттена. Приводится расчетный пример формирования кластеров информативных сетевых узлов, их пространств. В расчетах используется авторский датчик моделирования случайных величин, значительно повышающий качество расчетов, их наглядность. Практическая значимость предлагаемой математической модели заключается, прежде всего, в том, что появляется возможность отслеживать динамику изменения информативности в сетевых структурах с большим числом узлов. Это дает возможность контролировать обработку данных, кроме того, повышать эффективность вычислительных сетей путем проведения профилактических мероприятий по поддержанию их технического состояния и информационной безопасности.

КЛЮЧЕВЫЕ СЛОВА: вычислительная сеть; кластер; информативный сетевой узел; устройства сетевого узла; интегрированная и распределенная обработка данных; метрика Манхэттена.

Для цитирования: Бочков А.П., Хомоненко А.Д., Барановский А.М. Модель формирования кластеров информативных узлов интегрированной и распределенной обработки данных в вычислительной сети // Наукоемкие технологии в космических исследованиях Земли. 2021. Т. 13. № 1. С. 44-57. doi: 10.36724/2409-5419-2021-13-1-44-57

Введение

Современный мир постоянно обновляется в разных аспектах своей жизнедеятельности путем внедрения достижений научно-технического прогресса, которые формируются на основе использования больших данных, собираемых в процессе интегрированной и распределенной обработки данных в сетевых структурах. Поэтому актуально повышать информационное наполнение сетевых и телекоммуникационных структур, эффективность работы которых напрямую связана с качественным наполнением больших данных.

Современные технологии обработки данных предусматривают накопление их на вычислительных устройствах (рабочих станциях, персональных компьютерах и других устройствах) с последующей интеграцией данных на серверах. В свою очередь, по запросам, поступающим на сервер, данные распределяются по вычислительным устройствам, которые формируют данные в соответствии с конкретными приложениями. Таким образом, реализуется интегрированная и распределенная обработка данных, характерная для сетевых структур. В настоящее время в сетевых структурах вычислительные устройства группируются в совокупности, кластеры, которые, в свою очередь, объединяются в пространства, составляющие локальные, корпоративные, региональные и другие вычислительные сети (рис. 1) [1,2]. Все это способствует тому, что в сетевых структурах накапливаются большие данные.

В процессе интегрированной и распределенной обработки данных важно уметь делать нетривиальные выводы при решении конкретных практических задач. В настоящее время для этого активно используется так называемый интеллектуальный анализ данных (ИАД). Содержание такого анализа, в первую очередь, определяется характером конкретного приложения [3-7]. Решение конкретной практической задачи пользователем вычислительного устройства сопровождается познавательным процессом, в котором присутствуют анализ данных, когнитивный ана-

лиз данных (КАД) [7-12]. Поэтому в сетевых структурах при интегрированной и распределенной обработке данных активно используются интеллектуальный и когнитивный анализы данных, которые взаимно дополняют друг друга. Это привело к тому, что, в некоторых исследованиях, термины интеллектуальный и когнитивный используются как синонимы. Следующей задачей, решаемой при интегрированной и распределенной обработке данных, является учет гетерогенности, разнородности, данных. Решение такой задачи в зависимости от конкретного приложения осуществляется при помощи разнообразных метрик Махаланобиса, Дейка, Хэмминга, Гауэра, Евклида в разных интерпретациях и многих других [13-17].

В частности, при интегрированной и распределенной обработке данных в современных сетевых структурах очень важно выделять конкретные сетевые узлы, их кластеры, несущие основную нагрузку при формировании больших данных за определенное расчетное время. Зная такие сетевые узлы, их кластеры, можно организовать профилактические мероприятия для исключения возможности отказов вычислительных устройств узлов, по повышению защищенности накапливаемых данных, которые могут реализоваться с помощью программного и технического обеспечения. Кроме того, при выделении таких сетевых узлов необходимо подчеркнуть характерную особенность данных по вычислительной активности сетевых устройств, которая, например, может быть выражена в использовании двух значений, устройство активно (1) и не активно (0). Учитывая это и используя технологии ИАД [4, 6, 7], логично предположить, что информативность сетевого узла находится в прямой зависимости от отклонения вычислительной активности всех его устройств от вычислительной активности максимальной загруженного за рассматриваемое расчетное время устройства.

Известны работы по идентификации, определению влиятельных и важных сетевых узлов по обработке данных, информации [18-24]. Так, в [18] при определении

d) последовательная несбалансированность (цепочная структура)

Рис. 1. Пространства кластеров в современных сетевых структурах

и идентификации влиятельных сетевых узлов используются локальные измерения, при этом информация об общем состоянии сети не учитывается. Это не дает общую картину о значимости узла по отношению к остальным узлам сети. Предлагается информативность узла определять путем синтеза локальных измерений с пользованием метрик для разнородных данных (различных топологических масштабов расстояний). Это требует значительных трудозатрат. Кроме того, не всегда есть возможность получить данные по различным топологиям. Аналогично в [19] разработан метод идентификации влиятельных узлов, основанный на локальных измерениях для каждого узла. Но ничего не говорится о формировании кластеров влиятельных узлов.

В [20] предложен довольно оригинальный метод идентификации влиятельных узлов в сложных сетях общественных структур, который основан на вероятностях передачи информации между парами узлов и использовании алгоритма кластеризации методом k-medoid. Однако применение его для вычислительных сетей требует дополнительных данных и значительной подготовительной работы.

В [21] рассматриваются разнообразные виды сложных сетевых структур. Использование узлов влияния в таких сложных сетях может способствовать или препятствовать распространению информации, данных. Предлагается алгоритм tmst-PageRank для идентификации влиятельных узлов на основе коэффициента подобия, который использует атрибутивную информацию. Этот алгоритм отличается значительной общностью и применение его для выявления информативных узлов и их кластеров в вычислительных сетях проблематично. Аналогично, в [22-24] представляются математические модели, алгоритмы по выявлению влиятельных, важных в плане информативности узлов разнообразных сетей. Используется метод идентификации узлов КОЕС, применение которого требует знания положения узлов, расстояния между ними, метод идентификации влияния узла на основе анализа иерархий, требующий учета мультиатребутности данных сложных сетей [22, 23]. Для определения важных узлов сети предлагается метод измерений локальной центральности, основанный на топологической структуре и характеристиках взаимодействия узлов и их ближайшего окружения [24]. Однако они носят локаль-

ный характер и не учитывают особенность данных по активности сетевых устройств во времени, которая связанна с двумя значениями — 1 (устройство активно), 0 (устройство не активно).

Исходя из этого, целью настоящей статьи является разработка математической модели, учитывающей особенности данных по вычислительной активности устройств сетевого узла с целью расчета его информативной нагрузки за расчетное время и формирование наиболее информативных кластеров узлов, их пространств, в вычислительных сетях.

1. Формирование кластеров информативных

сетевых узлов

Математическая модель формирования кластеров информативных сетевых узлов включает в себя формализацию сетевой активности с учетом временного фактора, определение информативности сетевых узлов, нормирование информативности сетевых узлов и формирование их кластеров.

Формализация сетевой активности с учетом временного фактора. Каждый 1-й сетевой узел в кластере можно представит совокупностью ]-х устройств:

т , '=1,..., п, ]=1,..., I,

У > > и ' '

где п — количество выбранных узлов в сети, I. — количество устройств в 1-м сетевом узле. Такое представление удобно в том плане, что можно перейти от двухмерного рассмотрения сетевой конструкции к трехмерной конструкции. При включении в описание сетевого узла временной составляющей t получим:

т'., к = 1,., К,

к] ' ' '

где К — число одинаковых временных интервалов длительностью Д-К,

/расч = Т - t0 — время от начального момента t0 до конечного Т, = + Д-к.

' к 0

Учитывая такую формализацию, в сети можно формировать кластеры, включающие в себя узлы наиболее активные в вычислительном плане. Активность узла сети будет определяться активностью входящих в него устройств, которая постоянно меняется во времени. С целью дальнейшей формализации введем следующее обозначение:

тк} =

1, если в I-м узле сети]-е устройство на к-м временном интервале А активно, 0, если в I -м узле сети _/-е устройство на к-м временном интервале А не активно.

(1)

Определение информативности сетевых узлов. Учитывая рассмотренную формализацию сетевой активности, не трудно перейти к определению информативности сетевого узла. При этом, например, информативность узла будет определяться степенью отклонения вычислительных нагрузок устройств узла от выделенной наибольшей нагрузки устройства того же узла. Для дальнейших расчетов по определению информативности сетевого узла удобно использовать метрику Манхэттена (Manhattan distance), которая в некоторых источниках обозначается как L1:

li к

N = ЕЕ>

j=1 k=1

'k j

i = l,n, j = l,li, k = 1,K.

Выбор кластеров (групп) наиболее информативных сетевых узлов из общей совокупности узлов п можно производить с помощью теории распознавания образов, имитационного моделирования. При этом число информационных узлов в кластере па определяется в зависимости от характера и особенностей решаемой практической задачи. Для этого формируется распознающая функция

Рм (X,Y) = Z|хк -Ук\

к

(2)

гдеX и У—два вектора {хк}, {ук}, к = 1,К, со значениями элементов 0 или 1.

Используя метрику Манхэттена, удобно рассчитывать вычислительную активность (нагрузку) устройств, входящих в состав сетевого узла за расчетный промежуток времени /расч. При этом вектора {хк}, {ук}, к = 1,К , отражают вычислительную нагрузку устройства х и устройства у, в которых каждое значение 1 (устройство активно) или 0 (устройство не активно). Информативность двух устройств х и у можно трактовать как отклонение вычислительной нагрузки одного устройства от вычислительной нагрузки другого устройства, определяемой метрикой Манхэттена (2).

Рассматривая не два устройства х и у, а несколько устройств, входящих в состав /-го узла, можно говорить об информативности сетевого узла за расчетное время / . Для этого выражение (2) преобразуем к следующему виду:

■ /- ■ \ l к I-

рУЗЛК?; m'kj) = £ £\m'k j=i k=1

k q mk j

(3)

i = 1 ,п, ] = Ц, к = 1,К,

где тк — вектор, характеризующий для /-го узла наибольшую вычислительную активность (нагрузку) по д-му устройству, д=], для] выполняется условие

К ■

maxl X m'k j

j V k=1

Нормирование информативности сетевых узлов, формирование кластеров информативных узлов. Для обеспечения сравнения информативности узлов сети проводится ее нормировка, тогда коэффициент информативности /-го узла равен

Рузл (mlq ; mkj )

an

()=£

J норм узл'

(5)

норм узл

(4)

где ип = {ш 1,т 2,...,ш " ^ — /-я совокупность сетевых узлов (/-й кластер сетевых узлов), i = 1,п , в данном случае переходим от п сетевых узлов к п кластерам этих сетевых узлов;

а = {ау} = {а1,а2,...,ап | — номера сетевых узлов в /-м кластере ау, V = 1,па;

па—число узлов рассматриваемого /-го кластера; п — общее число кластеров, в каждый из которых входит па узлов.

Алгоритм формирования кластеров

информативных узлов

1. Интервал [0, 1] (или [0,100]) разбивается на п равных частей. Каждому интервалу будет соответствовать сетевой узел.

2. С помощью датчика случайных чисел (ДСЧ) формируются совокупности из па сетевых узлов. Выбрасывается равномерно распределенное число па раз, номер сетевого узла равен номеру интервала, в который попало случайное число. Таким образом, формируется кластер из па сетевых узлов. Если в кластере какой-либо узел повторяется два раза, то выбрасывается еще случайное число и получается другой сетевой узел. Таким образом, формируется п кластеров по па узлов в каждом, при этом должно выполняться условие па < п.

3. Для каждого /-го кластера рассчитывается распознающая функция (5). Выбирается самое большое значение распознающей функции, которой будет соответствовать какой-то кластер (какая-то совокупность па сетевых узлов), и самое наименьшее значение распознающей функции кластера. Таким образом, сетевые узлы, входящие в кластер с наибольшей распознающей функцией, признаются наиболее информативными и поощряются за счет кластера с самыми неинформативными сетевыми узлами, которому соответствует наименьшее значение распознающей функции. Поощрение производится путем увеличения интервалов сетевых узлов самого за-

N

груженного кластера за счет уменьшения интервалов сетевых узлов самого незагруженного кластера. Величина поощрения, как правило, выбирается в два раза меньше интервала, который соответствует сетевым узлам на первом шаге. На первом шаге все интервалы сетевых узлов равны. При выполнении второго шага интервалы сетевых узлов, входящих в самую загруженную совокупность, будут увеличены. Таким образом, каждому сетевому узлу уже будет соответствовать не равные интервалы. Одни будут больше, другие меньше. Далее с помощью ДСЧ определяются новые кластеры (совокупности) из па сетевых узлов, и процедура повторяется. Процедуры будут повторяться до тех пор, пока наиболее информативная совокупность (кластер) из па сетевых узлов не будет повторяться от шага к шагу.

4. Выводы и интерпретация по результатам расчетов. Находятся остальные (п - 1) совокупности сетевых узлов (кластеры), у которых нормированная информативность уменьшается.

Таким образом, этот алгоритм формирования кластеров информативных узлов сети позволяет выделить самый информативный кластер сетевых узлов и (п - 1) кластеров, информативность которых будет уменьшаться, последний кластер будет самым неинформативным по сравнению с другими рассматриваемыми кластерами.

Такой алгоритм выбора кластеров с наиболее информативными сетевыми узлами выгодно применять, особенно при формировании динамической структуры информативности сетевых узлов в рассматриваемой вычислительной сети в фиксированные промежутки времени, которая располагает большим числом узлов.

2. Расчетный пример формирования кластеров информативных сетевых узлов На основе вычислительной активности в устройствах п сетевых узлов требуется построить кластеры наиболее информативных па узлов, па < п. По условиям исходных данных п = 14, п = 5 (табл. 1).

Исходные данные по расчетной ситуации формирования информативных сетевых узлов

Таблица 1

к Сетевые узлы, т, '=1,2,.. ,,п,]=1,2,.. .,1 , к = 1, .., К к ? 5 5

1 1 т 1 2 т 1 з т з 4 т 2 5 т 2 6 т 1 7 т4 8 т 1 9 т 5 10 т 1 11 т 1 12 т 2 1з т 1 14 т 1 /=15.11

2 1 т 1 2 т 1 з т з 4 т 2 5 т 2 6 т 1 7 т 5 8 т 1 9 т 5 10 т 1 11 т 1 12 т 2 1з т 1 14 т 1 /2=15.22

3 т*4 2 т 4 з т з 4 т 2 5 т 2 6 т 1 7 т „ 6 8 т 1 9 т 7 10 т 5 11 т 1 12 т з 1з т 5 14 т 1 /з=15.зз

4 1 т 5 2 т 4 тз,6 4 т 2 5 т 2 6 т 1 7 т „ 6 8 т 1 9 т 7 10 т 5 11 т 1 12 т з 1з т 1 14 т 1 /4=15.44

5 т'4 2 т з з т4 4 т 2 5 т 2 6 т 1 7 т 7 8 т 1 9 т 4 10 т 2 11 т 1 12 т з 1з т 2 14 т 2 /5=15.55

6 т'4 2 т з з т4 4 т 2 5 т 2 6 т 4 7 т 7 8 т 4 9 т 4 10 т 1 11 т 1 12 т з 1з т 1 14 т 1 /6=16.06 6

7 т'4 2 т 4 з т з 4 т 2 5 т 2 6 т 1 7 т 5 8 т 1 9 т 7 10 т 2 11 т 1 12 т 5 1з т 2 14 т 1 /7=16.17

8 т*4 2 т з з т 2 4 т 2 5 т 2 6 т 1 7 т 7 8 т4 9 т 4 10 т 2 11 т 1 12 т з 1з т з 14 т 1 /8=16.28

9 1 т 1 2 т 5 з т з 4 т 2 5 т 2 6 т 1 7 т 2 8 т 1 9 т 4 10 т 1 11 т 1 12 т 1 1з т 1 14 т 1 /9=16.з9

10 т'2 2 т 1 з т з 4 т 1 5 т 6 т 1 7 т 2 8 т 9 т 2 10 т 1 11 т 1 12 т 1з т 1 14 т 1 /10=1650

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

11 1 т 1 2 т 1 з т з 4 т 2 5 т 2 6 т 1 7 т 5 8 т 1 9 т 5 10 т 2 11 т 1 12 т 2 1з т 1 14 т 1 /11=1701

12 1 т 1 2 т 1 з т з 4 т 2 5 т 6 т 1 7 т 2 8 т 1 9 т 4 10 т 1 11 т 1 12 т з 1з т 1 14 т 1 /12=17.12

13 1 т 1 2 т 1 з т 2 4 т 2 5 т4 6 т 1 7 т 2 8 т 1 9 т 4 10 т 1 11 т 1 12 т 2 1з т 1 14 т 1 /1з= 17.2з

14 1 т 1 2 т 5 з т 1 4 т з 5 т 1 6 т 1 7 т 2 8 т 1 9 т 1 10 т 1 11 т 2 12 т 1 1з т 1 14 т 1 /14=17.з4

15 т'4 2 т 1 з т4 4 т 2 5 т4 т 7 т 1 8 т 5 9 т 5 10 т 1 11 т 1 12 т 4 1з т 1 14 т 1 /15= 17.45

16 т*4 2 т з з т4 4 т 2 5 т4 6 т 1 7 т 2 8 т 5 9 т 2 10 т 1 11 т 1 12 т 1 1з т 1 14 т 1 ^ =17.56 16

17 т*4 2 т 1 з т4 4 т 2 5 т4 6 т 1 7 т 7 8 т4 9 т 7 10 т 2 11 т 2 12 т з 1з т 4 14 т 2 /17=18.07

18 т*4 2 т 1 з т 5 4 т 2 5 т4 6 т 1 7 т 7 8 т 4 9 т 7 10 т 2 11 т 2 12 т з 1з т 4 14 т 2 /18=1818

19 т*4 2 т 4 з т з 4 т 2 5 т з 6 т 1 7 т 7 8 т4 9 т 7 10 т 2 11 т 1 12 т 5 1з т 2 14 т 1 /19=18.29

20 т'4 2 т 2 з т . 6 4 т 2 5 т 4 6 т 1 7 т 7 8 т 1 9 т 7 10 т 2 11 т 1 12 т 5 1з т 2 14 т 2 /20=18.40

21 1 т з 2 т 2 з т 5 4 т 2 5 т 4 6 т 1 7 т 7 8 т 1 9 т 4 10 т 2 11 т 1 12 т 5 1з т 2 14 т 2 /21=18.51

Продолжение таблицы

к Сетевые узлы, mj, i = 1, 2,..., n, j = 1,2,...,/. t, к = 1, .., K к'

22 m\ 2 m 1 3 m 3 4 m 1 5 m 2 6 m 1 7 m 2 8 m 1 9 m 4 10 m 1 11 m 1 12 m 3 13 m 1 14 m 1 t22=19.02

23 1 m 1 2 m 2 3 m 5 4 m 2 5 m 2 6 m 1 7 m 5 8 m 1 9 m 4 10 m 1 11 m 1 12 m 5 13 m 1 14 m 1 t23=1913

24 1 m 5 2 m 2 3 m 5 4 m 2 5 m 2 6 m 1 7 m 5 8 m 1 9 m 4 10 m 1 11 m 1 12 m 3 13 m 2 14 m 1 t24=19.24

25 m'4 2 m 4 3 m 3 4 m 2 5 m 3 6 m 1 7 m 7 8 m 4 9 m 7 10 m 1 11 m 1 12 m 5 13 m 2 14 m 1 t25=19.35

26 1 m 1 2 m 2 3 m 5 4 m 2 5 m 3 6 m 1 7 m 2 8 m 1 9 m 7 10 m 1 11 m 1 12 m 5 13 m 1 14 m 1 t26=19.46

27 1 m 1 2 m 2 3 m 5 4 m 2 5 m 6 m 1 7 m 2 8 m 1 9 m 4 10 m 1 11 m 1 12 m 13 m 1 14 m 1 t27=19.57

28 m*4 2 m 3 3 m 5 4 m 2 5 m 4 6 m 1 7 m 5 8 m 1 9 m 4 10 m 1 11 m 1 12 m 3 13 m 1 14 m 1 t28=20.08

29 1 m 1 2 m 2 3 m 5 4 m 1 5 m 2 6 m 4 7 m 9 8 m 1 9 m 4 10 m 1 11 m 1 12 m 3 13 m 1 14 m 1 t29=20.19

30 m'2 2 m 1 3 m 3 4 m 2 5 m 4 6 m 1 7 m 8 8 m 5 9 m 2 10 m 1 11 m 2 12 m 1 13 m 1 14 m 1 t30=20.30

31 1 m 1 2 m 5 3 m 4 4 m 2 5 m 5 6 m 1 7 m 3 8 m 5 9 m 10 m 11 m 2 12 m 13 m 1 14 m 1 t31=20.41

32 m'4 2 m 3 3 m 4 4 m 2 5 m 4 6 m 1 7 m 7 8 m 5 9 m 10 m 11 m 2 12 m 13 m 14 m 1 t32=20.52

33 1 m 1 2 m 3 3 m 3 4 m 2 5 m 4 6 m 1 7 m8 8 m 5 9 m 10 m 11 m 2 12 m 13 m 1 14 m 1 t33=21.03

34 1 m 1,2,3 2 m 5 3 m 3 4 m 1 5 m 4 6 m 1 7 m8 8 m 1 9 m 2 10 m 1 11 m 2 12 m 13 m 1 14 m 1 t34=21.14

35 1 m 1 2 m 3 3 m 4 4 m 2 5 m 4 6 m 1 7 m 7 8 m 5 9 m 4 10 m 1 11 m 2 12 m 3 13 m 1 14 m 1 t35=21.25

36 m\ 2 m 5 3 m 1 4 m 1 5 m 4 6 m 1 7 m 8 8 m 1 9 m 4 10 m 1 11 m 2 12 m 1 13 m 1 14 m 1 t36=21.36 36

37 1 m 1,2 2 m 1 3 m 3 4 m 1 5 m 4 6 m 1 7 m 8 8 m 1 9 m 2 10 m 1 11 m 2 12 m 1 13 m 1 14 m 1 t37=21.47

38 1 m 3 2 m 5 3 m 5 4 m 2 5 m 2 6 m 1 7 m 7 8 m 1 9 m 7 10 m 1 11 m 2 12 m 5 13 m 3 14 m 1 t38=2158

Характеристика расчетной ситуации: 1. Число сетевых узлов п = 14, число информативных узлов в кластере па = 5. 2. Расчетное время Г = Т - Г„. г расч 0 3. Дискретные моменты времени Гк для фиксации активности /-го устройства сетевых узлов в моменты времени Гк = Г0 +А- к, к=1,2,..., К. 4. Характеристика наполнения сетевых узлов устройствами: 11= /2= 15= /12= /13= 5, 13= 6, 14= 1 = /10= 3, /7= 9, 19 = 7, /6= 111= 114= 2. Итого в рассматриваемой сети 62 устройства, распределенных по 14-и сетевым узлам. 5. Временные характеристики: 1) начальный момент времени Г0= 15.00, конечный момент времени Т = 21.58 (~ 7 час); 2) расчетное время Г асч= 418 мин; 3) временной интервал А = 11 мин, к = 1, .., К, К = 38.

Порядок построения кластера информативных сетевых узлов

1. Уяснение исходных данных и сущности постановки задачи по построению кластеров наиболее информативных узлов.

Рассматриваются сетевые узлы вычислительной сети, в табл. 1 их представлено 14. Каждому устройству сетевого узла соответствует временной интервал А по таблице. Для 34-го временного интервала первого сетевого узла активны 1-е, 2-е и 3-е устройства, а 37-го временного интервала активны 1-е и 2-е устройства. Учитывая это, для первого узла будет всего активно 41 устройство. Аналогичная ситуация может наблюдаться и для других сетевых узлов.

Сущность постановки задачи заключается в выявлении наиболее активных в информативном плане сетевых узлов в сети. По условию задачи количество таких узлов

в выделяемой наиболее информативной совокупности (кластере) должно быть па = 5. Наиболее востребован узел, для которого наблюдается наибольшее изменение вычислительной активности (информативности), т.е. узел, который несет наибольшую информативную нагрузку при работе с данными. Таким образом, задача сводится к ранжированию сетевых узлов по информативности и отбору наиболее важных узлов, па = 5, с наибольшим коэффициентом информативности (4).

2. Расчет информативности для каждого сетевого узла.

Для первого сетевого узла т в соответствии с исход- - 11111

ными данными имеем 5 видов устройств: т 1т 2т 3т 4т Для каждой к-й реализации фиксируется наиболее загруженное в вычислительном плане устройство узла. Реализация формализуется вектором, выражение (1).

Из общей совокупности устройств /-го сетевого узла выберем устройство, для которого выполняется условие

max[^Kmlkjj, i = 1,n, j = 1,1,

номер наиболее загруженного устройства обозначается как q. Каждый узел можно представить вектором m размерностью 1 х lгде все его составляющие нули, а значение, ответствующее наиболее нагруженному устройству — 1. Тогда для первого узла вектор m = (10000), для второго m2 = (10000), третьего m3 = (001000) и т.д. Такое представление удобно в плане визуализации наиболее активного в вычислительном плане устройства в составе сетевого узла. Для первого узла q = 1, для второго q = 1, для третьего q = 3 и т.д. (рис. 2, табл. 2).

В табл. 2 представлены результаты расчета информативности всех 14 сетевых узлов.

3. Выбор заданного количества сетевых узлов (na = 5) из общей совокупности узлов сети (n = 14). Процедура выбора будет заключаться в реализации алгоритма формирования кластеров информативных узлов.

Шаг 1

Интервал [0,1] разбивается на 14 интервалов величиной 0,071 (1/14 = 0,071). Следует отметить, что последний

Результаты пром1

интервал будет несколько больше (0,077), что обусловлено небольшой погрешностью при вычислениях. Получаем 14 равных интервалов, каждому интервалу соответствует сетевой узел (шаг 1 табл. 2, рис. 2).

С помощью ДСЧ формируются векторы случайных величин размерностью 5 х 1 в соответствии с количеством сетевых узлов в кластере п = 5. На рис. 2 показано, для примера, 7 таких векторов. Если в интервал попадало два, и более, случайных величин, то моделировалось новое случайное число, на рисунке такие числа показаны в скобках после каждого вектора. Таким образом, добивались того, что в кластере не было повторяющихся узлов. Для наглядности номера сетевых узлов и граничные значения интервалов представлены матрицей Е размерностью 14х 2. При расчетах использовался авторский датчик случайных величин [25], представленный программным модулем с начальными параметрами: константы W, W1 и количество выбрасываемых случайных величин п (в примере получено 550 равномерно распределенных случайных величин). Использование такого ДСЧ в демонстрационных расчетах очень удобно, т.к. последовательность случайных величин можно в любой момент восстановить и проверить правильность расчетов, что очень важно при отладке программы. Количество совокупностей (кластеров) выбирается 14 для примера.

Таблица 2

точных расчетов

Процедура расчета Сетевой узел

1 m 2 m 3 m 4 m 5 m 6 m 7 m 8 m 9 m 10 m 11 m 12 m 13 m 14 m

—i m 10000 10000 0010 00 010 01000 10 00000 0100 100 00010 00 100 10 00100 1000 0 10

Р 83 71 101 68 83 37 122 109 110 59 38 71 112 38

N. 41 38 39 38 35 37 38 37 35 35 38 32 37 38

Р 2,024 1,868 2,59 1,789 2,371 1,0 3,211 2,946 3,143 1,686 1,0 2,219 3,027 1,0

Шаг 1 0,00,071 0,0710,142 0,142 -0,213 0,2130,284 0,2840,355 0,3550,426 0,4260,497 0,4970,568 0,5680,639 0,6390,71 0,710,781 0,7810,852 0,8520,923 0,9231,0

Шаг 2 0,00,071 0,0710,142 0,142 -0,213 0,2130,244 0,2440,315 0,3150,386 0,3860,457 0,4570,568 0,5680,639 0,6390,71 0,710,741 0,7410,852 0,8520,963 0,9631,0

Шаг 3 0,00,071 0,0710,102 0,102 -0,173 0,1730,204 0,2040,275 0,2750,306 0,3060,377 0,3770,528 0,5280,639 0,6390,750 0,750,781 0,7810,852 0,8521,0 1,0-1,0

¿1 0 1 0 0 0 0 0 0 0 () 0 0 0 0 0 1 0 0 1 1 0 1 0 1 0 1 0 0 0 0 0 0 0 0 0

0 0 « 0

0 0 0 0 1 0 0 0 0 0 1 0 1 0 0 0 1 0 () 1 1 0 0 0 1 0 1 t 1 0 0 1 1 I 0

0 0 0^

0 0 0

0 1 0

0 0 ]

0 1 0

0 0 0

0 I 0

0 1 0

0 I 0 0 1 0 0 1 0 0 1 0

1 0 0 0 1 0 0 0 0 0 0 ] 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0

0 I 0 0 0 0

1 0 0 0 0 0 0 0 0 0 0 0

1 0 0/

WN <- 49638521 for ie0..n- 1 A W1 - WN WN mod(A, W) WN

r. <i

W

n=:= 550 j := 0.. n - 1 999563 W1 := 470001

( 0.24:0) 0.15 0.441 0.931 v0.647y ( 0.66 ^

0.243

0.15

0.441

0.931

0.647

0.356

0.043

0.616

0.477

0.016

0.83

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

0.422

0.627

0.046

0.213

F :=

f 0.3 56>

0.043 0.627

0.616 0.046

0.477 0.213

v0.016; ^0.729;

(0.83)

f 1 0.07

2 0.142

3 0.213

4 0.284

5 0.355

6 0.426

7 0.497

8 0.568

9 0.639

10 0.71

11 0.781

12 0.852

13 0.923 \ 14 i.O j

Network node numbers in the first 7 clusters

0.185 '0.767^ ^ 0.262^

0.085 0.284 0.789

0.749 0.365 0.356

0.406; 0.356 0.989

0,807^ v 0.105; ,0.974.,

0.791 (0.39) (0.032)

(0.415)

0.605 (0.321)

0.991

0.471 )

(0,846)

(0.055)

4 3 7 14 10

6 1 9 7 (1)

6 9 1 3 11

10 3 2 11 6

11 4 6 (6) 2

4 12 6 14 (14)

12 (12) 9 14 7

j := 0.. 4 k :=0.. 37

12

(6) I

(12)

m i

IH.i -

Calculated dependencies for determining the informativeness of the first network node

16

15

ZiZ|mlk,0~mlk,j|

= 83

VrVml,

p 1 nor :=

kj

ZiX|ralk,o-»v,|

= 41

IfX

ml,

17

31

18

pi nor = 2.024

Рнс. 2. PacHeTHtiH Mogyjit b cucTeMe Mathcad

Порядок формирования совокупностей (кластеров) сетевых узлов.

1. Моделируется 5 случайных чисел: 0,243; 0,15; 0,441; 0,931; 0,647. Число 0,243 располагается на участке сетевого узла да4, 0,15 - да3, 0,441 - да7, 0,931 - да14, 0,647 - да10 (см. рис. 2).

2. Моделируется 5 случайных чисел: 0,356; 0,043; 0,616; 0,477; 0,016 (0,83). Число 0,356 располагается на участке сетевого узла да6, 0,043 - да1, 0,616 - да9, 0,477 - да7, 0,016 - да1 (т.к. был повтор сетевого узла да1, еще раз выбрасывается случайное число 0,83 - да12) и т.д.

Аналогично получаются и остальные совокупности (кластеры) сетевых узлов:

6913 11 . 10 3 2 11 6 - 11 46 2 5

3. дадададада ; 4. т ттт т ; 5. т т ттт ;

^ 4 12 6 14 1 - 12 9 14 7 1 о 6 13 14 10 9

6. т т т т т ; 7. т т т т т ; 8. т т т т т ;

Г, 13 9 10 14 11 1А 14 8 12 7 5 1 1 8 13 12 7 6

9. т тт т т ; 10. т тт тт ; 11. тт т тт ;

11 13 4 14 5 2 7 3 11 4 7 11 6 14 4

12. т т т т т ; 13. т т т т т ; 14. т т т т т .

Для каждой совокупности (каждого кластера) сетевых узлов рассчитывается распознающая функция (5). Для

4 3 7 14 10

первого кластера сетевых узлов, т т т т т , распознающая функция равна 10,276 (1,789+2,59+3,211+1,0+1,686 = = 10,276). Для всех 14 кластеров сетевых узлов распознающие функции имеют следующие значения:

I) 10,276; 2) 11,597; 3) 9,757; 4) 8,144; 5) 8,028;

6) 8,032; 7) 11,597; 8) 9,856; 9) 9,856; 10) 11,747;

II) 12,403; 12) 9,187; 13) 10,458; 14) 8,0.

Шаг 2

Выбирается самое большое значение распознающей функции, оно будет соответствовать 11-й совокупности сетевых узлов и самое наименьшее — 14-я совокупность. Таким образом, сетевые узлы, входящие в 11-ю совокупность (11-й кластер) признаются наиболее информативными и поощряются за счет самой неинформативной 14-й совокупности (14-го кластера). Поощрение производится путем увеличения интервалов сетевых узлов самого информативного кластера за счет уменьшения интерва-

лов сетевых узлов самого неинформативного кластера. Величина поощрения, как правило, выбирается в два раза меньше интервала, который соответствует сетевым узлам на первом шаге. На первом шаге все интервалы сетевых узлов равны.

Сетевые узлы, входящие в 11-й кластер признаются более информативными и поощряются за счет сетевых уз-

8 13 12 7 6

лов 14-го кластера, т.е. к узлам т т т т т добавляется «поощрение» 0,04, а у узлов тт11т6т14т4 0,04 вычитается (шаг 2 табл. 2). При расчетах можно обнаружить некото-

14

рую погрешность для сетевого узла т , вызванную делением отрезка [0,1] на 14 частей.

Далее с помощью ДСЧ определяются новые совокупности сетевых узлов (кластеры):

, 7 10 2 12 8 ,, 8 3 10 13 9 ^ 12 5 11 13 1

1. тт тт т ; 2. ттт т т ;3. т тт т т ;

. 8 9 10 13 7 - 1 6 12 9 2 г 12 11 10 7 1

4. т т т т т ; 5. т т т т т ; 6. т т т т т ;

12 7 3 11 4 13 8 9 11 7 13 8 2 11 5

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

7. т т т т т ; 8. т т т т т ; 9. т т т т т ;

12 14 2 4 3 2 7 6 14 12 7 4 1 10 2

10. т т т т т ; 11. т т т т т ; 12. т т т т т ;

13 2 6 12 4 4 13 6 7 12

13. т ттт т7; 14. тт ттт .

Для всех 14-и кластеров сетевых узлов рассчитываются распознающие функции:

I) 11,93; 2) 13,392; 3) 10,641; 4) 14,013; 5) 10,254; 6) 10,14; 7) 10,809; 8) 13,327; 9) 11,212; 10) 9,466;

II) 9,298; 12) 10,578; 13) 11,325; 14) 11,246.

Опять выделяется наиболее информативный 4-й кла-

8 9 10 13 7 2 7 6 14 12

стер — ттт т т и не информативный—тттт т . В соответствии с ними интервалы шага 2 преобразуются в интервалы шага 3 (табл. 2).

В табл. 3 приведены результаты расчетов до шестого шага включительно. Наиболее информативная совокуп-

3 7 8 9 13

ность сетевых узлов т т т т т начала повторяться с пятого шага.

4. Выводы и интерпретация по результатам расчетов. Полученная совокупность сетевых узлов является искомой. Такую схему формирования наиболее информативных сетевых узлов, в данном случае пять узлов, выгодно применять особенно при формировании структуры

Таблица 3

Лучшие сочетания сетевых узлов

Шаг и'а (сетевые узлы)

1 2 3 4 5 6 7 8 9 10 11 12 13 14

т т т т т т т т т т т т т т

1 0 0 0 0 0 1 1 1 0 0 0 1 1 0

2 0 0 0 0 0 0 1 1 1 1 0 0 1 0

3 0 0 0 1 0 0 1 1 1 0 0 0 1 0

4 0 0 1 0 0 0 1 1 1 0 0 0 1 0

5 0 0 1 0 0 0 1 1 1 0 0 0 1 0

6 0 0 1 0 0 0 1 1 1 0 0 0 1 0

Таблица 4

Наиболее информативные кластеры (совокупности) сетевых узлов

1 m 2 m 3 m 4 m 5 m 6 m 7 m 8 m 9 m 10 m 11 m 12 m 13 m 14 m S

0 0 1 0 0 0 1 1 1 0 0 0 1 0 14,917

0 0 0 0 1 0 1 1 1 0 0 0 1 0 14,698

0 0 0 0 0 0 1 1 1 0 0 1 1 0 14,546

1 0 0 0 0 0 1 1 1 0 0 0 1 0 14,351

0 1 0 0 0 0 1 1 1 0 0 0 1 0 14,195

0 0 0 1 0 0 1 1 1 0 0 0 1 0 14,116

0 0 0 0 0 0 1 1 1 1 0 0 1 0 14,013

0 0 0 0 0 0 1 1 1 0 1 0 1 0 13,327

0 0 0 0 0 0 1 1 1 0 0 0 1 1 13,327

0 0 0 0 0 1 1 1 1 0 0 0 1 0 13,327

Calculation of the total information content coefficient

pinorm:= (2.024 1.868 2.59 1.789 2.371 1.0 3.211 2.946 3.143 1.686 1.0 2.219 3.027 1.0)

ml 14:= pinorm

mr := sort (ml 14)

k:= 9.. 13

14.917 m^:= 2.371 ^irn^ = 14.698 mr9 := 2.219 ^m^ = 14.546 mr9 := 2.024

Xmrk

= 14.351 mr -=li

14.195 mr9:= 1.789 14.116 := 1.6

^irn^ = 14.013 mr9 := 1.0 ^mrk = 13.327

Рис. 3. Расчетный модуль в системе Mathcad по получению £^норм узл для первых 10 наиболее информативных кластеров сетевых узлов (п = 5)

информационных и вычислительных сетей, для которых имеется очень большое количество узлов, состоящих из разнообразных устройств.

Если расположить кластеры по возрастанию их суммарного коэффициента информативности (табл. 4, рис. 3), то видно, что по составу они отличаются всего на один сетевой узел, т. е. теряется вариантность рассматриваемых кла-

стеров. В этом плане повышается значимость предлагаемого алгоритма, который как раз и обеспечивает вариантное наполнение сети кластерами информативных узлов (см., например, табл. 5). Если построить пространство кластеров информативных узлов в соответствии и табл. 5 (рис. 4), то можно увидеть, что структура такого пространства — структура перекрытий (рис. 1).

Таблица 5

Самый информативный кластер и первые 4 кластера информативных узлов в расчетном примере, шаг 2

1 m 2 m 3 m 4 m 5 m 6 m 7 m 8 m 9 m 10 m 11 m 12 m 13 m 14 m S

0 0 1 0 0 0 1 1 1 0 0 0 1 0 14.917

0 1 0 0 0 0 1 1 0 1 0 1 0 0 11.93

0 0 1 0 0 0 0 1 1 1 0 0 1 0 13.392

1 0 0 0 1 0 0 0 0 0 1 1 1 0 10.641

0 0 0 0 0 0 1 1 1 1 0 0 1 0 14.013

Рис. 4. Пространство кластеров информативных узлов в расчетном примере, шаг 2

Имея такое представление кластеров информативных сетевых узлов можно делать выводы, где в сети наиболее интенсивно ведется интегрированная и распределенная обработка данных за расчетное время.

Заключение

В статье показаны актуальность разработки методического аппарата по формированию информативных сетевых узлов, их кластеров, возможные виды пространств информативных узлов в вычислительных сетях, что дает возможность выделять сетевые структуры, в которых нарабатываются большие данные. Проведены обзоры интегрированной и распределенной обработки данных в сетевых структурах с учетом интеллектуального и когнитивного анализов данных, применение метрик расстояний, учитывающих разнородность данных. На основе анализа известных моделей и алгоритмов по определению важных, влиятельных, узлов в разнообразных сетевых структурах представлена целевая установка исследования, в соответствии с которой получены следующие результаты.

1. Математическая модель оценки информативности сетевого узла, учитывающая особенности данных по активности вычислительных устройств за расчетное время.

2. Алгоритм формирования кластеров информативных узлов с помощью теорий распознавания образов и имитационного моделирования.

3. Расчетный пример, иллюстрирующий формирование информативных кластеров и их пространств, с соответствующими выводами и интерпретацией результатов расчета.

Элементом новизны исследования является учет особенностей данных по вычислительной активности устройств сетевого узла на основе использования метрики Манхеттена при формировании информативности узла.

Отметим, что для определения исходных параметров с целью исследования характеристик реальных систем и выделения информативных кластеров целесообразно воспользоваться данными систем интеллектуального мониторинга и управления центрами распределенной обработки данных [26]. Для прогнозного определения характеристик оперативности распределенной обработки данных в рассмотренных сетевых структурах на основе выделения информативных кластеров, на наш взгляд, целесообразно использовать методы и модели исследования не Марковских систем и сетей массового обслуживания [27].

Результаты исследования могут быть использованы при моделировании динамики изменения информативности сетевых структур во времени, а также планирования профилактических мероприятий по поддержанию устойчивого функционирования сетевых структур, их информационной безопасности, при наработке больших данных.

Литература

1. Shamsuddin N.R., Mahat N.I. Investigation on the Cluste-rability of Heterogeneous Dataset by Retaining the Scale of ariables // Mathematics and Statistics. 2019. Vol. 7. No. 4A. Pp. 49-57.

2. Bochkov A., Pervukhin D., Grafov A., Nikitina V. Construction of Lorenz Curves Based on Empirical Distribution Laws of Economic Indicators // Mathematics and Statistics. 2020. Vol. 8. No. 6. Pp. 637-644.

3. Erna Qi, Xingrui Yang, Zongjun Wang. Data mining and visualization of data-driven news in the era of big data // Cluster Computing. 2019. Vol. 22. Pp. 10333-10346.

4. Jing Hu, Xianbin Xu. Research on real-time network data mining technology for big data//EURASIP Journal on Wireless Communications and Networking. 2019. Vol. 2019. Article No.: 139. Pp. 1-6.

5. Mu-Jung Huang, Hsiu-Shu Sung, Tsu-Jen Hsieh, Ming-Cheng Wu, Shao-Hsi Chung. Applying data-mining techniques for discovering association rules // Soft Computing. 2020. Vol. 24. Pp. 8069-8075.

6. Yuan Guo, Nan Wang, Ze-Yin Xu, Kai Wu. The internet of things-based decision support system for information processing in intelligent manufacturing using data mining technology // Mechanical Systems and Signal Processing. 2020. Vol. 142. Pp. 106630.

7. Ellouzi H., Ltifi H., Ayed M.B. Multi-agent modelling of decision support systems based on visual data mining // Multiagent & Grid Systems. 2017. Vol. 13. Issue 1. Pp. 31-45.

8. Ning Ma, Fu Weina. Feature fusion analysis of big cognitive data // Multimedia Tools and Applications: An International Journal. 2020. Vol. 79. Issue 9-10. Pp. 5461-5475.

9. Wei Xiao, Zhang Jun, Zeng Daniel Dajun, Li Qing. A multi-level text representation model within background knowledge based on human cognitive process for big data analysis // Cluster Computing: The Journal of Networks, Software Tools and Applications. 2016. Vol. 19. Issue 3. Pp. 1475-1487.

10. JinHu. Data processing model and performance analysis of cognitive computing based on machine learning in Internet environment // Soft Computing — A Fusion of Foundations, Methodologies & Applications. 2019. Vol. 23. Issue 19. Pp. 9141-9151.

11. Yingxu Wang, Jun Peng. Big Data Analytics: A Cognitive Perspectives // International Journal of Cognitive Informatics & Natural Intelligence. 2017. Vol. 11. Issue 2. Pp. 41-56.

12. Ning Ma, Fu Weina. Feature fusion analysis of big cognitive data. Multimedia Tools and Applications // An International Journal. 2020. Vol. 79. Issue 9-10. Pp. 5461-5475.

13. Mei Jian-Ping, Lv Huajiang, Yang Lianghuai, Li Yanjun. Clustering for heterogeneous information networks with extended star-structure // Data Mining & Knowledge Discovery. 2019. Vol. 33. Issue 4. Pp. 1059-1087.

14. De Maesschalk R., Jouan-Rimbaud D., Massart D. L. The Mahalanobis distance // Chemometrics and Intelligent Laboratory Systems. 2000. Vol. 50. Pp. 1-18.

15. Ahmad A., Khan S. S. Survey of State-of-the-Art Mixed Data Clustering Algorithms // IEEE Access. 2019. Vol. 7. Pp. 31883-31902.

16. Foss A.H., Markatou M., Ray B. Distance Metrics and Clustering Methods for Mixed-Type Data: Clustering Methods for Mixed-type Data // International Statistical Review. 2018. Vol. 87. No. 7.

17. Mengdi Huai, Chenglin Miao, Yaliang Li, Qiuling Suo, Lu Su, Aidong Zhang. Learning Distance Metrics from Probabilistic

Information // ACM Transactions on Knowledge Discovery from Data. 2020. Vol. 14. Issue 5. Pp. 1-33.

18. Bian Tian, Deng Yong. Identifying influential nodes in complex networks: A node information dimension approach // Chaos: An Interdisciplinary Journal of Nonlinear Science. 2018. Vol. 28. Issue 4. P. 043109.

19. Pu Jun, Chen Xiaowu, Wei Daijun, Liu Qi, Deng Yong. Identifying influential nodes based on local dimension // EPL (Europhysics Letters). 2014. Vol. 107. Issue 1. Pp. 10010.

20. ZhangX., Zhu J., Wang Q., Zhao H. Identifying influential nodes in complex networks with community structure // Knowledge-Based Systems. 2013. Vol. 42. Pp. 74-84.

21. infang Sheng, Jiafu Zhu, Yayun Wang, Bin Wang, Zheng'angHou. Identifying Influential Nodes of Complex Networks Based on Trust-Value // Algorithms. 2020. Vol. 13. DOI: https://doi. org/10.3390/a13110280

22. Zhang J., Wang B., Sheng J., Dai J., Hu J., Chen L. Identifying Influential Nodes in Complex Networks Based on Local Effective Distance // Information. 2019. Vol. 10. Issue 10. P. 311.

23. Bian Tian, Jiantao Hu, Yong Deng. Identifying influential nodes in complex networks based on AHP // Physica A-statistical Mechanics and Its Applications. 2017. Vol. 479. Pp. 422-436.

24. Hui Xu, Jianpei Zhang, Jing Yang, Lijun Lun. Identifying Important Nodes in Complex Networks Based on Multiattribute Evaluation // Mathematical Problems in Engineering. 2018. Pp. 1-11. DOI: https://doi.org/10.1155/2018/8268436

25. Патент РФ 1381499. Датчик равномерно распределенных случайных чисел / Филюстин А. Е., Боев В. Д., Бочков А. П., Волков В. А., Голик Е. С. Заявл. 29.11.1985. Опубл. 15.03.1988. Бюл. № 10. 4 с.

26. Лохвицкий В. А., Хомоненко А. Д., БольшаковМ. А. О построении кибервизора системы интеллектуального мониторинга и управления центрами распределенной обработки данных // Проблемы информационной безопасности. Компьютерные системы. 2018. № 4. С. 9-13.

26. Гиндин С. И.,ХомоненкоА. Д., ЯковлевВ. В., МатвеевС. В. Модель оценивания оперативности распределенной обработки данных с учетом затрат на обеспечение информационной безопасности // Проблемы информационной безопасности. Компьютерные системы. 2013. № 4. С. 59-67.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ

MODEL OF FORMATION OF CLUSTERS OF INFORMATIVE NODES OF INTEGRATED AND DISTRIBUTED DATA PROCESSING IN A COMPUTER NETWORK

ALEKSANDR P. BOCHKOV

St. Petersburg, Russia, kostpea@mali.ru

ANATOLIY D. KHOMONENKO

St. Petersburg, Russia, khomon@mali.ru

KEYWORDS: computer network; cluster; informative network node; network node devices; integrated and distributed data processing; Manhattan metric.

ANATOLIY M. BARANOVSKY

St. Petersburg, Russia, bamvka@mali.ru

ABSTRACT

The spread of network and computational technologies is relevant when solving applied issues in various areas of human activity. One of these issues is the accumulation of data in network and computing structures. The solution of the corresponding problem is made on the basis of integrated and distributed data processing in computer networks, which is characterized by the use of intelligent and cognitive data analysis, as well as distance metrics. The purpose of this study is to develop a mathematical model that takes into account the peculiarities of the computing activity of network node devices to calculate its informative load for the estimated time and the formation of clusters of informative nodes (their spaces) in computer networks. On the basis of data mining, it is proposed to consider deviations in the computing activity of network devices as information content of a network node, the ability to generate big data. In further modeling, the methods of the theories of pattern recognition and simulation were used, as well as the distance metrics toolkit, which allow to formalize heterogeneous data, taking into account the peculiarities of computer networks. An element of novelty of the proposed mathematical model is that it takes into account the peculiarities of the data of the computing activity of network node devices for the estimated time by using the Manhattan metric. A computational example of the formation of clusters of informative network nodes and their spaces is given. In the calculations, the author's sensor for modeling random variables is used, which significantly increases the quality of calculations and their clarity. The practical significance of the proposed mathematical model lies, first of all, in the fact that it becomes possible to track the dynamics of changes in information content in network structures with a large number of nodes. This makes it possible to control data processing, in addition, to increase the efficiency of computer networks by taking preventive measures to maintain their technical condition and information security.

REFERENCES

1. Shamsuddin N.R., Mahat N.I. Investigation on the Clusterability of Heterogeneous Dataset by Retaining the Scale of Variables. Mathematics and Statistics. 2019. Vol. 7. No. 4A. Pp. 49-57.

2. Bochkov A., Pervukhin D., Grafov A., Nikitina V. Construction of Lorenz Curves Based on Empirical Distribution Laws of Economic Indicators. Mathematics and Statistics. 2020. Vol. 8. No. 6. Pp. 637-644.

3. Erna Qi, Xingrui Yang, Zongjun Wang. Data mining and visualization of data-driven news in the era of big data. Cluster Computing. 2019. Vol. 22. Pp. 10333-10346.

4. Jing Hu, Xianbin Xu. Research on real-time network data mining technology for big data. EURASIP Journal on Wireless Communications and Networking. 2019. Vol. 2019. Article number: 139. Pp. 1-6.

5. Mu-Jung Huang, Hsiu-Shu Sung, Tsu-Jen Hsieh, Ming-Cheng Wu, Shao-Hsi Chung. Applying data-mining techniques for discovering association rules. Soft Computing. 2020. Vol. 24. Pp. 8069-8075.

6. Yuan Guo, Nan Wang, Ze-Yin Xu, Kai Wu. The internet of things-based decision support system for information processing in intelligent manufacturing using data mining technology. Mechanical Systems and Signal Processing. 2020. Vol. 142. Pp. 106630.

7. Ellouzi H., Ltifi H., Ayed M.B. Multi-agent modelling of decision support systems based on visual data mining. Multiagent & Grid Systems. 2017. Vol. 13. Issue 1. Pp. 31-45.

8. Ning Ma, Fu Weina. Feature fusion analysis of big cognitive data. Multimedia Tools and Applications: An International Journal. 2020. Vol. 79. Issue 9-10. Pp. 5461-5475.

9. Wei Xiao, Zhang Jun, Zeng Daniel Dajun, Li Qing. A multi- I evel text representation model within background knowledge based on human cognitive process for big data analysis. Cluster Computing: The Journal of Networks, Software Tools and Applications. 2016. Vol. 19. Issue 3. Pp. 1475-1487.

10. Jin Hu. Data processing model and performance analysis of

cognitive computing based on machine learning in Internet environment. Soft Computing - A Fusion of Foundations, Methodologies & Applications. 2019. Vol. 23. Issue 19. Pp. 9141-9151.

11. Yingxu Wang, Jun Peng. Big Data Analytics: A Cognitive Perspectives. International Journal of Cognitive Informatics & Natural Intelligence. 2017. Vol. 11. Issue 2. Pp. 41-56.

12. Ning Ma, Fu Weina. Feature fusion analysis of big cognitive data. Multimedia Tools and Applications. An International Journal. 2020. Vol. 79. Issue 9-10. Pp. 5461-5475.

13. Mei Jian-Ping, Lv Huajiang, Yang Lianghuai, Li Yanjun. Clustering for heterogeneous information networks with extended star-structure. Data Mining & Knowledge Discovery. 2019. Vol. 33. Issue 4. Pp. 1059-1087.

14. De Maesschalk R., Jouan-Rimbaud D., Massart D. L. The Ma-halanobis distance. Chemometrics and Intelligent Laboratory Systems. 2000. Vol. 50. Pp. 1-18.

15. Ahmad A., Khan S. S. Survey of State-of-the-Art Mixed Data Clustering Algorithms. IEEE Access. 2019. Vol. 7. Pp. 31883-31902.

16. Foss A. H., Markatou M., Ray B. Distance Metrics and Clustering Methods for Mixed-Type Data: Clustering Methods for Mixed-type Data. International Statistical Review. 2018. Vol. 87. No. 7.

17. Mengdi Huai, Chenglin Miao, Yaliang Li, Qiuling Suo, Lu Su, Ai-dong Zhang. Learning Distance Metrics from Probabilistic Information. ACM Transactions on Knowledge Discovery from Data. 2020. Vol. 14. Issue 5. Pp. 1-33.

18. Bian Tian, Deng Yong. Chaos. Identifying influential nodes in complex networks: A node information dimension approach. Chaos: An Interdisciplinary Journal of Nonlinear Science. 2018. Vol. 28. Issue 4. P. 043109.

19. Pu Jun, Chen Xiaowu, Wei Daijun, Liu qi, Deng Yong. Identifying influential nodes based on local dimension. EPL (Europhysics Letters). 2014. Vol. 107. Issue 1. Pp. 10010.

20. Zhang X., Zhu J., Wang Q., Zhao H. Identifying influential nodes in complex networks with community structure. Knowledge-Based Systems. 2013. Vol. 42. Pp. 74-84.

21. Jinfang Sheng, Jiafu Zhu, Yayun Wang, Bin Wang, Zheng'ang Hou. Identifying Influential Nodes of Complex Networks Based on

Trust-Value. Algorithms. 2020. Vol. 13. DOI: https://doi.org/10.3390/ a13110280

22. Zhang J., Wang B., Sheng J., Dai J., Hu J., Chen L. Identifying Influential Nodes in Complex Networks Based on Local Effective Distance. Information. 2019. Vol. 10. Issue 10. P. 311.

23. Bian Tian, Jiantao Hu, Yong Deng. Identifying influential nodes in complex networks based on AHP. Physica A-statistical Mechanics and Its Applications. 2017. Vol. 479. Pp. 422-436.

24. Hui Xu, Jianpei Zhang, Jing Yang, Lijun Lun. Identifying Important Nodes in Complex Networks Based on Multiattribute Evaluation. Mathematical Problems in Engineering. 2018. Vol. 2018. Pp. 1-11. DOI: https://doi.org/10.1155/2018/8268436

25. Patent RF 1381499. Datchik ravnomerno raspredelennyh sluch-ajnyh chisel [Sensor of evenly distributed random numbers]. Filyus-tin A. E., Boev V. D., Bochkov A. P., Volkov V. A., Golik E. S. Declared. 29.11.1985. Published 15.03.1988. Bulletin No. 10. 4 p. (In Rus)

26. Lokhvitskii, V.A., Khomonenko, A.D., Bol'shakov, M. A. On the Construction of a Cybervisor for the Intelligent Monitoring and Control of Data Centers. Automatic Control and Computer Sciences. 2019. No. 53(8). Pp. 870-873.

27. Gindin S. I., Khomonenko A. D., Matveev S. V. Model' ocenivani-ya operativnosti raspredelennoj obrabotki dannyh s uchetom zatrat na obespechenie informacionnoj bezopasnosti [Model Evaluation of Efficiency Distributed Data Processing Including the Spending of Ensuring the Information Security]. Problemy Informatsionnoi Bezopasnosti, Komp'yuternye Sistemy. 2013. No. 4. Pp. 59-67. (In Rus)

INFORMATION ABOUT AUTHORS:

Bochkov A.P., PhD, Professor, Professor of Emperor Alexander I St. Petersburg state transport university;

Khomonenko A.D., PhD, Professor, Head of the Department of Information and Computing systems of Emperor Alexander I St. Petersburg state transport university, professor of Military space academy of A.F. Mozhaysky;

Baranovsky A. M., PhD, Docent, Associate Professor of Emperor Alexander I St. Petersburg state transport university, Associate Professor of Military space academy of A.F. Mozhaysky.

For citation: Bochkov A.P., Khomonenko A.D., Baranovsky A. M. Model of formation of clusters of informative nodes of integrated and distributed data processing in a computer network. H&ES Research. 2021. Vol. 13. No. 1. Pp. 44-57. doi: 10.36724/2409-5419-2021-13-1-44-57 (In Rus)

MODEL OF FORMATION OF CLUSTERS OF INFORMATIVE NODES OF INTEGRATED AND DISTRIBUTED DATA PROCESSING IN A COMPUTER NETWORK

Текст научной работы на тему «МОДЕЛЬ ФОРМИРОВАНИЯ КЛАСТЕРОВ ИНФОРМАТИВНЫХ УЗЛОВ ИНТЕГРИРОВАННОЙ И РАСПРЕДЕЛЕННОЙ ОБРАБОТКИ ДАННЫХ В ВЫЧИСЛИТЕЛЬНОЙ СЕТИ»