Научная статья на тему 'Узлы в социальных сетях: меры центральности и роль в сетевых процессах'

Узлы в социальных сетях: меры центральности и роль в сетевых процессах Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
935
360
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КООРДИНАЦИОННАЯ ИГРА / ОПТИМАЛЬНАЯ СТРАТЕГИЯ / МЕРА ВАЖНОСТИ УЗЛОВ / СОЦИАЛЬНЫЕ СЕТИ / COORDINATION GAME / PURE STRATEGY / NODES CENTRALITY / SOCIAL NETWORKS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Юдина Мария Николаевна

В статье изучается гомогенная подсеть социальной сети «ВКонтакте». В качестве критерия для выделения подсети выступает условие, что узел сети (пользователь) указал в качестве места учебы ОмГТУ. Рассматриваются следующие меры важности узлов: число соседних узлов, влияние на соседние узлы, близость до других узлов, мера посредничества между другими узлами. Находятся наиболее важные узлы в исследуемой сети. Анализируется, как каждая из рассмотренных мер важности соотносится со следующими известными моделями сетевых процессов: «Простой комплемент» и «Координационная игра».

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The nodes of social networks: measures of centrality and role in network processes

Homophily subnet «VKontakte» social network is studied in the article. The condition that the network user specified location as OmSTU serves as a criterion for the subnet mining. The measures of node centrality are considered such as the degree centrality, closeness centrality, relationship centrality, eigenvector centrality. Most important nodes in the subnet are found. There is also considered how each centrality measure is correlated with known models of network processes as «Simple complement» and «Coordination game».

Текст научной работы на тему «Узлы в социальных сетях: меры центральности и роль в сетевых процессах»

УДК 519.2:004.421.5:004.7

М. Н. ЮДИНА

Омский государственный технический университет

УЗЛЫ В СОЦИАЛЬНЫХ СЕТЯХ: МЕРЫ ЦЕНТРАЛЬНОСТИ И РОЛЬ В СЕТЕВЫХ ПРОЦЕССАХ

В статье изучается гомогенная подсеть социальной сети «ВКонтакте». В качестве критерия для выделения подсети выступает условие, что узел сети (пользователь) указал в качестве места учебы ОмГТУ. Рассматриваются следующие меры важности узлов: число соседних узлов, влияние на соседние узлы, близость до других узлов, мера посредничества между другими узлами. Находятся наиболее важные узлы в исследуемой сети. Анализируется, как каждая из рассмотренных мер важности соотносится со следующими известными моделями сетевых процессов: «Простой комплемент» и «Координационная игра».

Ключевые слова: координационная игра, оптимальная стратегия, мера важности узлов, социальные сети.

Введение. Сеть «ВКонтакте» — это крупнейшая и самая популярная социальная сеть среди русскоговорящих пользователей Интернета, занимающая четвертое место по распространенности в мире. Только в России сеть «ВКонтакте» содержит порядка ста миллионов пользователей. В данной работе рассматривается гомогенная подсеть социальной сети «ВКонтакте», в качестве критерия для выделения которой выступает условие, что пользователь сети указал в качестве места учебы ОмГТУ. Это условие позволило выделить сеть, состоящую из 9975 узлов и 35 601 связи. В ее максимальном связном компоненте содержится 9927 узлов и 35 596 связей. Полученная сеть содержит не все реальные узлы, отвечающие критерию включения в нее, что связано с ограничениями доступа по открытому протоколу [1].

Целью данной работы является определение наиболее авторитетных и влиятельных участников выделенной сети, нахождение проводников информации — пользователей, играющих наиболее важную роль в распространении информации внутри сети и обеспечивающих связь между ее кластерами. Также в работе рассмотрена задача определения множества узлов, которые важны с позиций исследования социальных процессов. Подробно рассматриваются модели «Простой комплемент» и «Координационная игра». В обоих случаях проверяется гипотеза, что важность узла влияет на вероятность узла принадлежать оптимальной стратегии [2].

Оценка важности отдельных узлов. Оценим важность узлов по следующим мерам.

1. Степень связности (degree centrality) — исторически первая и концептуально простая мера CD важности узлов в сети. Эта мера определяется как количество связей deg(v), инцидентных данному узлу в:

Cd(v)= deg(v).

(1)

Степень связности узлов социальной сети можно интерпретировать как меру активности узлов в создании связей.

2. Степень близости к другим узлам (closeness centrality) Cc(v) — обратная величина суммы кратчайших путей d(v, w) от узла v до других узлов w:

Сс (v) = 1/£ d (v, Wi)

(2)

где |У| — число всех узлов сети.

Таким образом, чем более важным является узел по данной мере, тем меньше сумма кратчайших путей от него до других узлов.

3. Степень посредничества (betweenness сеп^аШу) — характеристика узла, показывающая, насколько часто данный узел лежит на кратчайших путях между другими узлами.

Степень посредхичеевва Св(() вычисляется как

с, (v) = £

а* (v)

(3)

где ast — количество кратчайших п£еи аз узла s в узел t, а ost(v) — количество этих путей, проходящих через узел в. Узел с высокой степенью посредничества будет хорошо информирован при передаче информации, при условии что передача будет проходить по кратчайшим путям.

4. Влиятельность (eigenvector centrality) — рекурсивная мера С£) важности узла, основанной на важности соседних узлов. Чем более влиятельны узлы, с которыми связан рзел, тем больше влиятельность самого узлх:

Сс (в) х- £ Сс (t) х-£ ev4 ■ Сс (О

(4)

где М(х) — множество соседних узлу х узлов; X — константа; Ах ( — элемент матрицы смежности (задается на основе связности узлов сети). Значения СЕ(х) можно получить, решив уравнение Ах = Хх, где А — матрица смежности, X и х — соответственно собственное значение и собственный вектор матрицы А.

i =1

(7

st

Таблица 1

Важность узлов в исследуемой подсети социальной сети «ВКонтакте»

Используемая мера важности узлов Идентификаторы наиболее важных узлов

1-е место 2-е место 3-е место

Степень связности 287884673 162842662 266096734

Влиятельность 287884673 17224630 5839120

Степень близости к другим узлам 287884673 5839120 17224630

Степень посредничества 287884673 162842662 5839120

Рис. 1. Наиболее важные узлы по степени связности в сети пользователей «ВКонтакте», указавших в качестве места учебы ОмГТУ

Значения элементов собственного вектора задают влиятельность соответствующих узлов.

Результаты анализа узлов исследуемой сети с учетом мер их важности (1) —(4) приведены в табл. 1.

На рис. 1 представлена краткая информация о наиболее важных узлах в исследуемой гомогенной сети по степени связности.

Результаты анализа показывают: чем более активными в исследуемой сети являются узлы (т.е. чем выше у них степень связности), тем больше их важность с точки зрения влиятельности, степени близости к другим узлам и степени посредничества. При этом наиболее активными являются узлы, оказывающие информационные и консультационные услуги.

Исследование сетевых процессов. Рассмотрим, как важность отдельных узлов влияет на процессы в сетях. В ряде случаев эта зависимость очевидна. Так, например, в эпидемиологических моделях вероятность, что узел будет «инфицирован» вирусом от заразных узлов, напрямую зависит от числа связей с другими узлами. Мы рассмотрим две теоретико-множественные игры, одна из которых имеет единственную оптимальную стратегию, другая — множество таких стратегий. Первая модель получила название «Простой комплемент» [2], вторая модель в теории агентного моделирования и теории игр называется «Координационная игра». Рассматриваемые модели основываются на следующем описании. Пусть любой узел может находиться в одном из двух состояний: либо 0, либо 1. Причем узлы, в зависимости от своего состояния и состояния соседей, могут получать некоторую выгоду. Выгода и, получаемая узлом I, зависит от числа т. соседних узлов, находящихся в состоянии 1, и общего числа ¿.соседних узлов (степени связности узла .).

Модель «Простой комплемент». Модель «Простой комплемент» заключается в том, что узел

Input: GfVJi)- сеть, содержащая множество узлов V, и множество связей Е. к — параметр модели Output: S - множество узлов в состоянии 1, принадлежащих оптимальной стратегии 1. S - V 2 Ь false

3. while (b = false)

3.1 b4- true 3 2. for j=l:|V| do

3.3. daj«- neighbor of Vj in state of 1

3.4. if (dnj<i)

3.4.1 S — S \ (v^

3.4.2 change Vj state from 1 to 0 3.4.3. b— false

encllf entlfor endwbile

4. return S

Рис. 2. Алгоритм поиска оптимальной стратегии для модели «Простой комплемент»

будет предпочитать находиться в состоянии 1 (предложение принято), если, как минимум, к соседей находятся в этом состоянии. При этом в состоянии 0 (предложение отклонено) выгода, которую получает узел, равна нулю вне зависимости от состояний соседей: и.(0,т.) = 0. В состоянии 1 выгода узла рассчитывается как и(1,т.) = —к + т, где т. — число соседей в состоянии т .

Ставится задача определить множество узлов, которые должны находиться в состоянии 1, чтобы была получена максимальная суммарная выгода (оптимальная стратегия по общей выгоде). Алгоритм для решения этой задачи представлен на рис. 2.

Логика решения следующая. Чем большее число узлов находится в состоянии 1, тем больше общая выгода. Поэтому в первом приближении к множеству Б узлов в состоянии 1 отнесем все множество узлов. Однако по условию этой задачи не всем

Рис. 3. Вероятности попадания узлов в оптимальную стратегию по мере уменьшения важности узлов для модели «Простой комплемент»

Input: GfVjE)

Output: S - множество узлов, обеспечивающих максимальный эффект распространения

1. S <— 0

2. while(|S|<|V|)do

SELECTvarg max veV s(í(Su{v})- q(S))

3. return S

Рис. 4. На каждом шаге алгоритма имитируется процесс распространения влияния — функция 5; в качестве очередного узла для множества Б выбирается узел V, который вносит наибольший вклад 5 — 5 (Б)

в распространение заданного состояния

узлам выгодно находиться в состоянии 1: часть узлов имеет степень связности меньше, чем к (соответственно и меньше, чем к соседей в состоянии 1), — пребывать в состоянии 1 таким узлам не выгодно. Удалим эти узлы из множества Б и поменяем их состояние на 0. После этого часть узлов, которые имели не меньше чем к соседей в состоянии 1, могут уже иметь меньше, чем к. Их тоже нужно удалить из Б, а состояния им поменять на 0. Причем необходимо так поступать со всеми узлами в состоянии 1 и имеющими меньше чем к соседей, пока такие узлы существуют.

Рассмотрим зависимость вероятности узлов войти в оптимальную стратегию от важности узлов. Так, при параметре модели к = 4 безусловная вероятность того, что узел исследуемой нами сети войдет в оптимальную стратегию, равна 0,1790 (в оптимальную стратегию вошло 1777 узлов из 9927). Зависимость вероятности попадания узлов в оптимальную стратегию от их важности представлена на гистограмме (рис. 3). Множество узлов разбиты на подмножества по 500 узлов, упорядоченные по убыванию соответствующей меры важности узлов, так, что минимальная важность узла из подмножества, расположенного левее по оси абсцисс, не меньше максимальной важности узла из подмножества, расположенного правее. По оси ординат задается вероятность, что узлы из соответствующего подмножества войдут в оптимальную стратегию. Как можно видеть по рис. 3, чем больше степень связности узлов (равно как и прочая мера важности), тем больше вероятность войти в оптимальную стратегию. Причем этот результат можно назвать прогнозируемым исходя из алгоритма нахождения оптимальной стратегии, поскольку узлы

с минимальной связностью исключаются из оптимальной стратегии в первую очередь.

Заметим, что для случайных графов Барабаши — Альберт и других графов предпочтительного связывания с учетом подхода, предложенного в [3] и разработанного в [4 — 6], могут быть получены аналитические решения для вероятности узлов с заданной мерой важности по числу соседних узлов попасть в оптимальную стратегию.

Представленная модель может быть полезна при исследовании таких процессов, как:

— распространение новых технологий (использование программы для сетевого общения имеет смысл, если хотя бы несколько друзей ею пользуются);

— распространение курения среди подростков (чем больше друзей у подростка курят, тем большее влияние они на него оказывают);

— употребление допинга (без употребления допинга спортсмены не могут показывать результаты, сопоставимые с результатами, которые показывают спортсмены, употребляющие допинг, тем самым все спортсмены вынуждены употреблять допинг).

«Координационная игра». Рассмотрим модель сетевого процесса «Координационная игра». Узел в этой модели предпочитает находиться в состоянии 1, если более половины соседей находятся в состоянии 1. Функция выгоды для узла в состоянии 1 и.(1, т,, й.) = 1 при т/й. > 0,5, где т.— число соседей в состоянии 1; й — степень связности узла и и .(1, т ., й.) = 0 иначе. Для узлов в состоянии 0, напротив, и.(0, т., й.) = 1 при т/й < 0,5 и и (0, т, й) = 0 иначе.

Л г V

Нахождение подмножества узлов, которые обеспечат максимальный эффект в модели «Координа-

Рис. 5. Вероятности попадания узлов в оптимальную стратегию уменьшаются по мере уменьшения важности узлов для модели «Координационная игра»

ционная игра», является тривиальнои задачей: все узлы должны находиться либо в состоянии 0, либо в состоянии 1. Более же интересна следующая задача: определить минимальное подмножество узлов в состоянии 1, чтобы все узлы приняли это состояние. Такая модель может быть полезна при исследовании процесса конкурентной борьбы двух равносильных мобильных операторов. Пользователь выбирает того оператора, которого выбрала большая часть его знакомых. Тогда исследуемую задачу можно интерпретировать как нахождение такого минимального множества пользователей, оказывая влияние на которых можно полностью захватить рынок мобильных операторов.

Данная модель имеет название каскадной, поскольку ищутся конфигурации узлов, когда при небольшом подмножестве узлов, находящихся в состоянии 1, их соседние узлы изменяют свое состояние с 0 на 1. В свою очередь, это изменение сказывается на изменении состояний других узлов, пока все узлы сети не принимают состояние 1. Суть задачи: найти минимальное подмножество узлов в состоянии 1 — таких, что все другие узлы также примут состояние 1 (назовем это подмножество узлов стратегическим множеством). Применяя для решения этой задачи алгоритм, представленный на рис. 4, будем использовать имитационное моделирование для оценки распространения состояний. Представленный алгоритм не дает точного решения задачи (задача NP-сложная), но предлагает неплохое приближенное ее решение.

Зависимость вероятности попадания узлов в стратегическое множество от их важности представлена на гистограмме (рис. 5). Как и на рис. 3, все узлы разбиты на подмножества по 500 узлов, упорядоченные по убыванию соответствующей меры важности узлов, так, что минимальная важность узла из подмножества, расположенного левее по оси абсцисс, не меньше максимальной важности узла из подмножества, расположенного правее. По оси ординат задается вероятность того, что узлы из соответствующего подмножества войдут в стратегическое множество.

Для исследуемой сети вероятность того, что узел войдет в стратегическое множество, равна 0,1558 (в стратегическое множество вошло 1547 узлов из 9927). Как можно видеть по рис. 5, зависимость вероятности узла войти в стратегическое множе-

ство от важности этого узла особенно выражена для самых важных узлов. Так, из 30 самых связных узлов все 30 входят в стратегическое множество. На рис. 5 можно видеть, что при использовании любой рассмотренной меры важности вероятность войти в стратегическое множество больше именно у узлов подмножества, состоящего из самых важных 500 узлов.

Заключение. С начала XXI века, в связи с широким использованием Интернета и популяризацией социальных сетей, а также в связи с увеличением возможностей обработки больших объемов данных возникла и быстро развивается наука, получившая название Network Science. Эта наука изучает, помимо прочего, модели социального влияния и противоборства в сетях (актуальность этих исследований можно оценить по результатам так называемой «арабской весны» и роли, которую при этом сыграли социальные сети). Также эта наука изучает модели распространения социально значимых явлений (включая суицидальные настроения, вредные привычки) и экономические модели конкурентного противоборства в современной сетевой экономике. Предметом данной работы, относящейся к области исследований Network Science, является анализ гомогенной подсети социальной сети. Для получения такой подсети из социальной сети выделяются и исследуются только узлы определенного класса, а также связи между этими узлами. В данной работе рассмотрена гомогенная подсеть социальной сети «ВКонтакте». В качестве критерия для получения подсети выступает условие, что пользователь сети указал место учебы ОмГТУ.

В результате анализа данной подсети найдены самые важные узлы на основе различных мер важности. Самым важным узлом (по всем используемым мерам важности) оказался узел, предоставляющий информационные услуги другим участникам сети: в сообщениях пользователя социальной сети, моделируемого этим узлом, дублируется официальная информация с сайта ОмГТУ. Среди других важных пользователей обнаружены пользователи, оказывающие студентам помощь в учебе, а также ряд фотографов. Это объясняется активностью этих пользователей в данном сегменте социальной сети, что выражается в приобретении большого числа друзей и тем самым в увеличении своей важности. Для оценки важности использовались следующие

меры: число соседних узлов, влияние на соседние узлы, близость до других узлов, мера посредничества между другими узлами.

Кроме того, в работе изучается роль наиболее важных (с позиций используемых мер важности) узлов в моделях сетевых процессов «Простой комплемент» и «Координационная игра». Выявлено, что эти узлы играют ключевую роль и в рассмотренных сетевых процессах. Этот результат может быть использован при планировании информационных кампаний продвижения приложений для социальной сети «ВКонтакте» в данном сегменте сети.

Библиографический список

1. Ниткин, Д. А. Исследование социальной сети «ВКонтакте» / Д. А. Ниткин, Е. Б. Юдин // Информационные технологии и автоматизация управления : материалы VI Всерос. науч.-практ. конф. студентов, аспирантов, работников образования и промышленности, Омск, 27 — 30 апреля 2015 г. — Омск. — 2015. - С. 144-150.

2. Jackson, Matthew O. (2010). Social and Economic Networks. Princeton University Press. p. 520. ISBN 978-0691148205.

3. Задорожный, В. Н. Точная теория графа Барабаши-Аль-берт / В. Н. Задорожный, Е. Б. Юдин // Омский научный вестник. Сер. Приборы, машины и технологии. — 2009. — № 3 (83). - С. 13-18.

4. Zadorozhnyi V. N., Yudin E. B. Growing network: models following nonlinear preferential attachment rule, Physica A: Statistical Mechanics and its Applications, v. 428, pp. 111-132, 2015 DOI: 10.1016/j.physa.2015.01.052.

5. Zadorozhnyi V., Yudin E. Growing Network: Nonlinear Extension of the Barabasi-Albert Model // Communications in Computer and Information Science, 2014. Т. 487. С. 432-439.

6. Zadorozhnyi V., Yudin E. Structural Identification of Large Statistically Distributed Vertex Degree // Dynamics of Systems, Mechanisms and Machines (Dynamics), 2014, December, 2014, pp 1-4. DOI: 10.1109 / Dynamics. - 2014.7005703.

ЮДИНА Мария Николаевна, аспирантка кафедры автоматизированных систем обработки информации и управления.

Адрес для переписки: mg-and-all@mail.ru

Статья поступила в редакцию 18.04.2016 г. © М. Н. Юдина

Книжная полка

Окулов, С. Алгоритмы обработки строк / С. Окулов. - М. : Бином. Лаборатория знаний, 2015. -256 c. - ISBN 978-5-9963-0162-1.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

На материале задачи поиска подстроки в строке, решению которой посвящены работы многих профессионалов за последние 20 — 30 лет, показано, как построить занятия по информатике, чтобы побудить школьника к творчеству, развить у него вкус к решению исследовательских проблем. Для школьников, преподавателей информатики, а также для студентов, выбравших информатику в качестве основной специальности. Книга может быть использована как в обычных школах при проведении факультативных занятий, так и в образовательных учреждениях с углубленным изучением информатики и математики.

Прата, С. Язык программирования C++. Лекции и упражнения / С. Прата ; пер. Ю. Корниенко, А. Моргунова. - 6-е изд. - М. : Вильямс, 2015. - 1248 c. - ISBN 978-5-8459-2048-5, 978-5-8459-1778-2.

Книга представляет собой тщательно проверенный, качественно составленный полноценный учебник по одной из ключевых тем для программистов и разработчиков. Эта классическая работа по вычислительной технике обучает принципам программирования, среди которых структурированный код и нисходящее проектирование, а также использованию классов, наследования, шаблонов, исключений, лямбда-выражений, интеллектуальных указателей и семантики переноса. Автор и преподаватель Стивен Прата создал поучительное, ясное и строгое введение в С++. Фундаментальные концепции программирования излагаются вместе с подробными сведениями о языке С++. Множество коротких практических примеров иллюстрируют одну или две концепции за раз, стимулируя читателей осваивать новые темы за счет непосредственной их проверки на практике. Вопросы для самоконтроля и упражнения по программированию, предлагаемые в конце каждой главы, помогут читателям сосредоточиться на самой критически важной информации и систематизировать наиболее сложные концепции. Написанное в дружественном стиле, простое в освоении руководство для самостоятельного изучения подойдет как студентам, обучающимся программированию, так и разработчикам, имеющим дело с другими языками и стремящимся лучше понять фундаментальные основы этого ключевого языка программирования. Шестое издание этой книги обновлено и расширено с учетом последних тенденций в разработке на С++, а также с целью детального отражения нового стандарта С++ 11.

Лафоре, Р. Объектно-ориентированное программирование в С++ / Р. Лафоре ; пер. А. Кузнецова, М. Назарова, В. Шраги. - 4-е изд. - СПб. : Питер, 2015. - 928 с. - ISBN 978-5-4237-0038-6, 0-672-32308-7.

Благодаря этой книге тысячи пользователей овладели технологией объектно-ориентированного программирования в С++. В ней есть все: основные принципы языка, готовые полномасштабные приложения, небольшие примеры, поясняющие теорию, и множество полезных иллюстраций. Книга пользуется стабильным успехом в учебных заведениях благодаря тому, что содержит более 100 упражнений, позволяющих проверить знания по всем темам. Читатель может вообще не иметь подготовки в области языка С++. Необходимо лишь знание начальных основ программирования.

i Надоели баннеры? Вы всегда можете отключить рекламу.