Научная статья на тему 'ВОЗМОЖНОСТИ РАСЧЁТА ВЕСА РЕБЕР СОЦИАЛЬНОГО ГРАФА НА ОСНОВЕ ИНФОРМАЦИИ СТРАНИЦЫ ПОЛЬЗОВАТЕЛЯ САЙТА СОЦИАЛЬНОЙ СЕТИ ПРИ АНАЛИЗЕ ИНФОРМАЦИОННЫХ ПОТОКОВ СОЦИАЛЬНЫХ СЕТЕЙ С ПРИМЕНЕНИЕМ WEB MINING'

ВОЗМОЖНОСТИ РАСЧЁТА ВЕСА РЕБЕР СОЦИАЛЬНОГО ГРАФА НА ОСНОВЕ ИНФОРМАЦИИ СТРАНИЦЫ ПОЛЬЗОВАТЕЛЯ САЙТА СОЦИАЛЬНОЙ СЕТИ ПРИ АНАЛИЗЕ ИНФОРМАЦИОННЫХ ПОТОКОВ СОЦИАЛЬНЫХ СЕТЕЙ С ПРИМЕНЕНИЕМ WEB MINING Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
53
8
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГРАФ / СОЦИАЛЬНАЯ СЕТЬ / КЛАСТЕРИЗАЦИЯ / API / СОЦИАЛЬНЫЙ ГРАФ / NETWORKX / WEB MINING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Скворцов Г.В., Семенов А.М., Воронина К.А., Абдурахманова Р.Э.

В статье рассматриваются преимущества Python-библиотеки NetworkX для построения социального графа с помощью графовых алгоритмов, а так же предлагается к рассмотрению улучшение стандартного процесса расчёта веса ребер графа с учётом дополнительных параметров, рассчитанных на основе данных, полученных через интерфейсы API сайта социальной сети Vkontakte. В конце статьи подводится итог и оцениваются дальнейшие перспективы исследований.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «ВОЗМОЖНОСТИ РАСЧЁТА ВЕСА РЕБЕР СОЦИАЛЬНОГО ГРАФА НА ОСНОВЕ ИНФОРМАЦИИ СТРАНИЦЫ ПОЛЬЗОВАТЕЛЯ САЙТА СОЦИАЛЬНОЙ СЕТИ ПРИ АНАЛИЗЕ ИНФОРМАЦИОННЫХ ПОТОКОВ СОЦИАЛЬНЫХ СЕТЕЙ С ПРИМЕНЕНИЕМ WEB MINING»

УДК 004.822

Скворцов Г.В.

студент 3 курса магистратуры ОГУ, г. Оренбург, РФ Семенов А.М. канд. техн. наук, доцент ОГУ, г. Оренбург, РФ Воронина К.А. студент 1 курса магистратуры ОГУ, г. Оренбург, РФ Абдурахманова Р.Э. студент 1 курса ОГУ, г. Оренбург, РФ

ВОЗМОЖНОСТИ РАСЧЁТА ВЕСА РЕБЕР СОЦИАЛЬНОГО ГРАФА НА ОСНОВЕ ИНФОРМАЦИИ СТРАНИЦЫ ПОЛЬЗОВАТЕЛЯ САЙТА СОЦИАЛЬНОЙ СЕТИ ПРИ АНАЛИЗЕ ИНФОРМАЦИОННЫХ ПОТОКОВ СОЦИАЛЬНЫХ СЕТЕЙ С ПРИМЕНЕНИЕМ WEB MINING

Аннотация

В статье рассматриваются преимущества Python-библиотеки NetworkX для построения социального графа с помощью графовых алгоритмов, а так же предлагается к рассмотрению улучшение стандартного процесса расчёта веса ребер графа с учётом дополнительных параметров, рассчитанных на основе данных, полученных через интерфейсы API сайта социальной сети Vkontakte. В конце статьи подводится итог и оцениваются дальнейшие перспективы исследований.

Ключевые слова

Граф, социальная сеть, кластеризация, api, социальный граф, networkx, web mining

Введение

Исследование социальных сетей предоставляет важную и труднодоступную информацию о деятельности группы. Расширение охвата анализируемых компонентов при оценке близости вершин графа может увеличить точность и информативность социального графа. Для исследования возможностей улучшения точности и информативности социального графа подходит наиболее распространённый алгоритм нечеткой кластеризации, алгоритм c-средних (c-means), который представляет собой модификацию метода k-средних. [2]

Преимущества Python-библиотеки NetworkX для построения социального графа

с помощью графовых алгоритмов

Суть алгоритмов основанных на теории графов заключается в том, что выборка объектов представляется в виде графа G = (V, Е), вершинам которого соответствуют объекты, а ребра имеют вес, равный «расстоянию» между объектами. Достоинством графовых алгоритмов кластеризации являются наглядность, относительная простота реализации и возможность внесения различных усовершенствований, основанные на геометрических соображениях. Основными алгоритмам являются алгоритм выделения связных компонент, алгоритм построения минимального покрывающего (остовного) дерева и алгоритм послойной кластеризации. [4]

Для создания визуального образа всей совокупности рассматриваемых данных и их сетевых характеристик авторы статьи используют библиотеку Python для построения графов NetworkX. Библиотека

NetworkX позволяет взаимодействовать с графическим представлением и манипулировать структурами, формами и цветами, чтобы применить серию алгоритмов принудительного действия для выявления свойств, которые могут быть скрытыми или трудными для наблюдения. Таким образом, построение и визуализация через NetworkX позволяет наблюдать кластеры отношений и идентифицировать центральные узлы, а также дает представление о структуре сети. Структура сети помогает определить ее полезность для узлов внутри нее, поскольку сети с более тесными связями между узлами могут быть более полезными, чем сети со слабыми связями. [1] Кроме того, полезность сети для узла может зависеть от положения узла в сети. Наибольший интерес авторов статьи представляют алгоритмы (методы), в которые возможно включить доступную информацию о пользователе, формализовав её в компоненты для количественной оценки близости вершин.

Доступная информация пользователей сайта социальной сети для расчёта веса

ребер социального графа

Для построения графа с помощью алгоритмов графового анализа на вход в функцию помимо конечного множества элементов V, множество бинарных отношений между элементами Е, к каждому ребру дополнительно передаётся дополнительный параметр веса ребра W, отражающий степень близости вершин.

Перечень компонентов для расчёта весов каждого из ребер определяется предоставляемой сервисами Vkontakte API информацией. [1] Применяя метод получения расширенной информации о странице «users.get», вместе с параметром «fields» передаётся список полей, содержание которых может быть использовано для расчёта веса ребра W. Для достижения наибольшей информативности социального графа планируется учитывать следующие данные, разделённые на категории.

Категория общей деятельности. Атрибуты этой категории имеют высокий вес в случае одинаковых записей у пользователей. В категорию входят атрибуты:

1. «Schools» - список школ, в которых учился пользователь;

2. «Universities» - список вузов, в которых учился пользователь;

3. «Education» - информация о высшем учебном заведении пользователя;

4. «military» - информация о военной службе пользователя;

5. «Career» - информация о карьере пользователя;

6. «Occupation» - информация о текущем роде занятия пользователя.

Категория географического положения. Атрибуты этой категории имеют средний вес в случае одинаковых записей у пользователей. В категорию входят атрибуты:

1. «City» - информация о городе, указанном на странице пользователя в разделе «Контакты»;

2. «Country» - информация о стране, указанной на странице пользователя в разделе «Контакты»;

3. «home_town» - название родного города.

Категория пересечения интересов. Атрибуты этой категории имеют малый вес в случае одинаковых записей у пользователей. В категорию входят атрибуты:

1. «Activities» - содержимое поля «Деятельность» из профиля,

2. «Books» - содержимое поля «Любимые книги» из профиля пользователя;

3. «Games» - содержимое поля «Любимые игры» из профиля;

4. «interests» - содержимое поля «Интересы» из профиля;

5. «Movies» - содержимое поля «Любимые фильмы» из профиля пользователя;

6. «Music» - содержимое поля «Любимая музыка» из профиля пользователя;

7. «Tv» - содержимое поля «Любимые телешоу» из профиля пользователя;

8. «personal» - информация о полях из раздела «Жизненная позиция»;

9. Дополнительно сюда можно отнести информацию, получаемую из метода

«audio.getBroadcastList», который возвращает список аудиозаписей пользователя, метода «users.getSubscriptions», который возвращает список идентификаторов пользователей и публичных страниц, которые входят в список подписок пользователя и метода «friends.get», по которому оценивается количество общих знакомств

Категория близких связей. Атрибуты этой категории имеют наибольший вес в случае одинаковых записей у пользователей. В категорию входят атрибут:

1. «relatives» - список родственников;

2. «Relation» - семейное положение. Если в семейном положении указан другой пользователь, дополнительно возвращается объект relation_partner, содержащий id и имя этого человека.

Итоговая формула для расчёта веса каждого из ребер графа W будет следующая для п атрибутов:

Wi - весовая категория атрибута /;

- коэффициент влияния атрибута / от 0 до 1.

С помощью коэффициента к можно менять степень влияния веса атрибута на итоговый вес с помощью автоматизированных систем или по желанию пользователя через программный интерфейс.

Для увеличения информативности социального графа необходимо экспериментировать с выбором формализируемых в меры параметров, а также весовое влияние этих мер на итоговый вес ребра. Описанные в статье программные средства и алгоритмы позволяют осуществить это. Дальнейшие исследования будут направлены на определение оптимального набора анализируемых параметров, а также методику их учета.

Список использованной литературы:

1. Скворцов, Г.В., Семенов, А.М. «Применение web mining при анализе информационных потоков социальных сетей» [Текст] // Сборник научных трудов по итогам международной научно-практической конференции (11 декабря 2020 г.) г. Воронеж «Развитие технических наук в современном мире», Выпуск VII, 2020, 38 с. - 41 с.

2. Скворцов, Г.В., Прилуцкий, Д.А., Абдурахманова, Р.Э., Семенов, А.М. «Особенности расчета параметров социального графа страниц пользователей сайта социальной сети при анализе информационных потоков социальных сетей с применением web mining» [Текст] // Экспериментальная наука: механизмы, трансформации, регулирование: сборник статей Всероссийской научно-практическая конференции с международным участием (г. Челябинск, РФ, 13 ноября 2022г.). - Уфа: Аэтерна, 2022. - 15-18 с.

3. Барсегян, А. А. Анализ данных и процессов: учеб. пособие / А. А. Барсегян, М. С. Куприянов, И. И. Холод, М. Д. Тесс, С. И. Елизаров. —3-е изд., перераб. и доп. — СПб.: БХВ-Петербург, 2009. —512 с.: ил.

4. Семенов, А. М. Интеллектуальный программный комплекс для решения задач методом прямого и непрямого поиска агентов [Электронный ресурс]: свидетельство о гос. регистрации программы для ЭВМ / Семенов А. М., Жабин Т. С., Голубева Ю. А.; правообладатель Федеральное государственное бюджетное образовательное учреждение высшего образования "Оренбург. гос. ун-т".- № 2017616863заявл. 13.07.2017зарегистрировано в реестре программ для ЭВМ 07.09.2017. - 2017. - 1 с. Электронный источник.

5. Воронцов К.В. Алгоритмы кластеризации и многомерного шкалирования. Курс лекций. МГУ, 2007.

6. Котов А., Красильников Н. Кластеризация данных. 2006.

где:

Выводы и дальнейшие перспективы исследования

© Скворцов Г.В., Семенов А.М., Воронина К.А., Абдурахманова Р.Э., 2022

i Надоели баннеры? Вы всегда можете отключить рекламу.