Научная статья на тему 'Прогнозирование проявления заинтересованности пользователей в социальных медиа'

Прогнозирование проявления заинтересованности пользователей в социальных медиа Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
230
51
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СОЦИАЛЬНАЯ СЕТЬ / ВОВЛЕЧЕННОСТЬ / РАСПРОСТРАНЕНИЕ ИНФОРМАЦИИ / SOCIAL NETWORK / INVOLVEMENT / INFORMATION DIFFUSION

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Черкасов Егор Игоревич

Социальные сети стали важной частью современного общества. Анализ распространения информации в социальных сетях может открыть большие возможности для решения разного рода задач. В данной статье исследуется социальная сеть “ВКонтакте”, а именно возможность прогнозирования того, что один пользователь поставит лайк на пост другого пользователя. Эксперименты проведены с использованием трех моделей логистической регрессии, Random Forest и Xgboost. На модели Xgboost получилось достичь довольно высокой точности.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

PREDICTING EXPRESSION OF USER INTEREST IN SOCIAL MEDIA

Social networks have become an important part of modern society. Analysis of the dissemination of information in social networks can open up great opportunities for solving various problems. This article explores the social network “VКontakte”, namely the possibility of predicting that one user will like the post of another user. The experiments were carried out using three models logistic regression, Random Forest and Xgboost. On the Xgboost model, it was possible to achieve fairly high accuracy.

Текст научной работы на тему «Прогнозирование проявления заинтересованности пользователей в социальных медиа»

ПРОГНОЗИРОВАНИЕ ПРОЯВЛЕНИЯ ЗАИНТЕРЕСОВАННОСТИ ПОЛЬЗОВАТЕЛЕЙ В СОЦИАЛЬНЫХ МЕДИА Черкасов Е.И. Email: Cherkasov685@scientifictext.ru

Черкасов Егор Игоревич - магистрант, Институт информационных технологий Челябинский государственный университет, г. Челябинск

Аннотация: социальные сети стали важной частью современного общества. Анализ распространения информации в социальных сетях может открыть большие возможности для решения разного рода задач. В данной статье исследуется социальная сеть "ВКонтакте", а именно возможность прогнозирования того, что один пользователь поставит лайк на пост другого пользователя. Эксперименты проведены с использованием трех моделей - логистической регрессии, Random Forest и Xgboost. На модели Xgboost получилось достичь довольно высокой точности. Ключевые слова: социальная сеть, вовлеченность, распространение информации.

PREDICTING EXPRESSION OF USER INTEREST IN SOCIAL

MEDIA Cherkasov E.I.

Cherkasov Egor Igorevich - Undergraduate, INSTITUTE OF INFORMATION TECHNOLOGIES CHELYABINSK STATE UNIVERSITY, CHELYABINSK

Abstract: social networks have become an important part of modern society. Analysis of the dissemination of information in social networks can open up great opportunities for solving various problems. This article explores the social network "VKontakte", namely the possibility of predicting that one user will like the post of another user. The experiments were carried out using three models - logistic regression, Random Forest and Xgboost. On the Xgboost model, it was possible to achieve fairly high accuracy. Keywords: social network, involvement, information diffusion.

УДК 004

1. Введение

Анализ социальных данных стремительно набирает популярность во всём мире благодаря появлению в 1990-х годах онлайновых сервисов социальных сетей (LiveJoumal, Facebook, Twitter, YouTube и другие). Эти сервисы позволяют пользователям Интернета быстро и удобно создавать и использовать контент. И поскольку в современном мире интернет стал одним из основных источников получения информации, влияние таких сетей также крайне высоко. Поэтому понимание того, как протекают информационные процессы в этих сетях, может помочь в решении большого спектра задач. Примерами таких задач могут быть расследование и предотвращение терроризма, выявление намеренных действий, нацеленных на оказание влияния на различные события, оптимизация маркетинговых кампаний для бизнеса.

В России и странах СНГ большой популярностью пользуется социальная сеть "ВКонтакте". Всего в ней зарегистрировано более 500 млн аккаунтов, а ежедневная посещаемость сайта составляет более 100 млн чел. Ежедневно одни пользователи создают миллионы постов, а другие разными способами проявляют свою заинтересованность в этих постах. Они могут поставить "лайк" на пост, написать комментарий или же поделиться постом со своими подписчиками и друзьями.

Анализ того, как и на что люди проявляют заинтересованность, или вовлеченность - крайне актуальная задача. Благодаря этому можно понять, что является наиболее важным для распространения информации в сети, почему одни материалы становятся популярными, а другие - нет, как выглядит реальное распространение, а как -искусственно созданное.

2. Обзор литературы

Анализ заинтересованности пользователей можно обобщить до более широкой задачи - распространение информации в сети. И вопрос того, как информация распространяется в социальных медиа, уже давно исследуется. В большом количестве работ исследуется социальная сеть Twitter и то, как можно прогнозировать популярность твитов.

В [1] авторы построили модель, прогнозирующую популярность твитов. В качестве меры популярности использовалось количество ретвитов - т.е. сколько раз конкретным твитом поделились другие пользователи. Была поставлена задача классификации и были обучены два классификатора. Первый - бинарный классификатор, определяющий, будет ли у твита ретвиты вообще. Второй, мультиклассовый, определял диапазон, в который должно попасть количество ретвитов. По результатам экспериментов был сделан вывод, что количество ретвитов во многом зависит от количества подписчиков пользователя, поскольку обычные твиты редко распространяются дальше непосредственных подписчиков.

В [2] более глубоко исследовались признаки, влияющие на распространение информации. Было выделено большое количество признаков, полученных из текстов твитов, на этих признаках была обучена модель, прогнозирующая вероятность того, что у твита будут ретвиты. Исходя из результатов были сделаны выводы о поведении пользователей в социальной сети. Так, твиты по общим публичным темам распространяются гораздо сильнее и дальше, нежели по более личным. Также было выявлено, что плохие новости распространяются гораздо быстрее.

Другим способом анализа распространения информации является построение паттернов распространения. В [3] авторы помимо самого текста использовали профиль создателя твита. Они использовали методологию, которую назвали Tree-Patterns. В ней после сбора данных твитов создаются Tweet-Trees - граф, в котором корневым узлом является оригинальный твит, а все остальные вершины - его ретвиты. В дальнейшем были выделены базовые паттерны распространения твитов и обучен классификатор прогнозирования паттерна.

Но исследователи не ограничиваются только данной социальной сетью, исследуются также и другие, в том числе российские. Так в [4] рассматривается социальная сеть "Вконтакте". В этой работе исследуется возможность определения распространения информации с помощью модели Independent Cascade, которая предполагает, что каждый узел независимо влияет на соседние узлы. Результаты показывают, что данная модель не может с хорошим качеством прогнозировать распространение информации в сети, независимо от тематики этой информации.

В [5] также исследуется социальная сеть "Вконтакте". Исследуется задача предсказания пользователей, которые поделятся каким-либо существующим материалом - то есть поспособствуют его распространению. В качестве признаков дополнительно была использована история взаимодействия двух пользователей -автора и его подписчика. Результаты показывают, что с такими признаками можно достичь хорошей точности.

3. Данные

Для проведения экспериментов была выбрана социальная сеть "Вконтакте". Данная социальная сеть устроена следующим образом:

• У каждого пользователя есть персональная страница.

• Пользователь может публиковать "посты" с различными материалами (текст, изображения, видео и т.д.) у себя на странице.

• Пользователи могут подписываться на обновления страниц других пользователей.

• Пользователи могут проявлять различную заинтересованность в постах: они могут ставить отметку "мне нравится" ("лайк"), могут поделиться данным постом на своей странице (сделать "репост"), а также написать какой-либо комментарий.

• Также существуют сообщества - страницы каких либо-групп, объединенными общими интересами. У сообществ аналогичный пользователям функционал.

Сбор данных осуществлялся с помощью открытого API (Application Programming Interface) социальной сети. Данная система позволяет разработчикам получать доступ к общедоступной информации Вконтакте - пользователи, их друзья и подписчики, посты, музыка, изображения, видео и т.д.

Для сбора данных были отобраны 12000 пользователей ВКонтакте. Были собраны все их посты за 2019 год - дата, содержание, количество лайков, комментариев, поделившихся, а также список людей, которые поставили лайк. Также были собраны их друзья и та же информация об их постах. Для валидации результатов была собрана та же информация для еще 1000 пользователей. Итоговое количество собранных профилей - 1298125, общее количество постов - 22461330.

Взаимодействие двух пользователей в рамках одного поста (автора и его друга) можно описать с различных сторон. Во-первых, у каждого из пользователей есть своя информация, независимая от другого пользователя. Это его социально-демографические признаки, его друзья и подписчики, его посты, музыка и т.д. Во-вторых, У пары пользователей есть история их взаимодействия - сколько раз каждый пользователь поставил лайк на посты другого пользователя, сколько написал комментариев и т.д. И, в-третьих, есть информация о самом посте - его дата, время и содержание. При этом стоит учитывать, что дату и время нельзя использовать напрямую в методах машинного обучения, поэтому эта информация разбивается на несколько признаков, отвечающих за какую-либо часть.

Исходя из этого были сформированы группы признаков датасета (таблица 1), которые можно получить из собранных данных.

Таблица 1. Признаки датасета

Группа Признак Описание

Информация о пользователе posts count Общее количество постов у пользователя

reposts_count Общее количество репостов по всем постам пользователя

Информация о взаимодействи и пользователей user_other_repo sts Количество постов пользователя А, которыми поделился пользователь Б

user_other_likes Количество постов пользователя А, которым пользователь Б поставил лайк

Информация о посте day_of_week День недели, в которые был опубликован пост

is_weekend Является ли день недели, в который был опубликован пост, выходным днем

time_1, time_2 Проекции часа публикации поста на окружность

text len Общее количество символов в посте

Отдельного внимание заслуживает преобразование содержимого поста. Основная информация в нем — это текст. Методов перевода текста в вектор огромное количество. В данной статье использовано два подхода. Первый — это векторизация текстов с помощью TF-IDF [6]. Второй - получение векторов с помощью предобученной на русском языке модели BERT [7].

4. Эксперименты

Исходя из возможностей социальной сети "Вконтакте", можно выделить, что пользователи по-разному могут проявлять свой интерес. Можно поставить лайк, написать комментарии и поделиться постом. Прогнозирование осуществления каждого из этих событий - отдельная задача. В данной статье исследуется прогнозирование оставление лайка для конкретного поста у пары пользователей -автора поста и его друга.

4.1. Методы и метрики качества

Для проведения экспериментов были выбраны несколько алгоритмов классификации.

1. Логистическая регрессия [8] — это статистическая модель, используемая для прогнозирования вероятности возникновения некоторого события.

2. Random forest [9] - модель, в которой используется ансамбль решающих деревьев. Каждое из деревьев само по себе дает очень невысокое качество классификации, но за счет их большого количества итоговый результат получается хорошим.

3. Xgboost [10] - расширенная реализация алгоритма градиентного бустинга.

Помимо самих моделей крайне важно правильно оценивать качество их

предсказаний. Для задач классификации популярными метриками качества являются accuracy, precision, recall, F1-score, ROCAUC.

Accuracy — это доля правильных ответов. Данная метрика не подходит, поскольку вы данных существует большой дисбаланс классов - друзей, которые ставят "лайк" на пост гораздо меньше тех, кто это не делает.

Precision, recall и F1-score строится по каждому классу. Precision говорит о том, какая часть примеров, для которых предсказан определенный класс действительно относятся к данному классу. Т.е. precision отвечает за способность алгоритма отличать один класс от других. Recall - какую долю примеров, отнесенных к классу, модель определила верно - т.е. способность алгоритма обнаруживать данный класс вообще. F1-score или f-мера — это среднее гармоническое precision и recall. Она достигает максимума при precision и recall, равными единице, и близка к нулю, если один из аргументов близок к нулю. Поэтому если важны и precision, и recall, то для оценки алгоритма можно использовать ее.

ROC AUC - это площадь (Area Under Curve) под кривой ошибок (Receiver Operating Characteristic curve). Данная кривая представляет из себя линию от (0,0) до (1,1) в координатах True Positive Rate (TPR) и False Positive Rate (FPR). Чем ближе площадь к единице, тем лучше алгоритм.

4.2. Результаты экспериментов

Базовый датасет был составлен с использованием всех описанных признаков: по каждой тройке пост - автор поста - друг автора были сформированы признаки о пользователях, об их взаимодействии и о посте. Использовались десять последних постов автора, при этом первые две группы признаков строились по всей информации о пользователях.

Эксперименты были проведены на трех вариациях датасета: только признаки из базового датасета, признаки из базового датасета + TF-IDF-вектор текста поста, признаки из базового датасета + BERT-вектор текста поста. В таблице 2 представлены метрики по классу 1. Также на рисунке 1 представлены кривые AUC.

Набор данных Логистическая регрессия Random Forest Xgboost

F1 ROC AUC F1 ROC AUC F1 ROC AUC

Признаки из базового датасета 0.35 0.94 0.31 0.96 0.46 0.97

Признаки из базового датасета + TF-IDF 0.36 0.94 0.07 0.64 0.47 0.97

Признаки из базового датасета + BERT 0.36 0.93 0.24 0.87 0.47 0.96

По результатам экспериментов видно, что на всех вариантах датасетов лучше всего себя показала модель Xgboost. Также примечательно, что добавление векторов текстов постов не ведет к значительному приросту в качестве, а даже наоборот может его снижать. Возможно, это связано с тем, что у каждого пользователя интересы уникальны и в датасете не было никакой информации о том, что нравится конкретному пользователю.

Также в каждом из алгоритмов есть возможность оценить степень влияния признаков на конечный результат. На рисунке 2 показана степень влияния базовых признаков для Xgboost'а.

Самым важным признаком является общее количество лайков, который друг пользователя поставил ему за все время. И это имеет под собой все основания -действительно, если пользователю нравятся многие старые материалы его друга, то, скорее всего, ему понравятся и новые.

0.0

0.0 0.2 0.4 0.6 0.8 1.0

Ра15е Ро<^ше 11а1е

Рис. 1. AUC-кривые моделей Рис. 2. Степень влияния базовых признаков для модели xgboost

5. Выводы

В данной статье были рассмотрены различные способы прогнозирования распространения информации в социальных сетях. Были собраны данные из социальной сети "Вконтакте" и проведены эксперименты по прогнозированию пользователей, которые поставят "лайк" на пост своего друга.

Лучшего качества удалось добиться с помощью модели xgboost - А - 0.47. При этом наибольший вклад вносит информация о том, сколько раз один пользователь уже ставил лайк на посты другого пользователя.

В данной статье не рассматривались современные нейросетевые методы, в том числе использование графовых нейронных сетей. В последующих работах планируется выяснить, можно ли с помощью таких методов повысить качество, а также насколько хорошо можно с помощью данных методов прогнозировать другие проявления заинтересованности пользователей - оставление комментария или осуществление репоста.

Список литературы /References

1. Liangjie Hong, Ovidiu Dan, Davison Brian D. "Predicting Popular Messages in Twitter" in 20th international conference companion on World wide web, Hyderabad. India, 2011.

2. Naveed Nasir, Gottron Thomas, Kunegis Jérôme, Arifah Che Alhadi. "Bad News Travel Fast: A Content-based Analysis of Interestingness on Twitter" in 3rd International Web Science Conference. Koblenz. Germany, 2011.

3. Kafeza Eleanna, Kanavos Andreas, Makris Christos, Pantelis Vikatos. "Predicting Information Diffusion Patterns in Twitter." in 10th IFIP International Conference on Artificial Intelligence Applications and Innovations (AIAI). Rhodes. Greece, 2014.

4. Khairullina Aisylu & Lee JooYoung & Jang Gwan & Myaeng Sung-Hyon. Observing Behaviors of Information Diffusion Models for Diverse Topics of Posts on VK, IEEE International Conference on Data Mining Workshop, 2015. 10.1109/ICDMW.2015.25.

5. Viksnin Ilya & Iurtaeva Liubov & Tursukov Nikita & Gataullin Ruslan, 2018. The Method for Prediction the Distribution of Information in Social Networks Based on the Attributes: Third International Conference, DTGS 2018, St. Petersburg, Russia. May 30 - June 2, 2018.

6. Sparck Jones K., 1972. A Statistical Interpretation of Term Specificity and Its Application in Retrieval. Journal of Documentation. 28: 11-21.

7. Devlin Jacob, Ming-Wei Chang, Kenton Lee and Toutanova Kristina, 2019. BERT: Pre-training of deep bidirectional transformers for language understanding. In North American Association for Computational Linguistics (NAACL).

8. Cox D.R. "The Regression Analysis of Binary Sequences". Journal of the Royal Statistical Society. Series B (Methodological). Vol. 20. № 2. Pp. 215-242, 1958.

9. Ho T.K. "Random Decision Forests". In 3rd International Conference on Document Analysis and Recognition, Montreal. QC, 1995.

10. Tianqi Chen, Guestrin Carlos. "XGBoost: A Scalable Tree Boosting System" in 22Nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York. NY. USA, 2016.

i Надоели баннеры? Вы всегда можете отключить рекламу.