Научная статья на тему 'Анализ профилей пользователей социальных сетей'

Анализ профилей пользователей социальных сетей Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
1497
163
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АНАЛИЗ СОЦИАЛЬНЫХ СЕТЕЙ / SOCIAL NETWORK ANALYSIS / АНАЛИЗ ДАННЫХ / DATA ANALYSIS / БОЛЬШИЕ ДАННЫЕ / BIG DATA / КРЕДИТНЫЙ СКОРИНГ / CREDIT SCORING

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Бучнева А.В.

В работе рассмотрены перспективы использования анализа данных из социальных сетей и проведен пример построения скоринговой модели на основе анализа пользователей социальной сети ВКонтакте.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE ANALYSIS OF THE SOCIAL NETWORK PROFILES

The paper considers the prospects of using data analysis from social networks and an example of building a scoring model based on the analysis of users of the social network Vkontakte.

Текст научной работы на тему «Анализ профилей пользователей социальных сетей»

УДК: 004.89

АНАЛИЗ ПРОФИЛЕЙ ПОЛЬЗОВАТЕЛЕЙ СОЦИАЛЬНЫХ СЕТЕЙ

Бучнева А.В., студент Научный руководитель: доцент, к.э.н., Городецкая О.Ю. Финансовый университет при Правительстве Российской Федерации, Москва, Россия

Аннотация. В работе рассмотрены перспективы использования анализа данных из социальных сетей и проведен пример построения скоринговой модели на основе анализа пользователей социальной сети ВКонтакте.

Ключевые слова: анализ социальных сетей, анализ данных, большие данные, кредитный скоринг.

Актуальность

В последние годы значительно выросло количество пользователей Интернета. Согласно исследованиям социологических компаний [1] 54% населения России ежедневно заходят в Интернет и при этом, 91% пользователей Рунета имеют аккаунты в социальных сетях [2].

Объем цифровой информации также растет с каждым годом с экспоненциальной скоростью. Согласно исследованиям компании IDC, в 2015 году количество данных превысило 6,5 зеттабайта. Если эта тенденция сохранится, то к 2020-ому году объем данных достигнет 40-44 зеттабайтов. [3]

Вышеперечисленное предоставляет огромное количество необработанной и

неструктурированной информации из различных источников, связанных с различными сферами деятельности. Растущий объем данных в интернете и, в частности, в социальных сетях предоставляет новые возможности для аналитики и принятия решений во многих сферах жизнедеятельности.

В социальных сетях, на форумах, новостных и развлекательных порталах и в блогах накапливается ценная информация,

проанализировав которую можно реализовать моделирование социальных, экономических, политических и других процессов.

Область для анализа в социальных сетях шире, чем традиционная область анализа. Обычно для анализа доступна только информация о поле, возрасте, телефоне человека, иногда еще работе и семейном положении. При анализе данных из социальных сетей появляется возможность получения

различной дополнительной информации: страницы друзей, детей, родственников пользователя, получить потребительский и социальный портрет пользователя и т.д.

Для анализа необходимо провести выгрузку данных из социальных сетей одним из трех способов: через специализированные программы, через API конкретной социальной сети, или через ручной разбор web-страниц. Анализ через специальные программы эффективен, но как правило он платный, и не подходит, когда для анализа необходима некая нестандартная информация из социальных сетей. Анализ через API эффективен в определенных случаях, но тут стоит учитывать ограничения, которые накладывают

разработчики соцсети: например, ограничение на количество запросов в секунду через API. Таким образом, для выгрузки информации об одном пользователи этот способ эффективен, но, когда необходимо сделать большую выгрузку, приходится тратить очень много времени, поэтому в таких случаях эффективнее использовать ручной разбор web-страниц.

С законодательной точки зрения данные социальных сетей попадают под ФЗ «О персональных данных», который устанавливает, что персональными данными считается любая информация, относящаяся прямо или косвенно к определяемому физическому лицу. Закон диктует процедуру обработки и хранения персональных данных и предусматривает обязательное получение у клиентов согласия на обработку данных. Но при этом закон разрешает использование публично доступных данных.

Так как условия использования социальных сетей предупреждают пользователей что данные, публикуемые ими, являются публичными, Российская судебная практика разрешает сбор и анализ этих данных [4].

После выгрузки проводится обработка и анализ собранной информации. Основными направлениями анализа данных социальных сетей являются:

Генерация социальных графов и сфер влияния пользователей. Позволяет

моделировать реальные социальные структуры, распространение социальных влияний, идентифицировать группы пользователей, поиск социальных объектов.

Определение демографических атрибутов. Определение полного набора демографических атрибутов того или иного пользователя социальной сети позволит расширить профиль клиента для сферы обслуживания клиентов. Для анализа социальных графов, уточнение атрибутов позволит углубить моделирование той или иной социальной структуры. Большую роль в выявлении демографических характеристик пользователей играет анализ текстов и изображений пользователя с целью выявления интересов и составления портрета пользователя.

Кластеризация пользователей позволит выявить основные классы пользователей социальных сетей. Данная информация может использоваться для составления

таргетированной рекламы и предложений, для привлечения клиентов и для выявления недобросовестных клиентов [5].

Было проведено исследование информации о пользователях социальной сети ВКонтакте. Анализ данной информации может понадобиться кадровым агентствам при подборе персонала, коммерческим

организациями при подборе сотрудников на работу и т.д. Так же, подобный анализ может быть востребованным в банковской сфере. Среди предлагаемых банковских услуг есть услуга по выдаче кредита. Информация из социальных сетей среди прочей информации

позволит определить кредитоспособность заемщика [6]. Приведем пример использования анализа информации социальных сетей для банка.

Данные получены через VK API и язык программирования Python. Были выгружены данные о 40 000 пользователей, содержащие такие персональные данные как: пол, дата рождения, информация о себе и т.д.

Был проведен анализ полученных данных с целью выявления основных категорий пользователей социальной сети ВКонтакте, выявления основных параметров их аккаунтов, которые могут использоваться в банке и кластеризация выборки с целью определения классов заемщиков. Выявив основную категорию людей, использующих социальные сети, банки смогут представить основную группу клиентов, и исходя из этого разрабатывать критерии для оценки их кредитоспособности, делать им персональные предложения и т.д.

Указанный пол в аккаунтах пользователей обладает следующими статистическими характеристиками: у 47% пол женский, у 42% пол мужской и у 11% пол не указан в личной информации.

Основная масса пользователей указывает дату рождения от 1985 до 2000 годов. Правда процент пользователей с годом рождения после 2000 года постоянно возрастает.

Полученные данные о соотношении дат рождения и пола среди пользователей социальной сети ВКонтакте позволяет банкам, при углубленном анализе пользователей, учитывать данную особенность аудитории соцсети и принимать решения, основываясь на этом [7].

Таким образом, например, если у клиента 25-лет есть профиль в социальной сети, и он регулярно его использует, информацию оттуда можно успешно применять для кредитного скоринга. Но у пожилых клиентов банка, скорее всего, не будет профиля в социальных сетях, поэтому, возможно, банку эффективнее не проводить анализ профилей таких

пользователей, а основываться на другой доступной информации.

На основе полученной анализируемой выборки была проведена кластеризация на основе самоорганизующихся сетей Кохонена, и

На основе данной кластеризации были выделены классы благонадежных и менее благонадежных заемщиков. Основываясь на стандартных требованиях к кредитуемым лицам, проанализировав выделенные кластеры, присваиваем оценки кредитоспособности пользователей социальных сетей, попавших в тот или иной кластер: хороший заемщик (кластеры 1 и 4), средний заемщик (кластеры 3 и 5), плохой заемщик (кластеры 2 и 6) - в таблице разные кластеры помечены цветом.

У пользователей кластеров 1 и 4 указана дата рождения, при этом средний возраст достаточно большой. Кроме того, у них указаны адрес и контакты, что позволяет сравнить данную информацию с информацией о клиенте банка. Это делает их достаточно благонадежными заемщиками, и принадлежность к данным классам может являться основанием для добавления нескольких баллов при вычислении кредитоспособности заемщика.

У пользователей кластеров 3 и 5 средний возраст меньше предыдущей группы, но указано много информации и есть

персонифицированный домен у кластера 3. Предлагается считать пользователей с данными

выделены 6 кластеров. В таблице 1 указано процентное соотношение экземпляров каждого кластера по отношению ко всей выборке и основные параметры которые отличают кластеры между собой [8].

параметрами «средними», и проводить дополнительный анализ для точного определения кредитоспособности.

У пользователей кластеров 2 и 6 не указана дата рождения, и почти не указано персональной информацией, что делает анализ их аккаунтов малообещающим. Предлагается не учитывать анализ аккаунтов таких пользователей и основываться на традиционных методиках оценки кредитоспособности.

Кроме определения принадлежности клиента к определенному кластеру, при анализе кредитных рисков банки могут учитывать активность клиента в социальных сетях, тон комментариев, привычные покупки и т.д. Для определения кредитоспособности клиента могут использоваться следующие критерии (Таблица 2) [9].

Основываясь на выделенных критериях и классах пользователей, данная модель может применяться для оценки кредитоспособности заемщиков.

Таким образом анализ данных социальных сетей является перспективным инструментом для использования в многих сферах деятельности, включая банки.

Таблица 1. Кластеризация пользователей ВКонтакте

№ кластера 1 2 3 4 5 6

Объем от общей выборки 3,60% 34,70% 5,20% 3,50% 17,40% 35,50%

Домен (станд. - обычный, не станд. = измененный пользователем) Станд. Станд. Не станд. Станд. Станд. Станд.

Дата рождения (среднее) 1962 Нет 1970 1978 1995 Нет

Указан адрес Да Да Да Да Да Нет

Указаны контакты Да Нет Нет Да Да Нет

Указаны интересы Да Нет Нет Нет Нет Нет

Таблица 2. Критерии кредитоспособности заемщиков

Критерии Хороший заемщик Плохой заемщик

Дата создания 2005 год (пользователь ведет 2018 год

страницы страницу давно)

Анализ фотографий Семейные ценности Сомнительное содержание

Количество друзей 200 (данных друзей можно проанализировать, и если они так же попадают под критерии благонадежных пользователей, этот фактор увеличивает надежность клиента) 2 (слишком мало друзей)

Друзья Имеют положительную кредитную историю, публичные персоны Имеют плохую кредитную историю

Адрес электронной Smirnov@ya.ru (адрес официальный, RealUrka-IK7-230@ya.ru (адрес

почты с фамилией, выявляет деловых больше похож на ник, а не на

людей) официальный почтовый адрес)

Мобильный телефон Указан (дополнительный способ идентификации клиента и связи с ним, привязка страницы к телефону показывает, что пользователю нечего скрывать) Нет

Семантический Нет нецензурной лексики Мат, жаргон

анализ публикаций

Группы, в которых Официальная группа банка, «Как не платить коллекторам»,

состоит страницы по бизнесу, группы по «Заработать в интернете по-

пользователь или его интересам быстрому», «Онлайн казино»

друзья

Информация о себе Содержат слова: музыка, Содержат слова: вечеринки,

и интересы путешествия, семья наркотики

Политические Умеренные Радикальные

взгляды

Список используемых источников

1. Сайт компании Mediascope [Электронный ресурс] // URL: http://mediascope.net/press/news/812866/ (дата обращения 05.04.2018)

2. Сайт компании WebCanape [Электронный ресурс] // URL: https://www.web-canape .ru/business/internet-2017-2018-v-mire-i-v-rossii-statistika-i-trendy/ (дата обращения 05.04.2018)

3. Сайт компании DailyComm. [Электронный ресурс] // URL http: //www. dailycomm. ru/m/39225/ (дата обращения 05.04.2018)

4. Федеральный закон РФ от 27 июля 2006 года № 152-ФЗ «О персональных данных»

5. Гобарева, Я.Л. Большие данные в банковской сфере / Я.Л. Гобарева, Г.В. Ширнин // Валютный контроль. Валютное регулирование. - 2014. - №8. - С. 58-63.

6. Гобарева, Я.Л. Big Data: большой потенциал управления рисками / Я.Л. Гобарева, О.Ю. Городецкая, М.С. Николаенкова // Транспортное дело России. - 2016. - №1. - С.21-24.

7. Городецкая, О.Ю. Технологии Big Data: перспективы развития в России / О.Ю. Городецкая, Я.Л. Гобарева // V Международная научно-практическая конференция «Математика,

статистика и информационные технологии в экономике, управлении и образовании»: сб. трудов. - Тверь, 2016. - С.34-39.

8. Гобарева, Я.Л. Возможности технологии Big Data для повышения качества эксплуатации CRM-Систем / Я.Л. Гобарева, О.Ю. Городецкая, Е.Р. Кочанова // Транспортное дело России. -

2015. - №5. - С.62-63.

Полищук, Ф.С., Романов, А.Ю. Кредитный скоринг: разработка рейтинговой системы оценки риска кредитования физических лиц. // Научно-техническая конференция студентов, аспирантов и молодых специалистов НИУ ВШЭ им. ЕВ. Арменского. - М.: МИЭМ НИУ ВШЭ,

2016.- С. 332-333.

9. Невежин В.П., Богомолов А.И. Планирование управления ресурсами предприятия в реальном масштабе времени (ERP-RTE) / Хроноэкономика. 2016. № 2 (2). С. 33-37

10. Ершов В.Ф. Банковская система России перед глобальным вызовом транснационализации мирового финансового рынка / Вестник Московского университета.

Серия 27: Глобалистика и геополитика. 2016. №

4. С. 31-55.

11. Bogomolov A.I., Nevejin V.P. От больших

данных к большим знаниям / Хроноэкономика.

2017. № 2 (4). С. 25-28.

12.Закутин А.А., Галдилов Г.Д. СОВРЕМЕННАЯ КОНСЕРВАТИВНАЯ

ТЕОРИЯ И ПРОБЛЕМЫ ГЛОБАЛИЗАЦИИ / Вестник Московского университета. Серия 27: Глобалистика и геополитика. 2015. № 3-4. С. 109-119.

13.Габдуллин Р.Р., Ильин И.В., Иванов А.В., Яшков А.В. СКВОЗЬ ВРЕМЯ И ПРОСТРАНСТВО: ТРАНСФОРМАЦИЯ

РЕАЛЬНОСТИ (ПОПУЛЯРНАЯ

ГЛОБАЛИСТИКА) / Вестник Московского университета. Серия 27: Глобалистика и геополитика. 2015. № 3-4. С. 120.

14.Чумаков АН. МАССОВАЯ КУЛЬТУРА КАК ПОРОЖДЕНИЕ И СПУТНИК ГЛОБАЛИЗАЦИИ / Вестник Московского университета. Серия 27: Глобалистика и геополитика. 2015. № 1-2. С. 120-131

i Надоели баннеры? Вы всегда можете отключить рекламу.