Научная статья на тему 'Метод бинарной классификации пользователей социальных сетей'

Метод бинарной классификации пользователей социальных сетей Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
388
71
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СОЦИАЛЬНАЯ СЕТЬ / БИНАРНАЯ КЛАССИФИКАЦИЯ / ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Порядин И.А., Смирнова Е.В.

В статье предлагается метод автоматической бинарной классификации пользователей социальной сети, основанный на применении логистической регрессии. Независимыми переменными при этом могут являться результаты трансформации следующих пользовательских данных: основные (текстовые публикации, фотографии, анкетные данные, список друзей, поведенческие параметры и т.д.) и дополнительные (частота добавления пользователем новых данных, скорость увеличения количества друзей и т.д.), то есть, данные, получаемые в ходе регулярного наблюдения за страницей пользователя. Извлечение данных осуществляется с помощью программного интерфейса социальной сети, а метод трансформации выбирается в зависимости от типа данных. В предлагаемом авторами методе бинарной классификации для каждого признака определяются наиболее значимые независимые переменные. Описаны результаты проведенного авторами эксперимента по бинарной классификация тестовой выборки по гендерному признаку.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The subject of research is a binary classification method of social network users based on the data analysis they have placed. Relevance of the task to gain information about a person by examining the content of his/her pages in social networks is exemplified. The most common approach to its solution is a visual browsing. The order of the regional authority in our country illustrates that its using in school education is needed. The article shows restrictions on the visual browsing of pupil’s pages in social networks as a tool for the teacher and the school psychologist and justifies that a process of social network users’ data analysis should be automated. Explores publications, which describe such data acquisition, processing, and analysis methods and considers their advantages and disadvantages. The article also gives arguments to support a proposal to study the classification method of social network users. One such method is credit scoring, which is used in banks and credit institutions to assess the solvency of clients. Based on the high efficiency of the method there is a proposal for significant expansion of its using in other areas of society. The possibility to use logistic regression as the mathematical apparatus of the proposed method of binary classification has been justified. Such an approach enables taking into account the different types of data extracted from social networks. Among them: the personal user data, information about hobbies, friends, graphic and text information, behaviour characteristics. The article describes a number of existing methods of data transformation that can be applied to solve the problem. An experiment of binary gender-based classification of social network users is described. A logistic model obtained for this example includes multiple logical variables obtained by transforming the user surnames. This experiment confirms the feasibility of the proposed method. Further work is to define a system of criteria and characteristics derived from social networks. This will allow applying the method for classification according to various criteria.

Текст научной работы на тему «Метод бинарной классификации пользователей социальных сетей»

Наука и Образование

МГТУ им. Н.Э. Баумана

УДК 004.67

Метод бинарной классификации пользователей социальных сетей

Порядин И.А.1*, Смирнова Е.В.1

Наука и Образование. МГТУ им. Н.Э. Баумана. Электрон. журн. 2017. № 02. С. 121-137.

Б01: 10.7463/0217.0000915

Представлена в редакцию: 17.01.2017 Исправлена: 31.01.2017

© МГТУ им. Н.Э. Баумана

¿у.рогу а ^^ gmail.com :МГТУ им. Н.Э. Баумана, Москва, Россия

В статье предлагается метод автоматической бинарной классификации пользователей социальной сети, основанный на применении логистической регрессии. Независимыми переменными при этом могут являться результаты трансформации следующих пользовательских данных: основные (текстовые публикации, фотографии, анкетные данные, список друзей, поведенческие параметры и т.д.) и дополнительные (частота добавления пользователем новых данных, скорость увеличения количества друзей и т.д.), то есть, данные, получаемые в ходе регулярного наблюдения за страницей пользователя. Извлечение данных осуществляется с помощью программного интерфейса социальной сети, а метод трансформации выбирается в зависимости от типа данных. В предлагаемом авторами методе бинарной классификации для каждого признака определяются наиболее значимые независимые переменные. Описаны результаты проведенного авторами эксперимента по бинарной классификация тестовой выборки по гендерному признаку.

Ключевые слова: социальная сеть; бинарная классификация; логистическая регрессия

Введение

Социальные сети (далее в тексте - соцсети) стали неотъемлемой частью жизни современного общества и являются главной точкой входа в Интернет для миллионов пользователей по всему миру. Стремительный рост популярности, новые формы взаимодействия между пользователями,новый формат получения информации оказали влияние на процессы межличностной коммуникации в виртуальном пространстве [1]. В социальных сетях не только узнают новости, но и ведут торговлю, проходят дистанционное обучение, обсуждают явления общественной жизни, ведут деловую и личную переписку. При этом информация пользователей становится доступной третьим лицам. Именно с учетом этой информации (возраст, пол, семейное положение, образование, увлечения и др.) пользователям показываются релевантная реклама, новости, предлагаются новые знакомства, поступают приглашения на различные мероприятия. Просмотр страниц клиентов в социальных сетях применяется финансовыми и страховыми организациями [2].

Задача получения дополнительной информации о своих клиентах и сотрудниках с целью дальнейшей аналитической обработки встает перед организациями [3],отдельными организационными подразделениями, среди которых: отделы продаж коммерческих организаций [4,5], отделы кадров [6], образовательные [7], политические [8] организации, органы правопорядка и безопасности [9] и этот список можно продолжать долго. Стоит отметить, что сбор открытых данных из социальных сетей не противоречит законодательству РФ и может применяться без ограничений различными организациями и частными лицами.

Первый раздел статьи содержит обзор возможностей и ограничений визуального просмотра страниц в социальных сетях как инструмента систематического наблюдения за учащимися в виртуальном пространстве, который может быть полезен школьному психологу, педагогу, сотруднику кадрового агентства и т.д.

Во втором разделе приведен обзор способов получения и обработки данных о пользователях социальных сетей.

В третьем разделе рассматривается возможность применения логистической регрессии к данным пользователей социальных сетей, приведены способы трансформации данных.

Четвертый раздел содержит описание эксперимента, в ходе которого на основе логистической регрессии была проведена успешная классификация 88,9% пользователей социальной сети «ВКонтакте» по гендерному признаку. В качестве независимых переменных при этом были использованы данные, полученные из данной соцсети после их трансформации.

1. Ограничения визуального просмотра страниц пользователей социальных сетей и перспективы его автоматизации

Социальные сети предоставляют различные способы самовыражения пользователям любого возраста [10]. Школьные педагоги и психологи ведут обсуждение перспектив использования социальных сетей в процессе работы с учениками. После просмотра страницы учащегося классный руководитель может получить информацию о психологической составляющей личности, интересах, особенностях общения. В социальной сети учащийся самопрезентует себя с помощью различных средств, которые составляют портрет его личности. Уметь анализировать информацию в социальной сети в настоящее время должен и психолог, и социальный педагог, и классный руководитель [11]. В 2013 году Управление образования Минской области Республики Беларусь разослало в школы информационное письмо «О мониторинге социальных сетей», в котором рекомендует учреждениям образования назначить ответственных за ежедневный просмотр страниц учеников в социальных сетях [12]. В ноябре 2016 года Министерство образования Красноярского края обязало социальных педагогов, педагогов-психологов, классных руководителей наблюдать за общением своих учеников в социальных сетях [13], одновременно с этим Губернатор Псковской области Анатолий Турчак на заседания комиссии по делам несовершеннолетних и

защите их прав сказал: «Каждый классный руководитель должен проводить еженедельный мониторинг страниц своих учеников в социальных сетях» [14]. В 2014 году Министерство образования РФ подготовило проект Постановления Правительства, согласно которому администрации школ будут обязаны отслеживать активность учеников в социальных сетях, однако этот проект был отклонен экспертами. Одна из причин - большой объем работы и трудозатраты. Эксперты порекомендовали поднять тему разработки и внедрения специализированных программных средств, которые могли бы автоматически вести статистику, мониторинг и анализ [15].

Визуальный просмотр страниц учеников в социальных сетях предполагает изучение их фотографий, анкетных данных, списков друзей, интересов, музыки и видео. Перечислим основные недостатки и ограничения. Метод визуального просмотра страниц пользователей социальных сетей:

• применим только для небольшого числа страниц в социальных сетях;

• требует достаточного уровня квалификации со стороны педагога/психолога;

• не позволяет обнаружить неочевидные связи и зависимости (время, проводимое в социальных сетях, частота изменения анкетных данных, среднее количество добавляемых и удаляемых друзей в единицу времени и т.д.);

• для эффективного применения требует больших временных затрат;

• не позволяет наблюдать за динамикой изменения информации;

• результатом анализа является субъективное заключение педагога/психолога.

Перечисленные недостатки и ограничения обусловлены «человеческим фактором»,

который ограничивает перспективы применения визуального просмотрастраниц социальных сетей в образовательном процессе. При этом анализ контента на страницах пользователей социальных сетей находит своё применение в области социологии и психологии, что, вместе с перечисленными выше инициативами органов власти, подтверждает его востребованность.

Развитием метода визуального просмотра содержимого страниц в социальных сетях может стать метод автоматического анализа содержимого страниц пользователей с использованием разработанного для этой цели специализированного программного обеспечения.

2. Существующие способы получения и обработки данных о пользователях социальных сетей

Данные в социальных сетях могут носить как структурированный (личные данные о пользователе), так и слабоструктурированный (текстовые публикации пользователя) характер. Для анализа данные необходимо привести к целевой схеме, которая достигается путем преобразования исходной схемы. Исходная схема может быть образована путем объединения схемы структурированной части данных и структуры информации, извлеченной из неструктурированной части.

Сравнительный анализ возможностей, предоставляемых программными интерфейсами популярных социальных сетей, позволяет сделать вывод, что наибольшей функциональной полнотой обладают «ВКонтакте» и «Facebook», с небольшим отставанием за ними следуют «Одноклассники», «Мой мир» и «Twitter» [16].

Задаче анализа параметров пользователей социальных сетей в последние годы уделяется много внимания. Информация о выявленных методах получения и обработки данных о пользователях социальных сетей приведена в таблице 1.

Таблица 1.Методы получения и обработки данных о пользователях социальных сетей

№ п/п Наименование и источник информации Авторы и организация Достоинства Недостатки

Возможность

д.т.н. Кузнецов С.Д., Институт системного программирования РАН обнаруживать

1 Методы идентификации пользователя и оценки его сообществ [17] страницы пользователя в различных социальных сетях даже в случае использования Метод не применим к задаче классификации пользователей

противоречивых анкетных данных

2 Выделение сообществ в социальных графах по множеству признаков с частичной информацией [18] Чесноков В.О., Ключарёв П.Г., МГТУ им. Возможность выявление в социальных сетях групп пользователей, Метод не применим к задаче классификации

Н.Э. Баумана связанных общими интересами пользователей

д.т.н. Кузнецов С.Д., Институт системного программирования РАН Возможность

3 Методы измерения информационного влияния пользователей друг на друга [19] оценивать информационное влияние одного пользователя на Метод не применим к задаче классификации пользователей

другого

к.т.н.

4 Способы получения данных из социальных сетей [20] Стефанова И. А., Галимов Р. Р., Поволжский государственный университет телекоммуникаций и информатики Извлечение данных из социальных сетей с помощью API и анализа HTML-кода страницы Получение данных осуществляется только из социальной сети «ВКонтакте»

Технические аспекты Янишевская А.Г.,

использования Чурсин М.А., Извлечение данных из Метод не

5 программного Омский социальных сетей с предполагает анализ

интерфейса СС для Государственный использование извлеченных

получения информации Технический различных типов API данных

[21] Университет

6 Оценка компетентностей студентов на основе анализа социальных сетей [22] д.ф-м.н. Карпенко А.П., Захаров М.А., Смирнова Е.В., МГТУ им. Семантический анализ текстов, извлекаемых из соцсетей, с использованием заранее составленных Метод не применим к логическим и числовым данным

Н.Э. Баумана словарей

Большую работу проделали сотрудники Института системного программирования РАН под руководством д.т.н. Кузнецова С.Д., которые разработали методы идентификации пользователя и оценки его сообществ [17], а также методы измерения информационного влияния пользователей друг на друга [19]. Методы подразумевают использование социальных связей в нескольких сетях с целью сравнения не только анкетных данных, но и списков контактов. Задача выделение сообществ по множеству признаков с частичной информацией успешно решена сотрудниками МГТУ им. Н.Э. Баумана [18].

Технические аспекты получения данных многократно описаны как в иностранных, так и в отечественных публикациях, и в большинстве случаев они сводятся к использованию программного интерфейса (API - ApplicationProgramInterface) [20]. Некоторые аспекты практического применения методов автоматизированного получения данных пользователей из социальных сетей находят отражение в различных научных работах, в том числе и работах сотрудников МГТУ им. Н.Э. Баумана [21], в которых были применены широко распространённые Web-технологии и программные средства: СУБД MySQL, языки PHP-для серверной части, HTML и JavaScript - для клиентской части. Отметим как недостаток, что такое решение авторов [21] применимо лишь для обработки небольшого объёма данных, однако для масштабных исследований лучше применять технологии обработки Больших Данных (BigData, DataMining).

3. Логистическая регрессия как метод обработки данных о пользователях социальных сетей

Автоматический сбор и анализ сведений об учениках из социальных сетей позволяет не только экономить время педагога или психолога, но и определять сложные параметры, которые невозможно получить без использования программного обеспечения. Примером таких параметров может служить граф, вершинами которого являются страницы учеников, а ребрами - «дружба» между ними в социальной сети. Вершина графа с наименьшим количеством рёбер соответствует ученику, который, возможно, испытывает трудности в общении со сверстниками. Другой пример - список наиболее популярных среди учеников класса сообществ социальных сетей. Появление в нем подозрительных сообществ и рост их популярности должно привлечь к себе внимание школьного психолога. Еще одним из применяемых статистических инструментов является совместное использование логистической регресссии и ROC-анализа (англ. receiver operating characteristic), которое находит широкое применение при решении задачи автоматизированной оценки различных параметров [22].

В линейной регрессии зависимая переменная y является функцией нескольких независимых переменных х:

у = Ь о + Ь + Ь 2х2 + ■ ■ ■ + Ьп _ ! хп _ ! + Ьпхп.

Значения коэффициентов b определяются для каждой обучающей выборки отдельно. Логистическая регрессия применяется для предсказания вероятности возникновения неко-

торого события по значениям множества признаков. Модель, которая определяет эти вероятности носит название логистическая регрессионная модель:

_ 1

Р — -(Ь0+Ь1х1+Ь2х2+...+Ьп-1хп-1+Ьпхп)

1 + е

Независимые переменные в предлагаемом методе - данные из социальных сетей после их трансформации. Связь между переменными может быть положительная или отрицательная. Создание регрессионной модели представляет собой итерационный процесс, направленный на поиск эффективных независимых переменных, чтобы объяснить зависимые переменные. Инструмент регрессии применяется к различным независимым переменным и их комбинации до тех пор, пока не будет найдена наиболее подходящая регрессионная модель. Поиск может быть упрощен с помощью факторного анализа, который предназначен для определения взаимосвязей между переменными, (классификация переменных) и сокращения числа переменных необходимых для описания данных, а также позволяет выявить скрытые переменные факторы, отвечающие за наличие линейных статистических корреляций между наблюдаемыми переменными.

R0C-кривая - это график, позволяющий оценить качество бинарной классификации, отображает соотношение между долей объектов от общего количества носителей признака, верно классифицированных, как несущих признак, и долей объектов от общего количества объектов, не несущих признака, ошибочно классифицированных, как несущих признак при варьировании порога решающего правила. Такой инструмент позволит не только отнести исследуемого пользователя социальных сетей к определённому классу, но и оценить степень уверенности классификации. Такой же метод применяется к данным социальных сетей при решении задачи скоринга финансовыми организациями [2], где он позволяет с некоторой степенью вероятности выявлять неблагонадежных клиентов.

Далее будут рассмотрены типы данных из социальных сетей, используемые в качестве переменных в логистической регрессии.

Фотографии. Метод психологического анализа фотографии человека позволяет определять его личностные качества [23]. Для автоматического применения метода психологического анализа необходимо соблюдений следующих условий: испытуемый должен знать, что его фотографируют, нужно сделать всего одну фотографию (чтобы избежать хаотичного выбора), испытуемый должен быть свободен в выборе позы.

Все эти условия, как правило, соблюдаются человеком, размещающим в сети свою фотографию. Пользователь знает, что его фотографируют, видит получившийся результат, самостоятельно размещает фотографию на своей странице.

Фотографии пользователя могут быть проанализированы методами визуальной социологии, которая использует контекст фотографии: изображённые на ней люди, совершаемые ими действия (в том числе коллективные) [24]. Методы анализа визуальных данных с социологической точки зрения достаточно разнообразны [25], однако в большинстве публикаций говорится о необходимости привлечения эксперта. В автоматическом ре-

жиме могут быть реализованы, например, определение наличия людей на фотографиях, цветовой гаммы изображения, выделение образов.

Фотографии в социальных сетях могут сопровождаться текстовым описанием, ключевыми словами, комментариями автора и других пользователей, текстовая информация может содержаться на самом изображении. Эта информация также может быть проанализирована.

Друзья, подписчики. Количество друзей пользователя в социальных сетях, как правило, не совпадает с количеством друзей в реальном мире. Однако количество друзей и подписчиков, а также динамика изменения этих параметров, позволяет делать выводы об общительности (скрытности) человека. За рубежом имеют место работы, цель которых -установить зависимость между количеством друзей пользователя в Facebook и уровнем стресса [26], когнитивными способностями [27] и т.д., но эти работы носят предварительный характер, и не позволяют на их основе делать однозначные выводы. Интерес для анализа представляет не только количество друзей, но и характеристики социального графа [28].

Личная информация. Информация о пользователе, размещенная им на своей странице после её верификации позволяет судить о скрытности или общительность человека. Некоторые пользователи социальных сетей указывают в полях личной информации произвольные данные (вместо номера телефона его марку и модель, вместо политических и религиозных взглядов - произвольный текст, в образовании и местах работы - несуществующие организации, выдуманное имя и фамилию и т.д.). Это может говорить о нежелании человека сообщать свои персональные данные. Кроме того, личная информация пользователя позволяет обнаруживать его страницы в других социальных сетях.

Статус пользователя - небольшое текстовое сообщение, отображаемое на его странице. Заполняется пользователем самостоятельно с целью сообщить посетителям страницы о настроении или переживаниях. В некоторых сетях в статусе отображаются прослушиваемые пользователем в данный момент музыкальные композиции, что говорит от музыкальных пристрастиях пользователей.

Текстовая информация. Большие возможности для анализа предоставляют непосредственно генерируемые пользователем текстовые данные - публичные сообщения на его странице, лайки (положительные оценок контента), репосты (повторная публикация записей других пользователей на своей странице), комментарии. Наибольший интерес предоставляет смысловой и семантический анализ пользовательских публичных сообщений. Для решения задач, связанных с выявлением и дальнейшим анализом эмоционально окрашенной лексики в тексте, используются методы, общее название которых - анализ тональности текста. Анализ тональности текставходит в область задач компьютерной лингвистики и является подзадачей получения и обработки информации, применяется в том числе и для текстов в социальных сетях [29]. Другим направлением анализа текстовой информации является автоматическое определение тематики и ключевых слов [30], которое также может быть применено к текстам на страницах социальных сетей. Определение

ключевых слов может быть применено для групп и сообществ, в которых состоит пользователь.

Поведенческие параметры пользователя социальных сетей. Осуществляя регулярное взаимодействие с программными интерфейсами социальных сетей, можно определить ежедневно проводимое пользователем в социальных сетях время, скорость увеличения или уменьшения количества друзей, сообществ, аудозаписей, фотографий. Собрав достаточное количество информации об этих параметрах, можно в автоматическом режиме формировать наглядные отчеты, которые позволят педагогу или психологу наблюдать за динамикой изменения этих параметров.

4. Метод автоматической бинарной классификации на основе данных из

социальных сетей

Постановка задачи. Получение информации из социальных сетей в большинстве случаев решается путем визуального просмотра содержимого страниц пользователей. При этом извлекаются только очевидные сведения - анкетные данные, список друзей и сообществ. Визуальный просмотр не позволяет определить, например, платежеспособность, стрессоустойчивость, общую грамотность (классифицирующий признак) без привлечения экспертов. При этом социальные сети предоставляют большой объём данных, которого в ряде случаев достаточно для статистической оценки подобных параметров.

Описание метода. Предлагаемый метод автоматической классификации на основе данных из социальных сетей заключается в применении логистической регрессии к предварительно трансформированным данным из социальных сетей.

На первом этапе осуществляется получение всей доступной с использованием API информации о пользователе, которая образует множество переменных:

Хх ={Х^,Х2, ... , Xn_i, хп} Элементами множества Х1 являются данные в том виде, в котором они получены из социальной сети. Примером элементов данного множества являются текстовые данные (ФИО, пол, оконченные учебные заведения, место работы), численные значения (количество друзей, фотографий, сообществ), логические переменные (установлена ли фотография, указаны ли контактные данные). На втором этапе на основе элементов множества Х1 вычисляется множество переменных Х2

Х2 — {х1, Х2 , ■ ■ ■ , xm_i, хт } Элементами множества Х2 являются трансформированные данные (принадлежность пользователя к возрастным группам, тематика публикаций пользователя) и определенные математическими методами переменные (отношение количества друзей пользователя к количеству публикаций, среднее количество публикаций пользователя за фиксированный период времени). Из множеств Х1 и Х2 формируется объединенное множество Х: X = X 1 U X 2 = { X 1, X 2, ■ ■■ , Хп_ 1, Хп ,Х 1 ,Х2 , ■ ■■ , Хт_ 1 , Хт } На третьем шаге элементы множества Х для каждого пользователя обучающей выборки используются в качестве независимых переменных логистической регрессии. Для

этого удобнее всего воспользоваться одним из пакетов программного обеспечения для статистического анализа (IBM SPSS Statistics, scikit-learn, numpy). На данном шаге определяется вероятность корректной бинарной классификации по классифицирующему признаку, определённому выборкой.

Предлагаемый метод автоматической классификации на основе данных из социальных сетей имеет следующие особенности:

• классификация осуществляется с использованием метода логистической регрессии, т.е. результат классификации носит вероятностный характер;

• независимыми переменными логистической регрессии являются данные из социальных сетей после их трансформации;

• дополнительными независимыми переменными могут являться данные, получаемые в ходе регулярного наблюдения за страницей пользователя в социальной сети (например, частота добавления пользователем новых данных, скорость увеличения количества друзей и т.д.);

• применяемые способы трансформации зависят от типа данных (числовые, текстовые, графические).

Эксперимент. Проведена классификация пользователей предложенным методом по гендерному признаку. Для этого предварительно случайным образом выбраны 2000 пользователей социальной сети «ВКонтакте» с использованием API-метода «users.get», который возвращает 70 различных полей с информацией о пользователе. Из выборки были удалены страницы, содержащие поле «deactivated» (удаленные или заблокированные), в результате чего она сократилась до 1655 пользовательских страниц.

На этапе подготовки данных из рассмотрения были исключены поля, требующие сложной трансформации: изображения, тексты публикаций пользователя, аудиозаписи. Числовые параметры (количество друзей, подписчиков, сообществ и т.д.) не трансформировались. Текстовые данные об образовании, месте работы, девичьей фамилии, службе в армии были преобразованы в логические переменные, обозначающие наличие (1) или отсутствие (0) этой информации на странице пользователя. Дополнительно были введены две логические переменные Fm_end и M_end, которые означают наличие в фамилии соответственно женского («ина», «ова», «ева») и мужского («ин», «ов», «ев») окончаний.

Для анализа данных был применен инструмент «Логистическая регрессия» пакета программного обеспечения IBM SPSS Statistics версии 22. Зависимая переменная S (пол) для каждой страницы социальной сети принимает значение либо 1 (женский пол), либо 2 (мужской). Фрагмент выходных данных работы программы приведен на рисунке 1.

Наибольшей значимость обладают независимые переменные Fm_end, M_end, Maiden (логическая переменная указывающая наличие девичьей фамилии). Логистическая регрессионная модель полученная в ходе эксперимента: _ 1 Р — -(5,473 Fm_end—8,652M_end + 3,545Maiden+0,053Date_Full)

1 + е

Таолица классификации3

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Предсказанные

S Процент

Наблюденные 1 2 правильных

Шаг 1 S 1 631 182 77,6

2 2 840 99,8

Общая процентная доля 88,9

а. Значение отсечения - ,500

Переменные в уравнении

E Среднеквадр этичная ошибка Еальд ст.св. Знач. Ехр (Б)

Шаг 1а Fm_end(1) 5,473 ,587 87,061 1 ,000 238,270

M_end(1) -8,652 ,915 89,368 1 ,000 ,000

Date_Full(1) ,053 ,188 ,079 1 ,779 1,054

Maklen(1) 3,545 ,726 23,842 1 ,000 34,641

а. Переменные, введенные на шаге 1: Fm_end, M_end, Date_Full, Maiden.

Рис. 1. Фрагмент выходных данных программы IBMSPSSStatistics

В целом же, применение логистической регрессии позволило верно классифицировать 88,9% всех пользователей из исходной выборки.

Заключение

Авторами предложен метод автоматической бинарной классификации на основе данных из социальных сетей. С использованием описанного метода была успешно (с вероятностью 88,9%) выполнена автоматическая классификация по гендерному признаку пользователей из тестовой выборки социальной сети «ВКонтакте». Реализация более сложных методов трансформации исходных данных позволит классифицировать пользователей социальных сетей и по другим признакам. Дальнейшим направлением исследования является разработка программного обеспечения, которое позволит реализовать предложенный метод. Предполагается интеграция в него программной библиотеки статистического анализа данных, что позволит отказаться от применения проприетарного пакета IBM SPSS Statistics.

Список литературы

1. Дьяченко О.В. Российские СМИ в социальных сетях Facebook и в «ВКонтакте»: анализ активности и информационных предпочтений аудитории // Вестник Московского университета. Сер. 10. Журналистика. 2016. №1. С. 28-45.

2. Masutin A.A. Credit scoring based on social network data // Business Informatics. 2015. №3 (33). P.15-23.

3. Eberle D., Berens G., Li T. The impact of interactive corporate social responsibility communication on corporate reputation // Journal of Business Ethics. 2013. Vol. 118, №4. P. 731-746.

4. Hoda N., Hoda H., Forcim K. Microfinance market and social media marketing // European journal of economics and management sciences. 2016. №1. P.14-21.

5. Слугина Ю.Н. Маркетинговые коммуникации в социальных сетях: проблемы и перспективы // Вестник Финансового университета. 2015. №2 (86). С. 130-134.

6. Bohmova L., Malinova L. Facebook User's Privacy in Recruitment Process // IDIMT 2013, Information Technology, Human Values, Innovation and Economy. Linz: Trauner Verlag, 2013. P. 159-168.

7. Галимов Р.Р., Стефанова И.А. Социальные сети как источник информации об абитуриентах // Символ науки. 2016. №1-2. С. 38-40.

8. Bond R., Fowler J.H. A 61-Million-Person Experiment in Social Influence and Political Mobilization // Nature. September 2012. P. 295-298. DOI: 10.1038/nature11421

9. Цимбал Н.Г., Цимбал В.Н. Использование информации социальных сетей Интернет в ходе предварительного расследования // Теория и практика общественного развития. 2013. №10. С.425-427.

10. Могилевская Г.И. Социальные сети как актуальный способ самовыражения массового человека // Молодой ученый. 2012. №4. С. 517-520.

11. Югова Н.Л., Трефилова А.Ю. Социальные сети как инструмент психолого-педагогической деятельности классного руководителя с подростками // Личность, семья и общество: вопросы педагогики и психологии: сб. ст. по матер. XLIII междунар. науч.-практ. конф. № 8(43). - Новосибирск: СибАК, 2014.

12. Белорусский портал «TUT.BY»: Учителя о проверках учеников в «ВКонтакте»: «Одному мониторить все страницы нереально. А кто за это будет платить?» Режим доступа: http://news.tut.by/reporter/379221.html (дата обращения 10.12.2016).

13. «Аргументы и факты»: Учителей обязали контролировать соцсети учеников. Режим доступа: http://www.krsk.aif.ru/society/uchiteley_obyazali_kontrolirovat_socseti_uchenikov (дата обращения 10.12.2016).

14. «РИА Новости»: В Пскове советуют учителям вести мониторинг страниц школьников в соцсетях. Режим доступа: https://ria.ru/incidents/20161115/1481444181.html (дата обращения 10.12.2016).

15. «Российская газета»: Школы не будут следить за соцсетями учеников. Режим доступа: https://rg.ru/2014/05/18/internet-site.html (дата обращения 10.12.2016).

16. Широбокова С.Н., Стрельцов Е.А. Сравнительный анализ возможностей API социальных сетей по критерию функциональный полноты // Инновационная наука. 2016. №3-3 (15). С.147-151.

17. Коршунов А.В. Задачи и методы определения атрибутов пользователей социальных сетей // Труды 15-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» — RCDL'2013

18. Чесноков В.О., Ключарёв П.Г. Выделение сообществ в социальных графах по множеству признаков с частичной информацией // Наука и образование: научное издание МГТУ им. Н.Э. Баумана. 2015. №9. C.188-199. DOI: 10.7463/0915.0811704

19. Коршунов А.В., Белобородов И.А., Бузун Н.К. Анализ социальных сетей: методы и приложения // Труды ИСП РАН. 2014. №1 С.439-456.

20. Янишевская А.Г., Чурсин М.А. Использование сторонних интерфейсов программирования приложений на примере интерфейсов прикладного программирования социальных сетей Facebook и Twitter // Инженерный вестник Дона. 2015. №2 ч. 2. С. 55-66.

21. Захаров М.А., Карпенко А.П., Смирнова Е.В. Оценка компетентностей студентов на основе анализа социальных сетей // Открытые Системы. СУБД. 2016. №1.С. 28-30.

22. Белоножко П.П., Белоус В.В., Карпенко А.П., Храмов Д.А. Инструментальные средства для автоматизированной количественной оценки метакомпетенций учащихся. Обзор //Наука и образование: научное издание МГТУ им. Н.Э.Баумана. 2015. №10. С. 498-530. DOI: 10.7463/1015.0821623

23. Литвин А.В. К вопросу об определении типа личности с помощью метода психологического анализа фотографий // Психология и педагогика: проблемы современной науки и практики. Материалы Всероссийской научно-практической конференции 20-21 сентября 2010. - Челябинск: ООО МАТРИЦА, 2010. С. 43-46.

24. Дягилева Н.С., Журавлева Л.А. Методологические основы применения визуального метода в социологических исследованиях // Вестник ЧелГУ. 2012. №4 (258). С.75-79.

25. Соболева К.В. О методах анализа визуальных данных // Актуальные вопросы общественных наук: социология, политология, философия, история. 2014. №33. С. 62-68.

26. Morin-Major J.K. Facebook behaviors associated with diurnal cortisol in adolescents: Is befriending stressful? // Psychoneuroendocrinology. 2015. Vol. 63. P. 238-246.

DOI: 10.1016/j.psyneuen.2015.10.005

27. Carmichael C.L., Reis H.T., Duberstein P.R. In Your 20s it's Quantity, in Your 30s it's Quality: The Prognostic Value of Social Activity Across 30 Years of Adulthood // Psychology and aging. 2015. Vol. 30(1). P. 95-105. DOI: 10.1037/pag0000014

28. Ключарёв П.Г., Чесноков В.О. Исследование спектральных свойств социального графа сети LiveJournal // Наука и образование: научное издание МГТУ им. Н.Э. Баумана. 2013. №9. C.391-400. DOI: 10.7463/0913.0603441

29. Parau P., Stef A., Lemnaru C. Using community detection for sentiment analysis // Proc. IEEE 9th Int. Conf. on Intelligent Computer Communication and Processing (ICCP 2013). 2013. P. 51-54. DOI: 10.1109/ICCP.2013.6646080

30. Sokolov G., Lanin V. One approach to document semantic indexing based on multi-agent paradigm // Proceedings of the Spring/Summer Young Researchers' Colloquium on Software Engineering. 2012. №6.

Science and Education of the Bauman MSTU, 2017, no. 02, pp. 121-137.

DOI: 10.7463/0217.0000915

Received: 17.01.2017

Revised: 31.01.2017

© Bauman Moscow State Technical Unversity

of Social Network

iv-P orv a din ig gmail.com 1Bauman Moscow State Technical University, Moscow, Russia

Keywords: social network; binary classification; logistic regression

The subject of research is a binary classification method of social network users based on the data analysis they have placed. Relevance of the task to gain information about a person by examining the content of his/her pages in social networks is exemplified. The most common approach to its solution is a visual browsing. The order of the regional authority in our country illustrates that its using in school education is needed. The article shows restrictions on the visual browsing of pupil's pages in social networks as a tool for the teacher and the school psychologist and justifies that a process of social network users' data analysis should be automated. Explores publications, which describe such data acquisition, processing, and analysis methods and considers their advantages and disadvantages. The article also gives arguments to support a proposal to study the classification method of social network users. One such method is credit scoring, which is used in banks and credit institutions to assess the solvency of clients. Based on the high efficiency of the method there is a proposal for significant expansion of its using in other areas of society. The possibility to use logistic regression as the mathematical apparatus of the proposed method of binary classification has been justified. Such an approach enables taking into account the different types of data extracted from social networks. Among them: the personal user data, information about hobbies, friends, graphic and text information, behaviour characteristics. The article describes a number of existing methods of data transformation that can be applied to solve the problem. An experiment of binary gender-based classification of social network users is described. A logistic model obtained for this example includes multiple logical variables obtained by transforming the user surnames. This experiment confirms the feasibility of the proposed method. Further work is to define a system of criteria and characteristics derived from social networks. This will allow applying the method for classification according to various criteria.

Science ¿Education

of the Bauman MSTU

Binary Classification Method Users

I.A. Poryadin1*, E.V. Smirnova1

References

1. D'iachenko O.V. Russian Mass Media in the Social Networks Facebook and Vkontakte.Ru: Study of Audience's Activity. The Moscow University Herald. Series 10. Journalistiscs, 2016, no. 1, pp. 28-45. [In Russian]

2. Masutin A.A. Credit scoring based on social network data. Business Informatics, 2015, no. 3 (33), p.15-23.

3. Eberle D., Berens G., Li T. The impact of interactive corporate social responsibility communication on corporate reputation. Journal of Business Ethics, 2013, vol. 118, no. 4, p. 731-746.

4. Hoda N., Hoda H., Forcim K. Microfinance market and social media marketing. European journal of economics and management sciences, 2016, no. 1, p. 14-21.

5. Slugina Iu.N. Marketing Communications in Social Media: Problems and Perspectives. Bulletin of the Financial University, 2015, no. 2 (86), pp. 130-134. [In Russian]

6. Bohmova L., Malinova L. Facebook User's Privacy in Recruitment Process. IDIMT 2013, Information Technology, Human Values, Innovation and Economy, Linz, Trauner Verlag, 2013, p. 159-168.

7. Galimov R.R., Stefanova I.A. Social networks as a source of information about the applicants. Symbol of science, 2016, no. 1-2, pp. 38-40. [In Russian]

8. Bond R., Fowler J.H. A 61-Million-Person Experiment in Social Influence and Political Mobilization. Nature, September 2012, p. 295-298. DOI: 10.1038/nature11421

9. Tsymbal N.G., Tsymbal V.N. Employment of the data from the social networking services during the preliminary investigation. Theory and practice of social development, 2013, no. 10, pp. 425-427. [In Russian]

10. Mogilevskaia G.I. Social networks as an important way of expression of mass human. Young Scientist, 2012, no. 4, pp. 517-520. [In Russian]

11. Iugova N.L., Trefilova A.Iu. Social media as a tool for class teachers' psycho-pedagogical activity with teenagers. Personality, family and society: issues ofpedagogy and psychology: Materials of the XLIII International scientific and practical conference, no. 8(43), Novosibirsk, SibAK, 2014. [In Russian]

12. Belarusian portal "TUT.BY": Teachers about students' checks in the "Vkontakte": "It's unreal to monitoring all the pages alone. And who will pay for it?" Available at: http://news.tut.by/reporter/379221.html, accessed 10.12.2016. [In Russian]

13. Arguments and facts: Teachers required to control the social networks of students. Available at: http://www.krsk.aif.ru/society/uchiteley_obyazali_kontrolirovat_socseti_uchenikov, accessed 10.12.2016. [In Russian]

14. RIA Novosti: the Pskov advise teachers to monitor students pages in social networks. Available at: https://ria.ru/incidents/20161115 /1481444181.html, accessed 10.12.2016. [In Russian]

15. Rossiyskaya Gazeta [Russian Gazette]: the School will not monitor students' social media. Available at: https://rg.ru/2014/05/18/internet-site.html, accessed 10.12.2016. [In Russian]

16. Shirobokova S.N., Strel'tsov E.A. Sravnitel'nyi analiz vozmozhnostei API sotsial'nykh setei po kriteriiu funktsional'nyi polnoty [Comparative analysis of the API features of social networks on the criterion of functional completeness]. Innovatsionnaia nauka = Innovative science, 2016, no. 3-3 (15). pp. 147-151. [In Russian]

17. Korshunov A.V. Problems and methods for attribute detection of social network users. The Proceedings of the 15th National Russian Research Conference "Digital Libraries: Advanced Methods and Technologies, Digital Collections", RCDL'2013. [In Russian]

18. Chesnokov V.O., Klyucharev P.G. Social Graph Community Differentiated by Node Features with Partly Missing Information. Nauka i obrazovanie = Science and education. Electronic Journal, 2015, no. 9. pp. 188-199. DOI: 10.7463/0915.0811704 [In Russian]

19. Korshunov A.V., Beloborodov I.A., Buzun N.K. Social network analysis: methods and applications. The Proceedings of ISP RAS, 2014, no. 1, pp. 439-456. [In Russian]

20. Ianishevskaia A.G., Chursin M.A. Services API usage with Facebook and Twitter as example. Inzhenernyi vestnik Dona = Engineering journal of Don, 2015, no. 2, p. 2, pp. 55-66. [In Russian]

21. Zakharov M.A., Karpenko A.P., Smirnova E.V. Assessment of students' competence based on the analysis of social networks. Open Systems. DBMS, 2016, no. 1, pp. 28-30. [In Russian]

22. Belonozhko P.P., Belous V.V., Karpenko A.P., Khramov D.A. Software Tools for Automated Quantitative Assessment of the Students' Meta-competence. Overview. Nauka i obrazovanie = Science and education. Electronic Journal, 2015, no. 10, pp. 498-530.

DOI: 10.7463/1015.0821623 [In Russian]

23. Litvin A.V. K voprosu ob opredelenii tipa lichnosti s pomoshch'iu metoda psikhologicheskogo analiza fotografii. Psikhologiia i pedagogika: problemy sovremennoi nauki i praktiki = Psychology and Pedagogy: Problems of Modern Science and Practice. Materials of All-Russian scientific-practical conference 20-21 September 2010, Chelyabinsk, OOO MATRITsA, 2010, pp. 43-46. [In Russian]

24. Diagileva N.S., Zhuravleva L.A. Methodological foundations of visual sociologic research method. Bulletin of Chelyabinsk State University, 2012, no. 4 (258), pp. 75-79. [In Russian]

25. Soboleva K.V. Visual data analysis: methods. Actual issues of social sciences: sociology, political science, philosophy, history, 2014, no. 33, pp. 62-68. [In Russian]

26. Morin-Major J.K. Facebook behaviors associated with diurnal cortisol in adolescents: Is befriending stressful? Psychoneuroendocrinology, 2015, vol. 63, p. 238-246.

DOI: 10.1016/j.psyneuen.2015.10.005

27. Carmichael C.L., Reis H.T., Duberstein P.R. In Your 20s it's Quantity, in Your 30s it's Quality: The Prognostic Value of Social Activity Across 30 Years of Adulthood. Psychology and aging, 2015, vol. 30(1), p. 95-105. DOI: 10.1037/pag0000014

28. Kliucharev P.G., Chesnokov V.O. Study of the spectral properties of LiveJournal's social graph. Nauka i obrazovanie = Science and education. Electronic Journal, 2013, no. 9, p. 391-400. DOI: 10.7463/0913.0603441 [In Russian]

29. Parau P., Stef A., Lemnaru C. Using community detection for sentiment analysis. Proc. IEEE 9th Int. Conf. on Intelligent Computer Communication and Processing (ICCP 2013), 2013, p. 51-54. DOI: 10.1109/ICCP.2013.6646080 [In Russian]

30. Sokolov G., Lanin V. One approach to document semantic indexing based on multi-agent paradigm. Proceedings of the Spring/Summer Young Researchers' Colloquium on Software Engineering, 2012, no. 6.

i Надоели баннеры? Вы всегда можете отключить рекламу.