Научная статья на тему 'Выявление личностных черт у пользователей социальной сети Вконтакте'

Выявление личностных черт у пользователей социальной сети Вконтакте Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
902
202
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МАШИННОЕ ОБУЧЕНИЕ / АНАЛИЗ СОЦИАЛЬНЫХ СЕТЕЙ / КЛАССИФИКАЦИЯ / БОЛЬШАЯ ПЯТЕРКА ЛИЧНОСТНЫХ ЧЕРТ / ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА / MACHINE LEARNING / SOCIAL MEDIA ANALYSIS / CLASSIFICATION / BIG FIVE PERSONALITY TRAITS / NATURAL LANGUAGE PROCESSING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Станкевич Максим Алексеевич, Игнатьев Николай Алексеевич, Смирнов Иван Валентинович, Кисельникова Наталья Владимировна

Цель статьи: разработка методов выявления личностных черт пользователей социальных сетей с использованием методов обработки естественного языка, анализа данных и машинного обучения. Метод: для проведения исследования был собран набор данных, состоящий из информации с персональных страниц пользователей социальной сети Вконтакте и результатов прохождения опросника личностных черт (балльные значения нейротизма, экстраверсии, готовности к согласию, открытости опыту и сознательности). Используя данные пользователей, были составлены различные группы признаков: психолингвистические маркеры, словари, N-граммы, информация из профиля пользователя и матрица репостов. На основе полученных признаков решалась задача бинарной классификации высокого и низкого уровня личностных черт пользователей Вконтакте, с использованием алгоритмов машинного обучения. Полученный результат: в ходе проведения исследования была сформирована выборка из 1020 человек, которые прошли опросник личностных черт и предоставили свои данные из социальной сети Вконтакте. В ходе экспериментов были оценены различные группы признаков, использовавшиеся для бинарной классификации. Результаты показали, что наибольшая точность достигается с группами признаков психолингвистических маркеров и информации о профиле пользователя. Среди пяти личностных черт пользователей, уровни экстраверсии и нейротизма выявляются с лучшем качеством.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Станкевич Максим Алексеевич, Игнатьев Николай Алексеевич, Смирнов Иван Валентинович, Кисельникова Наталья Владимировна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Personality Traits Prediction from VKontakte Social Media

Purpose of the study: development of methods for identifying personality traits of social media users using natural language processing, data analysis, and machine learning. Method: We built the dataset for the research that consists of information from the Vkontakte social media personal pages and the results of personality traits questionnaire (scoring values of neuroticism, extraversion, willingness to consent, openness to experience and consciousness). Various groups of features were compiled by processing the data: psycholinguistic markers, dictionaries, N-grams, information from a user profile, and a repost matrix. Using the retrieved features, we performed on the binary classification task on high and low personality traits levels by utilizing machine learning algorithms.Results: We formed a dataset that consists of 1020 Vkontakte profiles provided by users who took a personality questionnaire. The various features were retrieved from social media data and evaluated. The results revealed that the best accuracy is achieved using features which are based on psycholinguistic markers and information about the user profile. Among the five personality traits of users, the levels of extraversion and neuroticism are identified with the best quality.

Текст научной работы на тему «Выявление личностных черт у пользователей социальной сети Вконтакте»

I ВЫЯВЛЕНИЕ ЛИЧНОСТНЫХ ЧЕРТ У ПОЛЬЗОВАТЕЛЕЙ СОЦИАЛЬНОЙ СЕТИ ВКОНТАКТЕ1

Станкевич М.А.2, Игнатьев Н. А.3, Смирнов И.В.4, Кисельникова Н.В.5

Цель статьи: разработка методов выявления личностных черт пользователей социальных сетей с использованием методов обработки естественного языка, анализа данных и машинного обучения.

Метод: для проведения исследования был собран набор данных, состоящий из информации с персональных страниц пользователей социальной сети Вконтакте и результатов прохождения опросника личностных черт (балльные значения нейротизма, экстраверсии, готовности к согласию, открытости опыту и сознательности). Используя данные пользователей, были составлены различные группы признаков: психолингвистические маркеры, словари, Nграммы, информация из профиля пользователя и матрица репостов. На основе полученных признаков решалась задача бинарной классификации высокого и низкого уровня личностных черт пользователей Вконтакте, с использованием алгоритмов машинного обучения.

Полученный результат: в ходе проведения исследования была сформирована выборка из 1020 человек, которые прошли опросник личностных черт и предоставили свои данные из социальной сети Вконтакте. В ходе экспериментов были оценены различные группы признаков, использовавшиеся для бинарной классификации. Результаты показали, что наибольшая точность достигается с группами признаков психолингвистических маркеров и информации о профиле пользователя. Среди пяти личностных черт пользователей, уровни экстраверсии и нейротизма выявляются с лучшем качеством.

Ключевые слова: машинное обучение, анализ социальных сетей, классификация, большая пятерка личностных черт, обработка естественного языка.

1. Введение

Раннее и своевременное обнаружение групп людей, обладающих риском проявления психических и личностных расстройств, является важной проблемой современного общества, поскольку позволяет вовремя предоставить необходимую людям помощь. Широкое распространение профилактических методов работы с психическими и личностными расстройствами, позволит снизить количество людей, нуждающихся в лечении.

Ряд исследований показало, что личностные черты (в частности, черты, выделяемые в модели «Большая пятерка») могут вступать как в качестве предикторов, так и коррелянтов различных психических расстройств [1]. Поэтому определение личностных черт может использоваться как часть диагностики личностных и психических расстройств [2]. Некоторые исследователи считают, что модель личностных черт «Большая пятерка» можно интегрировать в современные психиатрические модели [3-6]. Сама модель описывает 5 личностных черт человека: нейротизм, экстраверсия, готовность к согласию, открытость опыту и сознательность.

Анализ больших данных и поведения пользователей социальных сетей открывает новые возможности для

DOI: 10.21681/2311-3456-2019-4-80-87

исследования личностных черт, таких как построение и проверка предсказательных моделей о личностных чертах и поведении людей в норме и патологии, в том числе и с использованием русскоязычных данных [7]. По качеству сбор данных различных форматов (информация о естественном поведении пользователей - количестве добавляемых друзей и подписчиков, «постов», фотографий, «лайков», списков интересов и сообществ, аудио- и видеозаписей и др.), сопоставим с данными, собираемыми классическими методами, однако их конструктная валидность выше. Более того, такая процедура сбора данных позволяет значительно увеличить размеры выборки [8].

В данной работе решается задача автоматического выявления личностных черт у пользователей социальной сети ВКонтакте на основе информации о текстовых сообщениях и общей информации о профиле. Эксперимент представлен в виде задачи бинарной классификации низких и высоких значений личностных черт, где для разбивки данных на 2 класса использовались нижний и верхний квартиль балльной шкалы опросника личностных черт.

1 Работа выполнена при финансовой поддержке РФФИ (проекты № 17-29-02225 и № 18-29-22041).

2 Станкевич Максим Алексеевич, сотрудник ФИЦ ИУ РАН, г Москва, Россия. E-mail: stankevich@isa.ru.ru

3 Игнатьев Николай Алексеевич, РУДН, r. Москва, Россия. E-mail: naignatiev@yandex.ru.

4 Смирнов Иван Валентинович, к.ф.-м.н., зав.отд. ФИЦ ИУ РАН, r. Москва, Россия. E-mail: ivs@isa.ru

5 Кисельникова Наталья Владимировна, к.п.н., зав.лаб. ПИ РАО, г Москва, Россия. E-mail: nv.pirao@gmail.com

2.Обзор

В исследованиях последних лет наметились направления, связанные с определением личностных черт с помощью анализа текстов, изображений, видео и ауди-оконтента, размещаемого пользователями социальных сетей. Также анализируются реакции пользователей на размещенный другими пользователями контент.

В одной из наиболее крупных работ по данной проблеме H.Schwartz и соавт. [9] использовали данные 75.000 пользователей социальной сети Facebook для анализа связей между лексикой пользователей в социальной сети и их личностными чертами. Всего в исследовании рассматривалась 700 миллионов слов, фраз и тематических групп, автоматически выделенных при помощи метода латентного размещения Дирихле [10]. На основе собранных данных был проведен анализ лексики и выделены группы слов, которые наиболее часто встречаются у людей с низкими и высокими значениями личностных черт. Также был проведен корреляционный анализ между признаками, полученными при помощи инструментария LIWC [11], и значениями личностных черт.

TYarkom и соавт. [12] провели крупномасштабный анализ личности и использования слов на большой выборке блогов, авторы которых ответили на опросники, позволяющие определить личностные черты. Был сделан вывод, что использование некоторых групп слов связано с личностными особенностями авторов. F. Iacobelli и соавт. [13] использовали блоги для классификации личности на основе текста блогов. В работе было доказано, что структура текста, и используемые слова являются важными характеристиками для оценки личности по тексту. J. Oberlander и соавт. [14] изучали, можно ли сделать вывод о личности авторов блога из их личных постов. Для этого 71 различных пользователей ответили на опросники, позволяющие определить личностные черты. В работе в качестве признаков использовались N-граммы. На основе этих признаков выявлялись личностные характеристики авторов постов при помощи метода опорных векторов.

A. Souri, и соавт. [15] с целью распознавания личности с точки зрения анализа активности пользователей в социальной сети собирали информацию о личностных характеристиках пользователей и их профилях в Facebook с использованием. Всего были собраны результаты опросника от 100 пользователей Facebook. Предложенные методы позволили выявлять личностные черты пользователей с точностью до 82,2%.

Однако, контент социальных сетей включает в себя не только тексты и информацию о лайках, подписчиках и т. д., но также и графический контент. Развитие методов и средств машинного обучения привели к тому, что у исследователей появилась возможность проводить анализ личности, основанный на анализе изображений, которые тем или иным образом связаны с пользователями Интернет ресурсов.

M. Cristani и соавт. [16] доказали, что существуют визуальные паттерны, которые коррелируют с личностными качествами 300 пользователей Flickr. Они также показали, что черты личности пользователей, такие как

самооценка, быть выведены из изображений, которым пользователи ставили лайк. При этом чем выше корреляция между «реальным собой» и «предпочитаемым собой», тем с более высокой точностью можно определить личность пользователя по постам, которые ему понравились. В своей работе они показали, что наиболее точно можно определить такие личностные черты как экстраверсия сознательность. Результаты для определения нейротизма и готовности к согласию были также удовлетворительны.

Позднее C. Segalin и соавт. [17] предложили новый набор признаков, которые лучше кодируют информацию об изображении, используемую для определения личности пользователя, которому понравилось это изображение. Каждое изображение было описано вектором из 82 различных признаков, разделенными на четыре основные категории: цвет, композиция, текстурные свойства и лица. Их метод оказался подходящим для сопоставления изображения с личностными чертами, но он работал лучше для атрибутивных черт личности, чем для самооценки индивида.

В настоящее время, исследование связи личностных черт пользователей с контентом социальных сетей ведется, в основном, на англоязычных ресурсах. Исследования на основе русскоязычных социальных сетей только начинают развиваться [7,8]. Наша работа посвящена исследованию личностных черт при помощи анализа русскоязычных текстов, взятых из русскоязычной социальной сети «ВКонтакте».

3. Набор данных

Для формирования набора данных мы попросили пользователей Вконтакте добровольно принять участие в нашем исследовании и заполнить опросник большой пятерки личностных черт NEO-FFI [18], предоставив перед этим доступ к открытой части своих профилей через наше приложение Вконтакте. Затем мы с помощью API Вконтакте автоматически загрузили всю доступную информацию с персональных страниц пользователей, завершивших опросник, включая посты, комментарии, информацию о сообществах, друзьях и другие данные профиля. Текстовые сообщения собирались за период с января 2017 года по апрель 2019 года. Вся персональная информация, которая может быть использована для идентификации личности пользователей, не сохранялась. Всего данные были собраны с 1020 пользователей, а итоговая выборка составлялась из следующих категорий:

- Результаты опросника NEO-FFI. Значения экстраверсии, готовности к согласию, сознательности, нейротизма и открытости опыту.

- Общая информация с персональных страниц.

Содержит любую доступную информацию с персональных страниц пользователей: количество друзей, количество подписчиков, количество подписчиков, количество групп, возраст, пол, ответы на предварительно заданные вопросы профиля Вконтакте, настройки видимости профиля, количество фотографий и информация об отношениях и т. д.

- Сообщения пользователей на персональных страницах. Все сообщения, которые принадлежат пользователю.

- Комментарии пользователей. API Вконтакте позволяет скачивать комментарии, оставленные под сообщениями пользователей.

- Репосты. Большое количество контента на персональных страницах пользователей это репосты. Репосты — обычные сообщения, которые принадлежат пользователям и сообществам социальной сети, выложенные на персональных страницах других пользователей с указанием исходного источника.

Распределения значений личностных черт среди выборки из 1020 человек представлены на Рисунке 1. На Рисунке 1 видно, что значения личностных черт пользователей нормально распределены. Средние значения для нейротизма находятся ближе к высокому уровню, а средние значения экстраверсии и сознательности находятся ближе к низким значениям.

Во время сбора данных мы не устанавливали никаких ограничений на заполненность профиля Вконтакте. В итоге выборка содержала профили пользователей, где полностью отсутствовали текстовые сообщения пользователей. В исследовании мы хотели проанализировать как текстовые данные, так и общую информацию об активности пользователя. Так как из профилей, где не содержится текстовых данных, невозможно выделить текстовые признаки, мы составили отдельную текстовую выборку. Для составления этой выборки из сообщений пользователей были удалены все символы, не являющиеся буквами алфавита или стандартными символами пунктуации, и удалены все сообщения с длиной более чем 2000 символов. Также был установлен минимальный и максимальный лимит на количество текстовых сообщений — от 10 до 100. В конечном итоге, в текстовую выборку вошли данные 632 человек. На Рисунке 2 представлено распределение по общему количеству слов среди текстовой выборки.

Рис. 1. Распределения значений личностных черт на выборке из 1020 человек. у - среднее значение.

а - среднеквадратичное отклонение.

Распределение по количеству слов _ji - 1082.67_а = 1037.89

60 н

О 1000 2000 3000 4000 5000 6000

Число слов

Рис. 2. Распределение по общему количеству слов в сообщениях пользователей на текстовой выборке. у - среднее значение. а - среднеквадратичное отклонение.

Не смотря на то, что предоставленный объем текстовой информации сильно отличается между некоторыми пользователями, мы сочли текущие данные пригодными для проведения дальнейших экспериментов и выделения лингвистических признаков из текста.

4.Метод

Для проведения экспериментов по выявлению личностных черт пользователей социальной сети Вконтакте, мы рассмотрели задачу бинарной классификации низкого и высокого уровня этих черт. Исходные результаты опросника NEO-FFI позволяют представлять значения нейротизма, экстраверсии, готовности к согласию, открытости опыту и сознательности в виде целого значения на шкале от 0 до 63 баллов. Чтобы представить нашу задачу в виде бинарной классификации мы использовали нижний и верхний квартиль этих значений. Таким образом, пользователи со значениями личностных черт меньше, чем пороговое значение нижнего квартиля, вошли в класс с низким уровнем, а пользователи со значениями личностных черт больше, чем пороговое значение верхнего квартиля, вошли в класс высокого уровня. Выделение классов проводилось отдельно для каждой из личностных черт.

Для проведения бинарной классификации мы составили различные группы признаков, которые основываются как на текстовой информации о профилях пользователей, так и на общей информации из профиля. Для получения текстовых признаков мы использовали мор-

фологический анализатор от MyStem1 и синтаксический анализатор, основанный на UDPipe2. Все сообщения пользователя рассматривались как один текст.

- Психолингвистические маркеры. В эту группы признаков вошли различные характеристики текста, которые позволяют выявлять психологические особенности автора. В нее входят части речи, тональность слов, употребление местоимений и глаголов в разных формах, психолингвистические индексы и другие показатели. Более подробно они описаны в работе, посвященной выявлению депрессии на основе анализа эссе [19].

- Словари. Использовались словари, которые ранее применялись для задачи выявления агрессии в текстах социальных сетей [20].

- N-граммы. Использовалась стандартная модель векторного представления документов на основе униграмм и биграмм.

- Информация из профиля. В эту группу вошла вся доступная информация из профиля пользователя: количество друзей, количество сообщений, бинарные показатели заполненности страницы, настройки видимости профиля и другие.

- Матрица репостов. Одна из основных активностей пользователей Вконтакте это выкладывание репостов на своих персональных страницах. Источниками этих репостов являются популярные

1 https://tech.yandex.ru/mystem/.

2 http://ufal.mff.cuni.cz/udpipe.

люди, сообщества и группы, которые насчитывают огромное количество подписчиков. Мы проанализировали подход, который был описан в работе [21], где для выявления личностных особенностей человека использовалась информация о лайках в Facebook, и решили составить матрицу репостов, которая позволяет представить информацию о репостах пользователей в векторном виде. Для ее расчета используется концепция, аналогичная методу мешка слов (bag-of-words) для векторного представления документов, однако в качестве словаря встречаемой лексики используются идентификаторы источников репо-стов, а в качестве количества словоупотреблений используется количество репостов из одного источника.

5.Результаты экспериментов

В наших экспериментах мы рассмотрели 2 алгоритма машинного обучения: метод опорных векторов (SVM) и алгоритм случайного леса (Random Forest). Результаты экспериментов представлены в виде усредненного значения точности (accuracy score) на 5 прогонах 4-ех кратного скользящего контроля с указанием среднеквадратичного отклонения. В Таблице 1 пред-

ставлены результаты классификации на текстовой выборке. В таблице используются следующие обозначения: ПМ — психолингвистические маркеры, С — словари, У — униграммы, Б — биграммы, ИП — информация из профиля, МР — матрица репостов. Наибольшая точность для каждой из личностных черт выделена жирным шрифтом.

Наибольшая точность выявления для уровней нейро-тизма, экстраверсии, готовности к согласию и открытости опыту достигается на основе алгоритма случайного леса и комбинации признаков психолингвистических маркеров с информаций из профилей пользователей. Лучший результат для уровня сознательности был достигнут с использованием метода опорных векторов с психолингвистическими признаками. Группы признаков, основанные на 1\1-граммах и словарях, не показали высоких результатов в наших экспериментах. Мы связывает это с тем, что лексика социальных сетей содержит большое количество шума. Более того, объем текстовых данных сильно отличается среди пользователей из выборки. Стоит отметить, что одно только использование простых признаков, полученных из общей информации о профилях пользователей (ИП), позволяет получать сравнительно высокую точность для уровня сознательности, экстраверсии и нейротизма пользователей.

Результаты классификации на текстовой выборке

Таблица1

Количество пользователей

Нейротизм Экстраверсия Готовность к согласию Открытость опыту Сознательность

Высокий 158 140 154 147 156

Низкий 147 139 154 154 157

SVM

ПМ 65.58 ± 1.97 69.52 ± 1.74 57.74 ± 5.91 55.43 ± 4.51 63.91 ± 3.12

С 61.35 ± 3.93 65.22 ± 5.31 53.22 ± 4.09 51.20 ± 1.28 51.44 ± 3.21

У 51.83 ± 0.38 53.44 ± 5.96 58.05 ± 4.96 51.04 ± 0.66 52.63 ± 4.80

Б 51.90 ± 0.18 52.35 ± 4.07 57.70 ± 6.65 51.16 ± 0.28 53.55 ± 6.30

ИП 64.27 ± 3.08 73.14 ± 4.88 54.48 ± 5.18 61.11 ± 2.26 59.40 ± 6.36

МР 58.66 ± 4.18 57.02 ± 4.23 53.25 ± 3.89 56.14 ± 1.04 55.28 ± 5.88

ПМ+ИП 66.27 ± 4.25 72.06 ± 5.39 58.72 ± 3.95 60.13 ± 2.36 56.86 ± 2.77

Random Forest

ПМ 61.68 ± 3.75 72.03 ± 3.93 58.74 ± 3.67 51.84 ± 5.49 59.03 ± 4.21

С 58.58 ± 4.06 68.66 ± 3.15 53.06 ± 4.54 49.30 ± 7.08 45.74 ± 2.64

У 63.55 ± 5.35 64.64 ± 2.96 56.26 ± 8.05 58.74 ± 6.47 58.52 ± 4.68

Б 63.28 ± 5.41 66.15 ± 2.17 57.45 ± 6.71 58.04 ± 4.57 58.71 ± 5.74

ИП 63.84 ± 5.64 69.03 ± 4.69 57.17 ± 5.49 59.81 ± 4.07 62.37 ± 3.80

МР 59.66 ± 3.61 61.65 ± 3.79 56.90 ± 4.55 58.29 ± 3.78 55.82 ± 4.84

ПМ+ИП 67.27 ± 1.73 73.75 ± 3.20 61.79 ± 5.20 61.74 ± 5.15 61.40 ± 3.45

Так как для полной выборки не было возможности рассчитать текстовые признаки, мы провели аналогичный эксперимент для всех 1020 человек, с использованием групп признаков ИП и МР, которые не основываются на текстовых сообщениях пользователей. Результаты экспериментов на полной выборке представлены в Таблице 2. Мы также добавили результаты классификации с комбинацией признаков ИП+МР.

В экспериментах на полной выборке можно выделить следующие лучшие показатели точности: Нейро-тизм - 69.42%, Экстраверсия - 64.91%, Готовность к согласию - 64.91%, Открытость опыту - 59.28%, Сознательность - 62.93%. Не смотря на то, что признаки матрицы репостов не показали высоких результатов в первых экспериментах, комбинирование их с признаками ИП позволяет получить прирост по точности классификации. Учитывая специфику признаков, полученных на основе репостов пользователей Вконтакте, можно предположить, что подобные признаки будут работать значительно лучше на большем объеме данных.

6.Выводы

В данной работе мы рассмотрели задачу выявления личностных черт 1020 пользователей русскоязычной социальной сети Вконтакте. Собрав данные пользователей, мы сформировали набор данных, содержащий написанные пользователями сообщения, подробную информацию о его профиле и результаты прохождения опросника личностных черт. Используя эти данные, нами были составлены наборы признаков: психолингвистические характеристики текста, 1\1-граммы, словари, общая информация о профиле и матрица репо-

стов. Мы рассмотрели задачу бинарной классификации пользователей, рассматривая только высокий и низкий уровень значений личностных черт. Применив методы машинного обучения, были оценены полученные наборы признаков.

Такие наборы признаков как психолингвистические маркеры и общая информация о профилях показали наилучший результат в наших экспериментах. В свою

очередь, словари не показали высоких результатов на данных. Мы также ожидали получить лучшие результаты с моделями, основанными на \1-граммах. Из результатов нашего исследования можно сделать вывод, что применение подобных признаков требует учитывать специфику текстов из социальных сетей. В дальнейшем мы планируем переработать и модифицировать эти наборы признаков, с учетом особенностей анализируемых данных. Мы также планируем применить нейронные сети для решения поставленной задачи.

Подводя итог, мы видим, что описанные в работе модели, направленные на определение личностных черт «Большой пятерки» посредством анализа текстов и параметров поведения пользователей в социальных сетях, работают, но требуют дальнейшего модифицирования. Так образом, лучше всего предсказывается нейротизм и экстраверсия с использованием модели, основанной на психолингвистических характеристиках текста и информации из профиля. Полученные результаты показывают возможность определения личностных черт через анализ информации пользователя, выложенной в социальных сетях, что в следствие свидетельствует о возможности применение данных методов для выявления личностных расстройств человека.

Таблица 2

Результаты классификации на полной выборке

Количество пользователей

Нейротизм, % Экстраверсия, % Готовность к согласию, % Открытость опыту, % Сознательность, %

Высокий 235 255 223 223 233

Низкий 240 247 225 214 226

SVM

ИП 67.58 ± 1.42 70.11 ± 5.2 62.28 ± 1.92 56.96 ± 1.76 62.93 ± 4.92

МР 56.63 ± 1.79 53.59 ± 2.67 51.97 ± 5.19 54.44 ± 3.8 53.58 ± 1.22

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ИП+МР 66.52 ± 2.46 66.92 ± 6.71 61.38 ± 1.45 58.1 ± 2.92 59.22 ± 6.22

Random Forest

ИП 64.92 ± 3.03 72.22 ± 6.1 64.91 ± 5.01 55.1 ± 2.38 61.88 ± 4.1

МР 61.3 ± 1.36 55.29 ± 4.65 59.84 ± 5.61 59.28 ± 2.85 53.69 ± 5.82

ИП+МР 69.42 ± 4.08 72.86 ± 7.36 64.28 ± 4.74 56.83 ± 2.46 61.65 ± 3.33

Литература

1. Widiger T. A., Costa Jr P. T. Personality and personality disorders //Journal of abnormal psychology. - 1994. - Т. 103. - №. 1. - С. 78.

2. Widiger T. A., Mullins-Sweatt S. N. Clinical utility of a dimensional model of personality disorder //Professional Psychology: Research and Practice. - 2010. - Т. 41. - №. 6. - С. 488.

3. Widiger T. A., Costa Jr P. T. Personality disorders and the five-factor model of personality. - American Psychological Association, 2013.

4. Wiggins J. S., Pincus A. L. Conceptions of personality disorders and dimensions of personality //Psychological assessment: A journal of consulting and clinical psychology. - 1989. - Т. 1. - №. 4. - С. 305.

5. Piedmont R. L. et al. Using the five-factor model to identify a new personality disorder domain: The case for experiential permeability // Journal of Personality and Social Psychology. - 2009. - Т. 96. - №. 6. - С. 1245.

6. Ozer D. J., Benet-Martinez V. Personality and the prediction of consequential outcomes //Annu. Rev. Psychol. - 2006. - Т. 57. - С. 401-421.

7. Panicheva P., Ledovaya Y., Bogolyubova O. Lexical, morphological and semantic correlates of the dark triad personality traits in russian facebook texts //2016 IEEE Artificial Intelligence and Natural Language Conference (AINL). - IEEE, 2016. - С. 1-8.

8. Ledovaya Y. A., Tikhonov R. V., Bogolyubova O. N. Social networks as a new environment for interdisciplinary studies of human behavior.

- 2017.

9. Schwartz H. A. et al. Personality, gender, and age in the language of social media: The open-vocabulary approach //PloS one. - 2013.

- Т. 8. - №. 9. - С. E73791.

10. Blei D. M., Ng A. Y., Jordan M. I. Latent dirichlet allocation //Journal of machine Learning research. - 2003. - Т. 3. - №. Jan. - С. 9931022.

11. Tausczik Y. R., Pennebaker J. W. The psychological meaning of words: LIWC and computerized text analysis methods //Journal of language and social psychology. - 2010. - Т. 29. - №. 1. - С. 24-54.

12. Yarkoni T. Personality in 100,000 words: A large-scale analysis of personality and word use among bloggers //Journal of research in personality. - 2010. - Т. 44. - №. 3. - С. 363-373.

13. Iacobelli F. et al. Large scale personality classification of bloggers //international conference on affective computing and intelligent interaction. - Springer, Berlin, Heidelberg, 2011. - С. 568-577.

14. Oberlander J., Nowson S. Whose thumb is it anyway? Classifying author personality from weblog text //Proceedings of the COLING/ACL 2006 Main Conference Poster Sessions. - 2006. - С. 627-634.

15. Souri A., Hosseinpour S., Rahmani A. M. Personality classification based on profiles of social networks' users and the five-factor model of personality //Human-centric Computing and Information Sciences. - 2018. - Т. 8. - №. 1. - С. 24.

16. Cristani M. et al. Unveiling the multimedia unconscious: Implicit cognitive processes and multimedia content analysis //Proceedings of the 21st ACM international conference on Multimedia. - ACM, 2013. - С. 213-222.

17. Segalin C. et al. The pictures we like are our image: continuous mapping of favorite pictures into self-assessed and attributed personality traits //IEEE Transactions on Affective Computing. - 2016. - Т. 8. - №. 2. - С. 268-285.

18. Costa P. T., McCrae R. R. Normal personality assessment in clinical practice: The NEO Personality Inventory //Psychological assessment.

- 1992. - Т. 4. - №. 1. - С. 5.

19. M. Stankevich, I. Smirnov, Y. Kuznetsova, N. Kiselnikova, S. Enikolopov. Predicting Depression from Essays in Russian //Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference «Dialogue». - 2019.

20. Девяткин Д. А. и др. Интеллектуальный анализ проявлений вербальной агрессивности в текстах сетевых сообществ // Искусственный интеллект и принятие решений. - 2014. - №. 2. - С. 27-41.

21. Kosinski M., Stillwell D., Graepel T. Private traits and attributes are predictable from digital records of human behavior //Proceedings of the National Academy of Sciences. - 2013. - Т. 110. - №. 15. - С. 5802-5805.

PERSONALITY TRAITS PREDICTION FROM VKONTAKTE

SOCIAL MEDIA

Stankevich M. A.6, Ignatiev N. A.7, Smirnov I. V.8, Kiselnikova N. V.9

Purpose of the study: development of methods for identifying personality traits of social media users using natural language processing, data analysis, and machine learning.

6 Maksim Stankevich, FRC CSC RAS, Moscow, Russia. E-mail: maxastan95@gmail.com

7 Nikolay Ignatiev, RUDN University, Moscow, Russia. E-mail: naignatiev@yandex.ru

8 Ivan Smirnov, FRC CSC RAS, Moscow, Russia. E-mail: ivs@isa.ru

9 Natalia Kiselnikova, Psychological Institute of RAE, Moscow, Russia. E-mail: nv.pirao@gmail.com

Method: We built the dataset for the research that consists of information from the Vkontakte social media personal pages and the results of personality traits questionnaire (scoring values of neuroticism, extraversion, willingness to consent, openness to experience and consciousness). Various groups of features were compiled by processing the data: psycholinguistic markers, dictionaries, N-grams, information from a user profile, and a repost matrix. Using the retrieved features, we performed on the binary classification task on high and low personality traits levels by utilizing machine learning algorithms.

Results: We formed a dataset that consists of 1020 Vkontakte profiles provided by users who took a personality questionnaire. The various features were retrieved from social media data and evaluated. The results revealed that the best accuracy is achieved using features which are based on psycholinguistic markers and information about the user profile. Among the five personality traits of users, the levels of extraversion and neuroticism are identified with the best quality.

Keywords: machine learning, social media analysis, classification, big five personality traits, natural language processing.

References

1. Widiger T. A., Costa Jr P. T. Personality and personality disorders // Journal of abnormal psychology. 1994. T. 103. №. 1. C. 78.

2. Widiger T. A., Mullins-Sweatt S. N. Clinical utility of a dimensional model of personality disorder // Professional Psychology: Research and Practice. 2010. T. 41. №. 6. C. 488.

3. Widiger T. A., Costa Jr P. T. Personality disorders and the five-factor model of personality. American Psychological Association, 2013.

4. Wiggins J. S., Pincus A. L. Conceptions of personality disorders and dimensions of personality // Psychological assessment: A journal of consulting and clinical psychology. 1989. T. 1. №. 4. C. 305.

5. Piedmont R. L. et al. Using the five-factor model to identify a new personality disorder domain: The case for experiential permeability // Journal of Personality and Social Psychology. 2009. T. 96. №. 6. C. 1245.

6. Ozer D. J., Benet-Martinez V. Personality and the prediction of consequential outcomes // Annu. Rev. Psychol. 2006. T. 57. C. 401-421.

7. Panicheva P., Ledovaya Y., Bogolyubova O. Lexical, morphological and semantic correlates of the dark triad personality traits in russian facebook texts // 2016 IEEE Artificial Intelligence and Natural Language Conference (AINL). IEEE, 2016. C. 1-8.

8. Ledovaya Y. A., Tikhonov R. V., Bogolyubova O. N. Social networks as a new environment for interdisciplinary studies of human behavior.

9. Schwartz H. A. et al. Personality, gender, and age in the language of social media: The open-vocabulary approach // PloS one. 2013. T. 8. №. 9. C. E73791.

10. Blei D. M., Ng A. Y., Jordan M. I. Latent dirichlet allocation //Journal of machine Learning research. 2003. T. 3. №. Jan. C. 993-1022.

11. Tausczik Y. R., Pennebaker J. W. The psychological meaning of words: LIWC and computerized text analysis methods // Journal of language and social psychology. 2010. T. 29. №. 1. C. 24-54.

12. Yarkoni T. Personality in 100,000 words: A large-scale analysis of personality and word use among bloggers // Journal of research in personality. 2010. T. 44. №. 3. C. 363-373.

13. Iacobelli F. et al. Large scale personality classification of bloggers // international conference on affective computing and intelligent interaction. Springer, Berlin - Heidelberg. 2011. C. 568-577.

14. Oberlander J., Nowson S. Whose thumb is it anyway? Classifying author personality from weblog text // Proceedings of the COLING/ ACL 2006 Main Conference Poster Sessions. 2006. C. 627-634.

15. Souri A., Hosseinpour S., Rahmani A. M. Personality classification based on profiles of social networks' users and the five-factor model of personality // Human-centric Computing and Information Sciences. 2018. T. 8. №. 1. C. 24.

16. Cristani M. et al. Unveiling the multimedia unconscious: Implicit cognitive processes and multimedia content analysis // Proceedings of the 21st ACM international conference on Multimedia. ACM, 2013. C. 213-222.

17. Segalin C. et al. The pictures we like are our image: continuous mapping of favorite pictures into self-assessed and attributed personality traits // IEEE Transactions on Affective Computing. 2016. T. 8. №. 2. C. 268-285.

18. Costa P. T., McCrae R. R. Normal personality assessment in clinical practice: The NEO Personality Inventory// Psychological assessment. 1992. T. 4. №. 1. C. 5.

19. M. Stankevich, I. Smirnov, Y. Kuznetsova, N. Kiselnikova, S. Enikolopov. Predicting Depression from Essays in Russian // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference «Dialogue». 2019.

20. Devyatkin et al. Intellektualnyj analiz proyavlenij verbal'noj agressivnosti v tekstah setevyh soobshchestv // Iskusstvennyj intellekt i prinyatie reshenij. 2014. №. 2. C. 27-41.

21. Kosinski M., Stillwell D., Graepel T. Private traits and attributes are predictable from digital records of human behavior // Proceedings of the National Academy of Sciences. 2013. T. 110. №. 15. C. 5802-5805.

2017.

i Надоели баннеры? Вы всегда можете отключить рекламу.