Научная статья на тему 'ВЫЯВЛЕНИЕ ИНФОРМАТИВНЫХ ПАРАМЕТРОВ ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЕЙ СОЦИАЛЬНОЙ СЕТИ ВКОНТАКТЕ КАК ПРИЗНАКОВ ДЕПРЕССИИ'

ВЫЯВЛЕНИЕ ИНФОРМАТИВНЫХ ПАРАМЕТРОВ ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЕЙ СОЦИАЛЬНОЙ СЕТИ ВКОНТАКТЕ КАК ПРИЗНАКОВ ДЕПРЕССИИ Текст научной статьи по специальности «Психологические науки»

CC BY-NC-ND
673
107
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДЕПРЕССИЯ / СОЦИАЛЬНЫЕ СЕТИ / BIG DATA / МАШИННОЕ ОБУЧЕНИЕ / ПСИХИЧЕСКОЕЗДОРОВЬЕ / DEPRESSION / SOCIAL NETWORKS / MACHINE LEARNING / MENTAL HEALTH

Аннотация научной статьи по психологическим наукам, автор научной работы — Кисельникова Наталья Владимировна, Станкевич Максим Алексеевич, Данина Мария Михайловна, Куминская Евгения Андреевна, Лаврова Елена Васильевна

Настоящее междисциплинарное исследование направлено на определение информативных признаков поведения русскоязычных пользователей социальной сети ВКонтакте всвязи с уровнем выраженности у них признаков депрессии. В исследовании анализировались результаты опроса 1268 пользователей ВКонтакте (опросник депрессии А. Бека),которые предоставили доступ к информации своих профилей. Из них были сформированы три группы респондентов с разным уровнем выраженности признаков депрессии. C помощью методов машинного обучения, метода опорных векторов (SVM) и алгоритма случайного леса (Random Forest) были выявлены информативные лингвистические и поведенческие признаки депрессии у пользователей социальной сети ВКонтакте, сопоставимые сданными, полученными исследователями англоязычных респондентов других социальных сетей.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по психологическим наукам , автор научной работы — Кисельникова Наталья Владимировна, Станкевич Максим Алексеевич, Данина Мария Михайловна, Куминская Евгения Андреевна, Лаврова Елена Васильевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

IDENTIFICATION OF INFORMATIVE BEHAVIOR PARAMETERS IN USERS OF VKONTAKTE SOCIAL NETWORK AS MARKERS OF DEPRESSION

The objective of this interdisciplinary study was to identify informative signs of behavior of Russian-speaking users of the social network VKontakte in connection with the severity of their signs of depression. The study used data from 1268 VKontakte users who filled out the Beck Depression Inventory (BDI), and also provided access to their profiles information. There were three groups of respondents with different levels of severity of signs of depression. Using machine learning methods, the support vector method (SVM) and the random forest algorithm (RandomForest), informative linguistic and behavioral signs of depression were revealed among users ofthe VKontakte social network, comparable to data obtained by researchers of English-speaking respondents from other social networks.

Текст научной работы на тему «ВЫЯВЛЕНИЕ ИНФОРМАТИВНЫХ ПАРАМЕТРОВ ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЕЙ СОЦИАЛЬНОЙ СЕТИ ВКОНТАКТЕ КАК ПРИЗНАКОВ ДЕПРЕССИИ»

Психология. Журнал Высшей школы экономики.

2020. Т. 17. № 1. С. 73-88. DOI: 10.17323/1813-8918-2020-1-73-88

ВЫЯВЛЕНИЕ ИНФОРМАТИВНЫХ ПАРАМЕТРОВ ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЕЙ СОЦИАЛЬНОЙ СЕТИ ВКОНТАКТЕ КАК ПРИЗНАКОВ ДЕПРЕССИИ

Н.В. КИСЕЛЬНИКОВАа, М.А. СТАНКЕВИЧ\ М.М. ДАНИНАа, Е.А. КУМИНСКАЯа, Е.В. ЛАВРОВ Аа

а Федеральное государственное бюджетное научное учреждение «Психологический институт РАО», 125009, Россия, Москва, ул. Моховая, д. 9, стр. 4

ь Федеральный исследовательский центр «Информатика и управление» Российской академии наук, 119333, Россия, Москва, ул. Вавилова, д. 44, к. 2

Резюме

Настоящее междисциплинарное исследование направлено на определение информативных признаков поведения русскоязычных пользователей социальной сети ВКонтакте в связи с уровнем выраженности у них признаков депрессии. В исследовании анализировались результаты опроса 1268 пользователей ВКонтакте (опросник депрессии А. Бека), которые предоставили доступ к информации своих профилей. Из них были сформированы три группы респондентов с разным уровнем выраженности признаков депрессии. C помощью методов машинного обучения, метода опорных векторов (SVM) и алгоритма случайного леса (Random Forest) были выявлены информативные лингвистические и поведенческие признаки депрессии у пользователей социальной сети ВКонтакте, сопоставимые с данными, полученными исследователями англоязычных респондентов других социальных сетей.

Ключевые слова: депрессия, социальные сети, big data, машинное обучение, психическое здоровье.

Согласно отчету Европейского отделения ВОЗ (в которое входит Российская Федерация) за 2016 г., существующая система здравоохранения не вполне успешна в работе с депрессией, необходимо создание доказательных подходов к ее лечению с применением стратегии поддержки и профилактики общественного здоровья. Эффективность и доступность населению профилактических мер также должны быть существенно повышены. Существующие проблемы побуждают искать пути автоматизации проектов в области охраны психического здоровья и разрабатывать новые формы диагностики и информирования.

Исследования показывают, что анализ персональных страниц пользователей в социальных сетях может являться источником информации не только о

Работа выполнена при финансовой поддержке РФФИ, проект № 17-29-02225.

социально-демографических характеристиках пользователя, но и о его текущем психологическом состоянии. Так, возникло целое направление исследований, связанное с изучением возможности предсказывать психологические состояния индивидов и уровень субъективного благополучия по анализу профилей в социальных сетях.

Такая методология диагностики позволяет решать сразу несколько задач:

1) раннего выявления признаков психологического неблагополучия для его своевременной диагностики и профилактики;

2) перехода от субъективных способов диагностики к объективным с опорой на реальные поведенческие признаки;

3) снижения расходов на психологическую диагностику за счет пассивного режима сбора данных;

4) получение доступа к группам населения, которые не обращаются за психологической помощью по разным причинам (социально-экономический статус, субъективные барьеры и стигматизация и др.).

Исследования возможности предсказывать психологические состояния, черты личности и прочее на основе анализа данных профилей в социальных сетях в большинстве своем выполнены зарубежными группами ученых. Главным образом они сосредоточены на анализе текстов, а по дизайну представляют собой корреляционные исследования.

Так, в работе по предсказанию депрессии по сообщениям в Твиттере (De Choudhury et al., 2013b) авторы анализировали сообщения людей, подтвердивших наличие у них клинической депрессии, написанные в течение года перед получением данного диагноза. Это позволило обнаружить характерные признаки появления и прогрессирования данного заболевания у пользователей. Так, у многих испытуемых наблюдались снижение активности в социальной сети, появление негативной тональности и религиозной увлеченности.

Г.А. Шварц (Shwartz et al., 2013) показали, что индивидуальное благополучие как комплексный показатель не только хорошего настроения, но и хорошего физического и психического здоровья предсказывается по анализу обновлений статуса Facebook. Оказалось, что негативные эмоциональные выражения, применяемые при обновлении статуса в социальных сетях на протяжении последних 9-10 месяцев, связаны с низкой удовлетворенностью жизнью и низким субъективным благополучием. При этом подобной связи не было выявлено для позитивных эмоциональных высказываний, они оказались не связаны с высокой удовлетворенностью жизнью и субъективным благополучием (Liu et al., 2015).

Один из крупнейших исследовательских проектов по разработке новых методов измерения показателей здоровья и психологического благополучия на основе текстового контента, публикуемого пользователями в социальных сетях, — Проект всемирного благополучия (The World Well-Being Project -WWBP). Среди опубликованных результатов проекта - статья Шварца с соавт. (Schwartz et al., 2013). В исследовании приняли участие 75 000 добровольцев, они заполняли личностный опросник NEO PI-R (Revised NEO Personality Inventory) и предоставляли исследователям доступ к информации

на своих страницах в социальной сети «Фейсбук». На основании найденных общих качеств были сгенерированы предсказательные модели, которые с довольно высокой точностью предсказывали возраст, пол и индивидуальные черты. Некоторые результаты согласуются с результатами других исследований, например, люди с высокими показателями нейротизма чаще употребляют слова «надоел», «депрессивное». Другие связи оказались новыми, например, люди, живущие на большой высоте, чаще пишут про горы, а мужчины чаще употребляют притяжательное местоимение «моя» в отношении своих жен и подруг. Женщины, когда пишут про мужей или бойфрендов, используют местоимение «мой» реже.

Особое внимание исследователей направлено на изучение признаков депрессии на основе информативных параметров поведения пользователей Интернета. Депрессия - ведущее по распространенности заболевание, наблюдаемое у 9% мужчин и 17% женщин в Европе, что составляет около 33.4 миллиона людей. Данное состояние характеризуется подавленным настроением, когнитивной и двигательной заторможенностью, потерей интереса и мотивации к значимым для человека сферам жизни, поэтому является одной из основных причин нетрудоспособности в мире.

В обзоре тридцати эмпирических исследований (Baker, Algorta, 2016), ключевыми словами в которых являются «депрессия» («depression») и «социальные сети» («online social networking»), показано, что соотношение между активностью в социальных сетях и симптомами депрессии опосредовано множеством психологических, социальных, поведенческих и личностных факторов. В качестве параметров активности и их субъективной оценки пользователями выступает удовлетворенность от социальной поддержки в «Фейсбуке», позитивное социальное сравнение, число друзей, ощущаемая социальная связанность пользователей «Фейсбука», патологическая вовлеченность в социальные сети, самопрезентация в «Фейсбуке», зависть, вызванная просмотром страниц в «Фейсбуке», принятие от бывших партнеров приглашения стать «друзьями», произведение большего количества контента, возрастание участия в коммуникации в «Фейсбуке», обновление статуса, отметки о местоположении. Результаты показывают, что характер использования социальных сетей и определенные онлайн-действия (такие как частота обновлений, постов, добавление в друзья бывших партнеров или подписки на незнакомых людей) могут быть важными маркерами симптомов депрессии (Ibid.). Социальное сравнение и застревание в размышлениях негативного характера опосредуют связь использования социальных сетей и депрессии.

В открытом проекте CLEF/eRisk 2017 набор данных состоял из коллекций текстовых сообщений участников социальной сети Reddit. Выборка была разделена на две группы: 752 пользователя без симптомов депрессии и 135 пользователей с обнаруженными признаками депрессии. Был выполнен лингвистический анализ текстов сообщений пользователей и проведен статистический анализ полученных данных для выявления признаков. Все сообщения одного пользователя рассматривались как единый документ, а слова приведены к

леммам. Для выявления лексических признаков все тексты были представлены в виде модели bag-of-words, на основе которой далее была рассчитана статистическая мера важности слов tf-idf.

Анализ списков самых информативных слов пользователей показал, что характеристики слов имеют большой потенциал для решения задачи автоматического выявления депрессии. В первую очередь, значимые признаки могут быть получены при анализе статей специализированных словарей. В текстах пользователей с депрессией регулярно встречается лексика, которая тем или иным образом связана с самим заболеванием. В среднем слово «депрессия» встречается 9 раз в тексте пользователя с депрессией и 1 раз в тексте здорового человека. Название психологических диагнозов, наименования медикаментов, упоминание специалистов в области психотерапии, термины болезненной тематики и слова негативной окраски значимо чаще встречаются в текстах людей с депрессией и могут быть служить признаками для последующего построения моделей выявления депрессии. Также были проанализированы результаты морфологического анализа теста. Так как рассматриваемый набор данных был не сбалансирован по классам и по количеству сообщений от каждого пользователя, морфологические признаки были получены путем расчета пропорций употреблений различных частей речи. Если приводить усредненную статистику для всего набора данных, различия между двумя группами людей наиболее сильно проявляются в пропорциональном количестве употреблений существительных (19% в группе людей с депрессией и 25% у здоровых), местоимений (14% и 10%) и глаголов (22% и 20%). Другие признаки были получены путем расчета итогового количества слов, сообщений и усредненных значений числа слов в одном сообщении, слов в одном предложении, предложений в одном сообщении. Основываясь на данных CLEF/eRisk 2017, пользователи с депрессией имеют тенденцию реже выкладывать сообщения в социальной сети Reddit (в среднем 371.7 сообщений у класса депрессивных и 655.5 у здоровых), однако эти сообщения в среднем содержат больше слов (41.3 против 27.7) и предложений (2.9 против 2), чем у здоровых пользователей.

В некоторых исследованиях анализируются не только текстовые сообщения, но и фотографии, а также проводится комплексный анализ поведения пользователя в социальных сетях. Например, исследовались маркеры депрессии на материале фотографий в Instagram ^еесе, Danforth, 2017). Метод применялся для анализа фотографий людей с клинической депрессией до и после получения диагноза. Авторы показали, что по фотографиям пользователей Instagram можно предсказывать развитие заболевания у отдельных пользователей, анализируя характеристики самого изображения (цвет, яркость, наличие людей на фото, применение фильтров Instagram), а также метаданные, такие как время публикации, количество лайков и комментариев. Также появляются исследования, включающие дополнительные психологические переменные, например личностные черты. При изучении связи уровня депрессии и нейротизма была зафиксирована значимая связь между временем, проведенным в «Фейсбуке», и депрессией у людей с высоким уровнем

нейротизма, который играет модерирующую роль (Giota, Kleftaras, 2013; Chow, Wan, 2017). В другом исследовании установлена положительная корреляция между депрессией и патологическим погружением в социальные сети (Baker, Algorta, 2016; Li et al., 2018).

В целом полезными в плане диагностики депрессии являются результаты, касающиеся следующих потенциально информативных параметров анализа данных, полученных из социальных сетей: 1) время, проводимое в социальной сети; 2) тексты постов, статусов, личной информации (в том числе графы «обо мне»); 3) фотографии профиля, фотоальбомы и фотографии на странице пользователя; 4) отметки на фотографиях других пользователей; 5) частота и количество постов, обновлений статуса, лайков и комментариев; 6) количество публичных страниц и групп, на которые подписан пользователь; 7) приложения, добавленные пользователем в свой профиль.

Целью настоящего междисциплинарного исследования стало выявление наиболее информативных признаков поведения русскоязычных пользователей социальной сети ВКонтакте для выявления их принадлежности к группам респондентов с высоким и низким уровнем депрессии.

Мы проверяли предположение о том, что модели машинного обучения способны выполнять классификацию людей с признаками и без признаков депрессии по различным параметрам активности и психолингвистическим маркерам их текстов в социальной сети ВКонтакте.

Практическая значимость исследования обусловлена разработкой инструмента объективной оценки психологического состояния испытуемого, основанная на анализе его поведения в социальной сети. Данный инструмент может быть способом оценки эффективности массовых профилактических программ и методом сбора данных для обширных эпидемиологических исследований. Научная значимость обусловлена выявлением поведенческих коррелятов депрессивного состояния, которые еще не освещены в клинической литературе в связи с отсутствием инструментов диагностики поведения человека в естественной среде.

Метод

Выборка и процедура. В исследовании использовались данные 1268 пользователей ВКонтакте, из которых 886 женщин и 421 мужчина в возрасте от 16 до 79 лет (M = 25). Пользователи знакомились с текстом информированного согласия, описывающим условия сбора, хранения и использования данных, предоставляли доступ к своей персональной странице и проходили опросник депрессии Бека через специальное приложение для социальной сети. Из них были сформированы три группы респондентов с разным уровнем выраженности признаков депрессии: 209 пользователей с низким, 780 пользователей со средним, 279 пользователей с высоким уровнем.

Методики. Опросник депрессии Бека описывает наиболее значимые симптомы депрессии, объединенные в 21 категорию. Каждая категория включает 4-5 пунктов, соответствующих признакам депрессии разной степени выраженности.

Каждый пункт шкалы оценивается от 0 до 3 баллов по нарастанию тяжести симптома. Суммарный показатель проявления признаков депрессии варьирует от 0 до 63. Выделяется четыре уровня выраженности депрессии: 0-13 — в пределе нормы, 14-19 — легкая депрессия, 20-28 — умеренная депрессия, 29-63 — тяжелая депрессия

Доступная информация из личного профиля пользователей социальной сети ВКонтакте собиралась автоматически с разрешения владельцев посредством API. Для выгрузки данных было разработано собственное программное обеспечение. Вся информация, которая может раскрыть личность людей, была удалена из базы данных. Анализу подвергались данные с января 2017 по апрель 2019 г.

К анализируемым данным пользователей относятся следующие параметры: число друзей, подписок, групп, аудиозаписей, фотографий, видео, подарков, интересных страниц, постов на стене, лайков на персональной странице; указанных родственников, мест работы, школ, университетов; любимые книги, цитаты, фильмы, исполнители, основные интересы, статус, псевдоним и общая информация о себе, включая отношение к курению, отношение к алкоголю, главное в жизни и семейное положение.

Анализ данных. C помощью методов машинного обучения, а именно метода опорных векторов (SVM) и алгоритма случайного леса (Random Forest), было проведено выявление информативных признаков депрессии по различным показателям активности пользователей социальной сети ВКонтакте.

Метод опорных векторов применяется для классификации и позволяет осуществить перевод исходных векторов в пространство более высокой размерности. Затем осуществляется поиск разделяющей гиперплоскости с максимальным зазором в этом пространстве. За счет этого объекты разделяются оптимальным образом.

Алгоритм случайного леса также применяется в задачах классификации и заключается в использовании ансамбля решающих деревьев. Каждое из них в отдельности дает невысокое качество классификации, за счет их сочетания повышается точность.

Обучение проходило на выборках с крайними значениями по шкале А. Бека, поскольку такой подход дает возможность более точно определять связанные с ней поведенческие признаки. По аналогии с исследованием, в котором мы ранее анализировали текстовые данные (Stankevich et al., 2019a), в новом исследовании представлены результаты бинарной классификации пользователей на два класса: класс пользователей с выраженными признаками депрессии и класс здоровых пользователей. В класс здоровых пользователей вошли респонденты с итоговым баллом < 13 по шкале депрессии Бека (279 пользователей), а в класс депрессии вошли респонденты с результатом > 29 (209 пользователей). Данные пользователей с промежуточными результатами (слабой и умеренно выраженной депрессией не подвергались анализу). Для обучения работе с классификатором использовалась основная информация из профилей пользователей.

1. Количественные признаки. В данную группу входят показатели числа друзей, подписок, групп, аудиозаписей, фотографий, видео, подарков, инте-

ресных страниц, постов на стене, лайков на персональной странице, а также число указанных родственников, мест работы, школ, университетов и др.

2. Бинарные признаки. В качестве бинарных признаков привлекалась информация о факте наличия данных в персональном профиле, которая заполняется пользователем опционально: любимые книги, цитаты, фильмы, исполнители, основные интересы, статус, псевдоним и общая информация о себе.

3. Фиксированные ответы пользователей. ВКонтакте предоставляет возможность выбрать предопределенные ответы на несколько вопросов, которые отображаются в профиле пользователя. Например, отношение к курению, отношение к алкоголю, главное в жизни и семейное положение. Каждый из этих показателей представлялся в виде численного значения, который соответствует выбранному пользователем ответу.

Для определения нормальности распределения данных использовался метод Колмогорова-Смирнова. Для определения характера различий между группами — непараметрический критерий Манна-Уитни, построение доверительных интервалов.

Результаты

Результаты классификации представлены в виде усредненного значения метрик классификации по пяти прогонам четырехкратного перекрестного скользящего контроля с указанием среднеквадратичного отклонения по усреднению (см. таблицу 1). Метрики precision (точность), recall (полнота) и Fl-мера (среднее взвешенное от precision и recall) представлены для класса депрессии. Метрика precision интерпретируется как доля объектов, названных классификатором положительными и при этом действительно являющихся положительными. Метрика recall показывает, какую долю объектов положительного класса из всех объектов этого класса нашел алгоритм. Также в таблице указана взвешенная Fl-мера по обоим классам (Fl-w) и метрика ROC AUC (площадь Лгеа t/nder Curve под кривой ошибок Receiver Operating Characteristic curve).

Учет основной информации о профиле пользователя (PI-r) позволяет получить до 65% Fl-меры для выявления пользователей с депрессией. Лучший результат классификации с психолингвистическими признаками (PM) равен 66.40% Fl-меры. Комбинация психолингвистических признаков и признаков активности пользователя (PI-r+PM) позволяет получить 67.57%, что на текущий момент является лучшим результатом для представленного набора данных.

В результате этого анализа была выстроена последовательность наиболее информативных для предсказания депрессии признаков (в порядке убывания):

1) количество друзей;

2) количество «интересных страниц» и групп;

3) количество указанных вузов;

4) количество указанных школ;

Таблица 1

Результаты разделения пользователей на классы «депрессия» и «здоровье»

Random Forest

Set Precision Recall F1 ROC AUC F1-w

PI 56.83 ± 5.52 60.52 ± 6.82 58.45 ± 5.41 68.43 ± 4.90 63.27 ± 4.91

PI-r 57.99 ± 4.91 63.89 ± 7.79 60.62 ± 5.52 68.90 ± 5.28 64.68 ± 4.66

PM 62.60 ± 7.77 53.26 ± 7.88 56.59 ± 2.20 74.89 ± 4.05 69.16 ± 2.60

PM+PI-r 65.14 ± 10.89 52.39 ± 6.22 57.74 ± 7.22 74.43 ± 5.25 70.64 ± 5.62

SVM

PI 57.29 ± 3.27 72.22 ± 3.61 63.84 ± 2.93 68.96 ± 4.20 65.03 ± 3.21

PI-r 59.28 ± 1.45 73.67 ± 2.57 65.65 ± 1.02 70.11 ± 2.47 67.11 ± 1.11

PM 58.40 ± 2.99 77.17 ± 1.88 66.40 ± 1.33 75.11 ± 3.24 71.42 ± 2.21

PM+PI-r 61.08 ± 6.74 76.08 ± 2.17 67.57 ± 4.61 75.39 ± 3.58 72.95 ± 5.59

Примечание. PI — набор признаков активности пользователей в социальной сети; Pl-r - наиболее информативные признаки из исходного пространства признаков PI; PM — набор психолингвистических признаков, который использовался для выявления депрессии по текстам из социальных сетей и показал лучший результат (66% F1-меры). Также представлены результаты классификации на комбинации признаков PI-r и PM. Стоит отметить, что классификация с использованием текстовых признаков (PM и PM+PI-r) проводилась на меньшей выборке, так как среди исходного набора данных из 1020 пользователей ВКонтакте не у всех пользователей были текстовые сообщения.

5) число лайков на постах пользователей;

6) количество аудио;

7) количество подарков;

8) количество фото;

9) количество подписок;

10) количество указанных родственников;

В целях определения характера различий по информативным признакам между группами был проведен сравнительный анализ и построены доверительные интервалы (рисунки 1, 2 и 3).

Результаты теста Колмогорова-Смирнова показали, что распределение данных отличается от нормального, p = 0.000, поэтому для сравнения признаков у людей без депрессии и с признаками тяжелой депрессии был использован непараметрический критерий Манна-Уитни для независимых выборок. Различия между двумя группами по всем информативным признакам (количеству аудиозаписей, друзей, интересов, лайков, интересных страниц, групп, родственников, информации о школе, университете) констатировались на уровне значимости от 0.000 до 0.027. Значимые различия по количеству подписок, подарков и фото отсутствуют, хотя и входят в число информативных признаков.

Рисунок 1

Доверительные интервалы по показателям «Количество друзей», «Интересные страницы»,

«Школа», «Университет»

Рисунок 2

Доверительные интервалы по показателям «Количество лайков», «Аудиозаписи»,

«Группы», «Родственники»

Рисунок 3

Доверительные интервалы по показателям «Подписки», «Количество фото», «Подарки»

Таким образом, наиболее значимыми содержательными характеристиками поведения пользователей социальной сети Вконтакте относительно уровня признаков депрессии можно назвать следующие:

• общая активность в социальной сети;

• коммуникативная активность и социальная вовлеченность;

• активность в коммуникации: направленность и экстраверсия.

Также был сделан вывод о том, что по сравнению с отдельными признаками активности пользователя лучший результат предсказания на представленном наборе данных был получен при их комбинации с психолингвистическими признаками.

Обсуждение

Общая активность в социальной сети. В данном исследовании не анализировалось общее время, проводимое пользователями в социальной сети,- параметр, часто используемый в работах других авторов. Однако мы рассматривали другие показатели активности - количество добавленных друзей, полноты самопрезентации в профиле и пр.

Характер связи активности пользователей и симптомов депрессии неоднозначен: с одной стороны, на пользователях Twitter было показано снижение активности в связи с депрессией (De Choudhury et al., 2013b). С другой, связь активности в социальных сетях и симптомов депрессии может быть опосредована

множеством психологических, социальных, поведенческих и личностных факторов (Baker, Algorta, 2016).

Так, например, было установлено, что в некоторых случаях именно при депрессии отмечается рост активного проблемного использования социальных сетей - навязчивого просмотра чужих страниц, видео и пр. (Gou, Zhou, Yang, 2014). Наше исследование содержит согласующиеся с этим данные: большее количество интересных страниц и групп, на которые подписан пользователь, является признаком, по которому можно предсказать принадлежность пользователя к группе людей с выраженной депрессией. В целом, не имея возможности проконтролировать все эти факторы, отметим, что депрессия характеризуется снижением активности в отношении широкого спектра поведения, вероятно, включая и использование социальных сетей как пространства для коммуникации и самопрезентации. Так, локальными маркерами, характерными для группы с признаками тяжелой депрессии, оказалась менее частая публикация статей на личной странице пользователя, альбомов, цитат, страниц, репостов чужого контента. При этом может возрастать пассивное использование социальных сетей для потребления информации и серфинга.

Коммуникативная активность и социальная вовлеченность. Самым информативным признаком, позволяющим установить принадлежность человека к группе с тяжелым или невыраженным уровнем депрессии, оказалось большее количество друзей у последнего. По этому признаку выводы других исследований противоречивы. Известно, что при высоком уровне депрессии люди стараются избегать общения в социальных сетях (De Choudhury et al., 2013a; Mashrura et al., 2016).

В то же время Д. Бейкер и Г. Алгорта (Baker, Algorta, 2016) показали, что добавление в друзья бывших партнеров или подписки на незнакомых людей могут рассматриваться как маркеры симптомов депрессии, т.е. в этом случае мы наблюдаем расширение социальной сети пользователя за счет определенной категории «друзей».

Наши результаты не дают возможности увидеть динамику добавлений новых друзей на платформе ВКонтакте, поэтому мы можем констатировать только статические, а не динамические поведенческие признаки. Можно предположить, что поведение, описанное Д. Бейкером и Г. Алгортой (Ibid.), является компенсацией общего снижения социальной активности, т.е. копинг-стратегией пользователя с депрессией. Также можно предположить обратное влияние количества друзей на уровень депрессии: известно, что риск депрессии выше у людей с переживанием одиночества и социальной изоляции (Cacioppo et al., 2006).

Так, более низкий уровень лайков на каждый пост пользователя, согласно данным настоящего исследования, также показал значимую связь с депрессией и отражает меньшую вовлеченность социальной сети пользователя в его жизнь и создаваемый им контент.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Активность в коммуникации: направленность и экстраверсия. Подробное описание своих интересов, любимых книг и музыки, а также данных об образовании и карьере в профиле социальной сети отражает большую коммуникативную

направленность пользователей, что характеризует более высокий уровень экстраверсии (Ryan, Xenos, 2011; Seidman, 2013; de Zuniga et al., 2017). То, что эти параметры характеризуют пользователей с отсутствием признаков депрессии, может быть объяснено тем, что экстраверсия как личностная черта, согласно большому количеству исследований, негативно связана с депрессией (Klein et al., 2011).

Большее количество статусов и записок у людей из группы с признаками депрессии, вероятно, отражает обратную тенденцию ухода от прямой коммуникации с другими пользователями; в отличие от сообщений статусы нельзя комментировать, а записи, которые создал пользователь, не отображаются в общей ленте новостей. Таким образом, пользователь в меньшей степени использует социальную сеть как площадку для двусторонней коммуникации.

Возможно, таким же образом выраженность депрессии связана с количеством аудиозаписей — функционал социальной сети используется преимущественно для доступа к бесплатному аудиоконтенту. С другой стороны, можно предположить, что пользователи, пребывающие в депрессивном состоянии, чаще слушают музыку в целях эмоциональной регуляции (Stewart et al., 2019). Оба предположения нуждаются в эмпирической проверке.

Как было отмечено, лучший результат предсказания на представленном наборе данных показан по комбинации психолингвистических признаков и признаков активности пользователя. Это согласуется с результатами другой нашей работы, где решалась задача выявления депрессии по текстам из социальных сетей (Stankevich et al., 2019a) и эссе на заданную тему (Stankevich et al., 2019b). Признаки активности пользователя мы подробно обсудили выше. Психолингвистические маркеры - это лингвистические особенности текста, раскрывающие характеристики автора и сигнализирующие о его психологическом состоянии. Психолингвистические маркеры рассчитываются по морфологической и синтаксической информации и отражают стиль письма автора. На этом наборе данных ранее было использовано более 30 маркеров (среднее количество слов в предложении, символов в слове, соотношение знаков препинания и количества слов, доля уникальных слов в лексике, средняя глубина синтаксического дерева, соотношение различных частей речи). Было установлено, что тексты пользователей из группы с признаками депрессии меньшего объема, а также у них отмечается меньшее количество сообщений, количество употребляемых слов и предложений, чем в контрольных группах. Данный результат соответствует данным, полученным в исследовании сообщений в Твиттере (De Choudhury et al., 2013b), и частично - данным проекта CLEF/eRisk 2017 в социальной сети Reddit. В последнем отмечается меньшее количество сообщений при большем количестве слов и предложений, чем у здоровых пользователей.

Ограничения исследования

Ограничения исследования связаны с методологией онлайнового сбора данных в социальной сети: мы не можем гарантировать достоверность информации

по демографическим и иным характеристикам, которые указывают пользователи. Также мы не знаем, в какой среде происходит заполнение опроса, насколько серьезно пользователи относятся к процедуре исследования и в какой степени они в нее вовлечены, а также насколько внимательно они читают текст информированного согласия, вследствие этого, насколько точное представление и адекватные ожидания от исследования они имеют. Все это может быть факторами, снижающими надежность данных. Еще одним ограничением является то, что в исследовании анализируется статичный срез данных, соответственно, мы не можем строить динамические модели и делать выводы о причинно-следственных связях. Также предполагаем, что увеличение объема выборки в каждой из подгрупп увеличит точность результатов классификации.

Заключение

В исследовании оценивалась способность моделей машинного обучения выполнять классификацию людей с признаками и без признаков депрессии по различным параметрам активности в социальной сети ВКонтакте.

Комбинация психолингвистических признаков и признаков активности пользователя (количества друзей, подписок, лайков на постах, аудиозаписей и др.) позволяет получить наилучшие показатели классификации. Мы рассматриваем это исследование как первый шаг в распознавании депрессии на основе машинного обучения по параметрам пользовательского поведения в социальных сетях.

Анализ психолингвистических и поведенческих маркеров депрессии в постах социальных сетей может создать условия для своевременного выявления и профилактики депрессии у групп риска, кроме того, сделать диагностику и помощь более доступными для большого количества пользователей.

Ссылки на зарубежные источники см. в разделе References после англоязычного блока.

Кисельникова Наталья Владимировна — заведующая лабораторией, лаборатория консультативной психологии и психотерапии, ФГБНУ ПИ РАО, кандидат психологических наук.

Сфера научных интересов: психологическое консультирование, психическое здоровье, big data.

Контакты: [email protected]

Станкевич Максим Алексеевич — инженер-исследователь, ФИЦ «Информатика и управление» РАН.

Сфера научных интересов: обработка естественного языка, машинное обучение, анализ социальных сетей. Контакты: [email protected]

Данина Мария Михайловна — старший научный сотрудник, лаборатория консультативной психологии и психотерапии, ФГБНУ ПИ РАО, кандидат психологических наук. Сфера научных интересов: психологическое консультирование, психическое здоровье, big data.

Контакты: [email protected]

Куминская Евгения Андреевна — научный сотрудник, лаборатория консультативной психологии и психотерапии, ФГБНУ ПИ РАО.

Сфера научных интересов: психологическое консультирование, психическое здоровье, big data.

Контакты: [email protected]

Лаврова Елена Васильевна — научный сотрудник, лаборатория консультативной психологии и психотерапии, ФГБНУ ПИ РАО, кандидат психологических наук. Сфера научных интересов: психологическое консультирование, психическое здоровье, big data.

Контакты: [email protected]

Identification of Informative Behavior Parameters in Users of VKontakte Social Network as Markers of Depression

N.V. Kiselnikova", M.A. Stankevichb, M.M. Danina", E.A. Kuminskaya", E.V. Lavrova"

"FBSSI Psychological Institute of the Russian Academy of Education, 9, Bld 4, Mokhovaya Str., Moscow, 125009, Russian Federation

b FRC "Computer Science and Management" RAS, 44, Bld 2, Vavilova Str., Moscow, 11933, Russian Federation

Absract

The objective of this interdisciplinary study was to identify informative signs of behavior of Russian-speaking users of the social network VKontakte in connection with the severity of their signs of depression. The study used data from 1268 VKontakte users who filled out the Beck Depression Inventory (BDI), and also provided access to their profiles information. There were three groups of respondents with different levels of severity of signs of depression. Using machine learning methods, the support vector method (SVM) and the random forest algorithm (Random Forest), informative linguistic and behavioral signs of depression were revealed among users of the VKontakte social network, comparable to data obtained by researchers of English-speaking respondents from other social networks.

Keywords: depression, social networks, big data, machine learning, mental health. References

Baker, D. A., & Algorta, G. P. (2016). The relationship between online social networking and depression: A systematic review of quantitative studies. Cyberpsychology, Behavior, and Social Networking,, 19(11), 638-648. Cacioppo, J. T., Hughes, M. E., Waite, L. J., Hawkley, L. C., & Thisted, R. A. (2006). Loneliness as a specific risk factor for depressive symptoms: Cross-sectional and longitudinal analyses. Psychology and Aging, 21, 140-151. doi:10.1037/0882-7974.21.1.140

Chow, T. & Wan, H. (2017). Is there any "Facebook Depression"? Exploring the moderating roles of neuroticism, Facebook social comparison and envy. Personality and Individual Differences, 119, 277-282. doi:10.1016/j.paid.2017.07.032 De Choudhury, M., Counts, S., & Horvitz, E. (2013, a). Predicting postpartum changes in emotion and behavior via social media. ACM SIGCHI Conference on Human Factors in Computing Systems, 3267-3276. doi: 10.1145/2470654.2466447 De Choudhury, M., Gamon, M., Counts, S., & Horvitz, E. (2013, b). Predicting depression via social media. Proceedings of the Seventh International AAAI Conference on Weblogs and Social Media (pp. 128-137). Retrieved from https://pdfs.semanticscholar.org/0c02/56f0ae8bb81ddc4e024faeeb-dd0363cb4c29.pdf?_ga=2.186192298.2037235548.1582719879-2104615776.1582719879 De Zuniga, G., Diehl, T., Huber, B., & Liu, J. (2017). Personality traits and social media use in 20 countries: How personality relates to frequency of social media use, social media news use, and social media use for social interaction. Cyberpsychology, Behavior, and Social Networking, 20, 540-552. doi: 10.1089/ cyber. 2017.0295 ERISK 2020: Early risk prediction on the internet. Retrieved from https://early.irlab.org/ Giota, K. G., & Kleftaras, G. (2013). Facebook social support: a comparative study on depression and personality characteristics. Proceedings of IADIS International Conference: ICT, Society and Human Beings, Prague. Retrieved from https://www.academia.edu/20890023/Gio-ta_K._G._and_Kleftaras_G._2013_._Facebook_Social_Support_a_comparative_study_on_Dep ression_and_Personality_characteristics._Proceedings_of_IADIS_International_Conference_I CT_Society_and_Human_Beings_2 013_Prague?auto=download Klein, D. N., Kotov, R., & Bufferd, S. J. (2011). Personality and depression: explanatory models and review of the evidence. Annual Review of Clinical Psychology, 7, 269-295. doi:10.1146/annurev-clinpsy-032210-104540

Li, J., Mo, P., Lau, J., Su, X.-F., Zhang, X., Wu, A., Mai, J.-C., & Chen, Y.-X. (2018). Online social networking addiction and depression: The results from a large-scale prospective cohort study in Chinese adolescents. Journal of Behavioral Addictions, 7, 1-11. doi:10.1556/2006.7.2018.69 Liu, P., Tov, W., Kosinski, M., Stillwell, D. J., & Qiu, L. (2015). Do Facebook status updates reflect subjective well-being? Cyberpsychology, Behavior, and Social Networking, 18(7), 373-379. doi:10.1089/cyber. 2015.0022 Mashrura, T., Rifat, S., Nowshin, N., & Hossain, M. (2016). Intelligent depression detection and support system: Statistical analysis, psychological review and design implication. IEEE 18th International Conference on e-Health Networking. Applications and Services (Healthcom). Retrieved from http://cse.buet.ac.bd/heqep/public/uploads/584cf05393720-PaperMashruraRifatS.pdf Reece, A. G., & Danforth, C. M. (2017). Instagram photos reveal predictive markers of depression. EPJ

Data Science, 6, 15. doi:10.1140/epjds/s13688-017-0110-z Ryan, T., & Xenos, S. (2011). Who uses Facebook? An investigation into the relationship between the Big Five, shyness, narcissism, loneliness, and Facebook usage. Computers in Human Behavior, 27(5), 1658-1664.

Schwartz, H. A., Eichstaedt, J. C., Kern, M. L. Dziurzynsk, L., Ramones, S. M., Agrawal, M.....Ungar,

L. H. (2013). Personality, gender, and age in the language of social media: The open-vocabulary approach. PLoS ONE, 8(9), e73791. Seidman, G. (2013). Self-presentation and belonging on Facebook: How personality influences social media use and motivations. Personality and Individual Differences, 54, 402-407. doi:10.1016/j .paid.2012.10.009.

Stankevich, M., Latyshev, A., Kuminskaya, E., Smirnov, I., & Grigoriev, O. (2019, a). Depression detection from social media texts. In A. Elizarov, B. Novikov, & S. Stupnikov (Eds.), Data analytics and management in data intensive domains: XXI International Conference DAMDID/RCDL'2019 (October 15-18, 2019, Kazan, Russia): Conference Proceedings (pp. 352-362). Kazan: Kazan Federal University.

Stankevich, M. A., Smirnov, I. V., Kuznetsova, Y. M., Kiselnikova, N. V., & Enikolopov, S. N. (2019, b). Predicting depression from essays in Russian. Komp'juternaja Lingvistika i Intellektual'nye Tehnologii, 2019(18), 647-657.

Stewart, J., Garrido, S., Hense, C., & McFerran K. (2019). Music use for mood regulation: Self-awareness and conscious listening choices in young people with tendencies to depression. Frontiers in Psychology, 10, 1199. doi: 10.3389/fpsyg.2019.01199

Natalya V. Kiselnikova — Head of the Laboratory of Counseling Psychology and Psychotherapy, Psychological Institute of Russian Academy of Education, PhD in Psychology Research Area: counseling, mental health, big data. E-mail: [email protected]

Maxim A. Stankevich — Research Engineer, FRC "Computer Science and Management" RAS. Research Area: natural language processing, machine learning, social network analysis. E-mail: [email protected]

Mariya M. Danina — Senior Research Fellow, Laboratory of Counseling Psychology and Psychotherapy, Psychological Institute of Russian Academy of Education, PhD in Psychology Research Area: counseling, mental health, big data. E-mail: [email protected]

Evgeniya A. Kuminskaya — Research Fellow, Laboratory of Counseling Psychology and Psychotherapy, Psychological Institute of Russian Academy of Education. Research Area: counseling, mental health, big data. E-mail: [email protected]

Elena V. Lavrova — Research Fellow, Laboratory of Counseling Psychology and Psychotherapy, Psychological Institute of Russian Academy of Education, PhD in Psychology Research Area: counseling, mental health, big data. E-mail: [email protected]

i Надоели баннеры? Вы всегда можете отключить рекламу.