Психология. Журнал Высшей школы экономики.
2020. Т. 17. № 1. С. 166-180. DOI: 10.17323/1813-8918-2020-1-166-180
Обзоры и рецензии
ПРОГНОЗИРОВАНИЕ ПСИХОЛОГИЧЕСКИХ ХАРАКТЕРИСТИК ЧЕЛОВЕКА НА ОСНОВАНИИ ЕГО ЦИФРОВЫХ СЛЕДОВ
В.В. ЛАТЫНОВ", В.В. ОВСЯННИКОВАЬ
а ФГБУН «Институт психологии РАН», 129366, Москва, ул. Ярославская, д. 13, к. 1 ь Национальный исследовательский университет «Высшая школа экономики», 101000, Россия, Москва, ул. Мясницкая, д. 20
Резюме
В статье рассматриваются вопросы прогнозирования индивидуально-психологических характеристик человека (личностных черт, эмоциональных состояний, ценностей, мотивов и др.) на основании его цифровых следов. Как показали исследования, такие характеристики можно весьма точно выявлять на основании самых разных видов цифровых следов: текстов, изображений, особенностей интернет-серфинга, характера и длительности телефонных звонков, «лайков» (мне нравится), финансовых транзакций, изменений местоположения человека. Чаще всего для решения указанной задачи применяется текстовая информация из самых разных источников (профилей пользователей, блогов, твитов и др). При ориентированном на лексику прогнозировании психологических характеристик используются два основных подхода к анализу текстов. Один, так называемый фиксированный (closed-vocabulary), использует ограниченный словарь лексики, а другой — открытый (open-vocabulary) - неограниченный словарь лексики. В случае фиксированного подхода изначально задается некоторый набор слов и категорий, взаимосвязь которых с личностными чертами выявляется. В отличие от использования фиксированного подхода, в случае открытого подхода отсутствует заранее заданный список слов, а лексические предикторы личностных черт обнаруживаются непосредственно в ходе анализа текстов. Наибольшая точность прогноза достигалась в случае личностных черт «Большой пятерки». По степени успешности прогнозирования они располагались следующим образом (от наиболее успешных к наименее): экстраверсия, открытость опыту, добросовестность, ней-ротизм, дружелюбие. Эмоциональные состояния, ценности, мотивы и удовлетворенность жизнью прогнозируются несколько хуже. Одновременное использование нескольких видов цифровых следов, а также более совершенных процедур сбора и анализа данных позволяет существенно повысить точность прогноза. Оцениваются ближайшие и более отдаленные перспективы исследований в данной области.
Ключевые слова: цифровые следы, прогнозирование, черты личности, эмоциональное состояние, депрессия, ценности.
Подготовка статьи поддержана грантом РФФИ, проект № 18-29-22095мк.
Ежедневно миллионы людей посещают различные сайты, пишут тексты и размещают фото в социальных сетях, ставят лайки, совершают и получают телефонные звонки, т.е. оставляют так называемые цифровые следы. Накапливаются огромные массивы данных, отображающих поведение людей в виртуальном мире. Развитие технологий сбора и обработки такой информации предоставляет новые, впечатляющие возможности изучения человеческой психики, открывая по сути новую страницу в психологии. Одним из таких недавно возникших направлений исследования является прогнозирование индивидуально-психологических особенностей человека на основании его цифровых следов. При помощи специальных алгоритмов удается с большой точностью выявлять черты личности, мотивы, ценности и др. (Azucar et al., 2018; Guntuku et al., 2017; Kalimeri et al., 2019). Пока эта область исследования не получила общепринятого наименования, для ее определения используются различные термины: цифровая психометрика (digital psychometrics) (Matz et al., 2017b), психологическая информатика (psycho-informatics) (Markowetz et al., 2014).
В настоящее время в психологии наблюдается ощутимый рост количества исследований, посвященных цифровым следам личности. Активизация интереса ученых к данной проблематике обусловлена совокупным действием нескольких факторов: логикой развития психологической науки и появлением новых научных фактов, развитием методик сбора и обработки больших массивов данных, запросами практики.
Во многих работах были выявлены устойчивые взаимосвязи между индивидуально-психологическими характеристиками и поведением людей в сети Интернет. Так, черты личности влияют на уровень общей интернет-активности человека, количество друзей в социальных сетях, используемую лексику (Kuss, Griffiths, 2011; Schwartz et al., 2013). Кроме того, многочисленные исследования указывают на связь языка с различными психологическими характеристиками (чертами личности, эмоциональными состояниями и др.) (Tausczik, Pennebaker, 2010). Поскольку данных о подобных взаимосвязях становилось все больше, у ученых естественно возник вопрос: если личность влияет на различные виды активности человека в сети, то нельзя ли, используя цифровые следы, «реконструировать», выявлять его личностные черты, эмоциональное состояние и другие психологические характеристики? Развитие технологий сбора и обработки цифровых данных создало для ответа на этот вопрос реальные основания.
Прогнозирование психологических характеристик по цифровым следам, помимо чисто научного интереса, имеет и большое прикладное значение. Дело в том, что опыт проведения рекламных кампаний в бизнесе и политике, а также кампаний по профилактике заболеваний и борьбе с вредными привычками свидетельствует о значимости учета личностных особенностей аудитории (Ding, Pan, 2016; Franks et al., 2009; Noar et al., 2007). В психологии также накоплены многочисленные данные о влиянии индивидуально-психологических характеристик (личностных черт, мотивации, эмоционального состояния и др.) объекта воздействия на его эффективность (Латынов, 2013; Hullett, 2005). Так, отмечается повышение эффективности воздействия при совпадении характера используемой аргументации и личностных особенностей лица, на которое она направлена (Moon, 2002).
Выявление личностных особенностей аудитории рекламных кампаний — задача крайне сложная и затратная, а порой и невыполнимая. При помощи же цифровых следов можно осуществлять их диагностику буквально за несколько часов или дней. Таким образом, появление технологий диагностики личности по цифровым следам открывает для таких кампаний новые возможности в плане повышения их эффективности.
Прогнозирование индивидуально-психологических характеристик осуществляется на основании самых различных видов цифровых следов. Чаще всего для решения указанной задачи применяется текстовая информация из самых разных источников (профилей пользователей, блогов, твиттов и др). Более редко используются изображения (фото из профилей, изображения, размещаемые пользователями в сети), характеристики интернет-серфинга, характер и длительность телефонных звонков, метаданные. В отдельных работах применяются и другие виды цифровых следов: «лайки» (мне нравится), финансовые транзакции, изменение местоположения человека.
Основным источником цифровых следов выступают социальные сети (Фейсбук, Твиттер, Инстаграм, китайский сайт микроблогов Sina Weibo и др.). Реже используются базы данных телекоммуникационных компаний и специальные программы на электронных гаджетах людей.
На основании цифровых следов чаще всего осуществляется прогноз личностных черт (в основном это черты, относящиеся к «Большой пятерке»: открытость опыту, добросовестность, экстраверсия, дружелюбие, нейротизм) и эмоциональных состояний (тревоги, депрессии и др.) (Azucar et al., 2018; Park et al., 2015). Существенно реже прогнозируются другие психологические характеристики: ценности, мотивы, интеллект, психологическое благополучие человека (Kalimeri et al., 2019; Kosinski et al., 2013).
Отдельную группу составляют исследования, в которых с помощью цифровых следов осуществляется прогноз непосредственно поведения (например, оплата кредитов и сотовой связи, совершение преступлений и др.) (Doyle et al., 2019; Drouin et al., 2018; San Pedro et al., 2015). В рамках данной статьи мы не станем подробно рассматривать эту проблематику, сосредоточившись на работах, в которых прогнозируются более обобщенные психологические образования (личностные черты, ценности и т.п.). Отметим лишь, что прогнозирование отдельных поведенческих актов — направление, активно развивающееся и имеющее очевидную прикладную перспективу.
Перейдем к более подробному рассмотрению отдельных направлений основанного на цифровых следах прогнозирования. Наибольшие успехи достигнуты при выявлении с их помощью черт личности человека (Azucar et al., 2018). Как правило, это черты «Большой пятерки», однако следует упомянуть и работы по «цифровой» диагностике такой черты, как поиск ощущений, а также личностной типологии Майерс-Бриггс (Gjurkovic, Snajder, 2018; Schoedel et al., 2019). Для некоторых черт (открытость опыту) точность прогнозирования приближается к значениям, характеризующим ретестовую надежность шкалы, эту черту измеряющую (Kosinski et al., 2013).
Чаще всего для прогнозирования психологических характеристик используются текстовые сообщения, размещаемые пользователями в Интернете (Farnadi et al., 2016; Golbeck, 2016; Schwartz et al., 2013). Среди работ подобного плана следует отметить исследование Т. Яркони, который, используя тексты блогеров, с высокой точностью «реконструировал» их личностные особенности (Yarkoni, 2010). Для каждой личностной черты он выделил группы слов, наиболее сильно связанных со значениями шкал опросника «Большой пятерки». Приведем несколько примеров такого рода взаимосвязей. Добросовестность: настойчивость, дисциплина, снэк, овощи (+)1, кровавый, солдат, глупый (—); экстраверсия: бар, концерт, толпа (+), книги, кошки, компьютер (—); дружелюбие: прекрасный, чувства, радость (+), идиот, сексуальный, глупый, насилие (—); нейротизм: раздраженный, стресс, ужасный (+), земля, гора, дорога (—); открытость опыту: культура, фильмы, луна (+), ненавидеть, молитва, умолять (—).
При ориентированном на лексику прогнозировании личностных черт используются два основных подхода к анализу текстов. Один, назовем его фиксированным (closed-vocabulary), использует ограниченный словарь лексики, а другой — открытый (open-vocabulary) — неограниченный словарь лексики. В случае фиксированного подхода изначально задается некоторый набор слов и категорий, взаимосвязь которых с личностными чертами выявляется. Наиболее известная реализация такого подхода — программа Linguistic Inquiry and Word Count (Tausczik, Pennebaker, 2010). Эта программа подсчитывает количество слов, относящихся более чем к 60 категориям (в зависимости от версии программы количество категорий менялось). Например, в категорию «аффективные процессы» входят такие слова, как счастливый, плачущий, нервный, в категорию «социальные процессы» — супруг, друг, разговор. Фиксированный подход вполне успешно используется для прогнозирования личностных черт (Golbeck et al., 2011; Yarkoni, 2010).
Несмотря на то что фиксированный подход показал свою эффективность при решении задач прогнозирования психологических характеристик, в настоящее время все большую популярность приобретает открытый подход (Park et al., 2015; Schwartz et al., 2013). В отличие от использования фиксированного подхода, в случае открытого подхода отсутствует заранее заданный список слов, корреляции которых с личностными чертами пытаются найти. Слова — предикторы личностных черт обнаруживаются непосредственно в ходе анализа текстов. Как показали исследования, открытый подход более эффективен при прогнозировании личностных черт по сравнению с фиксированным (Arnoux et al., 2017; Schwartz et al., 2013).
Кроме текстов, все чаще для прогноза личностных черт используется визуальный материал — фото пользователей, а также изображения, размещаемые и выбираемые ими в сети (Liu et al., 2016; Cucurull et al., 2018). На начальном этапе в исследованиях такого рода точность прогнозирования была несколько ниже, чем при использовании лексики (Celli et al., 2014). Однако в дальнейшем
1 Положительные корреляции обозначены (+), отрицательные - (—).
она выросла, и в настоящее время эти два подхода (ориентированный на лексику и визуально-ориентированный) демонстрируют примерно одинаковые результаты (Azucar et al., 2018).
Так, Г. Кукурул с соавт. на основании размещенных в Инстаграме изображений, успешно прогнозировали личностные черты «Большой пятерки» (Cucurull et al., 2018). Для каждой из личностных черт был выделен наиболее характерный набор изображений. Приведем несколько примеров обнаруженных взаимосвязей. Открытость опыту: книги, луна, небо ( +), изображения на темы любви (—); добросовестность: еда (+), люди (—); экстраверсия: большие скопления людей (+), кошки, книги, вязаные предметы одежды (—); дружелюбие: цветы (+), обнаженные торсы, а также изображения, включающие текст (—); нейротизм: животные (+), пейзажи (—).
Помимо изображений и лексики «реконструкция» личностных черт возможна на основании и других видов цифровых следов. Наиболее известной работой такого плана является исследование М. Косински с соавт. (Kosinski et al., 2013). Эти ученые, используя «лайки» («мне нравится») в Фейсбуке, с высокой точностью прогнозировали как социально-демографические (пол, национальность, возраст, сексуальная ориентация), так и психологические характеристики (черты личности, интеллект, удовлетворенность жизнью).
Для прогноза личностных черт используются также особенности интернет-серфинга человека (Kosinski et al., 2014), структура социальных связей в социальных сетях (Quercia et al., 2011), характер его финансовых транзакций (Gladstone et al., 2019), а также данные, касающиеся использования смартфона (Stachl et al., 2019).
В ряде работ предпринимались попытки прогнозировать не только черты (шкалы) «Большой пятерки», но и так называемые фасеты (подшкалы), из которых эти черты состоят (Park et al., 2015; Stachl et al., 2019; Yarkoni, 2010). В целом подобные попытки оказались успешными: цифровые следы позволяли предсказывать большую часть фасет. Вместе с тем следует отметить, что у каждой из черт было по 1-2 плохо прогнозируемой фасете.
Какую же личностную черту лучше всего удается прогнозировать? Следует отметить, что в зависимости от того, какие цифровые следы и из каких источников использовались, успешность прогноза личностных черт различалась. Так, М. Коотнски с соавт., используя «лайки» в социальной сети (Фейсбук), наиболее успешно предсказывали открытость опыту и экстраверсию (Kosinski et al., 2013). M. Сковрон с соавт., используя лексику и данные профиля в Твиттере и Инстаграме, лучше всего прогнозировали добросовестность и открытость опыту (Skowron et al., 2016). У Г. Фарнади с соавт., опиравшихся на тексты пользователей, самыми предсказуемыми чертами оказались экстраверсия, добросовестность и нейротизм (Farnadi et al., 2016).
По данным метаанализа, проведенного Д. Азукаром с соавт., черты по степени успешности их прогнозирования расположились следующим образом (от наиболее успешных к наименее): экстраверсия, открытость опыту, добросовестность, нейротизм, дружелюбие (Azucar et al., 2018). Однако это некоторая общая тенденция, поскольку, как мы видим, имеет место довольно сильный разброс в точности прогнозирования от черты к черте в различных исследованиях.
Поскольку работ по этой тематике относительно немного (несколько десятков), а используемые в них цифровые следы очень разнообразны, то указать точную причину выявленного различия результатов довольно сложно. Можно высказывать лишь более или менее обоснованные предположения по этому поводу. Возможно, дело в том, что для каждой черты существует свой набор цифровых следов, с помощью которых она лучше всего прогнозируется. Так, интеллектуализм и культурная ориентированность, присущие лицам с высоким уровнем открытости опыту, будут, скорее всего, отражаться в их текстовой продукции и предпочтениях («лайках»). Энергичность и общительность экстравертов — в показателях, касающихся активности и широты общения в социальных сетях.
Обратившись к результатам конкретных исследований, мы найдем определенные подтверждения высказанной выше гипотезе (Ibid.). Так, в большинстве ориентированных на лексику работ такая черта, как открытость опыту, действительно прогнозируется весьма успешно. В исследованиях с использованием различных показателей активности хорошо прогнозируемой оказывается экстраверсия.
Помимо личностных черт, с помощью цифровых следов возможен прогноз и эмоциональных состояний человека (тревоги, депрессии и др.) (Guntuku et al., 2017; Tsugawa et al., 2015). Для их выявления используются, как и в случае личностных черт, самые разные цифровые следы: тексты, визуальный материал (фото профиля в социальных сетях, размещаемые в сети изображения, оценки картинок других людей), особенности звонков по сотовому телефону, изменения местоположения и др. В целом точность прогноза эмоциональных состояний несколько ниже, чем личностных черт, однако полученные в исследованиях корреляции также являются высокозначимыми (p < 0.01).
Так, используя тексты пользователей Фейсбука, удалось успешно выявлять наличие у людей депрессии (Schwartz et al., 2014). В другой работе, уже на визуальном материале (анализировались фото в профиле пользователей, а также размещаемые ими в сети изображения), была получена вполне приемлемая точность прогноза эмоциональных состояний (Guntuku et al., 2019). Было обнаружено, что фото в профиле депрессивных людей имеет меньше признаков хорошего настроения (изображений улыбок и смеха), они эмоционально нейтральны и менее экспрессивны, изображение часто размыто, на фото, как правило, отсутствуют другие люди. В размещаемых изображениях особенно значимым было не то, что в них присутствовало (например, животные или отрывки фраз), а то, что отсутствовало: картины праздников, спорта, разного рода развлечений и т.п., словом, всего того, что приносит радость.
Кроме того, обращало на себя внимание отсутствие в визуальной продукции депрессивных прямых, непосредственных индикаторов депрессии: слез, плача, плохого настроения и т.п. Получается, что депрессивные люди стараются избегать размещения в сети «откровенно депрессивных» фотографий. О своей депрессии они сигнализируют косвенным образом, не размещая картинок, демонстрирующих позитивные эмоции и события, а также изображений, такие эмоции вызывающих (праздники, спортивные соревнования и т.п.).
Авторы исследования связывают подобную особенность самовыражения депрессивных людей с действием культурных норм. Во многих странах принято поддерживать свой позитивный образ в глазах других («Я — о'кей»), открытое же выражение плохого настроения не приветствуется. Культурные нормы — важный момент, который необходимо учитывать при исследовании. Скорее всего, в странах (например, в России), где подобные нормы не столь сильны и отсутствует табу на выражение депрессии, ее индикаторы будут несколько иными.
Прогноз эмоционального состояния возможен и на основании данных, касающихся пользования мобильной связью. Так, снижение количества звонков и sms, а также специфические паттерны изменения местоположения оказались связаны с переживанием депрессии (Madan et al., 2010; Saeb et al., 2016). Осуществляется прогноз настроения и на основании совокупности различных цифровых следов: частоты и длительности телефонных звонков, sms, характера использования приложений в смартфоне, истории веб-серфинга и данных об изменении местоположения (LiKamWa et al., 2013).
При помощи цифровых следов (главным образом текстов) прогнозируют и ценности человека, для диагностики которых, как правило, используется опросник Ш. Шварца (Boyd et al., 2015; Gou, 2015; Wilson et al., 2016). Точность прогнозирования ценностей несколько ниже, чем личностных черт и эмоциональных состояний. Подобные результаты, по-видимому, обусловлены особенностями самого понятия «ценности»: по сравнению с чертами личности и состояниями оно более обобщенное и абстрактное. Кроме того, влияние ценностей на поступки и суждения людей проявляется в более узком спектре ситуаций (например, при принятии достаточно важных решений — Kalimeri et al., 2019).
Как показали исследования, ценности лучше всего прогнозируются на основании текстов, в которых обсуждаются связанные с ними темы (что для человека важно? какие у него жизненные цели? и т.п. — Wilson, 2019). Поскольку основная масса сообщений в социальных сетях слабо связана с указанной проблематикой, неудивительно, что основанные на них прогнозы ценностей не обладают высокой точностью.
Применительно к данной проблематике следует отметить исследование С. Уилсона с соавт., представляющее собой одну из первых попыток анализа кросс-культурных аспектов цифровой психометрики (Wilson et al., 2016). Авторы просили респондентов из США и Индии описать свои личные ценности, а также рассказать о том, чем они занимались на прошлой неделе. Затем при помощи специальной программы Meaning Extraction Method определялось, какие темы встречаются в полученных текстах, а также выяснялось, имеются ли взаимосвязи между темами из текстов о личных ценностях и темами из текстов о ежедневных занятиях.
Хотя было обнаружено много значимых корреляций как в американской, так и в индийской выборках, однако общего в корреляционных матрицах этих выборок было довольно мало (менее 10% одинаковых корреляций). Обнаруженные в этом исследовании кросс-культурные различия указывают
на важность учета культурной составляющей при изучении цифровых оснований психологических характеристик.
Цифровые следы используются и для прогнозирования удовлетворенности жизнью (Kosinski et al., 2013). Как показали исследования, его точность оказалась ниже, чем в случае личностных черт, ценностей и эмоциональных состояний. Подобные результаты, по-видимому, связаны с тем, что удовлетворенность жизнью конкретного человека — величина динамическая, постоянно изменяющаяся под воздействием различных жизненных обстоятельств. Цифровые же следы, используемые для ее прогнозирования, накапливаются в течение довольно продолжительного времени (несколько месяцев и даже лет) и поэтому отражают скорее некоторый средний уровень удовлетворенности жизнью в прошлом. В силу этого они плохо подходят для прогнозов, поскольку не могут учитывать будущие изменения жизненной ситуации человека.
При помощи цифровых следов пытаются прогнозировать также мотивы и моральные установки (moral foundations) людей (Gou, 2015; Kalimeri et al., 2019). Поскольку таких работ очень мало, то делать какие-либо выводы о точности прогноза указанных характеристик еще рано.
Что же повышает успешность прогноза психологических характеристик? Прежде всего, это применение нескольких видов цифровых следов (Wei et al., 2017). Например, в работе Л. Вендлэнд с соавт. показано, что совместное использование текстов и изображений заметно улучшало точность прогноза личностных черт «Большой пятерки» по сравнению с обособленным применением указанных цифровых следов (Wendlandt et al., 2017). Метаанализ, проведенный Д. Азукаром с соавт. (Azucar et al., 2018), также показал, что интеграция нескольких видов цифровых следов увеличивает точность прогнозирования. Наиболее выраженной эта закономерность оказалась для таких черт, как открытость опыту, добросовестность и нейротизм. Еще одним способом повышения точности «цифровой» диагностики является использование дополнительных характеристик (как правило, это пол и возраст), которые пользователи сообщают о себе (Ibid.).
На успешность прогнозирования психологических характеристик влияет и способ математической обработки данных (Stachl et al., 2019). Применение различных математических процедур на одном и том же массиве данных нередко дает значительно отличающиеся результаты. Так, в работе П. Арно с соавт., в которой на материале текстов из Твиттера осуществлялся прогноз личностных черт, показано, что при выборе более эффективных процедур сбора и обработки данных достигается значительное увеличение точности прогноза (Arnoux et al., 2017). Для его оценки использовался коэффициент корреляции Пирсона между реальным и прогнозируемым значением по каждой из пяти личностных черт. Усредненный коэффициент корреляции для пяти шкал составил 0.33, что на 33% выше, чем при использовании менее совершенного алгоритма.
О важности процедуры обработки данных свидетельствует и исследование Г. Кукурула с соавт. (Cucurull et al., 2018). Эти ученые на материале размещаемых в Инстаграме изображений с использованием нейронных сетей с различной архитектурой прогнозировали личностные черты (Ibid.). Оказалось, что
по сравнению с худшим лучший алгоритм обработки данных значительно увеличивал точность прогнозирования личностных черт: с 62.9 до 71.9% (усредненные данные для пяти личностных черт). В этом исследовании использовался так называемый бинарный критерий успешности прогнозирования. При его применении значения испытуемых по каждой шкале выстраиваются по величине балла, а затем вся выборка делится на две равные по количеству группы: с высокими и с низкими значениями. Оценивается, насколько точно процедура обработки данных прогнозирует попадание испытуемых в ту или иную группу. Подобным образом, например, оценивается точность прогноза пола и других бинарных переменных. В случае «бинарного» критерия значение в 50% соответствует случайному угадыванию, а 100% — абсолютно точному прогнозу.
Каковы же перспективы психологических исследований цифровых следов? Ученые весьма оптимистично оценивают будущее исследований по данной проблематике (Boyd, Pennebaker, 2017; Stachl et al., 2019). Прежде всего следует ожидать возрастания точности прогнозирования психологических характеристик. Прогресс в данном направлении связан как с применением новых методов обработки данных (например, алгоритмы машинного научения), так и с более широким использованием других видов цифровых следов (изображений, особенностей интернет-серфинга, телефонных звонков и др.).
Современные исследования цифровых следов проводятся главным образом на материале стран Запада, однако следует ожидать в будущем расширения их географии. Это позволит понять кросс-культурную специфику отражения личности в цифровых следах. О том, что кросс-культурные различия будут иметь место, свидетельствуют некоторые результаты исследований по данной проблематике (Wilson et al., 2016). В настоящее время в силу небольшого количества исследований трудно понять, в каких социальных сетях цифровые следы наилучшим образом подходят для «реконструкции» психологических характеристик. В будущем следует ожидать роста «кросс-платформенных» исследований по данной тематике.
Как известно, социальные сети с выраженным визуальным компонентом (Инстаграм, Пинтерест) развиваются быстрее, чем традиционные, текстовые (Фейсбук, Твиттер). Это повышает актуальность изучения цифровых следов визуального характера (картинки, видео) для прогноза личностных характеристик. Совершенствование компьютерных алгоритмов анализа изображений создает для этого методическую основу. В ближайшие годы ожидается рост количества исследований в этом направлении. Еще одной особенностью будущих исследований будет совместное использование нескольких видов цифровых следов для прогнозирования психологических характеристик. В наши дни такого рода работы встречаются нечасто, хотя их результаты внушают оптимизм: интеграция цифровых следов существенно увеличивает точность прогноза (Wei et al., 2017).
Перечисленные выше тенденции развития «цифровой» психодиагностики касаются ее ближайшего будущего (5-10 лет). Каких же новаций в этой научной области следует ожидать в более далекой перспективе (10-20 лет)?
Вполне возможно, что в будущем произойдет изменение общей стратегии исследования в данной области. В настоящее время основная масса работ нацелена на прогнозирование характеристик, давно изучаемых в психологии: личностных черт, эмоций, мотивов, ценностей. В этом есть очевидный практический смысл. Поскольку в отношении указанных характеристик в психологии уже накоплен большой массив данных об их связи с суждениями и поведением людей, то информация, полученная в результате «основанной на цифровых следах» диагностики, может использоваться для решения широкого круга задач: рекламы товаров и услуг, профилактики и лечения болезней, криминальной профилактики, политической пропаганды и др. Схематично этот личностно-ориентированный подход можно представить следующим образом: цифровые следы ^ личность ^ поведение.
Подобный подход в развернутом виде, например, был реализован в рамках проекта myPersonality.org (Kosinski et al., 2013; Matz et al., 2017a). На первом этапе были разработаны процедуры прогнозирования личностных черт на основании цифровых следов, на втором с их помощью осуществлялась диагностика личностных качеств целевой аудитории, а на третьем осуществлялось воздействие на нее специальными личностно-конгруэнтными сообщениями. Комплексных исследований подобного рода в психологии еще довольно мало. Дело в том, что основное внимание сейчас уделяется поиску алгоритмов прогнозирования психологических характеристик, практические же аспекты их применения исследуются гораздо реже. В целом с учетом накопленных к настоящему времени данных, личностно-ориентированный подход весьма перспективен в плане решения прикладных задач.
Помимо личностно-ориентированного подхода, возможен и иной способ использования цифровых следов. Схематично он будет выглядеть так: цифровые следы ^ поведение. В данном случае на основании цифровых следов осуществляется прогноз не некоторых обобщенных характеристик (личностных черт, ценностей и др.), а непосредственно поведения, понимаемого в самом широком смысле, т.е. как совокупность поведенческих, когнитивных и эмоциональных реакций человека в конкретных ситуациях. Например, насколько пунктуален будет человек при оплате кредитов или сотовой связи, как он отреагирует на просьбу о пожертвовании или медицинскую рекомендацию.
Как показывают исследования, такой ориентированный на поведение подход демонстрирует неплохие результаты на практике, что создает основу для его активного развития в ближайшем будущем. Так, с опорой на характеристики, связанные с использованием сотовой связи, удается весьма успешно прогнозировать финансовую дисциплину при оплате за телефон и пользование кредитом (Doyle et al., 2019; San Pedro et al., 2015). В ряде случаев ориентированный на поведение подход дает даже более точный прогноз поведения, чем личностно-ориентированный (Wilson, 2019).
Помимо двух рассмотренных выше подходов возможен (в более далекой временной перспективе) и еще один. Этот подход можно представить в виде такой схемы: цифровые следы ^ цифровая личность ^ поведение. Его реализация начнется с построения новой, основанной на цифровых следах структуры
личности. Исходными данными для факторизации будет не лексика, используемая, например, Р. Кеттеллом для выявления структуры личностных черт и создания соответствующего опросника, а совокупность различных видов цифровых следов.
После того как среди ученых будет достигнут некоторый консенсус в отношении «цифровой» структуры личности, начнется этап установления ее взаимосвязей с поведенческими, когнитивными и эмоциональными реакциями в различных сферах жизнедеятельности. На сбор данных о взаимосвязи психологических характеристик с поведением и суждениями людей в реальной жизни уходят десятилетия, этот этап будет гораздо короче, что обусловлено легкостью и быстротой «цифровой» психодиагностики.
Накопленный на втором этапе массив данных, касающийся взаимосвязей «цифровой» личности с поведением человека в реальной жизни, позволит перейти к третьему этапу — проверке точности прогнозирования и применению выявленных закономерностей на практике. Хотя пока нарисованная картина выглядит не совсем реальной, однако все больше специалистов допускают подобное развитие ситуации в этой научной области (Boyd, Pennebaker, 2017; Hinds, Joinson, 2019).
В заключение отметим, что современные алгоритмы цифровой психометрики, обеспечивая невиданную до сих пор легкость и быстроту сбора и анализа психологических данных, существенно расширяют возможности исследований человеческой психики. Помимо чисто научного значения, такие алгоритмы имеют большой потенциал в плане решения прикладных задач в различных сферах общественной жизни.
Литература
Латынов, В. В. (2013). Психология коммуникативного воздействия. М.: Изд-во «Институт психологии РАН».
Ссылки на зарубежные источники см. в разделе References после англоязычного блока.
Латынов Владислав Викторович — старший научный сотрудник, Федеральное государственное бюджетное учреждение науки Институт психологии Российской академии наук, кандидат психологических наук. Сфера научных интересов: психология воздействия. Контакты: [email protected]
Овсянникова Виктория Владимировна — старший научный сотрудник, Национальный исследовательский университет «Высшая школа экономики», кандидат психологических наук.
Сфера научных интересов: психология эмоций. Контакты: [email protected]
Predicting Psychological Characteristics from Digital Footprints
V.V. Latynov", V.V. Ovsyannikovab
a Institute of Psychology, Russian Academy of Sciences, 13 build. 1, Yaroslavskaya Str., Moscow, 129366, Russian Federation
b National Research University Higher School of Economics, 20 Myasnitskaya Str., Moscow, 101000, Russian Federation
Abstract
The article discusses the prediction of individual psychological characteristics (personality traits, emotional states, values, motives, etc.) based on person's digital footprints. As studies have shown, such characteristics can be very accurately detected on the basis of various types of digital footprints: texts, images, Internet-surfing features, the nature and duration of phone calls, "likes" (I like), financial transactions, and changes in a person's location. Most often, to perform this task, textual information is used from a variety of sources (user profiles, blogs, tweets, etc.). With vocabulary-oriented predicting of psychological characteristics, two main approaches to text analysis are used. One, the so-called fixed (closed-vocabulary), uses a limited vocabulary dictionary, and the other (open-vocabulary) uses an unlimited vocabulary dictionary In the case of a fixed approach, a certain set of words and categories is initially set, the relationship of which with personality traits is revealed. Unlike the fixed one, in the case of using the open approach, there is no predefined list of words, and lexical predictors of personality traits are found directly in the course of text analysis. The greatest accuracy of predicting was achieved in the case of personality traits of the "Big Five". According to the degree of success in predicting, they were arranged as follows (from the most successful to the least): extraversion, openness to experience, conscientiousness, neuroticism, agreeableness. Emotional states, values, motives, and life satisfaction are predicted slightly worse. The simultaneous use of several types of digital footprints, as well as more advanced procedures for collecting and analyzing data, can significantly increase the accuracy of the prediction. Immediate and more distant prospects for research in this area are evaluated.
Keywords: digital footprints, prediction, personality traits, emotions, depression, values. References
Arnoux, P.-H., Xu, A., Boyette, N., Mahmud, J., Akkiraju, R., & Sinha, V. (2017). 25 tweets to know you: A new model to predict personality with social media. In Eleventh International AAAI Conference on Web and Social Media (pp. 472-475). Retrieved from https://arxiv.org/ftp/arxiv/papers/1704/1704.05513.pdf Azucar, D., Marengo, D., & Settanni, M. (2018). Predicting the big 5 personality traits from digital footprints on social media: A meta-analysis. Personality and Individual Differences, 124, 150-159. Boyd, R. L., & Pennebaker, J. W. (2017). Language-based personality: a new approach to personality in a digital world. Current Opinion in Behavioral Sciences, 18, 63-68.
Boyd, R. L., Wilson, S. R., Pennebaker, J. W., Kosinski, M., Stillwell, D.J., & Mihalcea, R. (2015). Values in words: Using language to evaluate and understand personal values. In Ninth International AAAI Conference on Web and Social Media (pp. 31-40). Retrieved from https://www.aaai.org/ocs/index.php/ICWSM/ICWSM15/paper/viewFile/10482/10486 Celli, F., Bruni, E., & Lepri, B. (2014). Automatic personality and interaction style recognition from Facebook profile pictures. In Proceedings of the 22nd ACM international conference on multimedia (pp. 1101-1104). Retrieved from http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.723.998&rep=rep 1 &type=pdf Cucurull, G., Rodriguez, P., Yazici, V. O., Gonfaus, J. M., Roca, F. X., & Gonzalez, J. (2018). Deep inference of personality traits by integrating image and word use in social networks. ArXiv:1802.06757. Retrieved from https://arxiv.org/pdf/1802.06757.pdf Ding, T., & Pan, S. (2016). Personalized emphasis framing for persuasive message generation. In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing (pp. 1432-1441). Austin, TX.
Doyle, C., Herga, Z., Dipple, S., Szymanski, B., Korniss, G., & Mladenic, D. (2019). Predicting complex user behavior from CDR based social networks. ArXiv:1903.12579. Retrieved from https://arxiv.org/pdf/1903.12579.pdf Drouin, M., Boyd, R. L., & Greidanus Romaneli, M. (2018). Predicting recidivism among internet child sex sting offenders using psychological language analysis. Cyberpsychology, Behavior, and Social Networking, 21, 78-83. Farnadi, G., Sitaraman, G., Sushmita, S., Celli, F., Kosinski, M., Stillwell, D., De Cock, M. (2016). Computational personality recognition in social media. User Modeling and User-Adapted Interaction, 26, 109-142.
Franks, P., Chapman, B., Duberstein, P., & Jerant, A. (2009). Five factor model personality factors moderated the effects of an intervention to enhance chronic disease management self-efficacy. British Journal of Health Psychology, 14, 473-487. Gjurkovic, M., & Snajder. J. (2018). Reddit: A gold mine for personality prediction. In Proceedings of the Second Workshop on Computational Modeling of Peoples Opinions, Personality, and Emotions in Social Media (pp. 87-97). Retrieved from https://www.aclweb.org/anthology/W18-1112.pdf Gladstone, J. J., Matz, S. C., & Lemaire, A. (2019). Can psychological traits be inferred from spending?
Evidence from transaction data. Psychological Science, 30(7), 1087-1096. Golbeck, J. (2016). Predicting personality from social media text. AIS Transactions on Replication Research,
2, Art. 2. Retrieved from https://aisel.aisnet.org/cgi/viewcontent.cgi?article=1011&context=trr Golbeck, J., Robles, C., & Turner, K. (2011). Predicting personality with social media. In CHI'11
Extended Abstracts on Human Factors in Computing Systems (pp. 253-262). New York: ACM. Gou, L. (2015). Visualizing personality traits derived from social media. In Electronic proceedings of the IEEE VIS 2015 workshop Personal Visualization: Exploring Data in Everyday Life. Chicago, IL. Retrieved from https://pdfs.semanticscholar.org/df3f/25a9bba53d77b27837d01cc668b1c54102bb.pdf Guntuku, S. C., Preotiuc-Pietro, D., Eichstaedt, J. C., & Ungar, L. (2019). What twitter profile and posted images reveal about depression and anxiety. Proceedings of the International AAAI Conference on Web and Social Media, 13, 236-246. Guntuku, S. C., Yaden, D. B., Kern, M. L., Ungar, L. H., & Eichstaedt, J. C. (2017). Detecting depression and mental illness on social media: an integrative review. Current Opinion in Behavioral Sciences, 18, 43-49.
Hinds, J., & Joinson, A. (2019). Human and computer personality prediction from digital footprints. Current Directions in Psychological Science, 28, 204-211.
Hullett, C. R. (2005). The impact of mood on persuasion. Communication Research, 32, 423-442.
Kalimeri, K., Beiry, M., Delfino, M., Raleigh, R., & Cattuto, C. (2019). Predicting demographics, moral foundations, and human values from digital behaviours. Computers in Human Behavior, 92, 428-445.
Kosinski, M., Bachrach, Y., Kohli, P., Stillwell, D., & Graepel, T. (2014). Manifestations of user personality in website choice and behaviour on online social networks. Machine Learning, 95, 357-380.
Kosinski, M., Stillwell, D., Graepel, T. (2013). Private traits and attributes are predictable from digital records of human behavior. Proceedings of the National Academy of Sciences, 110, 5802-5805.
Kuss, D. J., & Griffiths, M. D. (2011). Online social networking and addiction. A review of the psychological literature. InternationalJournal of Environmental Research and Public Health, 8, 3528-3552.
Latynov, V. V. (2013). Psikhologiya kommunikativnogo vozdeistviya [The psychology of communicative influence]. Moscow: Institute of Psychology of the RAS. (in Russian)
LiKamWa, R., Liu, Y., Lane, N. D., & Zhong, L. (2013). MoodScope: building a mood sensor from smartphone usage patterns. In MobiSys 2013 - Proceedings of the 11th Annual International Conference on Mobile Systems, Applications, and Services (pp. 389-402). Retrieved from https://yecl.org/publications/likamwa2013mobisys2.pdf
Liu, L., Preotiuc-Pietro, D., Samani, Z. R., Moghaddam, M. E., & Ungar, L. H. (2016). Analyzing personality through social media profile picture choice. In Proceedings of the Tenth International AAAI Conference on Web and Social Media (ICWSM 2016) (pp. 211-220). Retrieved from https://aaai.org/ocs/index.php/ICWSM/ICWSM16/paper/download/13102/12741
Madan, A., Cebrian, M., Lazer, D., & Pentland, A. (2010). Social sensing for epidemiological behavior change. In Proceedings of the UbiComp '10: 2010 ACM Conf. Ubiquitous Comput., Copenhagen, Den. 2010 (pp. 291-300). Retrieved from http://web.media.mit.edu/~cebrian/sensing.pdf
Markowetz, A., Blaszkiewicz, K., Montag, C., Switala, C., & Schlaepfer, T. E. (2014). Psycho-informatics: Big data shaping modern psychometrics. Medical Hypotheses, 82, 405-411.
Matz, S., Kosinski, M., Nave, G., & Stillwell, D. (2017, a). Psychological targeting as an effective approach to digital mass persuasion. Proceedings of the National Academy of Sciences U.SA, 114, 12714-12719.
Matz, S., Kosinski, M., Stillwell, D., & Nave, G. (2017, b). Psychological framing as an effective approach to real-life persuasive communication. In A. Gneezy, V. Griskevicius, P. Williams (Eds.), Advances in consumer research (Vol. 45, pp. 276-281). Duluth, MN: Association for Consumer Research.
Moon, Y. (2002). Personalization and personality: Some effects of customizing message style based on consumer personality Journal of Consumer Psychology, 12, 313-326.
Noar, S. M., Benac, C. N., & Harris, M. S. (2007). Does tailoring matter? Meta-analytic review of tailored print health behavior change interventions. Psychological Bulletin, 133, 673-693.
Park, G., Schwartz, H. A., Eichstaedt, J. C., Kern, M. L., Kosinski, M., Stillwell, D. J.....Seligman, M.
E. (2015). Automatic personality assessment through social media language. Journal of Personality and Social Psychology, 108, 934-952.
Quercia, D., Kosinski, M., Stillwell, D., & Crowcroft, J. (2011). Our Twitter profiles, our selves: Predicting personality with Twitter. In Proceedings of IEEE SocialCom (pp. 180-185). Boston, MA.
Saeb, S., Lattie, E., Schueller, S. M., Kording, K., & Mohr, D. C. (2016). The relationship between mobile phone location sensor data and depressive symptom severity. PeerJ, 4, e2537.
San Pedro, J., Proserpio, D., & Oliver, N. (2015). Mobiscore: towards universal credit scoring from mobile phone data. In International Conference on User Modeling, Adaptation, and Personalization (pp. 195-207). Retrieved from https://www.researchgate.net/profile/Nuria_Oliver2/publication/314082604_Mo-biScore_Towards_Universal_Credit_Scoring_from_Mobile_Phone_Data/links/5be46eb3299bf1124fc 40fc0/MobiScore-Towards-Universal-Credit-Scoring-from-Mobile-Phone-Data.pdf
Schoedel, R., Au, Q., Volkel, S.T., Lehmann, F., Becker, D., Buhner, M.....Stachl, C. (2019). Digital
footprints of sensation seeking. Zeitschriftfur Psychologiel, 226, 232-245. Schwartz, H. A., Eichstaedt, J. C., Kern, M. L., Dziurzynski, L., Ramones, S. M., Agrawal, M., Ungar, L. H. (2013). Personality, gender, and age in the language of social media: The open vocabulary approach. PLoS ONE, 8, e73791. doi:10.1371 /journal.pone.0073791
Schwartz, H. A., Eichstaedt, J., Kern, M., Park, G., Sap, M., Stillwell, D.....Ungar, L. (2014). Towards
assessing changes in degree of depression through Facebook. In Proceedings of the Workshop on Computational Linguistics and Clinical Psychology (pp. 118-125). Retrieved from https://www.aclweb.org/anthology/W14-3214.pdf Skowron, M., Tkalcic, M., Ferwerda, B., & Schedl, M. (2016). Fusing social media cues: Personality prediction from Twitter and Instagram. In Proceedings of the 25th International Conference Companion on World Wide Web (pp. 107-108). Retrieved from http://www.bruceferwerda.com/papers/2016_Skowron_etal_WWW.pdf
Stachl, C., Au, Q., Schoedel, R., Buschek, D., Volkel, S., Schuwerk, T..... Buhner, M. (2019).
Behavioral patterns in smartphone usage predict big five personality traits. PsyArXiv. Retrieved from https://psyarxiv.com/ks4vd/ Tausczik, Y., & Pennebaker, J. W. (2010). The psychological meaning of words: LIWC and computerized text analysis methods. Journal of Language and Social Psychology, 29, 24-54. Tsugawa, S., Kikuchi, Y., Kishino, F., Nakajima, K., Itoh, Y., & Ohsaki, H. (2015). Recognizing depression from twitter activity. In Proceedings of the 33rd Annual ACM Conference on Human Factors in Computing Systems (pp. 3187-3196). Retrieved from https://dl.acm.org/doi/10.1145/ 2702123.2702280 Wei, H., Zhang, F., Yuan, N. J., Cao, C., Fu, H., Xie, X., Ma, W. Y. (2017). Beyond the words: predicting user personality from heterogeneous information. In Proceedings of the Tenth ACM International Conference on Web Search and Data Mining (pp. 305-314). Retrieved from https://www.microsoft.com/en-us/research/wp-content/uploads/2017/01/WSDM_personality.pdf Wendlandt, L., Mihalcea, R., Boyd, R. L., & Pennebaker, J. W. (2017). Multimodal analysis and prediction of latent user dimensions. In International Conference on Social Informatics (pp. 323-340). Retrieved from http://web.eecs.umich.edu/~mihalcea/papers/wendlandt.socinfo17.pdf Wilson, S. R. (2019). Natural language processing for personal values and human activities (A dissertation submitted in partial fulfillment of the requirements for the degree of Doctor of Philosophy). University of Michigan. Retrieved from https://deepblue.lib.umich.edu/bitstream/handle/2027.42/150025/stev-erw_1 .pdf?sequence= 1 &isAllowed=y Wilson, S. R., Mihalcea, R., Boyd, R. L., & Pennebaker, J. W. (2016). Cultural influences on the measurement of personal values through words. AI Access Foundation, SS-16-01-07, 314-317. Yarkoni, T. (2010). Personality in 100,000 words: A large-scale analysis of personality and word use among bloggers. Journal of Research in Personality, 44, 363-373.
Vladislav V. Latynov — Senior Research Fellow, Institute of Psychology, Russian Academy of Sciences, PhD in Psychology Research Area: psychology of influence. E-mail: [email protected]
Victoria V. Ovsyannikova — Senior Research Fellow, National Research University "Higher School of Economics", PhD in Psychology. Research Area: psychology of emotions. E-mail: [email protected]