ББК 88.91:32.813.52 ГРНТИ 28.23.15,15.21.69 УДК 159.9.072.5:004.89
Н. В. Кисельникова, Е. А. Куминская, А. В. Латышев,
В. П. Фраленко, М. В. Хачумов
Инструментальные средства анализа депрессивного состояния и личностных черт человека
Аннотация. Выполнен анализ работ, посвященных выявлению устойчивой связи между личностными чертами и депрессией человека по комплексу информации, доступной в социальных сетях. Значимость автоматизированного решения задачи определяется необходимостью своевременного выявления признаков депрессии как широко распространенного психического заболевания для принятия мер ее профилактики и лечения на ранних стадиях.
Рассмотрены вопросы построения механизмов выявления закономерностей и построения современных инструментальные средств анализа данных социальных сетей для проведения научных исследований в предметной области. В качестве инструментальных средств выявления депрессии предлагается применять современные методы автоматического анализа веб-страниц, формализации выявления деструктивной информации по предложениям психологов, проверки гипотез о наличии корреляционных связей, автоматической классификации текстово-графической информации с помощью аппарата искусственных нейронных сетей в сочетании с методами семантического и психологического анализа данных.
Эксперименты выявляют существенную корреляционную связь между различными градациями депрессии и некоторыми личностными чертами, а также устойчивую корреляцию между самими личностными чертами большой пятерки.
Ключевые слова и фразы: личностные черты, Большая пятерка, социальная сеть, депрессия, Большие данные, автоматический анализ, веб-страница, корреляционная связь, искусственная нейронная сеть, психологический портрет.
Работа выполнена при финансовой поддержке РФФИ (проект № 18—29—22003—мк).
© Н. В. КисЕльниковА(V Е. А. Куминскля(2, А. В. Латышев(3, В. П. Фралеико(4,) М. В. Хачумов(5,) 2019
© Психологический институт РАО(1,2, 2019
© ООО «РИ Технологии»^, 2019
© Институт программных систем имени А. К. Айламазяна РАН(4) 2019
© Российский университет дружбы народов(5, 2019
© Программные системы: теория и приложения (дизайн), 2019
d 10.25209/2079-3316-2019-10-3-129-159 @®
Введение
Основная идея работы заключается в соединении передовых знаний психологов о связях между личностными факторами, текущим состоянием человека и его поведением, с современными информационными технологиями, опирающимися на инструментальные средства и технологии искусственного интеллекта. Вектор актуальных исследований направлен на существенное усиление работы психологов с огромными объемами данных, как накопленных, так и содержащихся в различных социальных сетях. При этом инструментальные средства необходимы для автоматического извлечения данных, их обработки на высокопроизводительной вычислительной технике и проверки выдвигаемых гипотез о наличии связей с применением средств классификации и прогнозирования.
В последние годы в научном мире наблюдается повышение интереса к сфере социопсихологии, что проявляется в появлении большого количества исследований, авторы которых предлагают различные методики построения модели личности человека-пользователя социальной сети [1]. С распространением методологии анализа больших данных, отражающих поведение пользователей в социальных сетях, перед исследователями открылись новые возможности построения и проверки предсказательных моделей, оперирующих данными о личностных чертах и поведении людей в норме и патологии. С развитием информационных технологий стал доступен сбор самых разных данных: информации о естественном поведении пользователей, количестве добавляемых друзей и подписчиков, постов, фотографий, «лайков», списков интересов и сообществ, аудио-и видеозаписей и др., увеличились выборки исследований, сократилась и удешевилась процедура сбора данных. Изучение поведения пользователей социальных сетей в контексте определения их личностных черт и психологического состояния быстро стало одним из самых популярных направлений исследований.
Эмоции и язык, используемые в сообщениях в социальных сетях, могут свидетельствовать о чувствах, которые характеризуют рекуррентное депрессивное расстройство (далее депрессию), проявляющееся в повседневной жизни, особое внимание стали обращать на выявление признаков и персонализацию онлайновых методов его профилактики. Всемирная организация здравоохранения (World Health Organization) определяет депрессию как одну из самых тяжких болезней в мире. Значимость задачи выявления информативных признаков связана
с широкой распространенностью заболевания, охватывающем около 350 миллионов человек во всем мире. Депрессия является основной причиной инвалидности и разнообразных соматических болезней. Больные часто скрывают свое состояние, не обращаются вовремя за помощью. Своевременное выявление симптомов позволило бы предлагать людям меры ее профилактики и лечения на ранних стадиях
1. О связи депрессии с личностными чертами
В состав «Большой пятерки» психологических факторов (черт) входят «Openness» (открытость к опыту, интеллект), «Consciousness» (сознание, самосознание, добросовестность), «Extraversion» (экстраверсия: энергичное поведение, склонность к контактам), «Agreeableness» (доброжелательность, приятность, способность прийти к согласию), «Neuroticism» (нейротизм, эмоциональная неустойчивость, тревога, низкое самоуважение) [2]). В рамках диспозиционного подхода к исследованию и описанию личности посредством пятифакторной модели существует целый пласт работ клинической направленности, которые опираются на положение о том, что определенные факторы выступают предикторами и/или коррелятами психических расстройств [3,4]. Показано, что «Большую пятерку» удобно использовать как в диагностических целях для сопоставления с критериями расстройств личности, так и для принятия решений о лечении. В ряде исследований обсуждается возможность интеграции моделей личностных черт с психиатрическими моделями расстройств. Они опираются на данные о связях шкал «Большой пятерки», расстройств личности и характерологических нарушений [5,6].
В работе [7] показано, что личностные характеристики, в особенности экстраверсия и нейротизм, являются значимыми коррелятами психологического благополучия. В исследовании [8] отмечается, что нейротизм коррелирует с негативным аффектом. В работе [9] установлено, что нейротизм отрицательно коррелирует с показателем удовлетворенности жизнью. Метаанализ Р. Котова и соавторов [10] показал, что пациенты с депрессией набирают больше баллов по шкале нейротизма по сравнению с неклинической выборкой и меньше — по шкалам экстраверсии и сознательности. В работах [11,12] обнаружена положительная корреляция между нейротизмом и тяжестью депрессии и отрицательная — по шкалам экстраверсии и сознательности.
Что касается прогностической валидности пятифакторной модели, то, согласно эмпирическим исследованиям, она позволяет предсказывать симптомы расстройств личности даже более успешно, чем
Миннесотский многофакторный опросник личности [13]. Есть данные масштабных исследований, которые показывают сильную и достоверную предиктивную связь личностных диспозиций и трех классов психических расстройств: тревожного и депрессивного спектра; расстройств, связанных с злоупотреблением психоактивными веществами [14-16]. Установлено, что высокий уровень нейротизма и низкий уровень сознательности значительно увеличивают риск развития этих расстройств [10,17-19]. При этом указывается, что, поскольку практически для всех расстройств предикторами выступают высокие показатели по шкале нейротизма и низкие — по шкале согласия и сознательности, «Большая пятерка» хорошо предсказывает, но не очень хорошо дифференцирует расстройства личности [20].
2. Связь депрессии с использованием социальных сетей
Текущие исследования показывают неоднозначную связь депрессии и поведения пользователей социальных сетей. Установлено, что длительное использование «Facebook», «Instagram» и «Twitter» может быть связано с усилением симптомов депрессии, снижением уверенности в себе и ослаблением чувства самоуважения [21]. В то же время, другие исследования представили противоположные результаты и показали, что использование социальных сетей напрямую связано со здоровым поведением и социальной поддержкой: в работе [22] выявлено, что позитивные взаимодействия в соцсетях, получение социальной поддержки и ощущения социальной связанности сопровождаются более низкими уровнями депрессии и тревоги, в то время как негативные взаимодействия и социальное сравнение коррелируют с более высокими уровнями депрессии и тревоги.
В работе [23] установлено, что люди с ярко выраженным нейротиз-мом используют Интернет в качестве ресурса, где они могут выразить «истинное Я», при этом избегая делать это в реальной жизни. В исследовании [24] показано, что чем чаще человек использует «Facebook», тем у него более выражены нейротизм, одиночество, застенчивость и нарциссизм. В работе [25] подтверждено, что нейротизм положительно коррелирует с количеством поставленных «лайков» и группами, в которых состоит пользователь. Построение прогностических моделей, включающих личностные черты, симптомы депрессии и различные параметры поведения пользователей в социальных сетях, выявили модерирующую роль нейротизма в связи показателей депрессии и использования «Facebook». До тех пор, пока уровень нейротизма
не достигает определенной точки, депрессия положительно связана с разнообразной активностью в «Facebook» — проведением трансляций, количеством «лайков», комментариев, хэштегов. Когда уровень нейротизма превышает эту точку, корреляция между депрессией и активностью в соцсети становится отрицательной [26].
В исследовании [27] установили, что люди с признаками депрессии меняют паттерн поведения, который может проявляться в том числе и в социальных сетях. Так, респонденты, страдающие от легкой и умеренной депрессии, чаще слушают музыку, особенно классическую, тогда как люди с тяжелой депрессией вообще перестают ее слушать. Меняется интенсивность социальных взаимодействий, несмотря на общий тренд снижения количества и продолжительности оффлайновых контактов с семьей и коллегами, респонденты с тяжелой депрессией больше говорят по телефону, чем люди с легкой и умеренной депрессией.
В исследовании [28] установлено, что нестабильность использования слов, выражающих отрицательные эмоции, может быть простой, но чувствительной мерой для диагностики депрессии пользователей социальных сетей, однако ее полезность может зависеть от платформы: для пользователей «Facebook» это показатель выступил предиктором большей тяжести депрессии, а в «Twitter», напротив — более низкой.
В работе [29] показана высокая точность искусственных нейронных сетей (ИНС) в оценке рисков проявления депрессии. Авторы утверждают, что ИНС можно использовать для широкомасштабных исследований психического здоровья и, в частности, депрессии.
В исследовании [30] предложен подход к созданию статистических моделей, которые могут предсказать депрессию. Модели опираются на метрику, называемую индексом депрессии социальных сетей (Social Media Depression Index, SMDI), она используется для определения депрессивно-показательных сообщений в «Twitter» и выявления уровни депрессии у населения. Сообщения «Twitter» представляются как векторы признаков (например, эмоции, время, n-граммы, стиль, признаки участия). Для снижения пространства признаков применялся метод главных компонент (Principal Component Analysis, PCA). На тестовой выборке получена полнота классификации более 70%, точность—82%.
В работе [31] в качестве основного инструмента для определения уровня депрессии была использована анкета «CES-D», представляющая собой бальную шкалу из 20 показателей. Рассматривались четыре особенности эмоционального состояния, проявляющиеся в сообщениях: положительный аффект (PA), отрицательный аффект (NA), активация
(activation) и доминантность (dominance). Были представлены некоторые описательные анализы различий в двух классах сообщений: «депрессивные» и «стандартные» сообщения. Замечено, что авторы, склонные к проявлению депрессии, публикуют меньше сообщений, что указывает на возможную потерю социальной связанности. Кроме того, снижение числа подписчиков и подписанных страниц свидетельствует о том, что эти авторы демонстрируют снижение желания общаться или склонны потреблять внешнюю информацию и оставаться связанными с другими. Высокий показатель NA, характеризующий этих авторов сообщений, возможно, отражает их психическую нестабильность и беспомощность. Более того, низкая активация и доминантность могут указывать на одиночество, беспокойство, истощение, недостаток энергии и сна, то есть явные проявления и симптомы депрессии.
3. Графические маркеры депрессии и личностных черт
Исследование [32] показало, что анализ фотографий, размещаемых пользователями в «Instagram» дает возможность выявлять прогностическое маркеры депрессии. У людей с депрессией наблюдается повышение или снижение яркости и насыщенности выкладываемых фото; преобладание голубых, серых и темных тонов; более частое размещение фотографий с лицами; снижение среднего числа людей на одну фотографию.
Следует отметить, что исследования графического онлайн-контента затрагивают две большие области: изображения, которые выкладывает человек, и изображения, выкладываемые другими людьми, которые нравятся (которым ставится «лайк»). В работе [33] с помощью методов машинного обучения исследовалась связь предпочитаемых пользователем изображений с личностными качествами. Авторы выделили особенности фотографий, характерных для крайних показателей личностных черт. Было установлено, что для низкого уровня ней-ротизма характерны изображения воды в природном окружении (реки, озера, моря), преобладающие цвета —желтый и красный, часто встречаются пышные узоры. В то время как для высокого уровня нейротизма характерны фотографии с большим количеством пустых областей, в них могут встречаться люди, однако лица будут размыты или затемнены. Для низких показателей добросовестности характерны изображения людей (и лица) в основном на сером фоне. Для высоких — открытые пейзажи с водой и небом, с теплыми цветами. Для низких показателей экстраверсии и открытости характерны изображения
животных и цветущих растений с преимущественно ненасыщенными оттенками и пышными узорами. Для высоких показателей экстраверсии — любительские изображения людей в городских условиях. Для высоких показателей открытости — строгие геометрические узоры. Для низких показателей согласия характерны сероватые и ненасыщенные изображения с очень небольшим количеством лиц, для высоких—природные пейзажи с повторяющимися рисунками (например, лепестками).
Авторы исследования [34] разработали модель глубокой бимодальной регрессии, которая на основе визуальной и аудио-информации способна предсказать первое впечатление наблюдателя о чертах личности. Под первым впечатлением в статье понимается событие, когда человек встречает другого человека и формирует мысленный образ о его личности (в данном случае речь идет о личностных чертах «Большой пятерки»). Аналогично, в работе [35] представлены результаты исследования, целью которого было предсказание личностных черт через анализ видеоконтента. Результаты показали высокую точность данного метода.
В исследовании [36] выполнен анализ связи между личностными чертами и визуальным контентом пользователей социальных сетей. Установлено, что у людей с высокими показателями открытости новому характерны: преобладание зеленого цвета; большое количество темных участков; насыщенные и яркие цвета, а также меньшее количество теплых цветов и большее — холодных. Пользователи с высокой добросовестностью загружают фото, состоящие как из мрачных, так и ярких цветов, то есть показывают разнообразие цветовой насыщенности. Пользователи-экстраверты загружают фото с меньшим количеством оранжевых и красных цветов и с большим — зеленых и синих. Кроме того, они также показывают разнообразие цветовой насыщенности, а сами фотографии обычно темные. Для согласия характерны фотографии средней яркости. Для нейротизма—очень светлые, яркие изображения. На основе полученных данных при помощи сети радиальных базисных функций была разработана модель, позволяющая предсказывать личностные черты. Однако, открытость, добросовестность и согласие предсказываются с более высокой точностью, чем экстраверсия и нейротизм.
В исследованиях, связанных с настроением, цветом и психическим здоровьем, здоровые люди обычно предпочитали яркие, более живые цвета. Напротив, депрессивные предпочитают более темные, серые цвета. Кроме того, имеется положительная корреляция между самоидентификацией с депрессией и тенденцией воспринимать свое
окружение как серое или не имеющее цвета, что побудило включить в анализ измерения оттенка, насыщенности и яркости, использование фильтров «Instagram» [37-40].
4. Инструментальные средства анализа данных социальных сетей
Для проведения дальнейших исследований в выбранном направлении важно выявить и отобрать наиболее адекватные инструментальные средства анализа данных социальных сетей. Анализ показывает необходимость разработки новых метрик, применения наряду с известным методом опорных векторов новых классификаторов и различных преобразователей данных, например, на основе метода главных компонент, с использованием сверточных искусственных нейронных сетей (СИНС).
4.1. Механизм корреляционных связей и его применение
Проведенные авторами настоящей работы исследования [41-43], а также вышеприведенный анализ источников, позволяют выдвигать и подтверждать некоторые гипотезы. Примером служит следующая гипотеза: между личностными чертами из «Большой пятерки» имеется значимая («заметная») корреляция, определяющая их связь. Проверка выдвинутой гипотезы о корреляционной значимости связи черт из «Большой пятерки» требует наличия проверенных данных от экспертов; проверки статистической достоверности результатов корреляционного анализа; обобщения результатов от различных исследователей, полученных по различным группам населения (возраст, род занятий, состояние здоровья, степень успешности и пр.).
Не представляется возможным установить однозначно наличие корреляционных зависимостей между чертами по результатам проведенных исследований и имеющимся данным по публикациям. Причина в отсутствии сведений о согласованности мнений экспертов. Следует отметить, что наблюдаются сильные колебания значений корреляций черт в зависимости от различных типов групп людей. Обобщение результатов показывает на наличие устойчивой положительной корреляции «Consciousness» и «Agreeableness», как видно из таблицы 1, где приведены усредненные коэффициенты корреляции, полученные из проанализированных работ [41].
4.2. Кластерный анализ
Одним из мощнейших методов обработки текстов и изображений, содержащихся в документах, является кластерный анализ. В настоящее
Таблица 1. Усредненная корреляция между чертами
O C E A N
O 1 0,2198 0,1810 0,1540 0,1201
C 0,2198 1 0,1036 0,3212 -0,0737
E 0,1810 0,1036 1 0,2125 -0,0189
A 0,1540 0,3212 0,2125 1 -0,1730
N 0,1201 -0,0737 -0,0189 -0,1730 1
время существует множество методик, осуществляющих группирование (кластеризацию) документов. Назовем некоторые из них:
Custom Search Folders позволяет сузить результаты поиска путем распределения документов по «папкам»;
Latent Semantic Analysis/Indexing (LSA/LSI) путем факторного анализа документов выявляет латентные (скрытые) факторы, которые служат основой для образования кластеров документов; оценка количества выделенных главных факторов проводится при помощи критерия Бартлетта;
Suffix Tree Clustering (STC) образует кластеры в узлах суффиксного дерева, которое строится из слов и фраз входных документов;
Single Link, Complete Link, Group Average — методы, разбивающие множество документов на кластеры, расположенные в древовидной структуре (dendrogramm), получаемой с помощью иерархической кластеризации;
Scatter/Gather — итеративный процесс, разбивающий множество документов на группы и представляющий их пользователю для дальнейшего анализа;
K-means относится к неиерархическим алгоритмам; кластеры представляются в виде центроидов, являющихся «центром массы» всех документов, входящих в кластер;
Concept Indexing (CI) разбивает множество документов методом рекурсивной бисекции, т.е. разделяет множество документов на две части на каждом шаге рекурсии;
Self-Organizing Maps (SOM) производит классификацию документов с использованием самонастраивающейся нейронной сети Кохонена.
В таблице 2 показаны основные методы кластеризации и их характеристики.
Таблица 2. Сводка основных характеристик алгоритмов кластеризации
Название метода Наличие пересечения кластеров Используемые числовые характеристики документов Предварительное обучение Оценка сложности (N — число документов, k — число кластеров)
LSI - Tfidf - O(P2 • f), (P = число термов + N, f — число факторов)
STC + - - O(k2 • N)
Single Link, Complete Link, Group Average - Similarity matrix - Single Link ~O(N2), Complete Link ^O(N3), Group Average ^O(N2)
Scatter/Gather - Similarity matrix - Buckshot ~O(k • N), Fractionation ~O(m • N), m = O(k)
K-means - Tfidf - O(N)
CI (необучаемый вариант) - Similarity - O(N • log k)
CI (обучаемый вариант) - Similarity matrix или tfidf + оценки не выявлены
SOM (сеть Кохонена) + Similarity matrix или tfidf + оценки не выявлены
138 Н. В. КисЕльниковА, Е. А. Куминскля, А. В. Латышев и др.
Открытыми для исследования остаются вопросы
(а) выбора начального числа кластеров и их размещения,
(б) построения признакового пространства и формирования векторов признаков,
(в) определения расстояний и нормирования векторов.
Случайный выбор кластеров не представляется лучшим решением и может привести к потерям времени на последующих этапах. В этой связи предлагается в дальнейшем использовать более совершенный механизм первоначального назначения центров кластеров [44].
Существенную роль в качестве распределения документов по кластерам играет выбор метрики. Использование евклидовой метрики, по нашему мнению, не дает необходимого качества (релевантности) документов. В этой связи предлагается использование статистических методов сравнения документов с сформированными классами.
Для этой цели подходит обобщенная метрика Евклида-Махаланоби-са [45]. Метрика более предпочтительна в условиях неопределенности, когда характеристики классов заранее неизвестны и сами классы формируются и уточняются в процессе измерений в реальном времени. Метрика определяет расстояние между двумя классами Ki и K2, в виде квадратичной формы Д^(Ki,K2) = (xi — Х2)тA-i(xi — X2), где xi и X2 — средние выборочные классов, матрица A представляет собой такую функцию ковариационных матриц Ci и C2, что матрица A должна быть симметрической и положительно определенной; если все элементы матриц Ci и C2 равны нулю, то A = E (это означает, что если каждый из классов Yi, Y2 содержит одну лишь точку, то расстояние между ними должно совпадать с расстоянием Евклида). Этим свойствам, например, удовлетворяет матрица A = Ci + C2 + E, где Ci и C2 — корреляционные матрицы для первого и второго классов соответственно.
Обобщенную метрику можно приспособить для нейронной сети Ко-хонена: матрицу весов в ней заменяет модифицируемая ковариационная матрица и статическая матрица средних выборочных.
Среди неиерархических алгоритмов, не основанных на расстоянии, следует выделить EM-алгоритм (Expectation-Maximization) [46]. В нем вместо центров кластеров предполагается наличие функции плотности вероятности для каждого кластера с соответствующим значением
математического ожидания и дисперсией. Перед стартом алгоритма выдвигается гипотеза о виде распределений, которые оценить в общей совокупности данных достаточно сложно.
4.3. Применение искусственных нейронных сетей для
прогнозирования личностных факторов на основе анализа изображений
Итоговая цель — обучить нейронные сети прогнозировать личностные факторы интернет-пользователей, используя для этого изображения из «профилей» этих пользователей в социальной сети. Для реализации программного обеспечения использована библиотека «Microsoft Cognitive Toolkit» (CNTK), вычисления осуществлялись с помощью графического ускорителя вычислений «Nvidia Geforce GTX 1080 Ti».
В экспериментах была использована информация из «профилей» 84 интернет-пользователей сети «ВКонтакте». Половина данных от пользователей была взята в качестве обучающей выборки, а половина — в качестве тестовой. В соответствии с опросником «NEO-FFI» [47] папкам с изображениями пользователей был присвоен информационный вектор из значений пяти личностных факторов, нормированных от 0 до 48 (низкий уровень проявления личностного фактора: 0-20; средний: 21-32; высокий: 32-48). База данных описывается следующими характеристиками:
число изображений:
4322 в обучающей выборке,
4196 в тестовой выборке;
среднее число изображений на пользователя:
103 в обучающей выборке,
100 в тестовой выборке;
число изображений у одного пользователя:
5 минимальное,
170 максимальное.
СИНС способны к обобщению входной информации. Следует заметить, что последовательное применение свертки и субдискретизации приводит к так называемому повышению уровня признаков: если первый слой извлекает из изображения локальные признаки, то
последующие слои извлекают общие признаки, которые называются признаками высокого порядка. Таким образом, чем больше слоев используется, тем больше из изображений извлекается признаков, связанных с личностными факторами. Например, таковы признаки, отражающие цветояркостное содержание и контентное содержимое изображений [33,36,48].
В результате последовательной направленной обработки исходных данных в слоях свертки и субдискретизации сеть приобретает возможность распознавать иерархию признаков. К концу обработки карта признаков вырождается в вектор, в таком виде они подаются на полносвязный выходной слой.
В первом эксперименте была исследована возможность использования СИНС в качестве основного инструмента оценки связи изображений, размещаемых пользователями, с их личностными факторами.
Во втором эксперименте проверена возможность использования предварительно обученных СИНС для извлечения высокоуровневых признаков, в качестве источника этих данных был использован выход скрытого слоя, предшествующий полносвязному.
Сверточные сети для извлечения высокоуровневых признаков обучались на базе данных аннотированных изображений «ImageNet 1k», содержащей один миллион изображений, разделенных на 1000 классов [49]. Проверялась гипотеза о том, что нейронные сети, способные к решению столь сложной задачи с помощью полносвязного слоя, имеют на выходе скрытого слоя признаки высокого уровня, подходящие для решения задачи прогнозирования психологических факторов.
Основные характеристики первого эксперимента [50]: количество цветовых каналов: 3;
размер формируемых входных изображений:
128x128, 256x256 и 512x512;
количество слоев свертки: 1-5;
количество карт признаков в слоях свертки: 3-90;
размер окна свертки: 3x3;
шаг субдискретизации: 2;
размер окна субдискретизации для выбора максимального элемента (max-pooling [51]): 3x3;
активационная функция [52]: f (x) = max(0, x); dropout-слой [53]: вероятность срабатывания 0,001-0,1;
количество изображений, используемых в рамках одной итерации обучения: 82-412.
При создании групп изображений использовалась пара генераторов псевдослучайных чисел: первый определял номер папки пользователя, второй —номер изображения в нем. Если все изображения пользователя уже использованы—папка исключалась из рассмотрения.
4.3.1. Основные особенности и результаты эксперимента с одной СИНС
После множества экспериментов с различным сочетанием приведенных характеристик лучшие результаты показала СИНС с тремя слоями с 9, 6 и 3 картами признаков в них; размер формируемых входных изображений: 512x512 пикселей; dropout-слой с вероятностью срабатывания 0,1.
Оптимальный размер группы обрабатываемых изображений (на одной итерации обучения): 100 изображений. Большее число изображений ухудшало точность прогнозирования факторов по тестовой выборке, меньшее — требовало использования существенно меньшего коэффициента нормы обучения и увеличения числа эпох обучения.
Экспериментально выявлено, что улучшения характеристик нейросети в данной постановке задачи уже не наблюдается после 17 тысяч эпох обучения. Каждое изображение, таким образом, в процессе обучения в среднем было использовано порядка 400 раз. Исследовались два режима: с прогнозированием по одному фактору и всех пяти факторов совместно.
В качестве оценочных признаков использовалось:
(1) среднее квадратическое отклонение (СКвО),
(2) точность выделения минимально и максимально выраженных
факторов (от 0 до 1).
При обработке профиля пользователя вектор прогнозируемых факторов получается усреднением нейросетевых прогнозов по отдельным изображениям, размещенным в этом профиле.
Таблица 3. Прогнозирование факторов одной СИНС
Прогнозирование раздельное совместное
Выборка обучение тест обучение тест
Среднее СКвО по фактор7 O 5,54 5,98 5,11 6,17
C 9,23 9,17 8,36 8,93
E 8,03 8,40 7,50 7,72
A 5,62 6,69 5,39 6,44
N 10,43 10,45 9,50 10,45
Усредненное значение 7,77 8,14 7,17 7,94
Среднее значение по отдельным
пользователям 6,83 7,72
Точность выделения фактора:
наиболее четко выраженного 0,38 0,21
наименее четко выраженного 0,69 0,45
Итоговые результаты лучших СИНС представлены в таблице 3. Обобщая данные из таблицы 3 и экспериментальные результаты, полученные в процессе подбора лучшей конфигурации СИНС и способов обучения, отметим следующие закономерности:
• наименее четко выраженный личностный фактор устойчиво прогнозируется лучше наиболее выраженного, эта особенность проявилась во всех проведенных экспериментах без исключения;
• конфигурации нейронных сетей с малым числом слоев свертки (от одного до двух) не обеспечивают достаточной точности выделения личностных факторов;
• увеличение размера входных изображений последовательно повышает точность выделения соответствующих факторов и снижает СКвО;
• во всех экспериментах наилучшие показатели были получены для факторов «Openness» (открытость к опыту, интеллект) и «Agreeableness» (доброжелательность, приятность, способность прийти к согласию);
• худшие —для фактора нейротизм;
• более точные результаты получаются при совместном прогнозировании сразу пяти личностных факторов.
4.3.2. Основные особенности и результаты эксперимента с двумя ИНС
Основные характеристики второго эксперимента: количество цветовых каналов: 3; архитектуры предобученных СИНС:
(1) «ResNet18», «ResNet34», «ResNet50», «ResNet101» и «ResNet152» [54],
(2) «InceptionV3» [55],
(3) «AlexNet» [56],
(4) «VGG16» и «VGG19» [57]
(использованы файлы настроек CNTK, доступные по этой ссылке; количество признаков в скрытом слое СИНС: 512-4096; количество слоев в сети прямого распространения: 1-3;
количество нейронов в слоях сети прямого распространения: 5-20000;
активационная функция: f (x) = max(0, x); dropout-слой: вероятность срабатывания 0,001-0,1;
количество изображений, используемых в рамках одной итерации обучения: от 82 до всей обучающей выборки (4322
изображения).
Наилучшие результаты показаны при использовании признаков от СИНС семейства «ResNet». Лучший результат получен при использовании признаков от нейронной сети «ResNet50» с 2048 информативными выходными сигналами скрытого слоя. Общее число признаков уменьшилось в 384 раза (в первом эксперименте при подаче полноцветных изображений размером 512x512 пикселей с тремя цветовыми каналами было использовано 786432 признака), что позволило полностью поместить обучающую выборку в память графического ускорителя, такая конфигурация показала лучший результат по сравнению с обучением на малых группах изображений. Открытыми для исследования остаются вопросы
(а) выбора начального числа кластеров и их размещения,
(б) построения признакового пространства и формирования векторов признаков,
(в) определения расстояний и нормирования векторов.
Случайный выбор кластеров не представляется лучшим решением и может привести к потерям времени на последующих этапах. В этой связи предлагается в дальнейшем использовать более совершенный механизм первоначального назначения центров кластеров [44].
Время, затраченное на исполнение 250 тысяч эпох обучения, оказалось на порядок меньше времени обучения нейронной сети в предыдущем эксперименте. Наилучший результат показали сети с одним слоем нейронов, предваряющим выходной слой нейронной сети, при этом для уверенного обучения оказалось достаточно 50 нейронов. Однако, общее качество полученного прогнозирующего инструмента ухудшилось, в частности, точность выделения наиболее четко и наименее четко выраженных факторов (см. таблицу 4).
Таблица 4. Прогнозирование факторов
Прогнозирование раздельное совместное
Выборка обучение тест обучение тест
Среднее СКвО по фактору O 4,73 5,62 4,91 5,64
C 7,40 8,84 7,55 8,84
E 6,12 8,06 6,25 7,97
A 4,62 6,30 4,75 6,42
N 8,09 10,35 8,22 10,35
Усредненное значение 6,19 7,83 6,33 7,84
Среднее значение по отдельным
пользователям 6,01 7,61
Точность выделения фактора:
наиболее четко выраженного 0,33 0,19
наименее четко выраженного 0,55 0,33
Можно предположить, что в процессе обработки теряются какие-то из существенных признаков обрабатываемых данных, то есть признаков высокого порядка от предварительно обученной СИНС недостаточно. Тем не менее, средние квадратические отклонения очень близки к тем, что получены в первом эксперименте.
Эксперимент с ИНС прямого распространения (таблица 4) показал, что большое число нейронов скрытого слоя СИНС не гарантирует высокого качества работы прогнозирующей нейросети. Наилучший результат получен применением СИНС семейства «ResNet», причем
увеличение числа слоев сети прямого распространения ухудшало качество прогноза. Использование двух сетей позволило существенно сократить время обучения, однако при этом снизилась точность выделения наиболее и наименее выраженных факторов.
Заключение
Приведен анализ корреляционной связи личностных черт человека с депрессией. Оценены возможности выявления личностных черт и депрессии на основе контента пользователей социальных сетей. Проанализированы инструментальные средства, позволяющие
(а) формировать признакового пространства для выявления случаев деструктивного влияния на психику и сознание человека;
(б) выявлять документы, содержащих деструктивную информацию (склонение к суициду, опасные развлечения и пр.);
(в) вести нейросетевую обработку информации (текстовой и графической), включая кластеризацию и классификацию документов для выявления информации, касающейся выявления деструктивного воздействия на человека.
На основе разрабатываемых методов планируется создание единой информационной среды и программной системы, концентрирующих экспертные знания психологов и специалистов, методы интеллектуального анализа. Система должна предоставлять простые и удобные средства навигации в потоке проблем за счет интеллектуального интерфейса, в том числе мониторинг личностных особенностей.
Список литературы
[1] Ю. Сергеева. Социальные сети в 2018 году: глобальное исследование, WebCanape, 2018. (уву1 Ф130
[2] E. C. Tupes, R. E. Christal. “Recurrent personality factors based on trait ratings”, Journal of Personality, 60:2 (1992), pp. 225-251. d Д31
[3] T. A. Widiger, P. T. Costa. “Personality and personality disorders”, Journal of Abnormal Psychology, 103:1 (1994), pp. 78-91. d Д31
[4] T. A. Widiger, S.N. Mullins-Sweatt. “Clinical utility of a dimensional model of personality disorder”, Professional Psychology: Research and Practice, 41:6 (2010), pp. 488-494. d Д31
[5] R. L. Piedmont, M.F. Sherman, N. C. Sherman, G. S. Dy-Liacco, J. E. Williams. “Using the five-factor model to identify a new personality disorder domain: the case for experiential permeability”, Journal of Personal Social Psychology, 96:6 (2009), pp. 1245-1258. d Д31
[6] T. A. Widiger, P. T. Costa (eds.). Personality disorders and the five-factor model of personality, Third ed., APA, 2013, ISBN 978-1-4338-1166-1, 468 pp.
I131
[7] J. Gutierrez, B. Jimenez, E. Hernandez, C. Puente. “Personality and subjective well-being: Big Five correlate and demographic variables”, Personality and Individual Differences, 38:7 (2005), pp. 1561-1569. d Д31
[8] E. Diener. “Subjective well-being”, Psychological Bulletin, 95:3 (1984), pp. 542-575. d Д31
[9] K. M. DeNeve, H. Copper. “The happy personality: A meta-analysis of 137 personality traits and subjective well-being”, Psychological Bulletin, 124:2 (1988), pp. 197-229. d Д31
[10] R. Kotov, W. Gamez, F. Schmidt, D. Watson. “Linking “Big” personality traits to anxiety, depressive, and substance use disorders: A meta-analysis”, Psychological Bulletin, 136:5 (2010), pp. 768-821. d Д31 132
[11] K. G. Giota, G. Kleftaras. “Facebook social support: A comparative study on depression and personality characteristics”, Proceedings of IADIS International Conference: ICT, Society and Human Beings 2013 (22-26 July, 2013, Czech Republic, Prague), ISBN 978-972-8939-91-5, pp. 37-44. (им) j\31
[12] R. Jourdy, J. Petot. “Relationships between personality traits and depression in the light of the “Big Five” and their different facets”, L’Evolution Psychiatrique, 82:4 (2017), pp. 27-37. d Д31
[13] R. M. Bagby, M. Sellbom, P. T. Costa, T. A.Widiger. “Predicting diagnostic and statistical manual of mental disorders-iv personality disorders with the five-factor model of personality and the personality psychopathology five”, Personality and Mental Health, 2:2 (2008), pp. 55-69. d f132
[14] R. C. Kessler, W.T. Chiu, O. Demler, K. R. Merikangas, E. E. Walters. “Prevalence, severity, and comorbidity of 12-month DSM-IV disorders in the National Comorbidity Survey Replication”, Archives of General Psychiatry, 62:6 (2005), pp. 617-627. d Д32
[15] W. M. Compton, K. P. Conway, F. S. Stinson, J. D. Colliver, B. F. Grant. “Prevalence, correlates, and comorbidity of DSM-IV antisocial personality syndromes and alcohol and specific drug use disorders in the United States: Results from the national epidemiologic survey on alcohol and related conditions”, The Journal of Clinical Psychiatry, 66:6 (2005), pp. 677-685.
[16] D. S. Hasin, R. D. Goodwin, F. S. Stinson, B. F. Grant. “Epidemiology of major depressive disorder: results from the National Epidemiologic Survey on Alcoholism and Related Conditions”, Archives of General Psychiatry, 62:10 (2005), pp. 1097-1106. d Д32
[17] A. A. Khan, К. C. Jacobson, C. O. Gardner, C.A. Prescott, K. S. Kendler. “Personality and comorbidity of common psychiatric disorders”, The British Journal of Psychiatry, 186:3 (2005), pp. 190-196. d f132
[18] P. Cuijpers, F. Smit, B. W. Penninx, de Graaf R., ten Have M., A. T. Beekman. “Economic costs of neuroticism: A population-based study”, Archives of General Psychiatry, 67:10 (2010), pp. 1086-1093. d j4132
[19] B. F. Jeronimus, R. Kotov, H. Riese, J. Ormel. “Neuroticism’s prospective association with mental disorders halves after adjustment for baseline symptoms and psychiatric history, but the adjusted association hardly decays with time: a meta-analysis on 59 longitudinal/prospective studies with 443313 participants”, Psychological Medicine, 46:14 (2016), pp. 28832906. d Д32
[20] L. M. Saulsman, A. C. Page. “The five-factor model and personality disorder empirical literature: A meta-analytic review”, Clinical Psychology Review, 23:8 (2004), pp. 1055-1085. d Д32
[21] S. Bhat. “Social networking sites and mental health: a review”, International Journal of Advanced Educational Research, 2:5 (2017), pp. 357-360. f132
[22] E. M. Seabrook, M.L. Kern, N. S. Rickard. “Social networking sites, depression, and anxiety: a systematic review”, JMIR Ment Health, 3:4 (2016), 19 pp. d t132
[23] L.P. Tosun, T. Lajunen. “Why do young adults develop a passion for Internet activities? The associations among personality, revealing “true self” on the Internet, and passion for the Internet”, Cyberpsychology & Behavior, 12:4 (2009), pp. 401-406. d Д32
[24] C. Li, X. Shi, J. Dang. “Online communication and subjective well-being in Chinese college students: The mediating role of shyness and social self-efficacy”, Computers in Human Behavior, 34:5 (2014), pp. 89-95. d f132
[25] Y. Bachrach, M. Kosinski, T. Graepel, P. Kohli, D. Stillwell. “Personality and patterns of Facebook usage”, WebSci’12 Proceedings of the 4th Annual ACM Web Science Conference (June 22-24, 2012, Evanston, Illinois, USA), 2012, ISBN 978-1-4503-1228-8, pp. 24-32. d Д32
[26] J. Wee, S. Jang, J. Lee, W. Jang. “The influence of depression and personality on social networking”, Computers in Human Behavior, 74 (2017), pp. 45-52.
d t133
[27] M. Tasnim, R. Shahriyar, N. Nahar, H. Mahmud. “Intelligent depression detection and support system: statistical analysis, psychological review and
design implication”, Proceedings of IEEE 18th International Conference on e-Health Networking, Applications and Services (Healthcom) (September 14-16, 2016, Munich, Germany), 2016, 6 pp. d
[28] E. M. Seabrook, M.L. Kern, B.D. Fulcher, N. S. Rickard. “Predicting depression from language-based emotion dynamics: Longitudinal analysis of Facebook and Twitter status updates”, Journal of Medical Internet Research, 20:5 (2018), 18 pp. d Д33
[29] A. Yates, A. Cohan, N. Goharian. “Depression and self-harm risk assessment in online forums”, Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (September 7—11, 2017, Copenhagen, Denmark), 2017, pp. 2968-2978. d T133
[30] M. D. Choudhury, S. Counts, E. Horviz. “Social media as a measurement tool of depression in populations”, WebSci’13 Proceedings of the 5th Annual ACM Web Science Conference (May 02-04, 2013, Paris, France), 2013, ISBN 978-1-4503-1889-1, pp. 47-56. d Д33
[31] L.s. Radloff. “The CES-D scale: A self-report depression scale for research in the general population”, Applied Psychological Measurement, 1:3 (1977), pp. 385-401. d Д33
[32] A. G. Reece, C.M. Danforth. “Instagram photos reveal predictive markers of depression”, EPJ Data Science, 6 (2017), 15, 12 pp. d f134
[33] M. Cristani, A. Vinciarelli, C. Segalin, A. Perina. “Unveiling the multimedia unconscious: Implicit cognitive processes and multimedia content”, Proceedings of the 21st ACM international conference on Multimedia MM’13 (October 21-25, 2013, Barcelona, Spain), ISBN 781450324045, pp. 213-222. d
Дз4,141
[34] K.Y. Stanford, S. Mall, N.G. Stanford. Prediction of personality first impressions with deep bimodal LSTM, 2017, 10 pp. (иш)'|ч1з5
[35] C.-L. Zhang, H. Zhang, S.X. Wei, J. Wu. “Deep bimodal regression for apparent personality analysis”, Computer Vision - ECCV 2016 Workshops (October 8-10 and 15-16, 2016, Amsterdam, The Netherlands), 2016, 14 pp.
^ 1135
[36] B. Ferwerda, M. Schedl, M. Tkalcic. “Predicting personality traits with Instagram pictures”, Proceedings of the 3rd Workshop on Emotions and Personality in Personalized Systems 2015 (September 16-20, 2015, Vienna, Austria), 2015, pp. 7-10. d 141
[37] C. J. Boyatzis, R. Varghese. “Children’s emotional associations with colors”, Journal of Genetic Psychology, 155:1 (1994), pp. 77-85. d
[38] H. R. Carruthers, J. Morris, N. Tarrier, P. J. Whorwell. “The Manchester color wheel: Development of a novel way of identifying color choice and its validation in healthy, anxious and depressed individuals”, BMC Medical Research Methodology, 10:1 (2010), 13 pp. d
[39] M. Hemphill. “A note on adults’ color-emotion associations”, Journal of Genetic Psychology, 157:3 (1996), pp. 275-280. d '|'136
[40] C.B. Barrick, D. Taylor, E. I. Correa. Color sensitivity and mood disorders: biology or metaphor? Journal of Affective Disorders, 68:1 (2002), pp. 67-71.
^ 1136
[41] Ю.Г. Емельянова, А. А. Талалаев, В.П. Фраленко, В.М. Хачумов, М. В. Хачумов. «О корреляционных связях личностных факторов из «Big Five»», Научное обозрение. Педагогические науки, 2019, №1, с. 59-65. IpCtiae
[42] А. В. Латышев, А. А. Талалаев, В.П. Фраленко, В.М. Хачумов, М. В. Хачумов. «Методы оценки личностных факторов по визуальной информации, публикуемой в социальных сетях (обзор)», Мир науки. Педагогика и психология, 7:1 (2019), 17, 9 с. (urj) SjCti36
[43] А. А. Талалаев, В. П. Фраленко, В. М. Хачумов, М. В. Хачумов, М. В. Шустова. «Анализ графического контента пользователей социальных сетей для установления личностных факторов», Педагогика, психология, общество — 2019: 1 сессия: сборник статей IV Международной научнопрактической конференции, Педагогика, психология, общество—2019 (10 февраля 2019 г., Москва, Россия), 2019, с. 31-40. Д36
[44] M. V. Khachumov. “Models of the representation and clustering of semistructured information”, Scientific and Technical Information Processing, 42:5 (2015), pp. 388-396. d ti39,i45
[45] M. V. Khachumov. “Distances, metrics and cluster analysis”, Scientific and Technical Information Processing, 39:6 (2012), pp. 310-316. d
[46] T. Hastie, R. Tibshirani, J. Friedman. “The EM algorithm”, The Elements of Statistical Learning. Data Mining, Inference, and Prediction, Springer Series in Statistics, Springer, NY, 2001, ISBN 978-0-387-21606-5, pp. 236243. d t13B
[47] P. T. Costa, R. R. McCrae. “Normal personality assessment in clinical practice: The NEO Personality Inventory”, Psychological assessment, 4:1 (1992), pp. 5-13. d t140
[48] C. Segalin, F. Celli, L. Polonio, M. Kosinski, D. Stillwell, N. Sebe, M. Cristani, B. Lepri. “What your Facebook profile picture reveals about your personality”, MM ’17 Proceedings of the 25th ACM international conference on Multimedia (October 23-27, 2017, Mountain View, California, USA), ISBN 978-1-4503-4906-2, pp. 460-468. d Д41
[49] O. Russakovsky, J. Deng, H. Su et al.. “ImageNet large scale visual recognition challenge”, International Journal of Computer Vision, 115:3 (2015), pp. 211-252. d Д41
[50] Н. А. Игнатьев, А. В. Латышев, В. П. Фраленко. «Экспериментальное исследование связи личностных факторов и изображений, размещаемых пользователями социальной сети «ВКонтакте»», Приднепровский научный вестник, 2:4 (2019), с. 103-110. ;рИ1141
[51] D.C. Ciresan, U. Meier, J. Masci, L. M. Gambardella, J. Schmidhuber. “Flexible, high performance convolutional neural networks for image classification”, IJCAI’11 Proceedings of the Twenty-Second international joint conference on Artificial Intelligence. V. II (July 16-22, 2011, Barcelona, Catalonia, Spain), pp. 1237-1242. d '|'141
[52] V. Nair, G. Hinton. “Rectified linear units improve restricted Boltzmann machines”, ICML’10 Proceedings of the 27th International Conference on International Conference on Machine Learning (June 21-24, 2010, Haifa, Israel), 2010, ISBN 978-1-60558-907-7, pp. 807-814. @Д42
[53] N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, R. Salakhutdinov. “Dropout: A simple way to prevent neural networks from overfitting”, Journal of Machine Learning Research, 15 (2014), pp. 1929-1958. @ti42
[54] Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. “Deep residual learning for image recognition”, Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (June 27-30, 2016, Las Vegas, NV, USA), 2016, 12 pp. d f144
[55] C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, Z. Wojna. “Rethinking the Inception architecture for computer vision”, Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (June 27-30, 2016, Las Vegas, NV, USA), 2016, 10 pp. d f144
[56] A. Krizhevsky, I. Sutskever, G.E. Hinton. “Imagenet classification with deep convolutional neural networks”, Advances in Neural Information Processing Systems, 25:2 (2012), pp. 1097-1105. d f144
[57] K. Simonyan, A. Zisserman. Very deep convolutional networks for large-scale image recognition, 2015, 14 pp. arXiv^ 1409.1556
Поступила в редакцию 13.06.2019
Переработана 12.09.2019
Опубликована 30.09.2019
Рекомендовал к публикации
к.т.н. Е.П. Куршев
Пример ссылки на эту публикацию:
Н. В. Кисельникова, Е. А. Куминская, А. В. Латышев и др. «Инструментальные средства анализа депрессивного состояния и личностных черт человека». Программные системы: теория и приложения, 2019, 10:3(42),
с. 129-159. d 10.25209/2079-3316-2019-10-3-129-159 (url) http: //psta.psiras .ru/read/psta2019_3_129-159 .pdf
Об авторах:
Наталья Владимировна Кисельникова
Кандидат психологических наук, доцент, заведующая Лабораторией консультативной психологии и психотерапии, зам. директора по научно-организационному развитию ФГБНУ Психологический институт Российской академии образования. Область научных интересов: психология здоровья, консультативная психология, психотерапия, психология решения личностных проблем, субъективная репрезентация, совладание, трудные жизненные ситуации, психологическая устойчивость личности
©
e-mail:
0000-0003-0710-4972 nv. [email protected]
Евгения Андреевна Куминская
Научный сотрудник ФГБНУ Психологический институт Российской академии образования. Область научных интересов: психотерапия, эффективность психотерапии, лидерские способности, компетенции психотерапевта, работа с депрессией.
(3 0000-0002-5650-1096
e-mail: [email protected]
Андрей Валерьевич Латышев
Кандидат технических наук, ведущий специалист ООО «РИ Технологии». Область научных интересов: инфоком-муникационные технологии и вычислительные системы, специализированные программные модели и системы, извлечение знаний, базы данных и базы знаний, системы искусственного интеллекта, системы обмена технологической информацией, радиолокационные и радионавигационные системы, системы цифровой передачи данных и вычислительные сети, облачные вычисления.
© 0000-0002-6441-3707
e-mail: [email protected]
Виталий Петрович Фраленко
Кандидат технических наук, ведущий научный сотрудник ИЦМС ИПС им. А.К. Айламазяна РАН. Область научных интересов: интеллектуальный анализ данных и распознавание образов, искусственный интеллект и принятие решений, параллельно-конвейерные вычисления, сетевая безопасность, диагностика сложных технических систем, графические интерфейсы.
© 0000-0003-0123-3773
e-mail: [email protected]
Михаил Вячеславович Хачумов
Кандидат физико-математических наук, старший научный сотрудник Федерального исследовательского центра «Информатика и управление» РАН, старший преподаватель ___ _ __ __ wjl кафедры информационных технологий Российского уни-Щ верситета дружбы народов. Область научных интересов: Щ. обработка изображений, распознавание образов, кластер-
ный анализ, метрики, интеллектуальный анализ данных, слабоструктурированные данные, системы поддержки принятия решений, моделирование.
О 0000-0001-5117-384X e-mail: [email protected]
CSCSTI 28.23.15,15.21.69 UDC 159.9.072.5:004.89
N. V. Kiselnikova, E. A. Kuminskaya, A. V. Latyshev et al. Tools for the analysis of the depressed state and personality traits of a person.
Abstract. The analysis of works dedicated to the identification of a stable relationship between personality traits and a person’s depression is carried out according to a complex of information available in social networks. The importance of automated problem solving follows from the need to timely detect signs of depression as a widespread mental illness to take measures for its prevention and treatment in the early stages.
The article discusses the issues of building mechanisms for identifying patterns and building modern tools for analyzing social network data for conducting scientific research in the subject area. As tools for identifying depression, it is proposed to apply contemporary methods of automatic analysis of web pages, formalize the identification of destructive information on psychologists’ proposals, test hypotheses about the presence of correlation links, automatically classify text-graphic information using an artificial neural network device in combination with semantic and psychological methods data analysis. Based on the studies performed, we found a significant correlation between various gradations of depression and some personality traits, as well as the presence of a stable correlation between the personality traits of the Big Five. (In Russian).
Key words and phrases: personality traits, Big Five, social network, depression, Big Data, automatic analysis, web page, correlation, artificial neural network, psychological portrait.
2010 Mathematics Subject Classification: 68T99; 62P15, 62N99
© N. V. KlSELNIKOVA(, E. A. KuMIN8KAYA(2,) A. V. Latyshev(3,) V. P. Fralenko(4, M. V. Khachumov(5,) 2019
© RAE Psychological Institute^ 2, 2019
© RI Tehnologii(3, 2019
© Ailamazyan Program Systems Institute of RAS(4, 2019
© RUDN University^, 2019
© Program Systems: Theory and Applications (design), 2019 d 10.25209/2079-3316-2019-10-3-129-159
References
[1] Yu. Sergeyeva. Social networks in 2018: a global study, WebCanape, 2018 (in Russian). ©tl30
[2] E.C. Tupes, R.E. Christal. “Recurrent personality factors based on trait ratings”, Journal of Personality, 60:2 (1992), pp. 225—251. d f131
[3] T. A. Widiger, P. T. Costa. “Personality and personality disorders”, Journal of Abnormal Psychology, 103:1 (1994), pp. 78—91. d f131
[4] T. A. Widiger, S. N. Mullins-Sweatt. “Clinical utility of a dimensional model of personality disorder”, Professional Psychology: Research and Practice, 41:6 (2010), pp. 488-494. d '|'131
[5] R.L. Piedmont, M.F. Sherman, N.C. Sherman, G.S. Dy-Liacco, J.E. Williams. “Using the five-factor model to identify a new personality disorder domain: the case for experiential permeability”, Journal of Personal Social Psychology, 96:6 (2009), pp. 1245-1258. d tisi
[6] T.A. Widiger, P.T. Costa (eds.). Personality disorders and the five-factor model of personality, Third ed., APA, 2013, ISBN 978-1-4338-1166-1, 468 pp.^131
[7] J. Gutierrez, B. Jimenez, E. Hernandez, C. Puente. “Personality and subjective well-being: Big Five correlate and demographic variables”, Personality and Individual Differences, 38:7 (2005), pp. 1561—1569. d f131
[8] E. Diener. “Subjective well-being”, Psychological Bulletin, 95:3 (1984), pp. 542—575.
d Tl31
[9] K. M. DeNeve, H. Copper. “The happy personality: A meta-analysis of 137 personality traits and subjective well-being”, Psychological Bulletin, 124:2 (1988), pp. 197-229. d j'131
[10] R. Kotov, W. Gamez, F. Schmidt, D. Watson. “Linking “Big” personality traits to anxiety, depressive, and substance use disorders: A meta-analysis”, Psychological Bulletin, 136:5 (2010), pp. 768—821. d ■j'131 132
[11] K.G. Giota, G. Kleftaras. “Facebook social support: A comparative study on depression and personality characteristics”, Proceedings of IADIS International Conference: ICT, Society and Human Beings 2013 (22—26 July, 2013, Czech Republic, Prague), ISBN 978-972-8939-91-5, pp. 37—44. @ti3i
[12] R. Jourdy, J. Petot. “Relationships between personality traits and depression in the light of the “Big Five” and their different facets”, L’Evolution Psychiatrique, 82:4 (2017), pp. 27-37. d j'131
[13] R.M. Bagby, M. Sellbom, P.T. Costa, T.A.Widiger. “Predicting diagnostic and statistical manual of mental disorders-iv personality disorders with the five-factor model of personality and the personality psychopathology five”, Personality and Mental Health, 2:2 (2008), pp. 55—69. d ^132
[14] R. C. Kessler, W. T. Chiu, O. Demler, K. R. Merikangas, E. E. Walters. “Prevalence, severity, and comorbidity of 12-month DSM-IV disorders in the National Comorbidity Survey Replication”, Archives of General Psychiatry, 62:6 (2005), pp. 617—627. d
"t" 132
[15] W. M. Compton, K. P. Conway, F. S. Stinson, J. D. Colliver, B. F. Grant. “Prevalence, correlates, and comorbidity of DSM-IV antisocial personality syndromes and alcohol
and specific drug use disorders in the United States: Results from the national epidemiologic survey on alcohol and related conditions”, The Journal of Clinical Psychiatry, 66:6 (2005), pp. 677—685. d j-132
[16] D.S. Hasin, R.D. Goodwin, F.S. Stinson, B.F. Grant. “Epidemiology of major depressive disorder: results from the National Epidemiologic Survey on Alcoholism and Related Conditions”, Archives of General Psychiatry, 62:10 (2005), pp. 1097— 1106. d t132
[17] A.A. Khan, K.C. Jacobson, C.O. Gardner, C.A. Prescott, K.S. Kendler. “Personality and comorbidity of common psychiatric disorders”, The British Journal of Psychiatry, 186:3 (2005), pp. 190—196. d ^132
[18] P. Cuijpers, F. Smit, B.W. Penninx, de Graaf R., ten Have M., A.T. Beekman. “Economic costs of neuroticism: A population-based study”, Archives of General Psychiatry, 67:10 (2010), pp. 1086—1093. d ^132
[19] B. F. Jeronimus, R. Kotov, H. Riese, J. Ormel. “Neuroticism’s prospective association with mental disorders halves after adjustment for baseline symptoms and psychiatric history, but the adjusted association hardly decays with time: a meta-analysis on 59 longitudinal/prospective studies with 443313 participants”, Psychological Medicine, 46:14 (2016), pp. 2883-2906. d ^132
[20] L. M. Saulsman, A. C. Page. “The five-factor model and personality disorder empirical literature: A meta-analytic review”, Clinical Psychology Review, 23:8 (2004), pp. 1055-1085. d ^132
[21] S. Bhat. “Social networking sites and mental health: a review”, International Journal of Advanced Educational Research, 2:5 (2017), pp. 357—360. f132
[22] E. M. Seabrook, M. L. Kern, N. S. Rickard. “Social networking sites, depression, and anxiety: a systematic review”, JMIR Ment Health, 3:4 (2016), 19 pp. d ”f“132
[23] L. P. Tosun, T. Lajunen. “Why do young adults develop a passion for Internet activities? The associations among personality, revealing “true self” on the Internet, and passion for the Internet”, Cyberpsychology & Behavior, 12:4 (2009), pp. 401— 406. d f132
[24] C. Li, X. Shi, J. Dang. “Online communication and subjective well-being in Chinese college students: The mediating role of shyness and social self-efficacy”, Computers in Human Behavior, 34:5 (2014), pp. 89—95. d ”f“132
[25] Y. Bachrach, M. Kosinski, T. Graepel, P. Kohli, D. Stillwell. “Personality and patterns of Facebook usage”, WebSci'12 Proceedings of the 4th Annual ACM Web Science Conference (June 22—24, 2012, Evanston, Illinois, USA), 2012, ISBN 978-1-4503-1228-8, pp. 24-32. d ti32
[26] J. Wee, S. Jang, J. Lee, W. Jang. “The influence of depression and personality on social networking”, Computers in Human Behavior, 74 (2017), pp. 45—52. d ”f133
[27] M. Tasnim, R. Shahriyar, N. Nahar, H. Mahmud. “Intelligent depression detection and support system: statistical analysis, psychological review and design implication”, Proceedings of IEEE 18th International Conference on e-Health Networking, Applications and Services (Healthcom) (September 14-16, 2016, Munich, Germany),
2016, 6 pp. d ^133
[28] E.M. Seabrook, M.L. Kern, B.D. Fulcher, N.S. Rickard. “Predicting depression from language-based emotion dynamics: Longitudinal analysis of Facebook and Twitter status updates”, Journal of Medical Internet Research, 20:5 (2018), 18 pp.
d tl33
[29] A. Yates, A. Cohan, N. Goharian. “Depression and self-harm risk assessment in online forums”, Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (September 7—11, 2017, Copenhagen, Denmark), 2017, pp. 2968-2978. d '['133
[30] M. D. Choudhury, S. Counts, E. Horviz. “Social media as a measurement tool of depression in populations”, WebSci'13 Proceedings of the 5th Annual ACM Web Science Conference (May 02-04, 2013, Paris, France), 2013, ISBN 978-1-4503-1889-1, pp. 47-56. d ti33
[31] L.s. Radloff. “The CES-D scale: A self-report depression scale for research in the general population”, Applied Psychological Measurement, 1:3 (1977), pp. 385—401.
d tl33
[32] A. G. Reece, C. M. Danforth. “Instagram photos reveal predictive markers of depression”, EPJ Data Science, 6 (2017), 15, 12 pp. d f134
[33] M. Cristani, A. Vinciarelli, C. Segalin, A. Perina. “Unveiling the multimedia unconscious: Implicit cognitive processes and multimedia content”, Proceedings of the 21st ACM international conference on Multimedia MM'13 (October 21—25, 2013, Barcelona, Spain), ISBN 781450324045, pp. 213-222. d ti34,i4i
[34] K.Y. Stanford, S. Mall, N.G. Stanford. Prediction of personality first impressions with deep bimodal LSTM, 2017, 10 pp. @ti35
[35] C.-L. Zhang, H. Zhang, S.X. Wei, J. Wu. “Deep bimodal regression for apparent personality analysis”, Computer Vision - ECCV 2016 Workshops (October 8-10 and 15—16, 2016, Amsterdam, The Netherlands), 2016, 14 pp. d ^135
[36] B. Ferwerda, M. Schedl, M. Tkalcic. “Predicting personality traits with Instagram pictures”, Proceedings of the 3rd Workshop on Emotions and Personality in Personalized Systems 2015 (September 16-20, 2015, Vienna, Austria), 2015, pp. 710. d Tl35,141
[37] C. J. Boyatzis, R. Varghese. “Children’s emotional associations with colors”, Journal of Genetic Psychology, 155:1 (1994), pp. 77—85. d ^136
[38] H.R. Carruthers, J. Morris, N. Tarrier, P.J. Whorwell. “The Manchester color wheel: Development of a novel way of identifying color choice and its validation in healthy, anxious and depressed individuals”, BMC Medical Research Methodology, 10:1 (2010), 13 pp. d tise
[39] M. Hemphill. “A note on adults’ color-emotion associations”, Journal of Genetic Psychology, 157:3 (1996), pp. 275-280. d f136
[40] C. B. Barrick, D. Taylor, E. I. Correa. Color sensitivity and mood disorders: biology or metaphor? Journal of Affective Disorders, 68:1 (2002), pp. 67—71. d f136
[41] Yu.G. Yemel’yanova, A.A. Talalayev, V.P. Fralenko, V.M. Khachumov, M. V. Khachumov. “About of the correlation relations of “Big Five” personality factors”, Scientific Review. Pedagogical sciences, 2019, no.1, pp. 59-65 (in Russian).^136
[42] A.V. Latyshev, A.A. Talalayev, V.P. Fralenko, V.M. Khachumov, M.V. Khachu-mov. “The methods for assessing personal factors using visual information that is published on social networks (review)”, World of Science. Pedagogy and psychology, 7:1 (2019), 17 (in Russian), 9 pp. ®ti36
[43] A. A. Talalayev, V. P. Fralenko, V. M. Khachumov, M. V. Khachumov, M. V. Shus-tova. “Analysis of graphical content of users of social networks to establish personal factors”, Pedagogy, psychology, society — 2019: 1 sessija: sbornik statej IV Mezhdunarodnoj nauchno-prakticheskoj konferencii, Pedagogy, psychology, society — 2019 (10 fevralya 2019 g., Moskva, Rossiya), 2019, pp. 31—40 (in Russian).'\136
[44] M.V. Khachumov. “Models of the representation and clustering of semistructured information”, Scientific and Technical Information Processing, 42:5 (2015), pp. 388— 396. d tl39,145
[45] M. V. Khachumov. “Distances, metrics and cluster analysis”, Scientific and Technical Information Processing, 39:6 (2012), pp. 310-316. d f13Q
[46] T. Hastie, R. Tibshirani, J. Friedman. “The EM algorithm”, The Elements of Statistical Learning. Data Mining, Inference, and Prediction, Springer Series in Statistics, Springer, NY, 2001, ISBN 978-0-387-21606-5, pp. 236-243. d ^139
[47] P. T. Costa, R. R. McCrae. “Normal personality assessment in clinical practice: The NEO Personality Inventory”, Psychological assessment, 4:1 (1992), pp. 5—13. d '|'140
[48] C. Segalin, F. Celli, L. Polonio, M. Kosinski, D. Stillwell, N. Sebe, M. Cristani, B. Lepri. “What your Facebook profile picture reveals about your personality”, MM ’17 Proceedings of the 25th ACM international conference on Multimedia (October 23-27, 2017, Mountain View, California, USA), ISBN 978-1-4503-4906-2, pp. 460468. d t141
[49] O. Russakovsky, J. Deng, H. Su et al.. “ImageNet large scale visual recognition challenge”, International Journal of Computer Vision, 115:3 (2015), pp. 211—252.
d T141
[50] N.A. Ignat’yev, A.V. Latyshev, V.P. Fralenko. “An experimental study of the relationship of personal factors and images posted by users of the social network “VKontakte””, Pridneprovskiy nauchnyy vestnik, 2:4 (2019), pp. 103—110 (in Russian).fi4i
[51] D.C. Ciresan, U. Meier, J. Masci, L.M. Gambardella, J. Schmidhuber. “Flexible, high performance convolutional neural networks for image classification”, IJCAI’11 Proceedings of the Twenty-Second international joint conference on Artificial Intelligence. V. II (July 16-22, 2011, Barcelona, Catalonia, Spain), pp. 1237—1242.
d "t" 141
[52] V. Nair, G. Hinton. “Rectified linear units improve restricted Boltzmann machines”, ICML’10 Proceedings of the 27th International Conference on International Conference on Machine Learning (June 21—24, 2010, Haifa, Israel), 2010, ISBN 978-1-60558-907-7, pp. 807-814. ®ti42
[53] N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, R. Salakhutdinov. “Dropout: A simple way to prevent neural networks from overfitting”, Journal of Machine Learning Research, 15 (2014), pp. 1929—1958. @ti42
[54] Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. “Deep residual learning for image recognition”, Proceedings of 2016 IEEE Conference on Computer Vision and
Pattern Recognition (CVPR) (June 27-30, 2016, Las Vegas, NV, USA), 2016, 12 pp.
d T144
[55] C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, Z. Wojna. “Rethinking the Inception architecture for computer vision”, Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (June 27-30, 2016, Las Vegas, NV, USA), 2016, 10 pp. d f144
[56] A. Krizhevsky, I. Sutskever, G. E. Hinton. “Imagenet classification with deep convolutional neural networks”, Advances in Neural Information Processing Systems, 25:2 (2012), pp. 1097-1105. d ti44
[57] K. Simonyan, A. Zisserman. Very deep convolutional networks for large-scale image recognition, 2015, 14 pp. arXivJgJ 1409.1556'|'144
Sample citation of this publication:
N. V. Kiselnikova, E. A. Kuminskaya, A. V. Latyshev et al. “Tools for the analysis of the depressed state and personality traits of a person”. Program Systems: Theory and Applications, 2019, 10:3(42), pp. 129-159. (In Russian). d 10.25209/2079-3316-2019-10-3-129-159
(url) http : //psta.psiras . ru/read/psta2019_3_129- 159.pdf