Научная статья на тему 'НЕЙРОСЕТЕВОЙ АНАЛИЗ ИЗОБРАЖЕНИЙ В СОЦИАЛЬНЫХ СЕТЯХ: ПЕРСПЕКТИВЫ СОЗДАНИЯ ЛИЧНОСТНОГО ПРОФИЛЯ НА БАЗЕ ИЗОБРАЖЕНИЙ ПОЛЬЗОВАТЕЛЯ'

НЕЙРОСЕТЕВОЙ АНАЛИЗ ИЗОБРАЖЕНИЙ В СОЦИАЛЬНЫХ СЕТЯХ: ПЕРСПЕКТИВЫ СОЗДАНИЯ ЛИЧНОСТНОГО ПРОФИЛЯ НА БАЗЕ ИЗОБРАЖЕНИЙ ПОЛЬЗОВАТЕЛЯ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
117
21
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СОЦИАЛЬНЫЕ СЕТИ / ЛИЧНОСТНЫЙ ПРОФИЛЬ / АНАЛИЗ ИЗОБРАЖЕНИЙ / НЕЙРОСЕТЕВОЙ АНАЛИЗ / БОЛЬШАЯ ПЯТЁРКА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Сухомлинова Т.А.

В статье рассматриваются теоретические предпосылки и результаты работы алгоритма машинного обучения для прогнозирования личностного профиля на основе изображений из профиля в социальных сетях, реализованный на языке Python 3.8. Сделан вывод о точности работы алгоритма с точки зрения предсказания различных личностных факторов на основании визуальной информации из социальных сетей.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Сухомлинова Т.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «НЕЙРОСЕТЕВОЙ АНАЛИЗ ИЗОБРАЖЕНИЙ В СОЦИАЛЬНЫХ СЕТЯХ: ПЕРСПЕКТИВЫ СОЗДАНИЯ ЛИЧНОСТНОГО ПРОФИЛЯ НА БАЗЕ ИЗОБРАЖЕНИЙ ПОЛЬЗОВАТЕЛЯ»

Т.А. Сухомлинова

НЕЙРОСЕТЕВОЙ АНАЛИЗ ИЗОБРАЖЕНИЙ В СОЦИАЛЬНЫХ СЕТЯХ: ПЕРСПЕКТИВЫ СОЗДАНИЯ ЛИЧНОСТНОГО ПРОФИЛЯ НА БАЗЕ ИЗОБРАЖЕНИЙ ПОЛЬЗОВАТЕЛЯ

В статье рассматриваются теоретические предпосылки и результаты работы алгоритма машинного обучения для прогнозирования личностного профиля на основе изображений из профиля в социальных сетях, реализованный на языке Python 3.8. Сделан вывод о точности работы алгоритма с точки зрения предсказания различных личностных факторов на основании визуальной информации из социальных сетей.

Ключевые слова: социальные сети, личностный профиль, анализ изображений, нейросетевой анализ, большая пятёрка.

Развитие сетевых ресурсов и повышение уровня их доступности оказали существенное влияние на образ жизни, существенным образом изменив способы коммуникации и предоставив новые возможности получения информации, приобретения товаров, услуг, проведения финансовых операций. Одним из наиболее востребованных направлений использования интернета является общение в социальных сетях.

Согласно аналитическому докладу о тенденциях развития интернета в России, подготовленному Институтом статистических исследований и экономики знаний Национального исследовательского университета «Высшая школа экономики», в 2016 г. более половины (55,6%) россиян в возрасте 15-72 лет общались в социальных сетях. Это на 6 процентных пунктов выше показателя 2014 г. (49,5%), и по этому показателю Россия входит в десятку стран-лидеров [1].

Очевидно, что в сложившейся ситуации неуклонного роста охвата интернет-аудитории социальными сетями растёт и количество информации, предоставляемой пользователями в открытый доступ. Данная информация является ценным источником для государственных и частных компаний, предоставляющих любого рода услуги, так как позволяет персонифицировать предложение, переводя его из массового в точечное, индивидуальное. Однако достичь подобного эффекта можно лишь при должной обработке полученных данных и соотнесении их с личностным профилем потенциального получателя услуги. В связи с этим на первый план выходит вопрос о том, какими методами можно выявить взаимосвязь между личностным профилем пользователя и его профилем в социальных сетях.

Для решения исследовательских задач личность человека может быть описана как набор факторов, которые задают ему некоторый вектор поведения. Такой подход к объяснению феномена личности в психологии называют диспозициональной личностной моделью, в основе которой лежит ряд склонностей (диспозиций) человека вести себя, реагировать в определённых ситуациях тем или иным образом.

Анализ личностного профиля пользователя социальных сетей может облегчить понимание его потенциальных потребностей, что открывает широкие перспективы для маркетинга, здравоохранения, рекомендательных систем [2,7]. Практическая польза не осталась незамеченной для научного сообщества и привела к возникновению за последние годы большого числа исследований, посвящённых поиску и описанию взаимосвязей между контентом профилей пользователей социальных сетей и их политическими взглядами [10], удовлетворённостью жизнью [5] и многими другими аспектами.

Одной из наиболее известных и признанных в научной среде диспозициональных моделей личности является пятифакторная модель [11]. Данная модель включает в себя пять общих и относительно независимых диспозиций (черт, свойств, характеристик, факторов, шкал): нейротизм, экстраверсию, открытость опыту, сотрудничество и добросовестность. Популярность пятифакторной модели, разнообразие тем исследований, связанных с ней, а также большое количество вариаций методик для диагностики «большой пятёрки» личностных особенностей на разных языках позволяют говорить о том, что «большая пятерка» действительно содержит универсальные ключевые характеристики, предоставляющие возможность «увидеть» личность и спрогнозировать ее поведение [6, 10, 11].

© Сухомлинова Т.А., 2020.

На данный момент складывается новая тенденция при выявлении личностных характеристик использовать информационную технологию, основывающуюся на анализе формальных и контекстуальных особенностей фотографической и видео-информации, публикуемой пользователями в социальных сетях Twitter, Instagram, Facebook и др. [2, 4, 8]. Важным преимуществом такого рода исследований оказывается тот факт, что визуальная информация инвариантна к аудитории, говорящей на любых языках, что позволяет преодолеть языковые барьеры и связанные с этим недопонимания в трактовке полученных результатов. Интересной представляется задача конкретизации связи между визуальной информацией, добровольно предоставляемой пользователями социальных сетей, являющейся их своеобразной самопрезентацией, и личностными факторами.

В настоящей работе в качестве исходных данных, подвергаемых обработке и последующему анализу, был взят датасет PsychoFlickr. Впервые данный датасет был собран и использован в работе Segalina, C., Cheng, D., Cristani, M. [8], посвящённой личностному профилированию на основании изображений из социальных сетей пользователя.

Датасет PsychoFlickr содержит информацию о 300 пользователях социальной сети Flickr. На каждого пользователя приходится 200 случайных изображений, выбранных из тех, что ему понравились (liked images). Важен тот момент, что это именно понравившиеся пользователю изображения, а не фотографии, сделанные непосредственно им самим. Выбор осуществлён таким образом, чтобы избежать предубеждений пользователя, связанных с его фотографическими навыками.

Кроме того, набор данных содержит самооценочные (self-assessed) и приписываемые (attributed) личностные характеристики для каждого пользователя. Первые, самооценочные, личностные характеристики базируются на результатах добровольного опроса, проведённого среди пользователей с помощью методики BFI-10 (Большая Пятёрка) (Rammstedt and John, 2007). Вторые, приписываемые, личностные характеристики основаны на оценках 12 независимых экспертов, которые просмотрели понравившиеся каждому пользователю изображения и заполнили модифицированную BFI-10 анкету.

При формировании датасета PsychoFlickr для упрощения задачи предсказания черт личности и превращения её в пять разных задач бинарной классификации, по одной для каждого признака, авторы поступили следующим образом. Они разбили диапазон значений для каждого личностного компонента на три раздела: низкий (для значений ниже первого квартиля), высокий (для значений выше третьего квартиля) средний.

В датасет были отобраны только понравившиеся изображения тех пользователей, которые продемонстрировали высокие и низкие значения личностных факторов, чтобы получить большее разделение между двумя классами.

Посмотрим на распределение данных пользователей, касающихся самооценочных и приписываемых личностных факторов, отдельно по каждому фактору. Частота распределения значений по каждому из приписываемых и самооцениваемых личностных факторов представлены на рисунках 1 и 2.

А с

Рис. 1. Частота распределения значений по каждому из приписываемых личностных факторов

50

25 0

50

25 О

100

50 О

Рис. 2. Частота распределения значений по каждому из самооцениваемых личностных факторов

Здесь мы видим, что пользователи со средними значениями по всем личностным факторам были исключены из выборки для упрощения решения задачи бинарной классификации.

Проведя разведывательный анализ данных, мы можем констатировать, что недостающих значений или каких-либо отклонений, аномалий в полученных данных не выявлено. Формат представления данных также оптимизирован для дальнейшей с ними работы.

Перейдём к описанию результатов экспериментального исследования точности алгоритма машинного обучения для прогнозирования личностного профиля на основе изображений из профиля в социальных сетях и анализ полученных результатов.

Для решения поставленной задачи прогнозирования личностного профиля на основе изображений из профиля пользователя в социальных сетях было проведено экспериментальное исследование точности алгоритма машинного обучения, базирующегося на классических методах анализа данных: метод опорных векторов, Лассо-регрессия.

Выборка представляла собой балльные оценки каждого респондента по пяти личностным факторам, а также содержала данные об извлечённых признаках изображений с помощью сверточной сети VGG-Net. Выборка была разделена на обучающую и тестовую в соотношении 70% и 30% соответственно.

В ходе проведённого исследования были получены результаты о точности работы каждого метода применительно к предсказанию того или иного личностного фактора. С помощью метрики средней квад-ратической ошибки (MSE) была произведена оценка качества каждой модели. Результаты сравнения представлены в таблице 1.

Таблица 1

Сравнение моделей с использованием метрики MSE

Личностный фактор Метод опорных векторов Лассо-регрессия

Открытость опыту 3,13 2,89

Добросовестность 2,83 3,21

Экстраверсия 3,37 4,16

Доброжелательность 1,96 2,78

Невротизм 5,54 4,87

Таким образом, можно сделать вывод о том, что на основании изображений профиля в социальных сетях прогнозировать степень выраженности той или иной личностной характеристики можно с разной степенью уверенности. С большей долей вероятности по изображениям мы можем предсказывать такие личностные характеристики, как доброжелательность и добросовестность. С меньшей долей вероятности по изображениям мы можем предсказывать такую личностную характеристику, как невротизм. При этом разные модели дают разную точность предсказания для разных личностных факторов.

Результаты, полученные в ходе магистерского исследования, могут использоваться во множественных сферах, таких как кредитный скорринг, таргетирование рекламы, повышение эффективности политических и рекламных кампаний, рекомендательных систем и др.

Список литературы:

1 Тенденции развития интернета в России: аналитический доклад [Текст] / Г.И. Абдрахманова [и др.]; Координационный центр национального домена сети Интернет, Нац. исслед. ун-т «Высшая школа экономики». - М.: НИУ ВШЭ, 2018. - 184 с.

2 Bleidorn, W. Using machine learning to advance personality assessment and theory [Text] // Personality and Social Psychology Review. - 2018. - Vol. 137. - P. 142-149.

3 Ferwerda, B. You Are What You Post: What the Content of Instagram Pictures Tells About Users' Personality [Text] / B. Ferwerda, M. Tkalcic // Association for Computing Machinery (ACM). - 2018. - Vol. 43. - P. 157-161.

4 Golbeck, J. Predicting personality from twitter [Text] / J. Golbeck, C. Robles, M. Edmondson, K. Turner // IEEE third international conference on social computing. - 2012. - Vol. 90. - P. 70-79.

5 Guntuku, S.C. Detecting depression and mental illness on social media: an integrative review [Text] / S.C. Guntuku, D.B. Yaden, M.L. Kern, L.H. Ungar // Current Opinion in Behavioral Sciences. - 2017. - Vol. 18. - P. 43-49.

6 John, O. P. Paradigm Shift to the Integrative Big-Five Trait Taxonomy: History, Measurement, and Conceptual Issues [Text] / O.P. John, L.P. Naumann, C.J. Soto // Handbook of personality: Theory and research. - New York, NY: Guilford Press, 2008. - P. 114-158.

7 Kosinski, M. Private traits and attributes are predictable from digital records of human behavior [Text] / M. Kosinski, D. Stillwell, T. Graepel // Proceedings of the National Academy of Sciences. - 2013. - Vol. 110. - P. 5802-5805.

8 Samani, Z. Cross-platform and cross-interaction study of user personality based on images on Twitter and Flickr [Text] / Z. Samani, S. Guntuku, M. Moghaddam, D. Preotiuc-Pietro, L. Ungar // PLoS One. - 2018. - Vol. 7(13). - P. 413419.

9 Segalina, C. Social profiling through image understanding: Personality inference using convolutional neural networks [Text] / C. Segalina, D. Cheng, M. Cristani // Computer Vision and Image Understanding. - 2017. - Vol. 156. - P. 34-50.

10Souri, A. Personality classification based on profiles of social networks' users and the five-factor model of personality [Text] / A. Souri, S. Hosseinpour, A.M. Rahmani // Human-centric Computing and Information Sciences. - 2018. - Vol. 8 (24). - P. 217-223.

11Zhao, H. The big five personality dimensions and entrepreneurial status: a meta-analytical review [Text] / H. Zhao, S.E. Seibert // The Journal of applied psychology. - 2006. - Vol. 2 (91). - P. 259-271.

СУХОМЛИНОВА ТАТЬЯНА АЛЕКСАНДРОВНА - магистрант, Самарский национальный исследовательский университет имени академика С.П. Королева, Россия.

i Надоели баннеры? Вы всегда можете отключить рекламу.