Основные задачи анализа тональности текстов в социальных сетях

Сметанина Н.И.

Вопросы студенческой науки

Выпуск №15, ноябрь 2017

Основные задачи анализа тональности текстов в социальных сетях Basic Tasks of Sentiment Analysis in Social Networks

Сметанина Н.И.

Национальный исследовательский университет Высшая школа экономики,

РФ, г. Москва e-mail: nismetanina@edu. hse. ru

Smetanina N.

National Research University Higher School of Economics,

Russia, Moscow e-mail: nismetanina@,edu. hse. ru

Аннотация.

Анализ тональности текстов с каждым годом становится все более актуальной задачей как с теоретической, так и с практической точек зрения. Это преимущественно связано с развитием интернета и с изменением в формате коммуникаций между людьми. В данной работе рассматриваются ключевые задачи, которые возникают в процессе анализа тональности. Дополнительно для каждой задачи предлагаются допущения, которые в контексте работы с социальными сетями позволяют упростить задачу анализа тональности.

Annotation.

The popularization of Web 2.0 significantly increased online communications. As a consequence, it provoked the rapid development research in the field of natural language processing in general and sentiment analysis in particular. Information overload and the growing volume of reviews and messages facilitated the need for high- performance automatic processing methods. The purpose of this article is to specify basic tasks in sentiment analysis of texts from social networks. In addition, some techniques were proposed to simplify sentiment analysis results in context of social networks.

Ключевые слова: анализ тональности, обработка текстов, компьютерная лингвистика, социальные сети.

Key words: sentiment analysis, computational linguistics, social networks.

Автоматическая классификация эмоциональной окраски текстов, также известная под термином «анализ тональности», с каждым годом становится все более актуальной задачей и с теоретической и с практической точек зрения [1]. В первую очередь, это связано с развитием интернета и изменением формата коммуникаций в современном мире - для подавляющего большинства людей социальные сети стали занимать лидирующее положение среди остальных источников информации и площадок для дискуссий. Согласно [2], 30 июня 2017 года ежемесячная аудитория активных пользователей Facebook составляла 2.01 млрд. По данным [3], в апреле 2017 года аудитория социальной сети Vkontakte насчитывала более 90 млн. активных пользователей в месяц. Таким образом, пользователями социальных сетей ежедневно генерируются значительные объемы текстовой информации.

Анализ тональности текстов из социальных сетей применяется в бизнес сегменте, социальных и политических исследованиях.

• Определения уровня лояльности потребителя к бренду [4].

• Определение политических взглядов горожан на основе сообщений в социальных сетях [5].

• Прогнозирование результатов политических выборов [6].

Текстам в социальных сетях более характерен разговорный стиль речи, нежели литературный. Как следствие,

это вызывает серию существенных трудностей при автоматической обработке, так как в разговорном стиле чаще

встречаются сленг, фразеологизмы, авторская пунктуация, опечатки и ошибки, а также другие стилистические

особенности, которые сложно обрабатывать в автоматическом режиме. В данной работе подробно рассмотрены

задачи, которые ставит перед собой анализ тональности текстов в социальных сетях, а также основные сложности,

возникающие в ходе решение каждой из задач. Дополнительно в работе описаны допущения, которые в контексте

96

Вопросы студенческой науки Выпуск № 15, ноябрь 2017

работы с социальными сетями позволяют упростить задачу анализа тональности.

Первой задачей анализа тональности является классификация субъективности. При этом происходит обработка отдельных структурных единиц текста - предложений. Каждое предложение проверяется на наличие в нем субъективного суждения, и в соответствии с результатом, ему присваивается метка наличия или отсутствия субъективности. Как правило, предложения с объективной меткой далее не анализируются, так как они содержат сообщения исключительно информационного характера, то есть описание фактов или событий.

1. Цукерберг пожертвует 99% акций Facebook на благотворительность http://bbc.in/1MVAG6j

2. Чудесное утро, вкусный кофе, - день обещает быть прекрасным!

К примеру, предложение .№1 будет классифицировано как объективное, так как оно содержит лишь описание события, а предложение №2 как субъективное, так как оно отражает эмоциональную оценку начала дня.

Перед идентификацией субъективности необходимо определить границы предложений в тексте [7]. Русский язык имеет богатые правила пунктуации, согласно которым терминальные знаки (точка, вопросительны и восклицательный знаки) не всегда обозначают конец предложения.

3. Власов долго смотрел на портрет Д.М. Харькова, но так и не вымолвил ни слова.

4. Давай встретимся 25.12 у метро, примерно в 12.30?

5. Введение............................5

6. Латунь, свинец, олово и т.д.

7. «Браво!» - кричали ошарашенные зрители.

Например, точка присутствует в URL-ссылке (№1), после инициалов (№3), в обозначения даты и времени (№4), в форматировании (№5), а также в сокращениях (№6) и косвенной речи (№7). Следует отметить, что в социальных сетях часто встречаются ошибки в пунктуации, авторские знаки и опечатки, что существенно затрудняет определение границ предложения. Для решения данной задачи существует несколько способов решения.

• В зависимости от анализируемой социальной сети и её норм публикации сообщений, можно принять допущение, что сообщение пользователя состоит из одного предложения, на протяжении которого развивается лишь одна мысль. В таком случае нет необходимости определять границы предложения, так как весь текст считается одним предложение. Это особенно актуально для сервисов, которые строго ограничивают длину сообщения (к примеру, 140 символов в Twitter).

• Если принять допущение о том, что реальные пользователи социальной сети публикуют преимущественно субъективное мнение относительно событий и фактов, классификация субъективности может быть пропущена. Следуя данной логике, аккаунты, которые публикуют в основном сообщения информационного характера, как правило, являются аккаунтами организаций, либо аккаунтами СМИ и не подлежат анализу.

При наличии субъективного суждения осуществляется анализ эмоциональной' окраски. В большинстве случаев прибегают к бинарной' классификации сообщений на положительные и отрицательные, но в некоторых случаях может быть использовано более подробное ранжирование. Русский язык богат на речевые средства выразительности, которые непосредственно влияют на эмоциональную окраску передаваемого сообщения. Одним из наиболее ярких примеров является прямое и переносное значение слова или фразы. Под прямым значение подразумевается первоначальное, исходное значение слова. Как правило, прямое значение является основным наименованием определенного действия, предмета или признака. В свою очередь, переносное значение - это вторичное, дополнительное значение, возникшее на основе прямого по сходству или по смежности. К примеру, такие сатирические приемы, как аллегория, гипербола, ирония и сарказм создают ощущение, что предмет обсуждения не таков, каким он кажется на первый взгляд. В результате, эмоциональная окраска может меняться на

Вопросы студенческой науки Выпуск № 15, ноябрь 2017

противоположную относительного прямого смысла сообщения. Задача идентификации вышеперечисленных средств выразительности остается крайне актуальной и до конца не решенной задачей (к примеру, в работах [8] и [9] авторы предлагают несколько способов выявления сарказма). Периодически даже человеку сложно понять, что обозначает определенное сообщение - стоит ли его воспринимать прямо, или в нем есть скрытый смысл. В связи с этим часто принимается допущение, что анализируемое сообщение не содержит переносного смысла.

Отдельное внимание при анализе сообщений из социальных сетей следует уделить эмотиконам -пиктограммам, изображающим эмоцию. Допущение, что тональность сообщения соответствует общей тональности эмотиконов, используемых в нем, может значительно облегчить задачу классификации и увеличить точность. При этом следует учитывать, что проявление и восприятие эмоций в разных частях мира существенно отличается, точно так же, как язык эмотиконов и места их использования. Хэштеги, популярные в сервисах микроблоггинга, так же могут служить идентификатором эмоциональной окраски. Если принять допущение, что тональность твита соответствует тональности хэштеги в нем, то задача классификации заметно упрощается. В работе [10] обучающие данные для классификатора собирали на основе хэштегов у сообщений в социальной сети. К примеру, сообщения с хэштегом «#bestfeeling» автоматически относили к позитивно окрашенным, с «#fail» - к негативно окрашенным, а с «#tweetajob» - к нейтральным.

В зависимости от специфики анализа, иногда бывает необходимо определить автора высказывания либо, если автор не один, сопоставить каждому высказыванию своего автора. В отношении социальных сетей можно принять допущение, что автором сообщения является владелец аккаунта, от которого было опубликовано сообщение. Однако помимо публикации собственных сообщений, в интернете развита практика цитирования записей другого пользователя, «share» или «retweet» - название варьируется в зависимости от конкретной социальной сети. Наиболее распространенным в данном случае решением является принятия допущения, что если пользователь намеренно цитирует другого пользователя, то мнение первого полностью совпадает с мнением второго, следовательно, автором высказывания можно считать процитировавшего пользователя. Некоторые сервисы имеют особые правила упоминания других пользователей в сообщениях, что существенно упрощает их идентификацию. К примеру, в Twitter обращение к другому пользователю начинается со знака «@». Таким образом, задача идентификация сводиться к задаче нахождения слова, начинающегося с «@».

Более глубоким анализом тональности является аспектный анализ тональности, то есть определение отношения к набору характеристик. При этом сначала в высказывании выделяются объекты, о которых идет речь, а потом определяются их субъективные характеристики.

8. Планшет лёгкий, по бокам рамки небольшие, а сверху и снизу большие - удобно держать в планшетной ориентации.

9. Очки слишком легкие, падают от сильного ветра.

В данном примере объектом высказывания является «планшет», а его тональность складывается из набора характеристик, которые имеют различную полярность (легкий, небольшие рамки, удобно держать). Таким образом, задача сводится к выявлению аспектов объекта речи и выявлении их субъективной оценки. Но стоит учитывать, что одна и та же характеристика может иметь различную эмоциональную окраску для объектов разных типов. К примеру, в №8 и №9 одна и та же характеристика «легкий» имеет позитивный' окрас в первом случае и негативный' во втором, так как маленький' вес для планшета - это хорошо, когда для очков эта же характеристика вызывает дискомфорт в использовании. Хэштеги в социальных сетях сильно упрощают задачу выделение аспектов и их характеристик из предложения, так как в большинстве случаев являются искомыми характеристиками.

Таким образом, в статье были перечислены ключевые задачи, которые встречаются при анализе текста на естественном языке. Так же были рассмотрены особенности анализа тональности текстов в социальных сетях, предложены допущения, которые могут упростить процесс анализа и повысить точность.

Вопросы студенческой науки

Выпуск №15, ноябрь 2017

Список используемой литературы:

1. Pang B., Lee L. Opinion mining and sentiment analysis // Foundations and Trends in Information Retrieval. - 2008. - Т. 2. - №. 1-2. - С. 1-135.

2. Company Info / Facebook. - [Электронный ресурс]. - URL: https ://newsroom.fb.com/company-info/. (Дата обращения: 20.10.2017)

3. Аудитория Вконтакте / Вконтакте. - [Электронный ресурс]. - URL: https://vk. com/page-47200925 44240810. (Дата обращения: 20.10.2017)

4. Zimbra D., Ghiassi M., Lee S. Brand-related Twitter sentiment analysis using feature engineering and the dynamic architecture for artificial neural networks //System Sciences (HICSS), 2016 49th Hawaii International Conference on. - IEEE, 2016. - С. 1930-1938.

5. Ceron A. et al. Every tweet counts? How sentiment analysis of social media can improve our knowledge of citizens' political preferences with an application to Italy and France //New Media & Society. - 2014. - Т. 16. - №. 2. -С. 340-358.

6. Kagan V., Stevens A., Subrahmanian V. S. Using twitter sentiment to forecast the 2013 Pakistani election and the 2014 Indian election //IEEE Intelligent Systems. - 2015. - Т. 30. - №. 1. - С. 2-5.

7. Reynar J. C., Ratnaparkhi A. A maximum entropy approach to identifying sentence boundaries //Proceedings of the fifth conference on Applied natural language processing. - Association for Computational Linguistics, 1997. - С. 16-19.

8. Bamman D., Smith N. A. Contextualized Sarcasm Detection on Twitter //ICWSM. - 2015. - С. 574-577.

9. Rajadesingan A., Zafarani R., Liu H. Sarcasm detection on twitter: A behavioral modeling approach //Proceedings of the Eighth ACM International Conference on Web Search and Data Mining. - ACM, 2015. - С. 97-106.

10. Ю. В. Рубцова. Построение корпуса текстов для настройки тонового классификатора // Программные продукты и системы, 2015, №1(109), -С.72-78

Основные задачи анализа тональности текстов в социальных сетях Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Сметанина Н.И.

Похожие темы научных работ по СМИ (медиа) и массовым коммуникациям , автор научной работы — Сметанина Н.И.

Basic Tasks of Sentiment Analysis in Social Networks

Текст научной работы на тему «Основные задачи анализа тональности текстов в социальных сетях»