Научная статья на тему 'Методы оценки эмоциональной окраски текста'

Методы оценки эмоциональной окраски текста Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
2526
192
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СЕНТИМЕНТ-АНАЛИЗ / АНАЛИЗ ТОНАЛЬНОСТИ ТЕКСТА / МАШИННОЕ ОБУЧЕНИЕ / ГРАФОВЫЕ МОДЕЛИ / ЭМОТИВНАЯ ЛЕКСИКА / WORDNET / SENTIMENT ANALYSIS / OPINION MINING / MACHINE LEARNING / GRAPH MODELS

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Ермаков Сергей Александрович, Ермакова Лиана Магдановна

Проводится обзор существующих методов определения эмоциональной окраски текста. Особое внимание уделяется методам построения интегральной оценки на основе коллекции документов, содержащих большое количество избыточной и противоречивой информации.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Overview of sentiment analysis methods

Authors present an overview of traditional approaches and recent advantages in sentiment analysis techniques, focusing on multi document processing and redundancy removal.

Текст научной работы на тему «Методы оценки эмоциональной окраски текста»

2012

ВЕСТНИК ПЕРМСКОГО УНИВЕРСИТЕТА

Математика. Механика. Информатика Вып.1(9)

УДК 025.4.03

Методы оценки эмоциональной окраски текста

С. А. Ермаков, Л. М. Ермакова

Пермский государственный национальный исследовательский университет Россия, 614990, Пермь, ул. Букирева, 15 [email protected]: +7 (342) 239-62-98

Проводится обзор существующих методов определения эмоциональной окраски текста. Особое внимание уделяется методам построения интегральной оценки на основе коллекции документов, содержащих большое количество избыточной и противоречивой информации.

Ключевые слова: сентимент-анализ; анализ тональности текста; машинное обучение; графовые модели; WordNet; эмотивная лексика.

Введение

Одним из ключевых аспектов успешного построения бизнеса является анализ обратной связи с потребителями. Однако структурированная информация, обычно представленная в виде опросов, является труднодоступной и дорогостоящей. Кроме того, она ограничивает пользователей в выражении мнений, а оцениваемые характеристики задаются заранее экспертами [1]. Преобразование неструктурированной информации в структурированную является крайне времязатратным и дорогостоящим процессом, поэтому целесообразна разработка систем автоматической обработки текстов на естественном языке [1]. Кроме того, в последнее время возрос интерес к автоматическому определению и извлечению эмоций в тексте в связи с потребностью в средствах анализа информации со стороны правительства, которому необходимо определять отношение людей к тем или иным событиям, реформам или законам [2].

Сентимент-анализ, или анализ тональности текста, - это развивающееся направление компьютерной лингвистики, основной задачей которого является выявление в документе эмоционально окрашенной лексики и эмоциональной оценки объектов автором. "Эмоциональная оценка, выраженная в тексте, также называется тональностью, или сенти-ментом текста" [3]. Лексическая тональность

© Ермаков С. А., Ермакова Л. М., 2012

(или лексический сентимент) - эмоциональная составляющая, выраженная на уровне лексемы [3]. Эмоциональная окраска текста определяется тональностью его составляющих, а также их взаимосвязями [3].

Классификация эмоциональной окраски может быть бинарной (положительный / отрицательный), тринарной (положительный / отрицательный / нейтральный) или ранжированной [1, 4]. Таким образом, оценка может включать в себя не только валентность, но и интенсивность высказывания [5, 6]. Интегральная оценка может быть произведена как с точки зрения отдельных характеристик [711], так и общей тональности [12-14]. Анализ эмоциональной окраски всего текста затруднителен, т.к. чаще всего в отзывах встречаются противоположные оценки, поэтому целесообразно оценивать отдельные предложения

[1, 15].

1. Выделение оценочных суждений

Оценочное суждение представляет собой тройку (валентность, объект высказывания, субъект).

Объектом тональности является объект или лицо, в отношении которого производится эмоциональное высказывание [3]. Под субъектом понимают автора высказывания (текста, цитаты, прямой или косвенной речи), а под валентностью - эмоциональное отношение автора к объекту [3].

При этом перед тем, как определить каждый компонент этой тройки, необходимо выделить оценочные суждения. Нередко при аннотировании эмотивных высказываний мнения экспертов расходятся [16].

Для отделения текстов, содержащих суждения, от документов, преимущественно описывающих факты, используются стандартные методы классификации, например, байесовский классификатор [17], графовый подход [18], анализ словосочетаний [14, 19].

Некоторые исследователи также опираются на гипотезу, что оценочные предложения в рамках одной темы больше похожи на другие оценочные предложения, чем на фактографические. Сходство может вычисляться на основе общности словаря, словосочетаний, биграмм, триграмм, а также наличия синонимов (синсеты WordNet). Признаком может служить наличие или отсутствие эмотивных слов определенной части речи [17].

Одним из распространенных методов выделения эмоционально окрашенных предложений является анализ словосочетаний. Для того чтобы воспользоваться этим методом, необходимо синтаксически разметить текст. После этого на основе шаблонов [14], например "прилагательное + др. часть речи" или "наречие + др. часть речи", выделяются те словосочетания, которые потенциально несут оценочный характер. При этом прилагательное или наречие обеспечивает субъектность, а другой член словосочетания определяет контекст оценки - объект или субъект. После этого определяется эмоциальная валентность сочетания на основе определения семантической близости прилагательного или наречия к эталонным оценочным словам вроде "плохо" и "хорошо". Итоговая оценка - отношение этих полученных оценок друг к другу [14].

Кроме непосредственно слов, выражающих эмоции, существуют словосочетания, которые также содержат эмоциональную оценку [19]. Для выявления таких случаев последовательно анализируются отдельные слова, биграммы, триграммы и т.д., оценивается их "точность". Точность «-словесной цепочки

- это число субъективных выражений этой цепочки, поделенное на общее число употребления этой цепочки. Употребление п-словесной (п - количество слов) цепочки передаёт субъективность, если каждое слово этой фразы попадает в субъективный элемент. После того, как была получена оценка точно-

сти для отдельных слов и сочетаний, авторы [19] предложили следующий вариант выделения эмоционально окрашенных сочетаний: отсекать все словосочетания, точность которых ниже установленного порога 0,1. Затем авторы предлагают отсеивать сочетания с точностью ниже максимальной точности слов, входящих в эти сочетания.

Можно рассматривать каждое предложение по отдельности, применяя к нему стандартный алгоритм классификации, однако можно воспользоваться близостью предложений для усиления согласованности: соседние предложения, скорее всего, имеют схожий уровень субъективности. Это используется при определении валентности: можно утверждать, что оба схожих предложения имеют одинаковый уровень валентности, не уточняя, какой именно.

Простые способы классификации не могут учитывать взаимосвязи, поэтому авторы [18] используют графовый подход: каждая вершина - предложение.

Пусть у нас есть набор из п элементов:

- , который необходимо разбить на два класса С1, С2, используя следующую информацию:

• Вес вершины - индивидуаль-

ная оценка принадлежности каждого предложения л-, классу С,.

• Вес связи а55ое(л1.хк) между вершинами означает степень важности нахождения обоих предложений в одном классе (объективных или субъективных).

Для этого решается оптимизационная задача минимизации функции:

Вариантов решений 2п, но есть более простой алгоритм - алгоритм нахождения минимального разреза графа. Разрез графа - множество рёбер, удаление которых делит граф на два изолированных подграфа. Минимальный разрез графа в данном случае означает разрез, при котором значение вышеупомянутой функции минимально.

2. Определение тональности

Традиционно анализ эмоциональной окраски текста осуществляется при помощи методов машинного обучения с учителем: наивный байесовский классификатор, машина опорных векторов, ЕМ-алгоритм [1, 13]. В качестве признаков могут использоваться как

отдельные слова, так и биграммы [13]. Байесовские вероятности позволяют применить скрытое распределение Дирихле (LDA), согласно которому существует ограниченное число тематик, каждая из которых определяется вероятностью порождения слов из словаря. Слово порождается вероятностью, отличной от нуля, в различных тематиках. Документу соответствует вектор вероятностей тематик, но слово в документе порождается только одной тематикой [20, 21].

В качестве признаков могут использоваться грамматические классы, например, части речи [15], структурные особенности, а также знаки препинания [22].

Обычно коллекции текстов (форумы, отзывы в интернет-магазинах и т.д.) содержат крайне много избыточной информации [23]. Традиционно системы реферирования опираются либо на знания предметной области [24, 25], либо на глубинный лингвистический анализ [26, 27]. Оба подхода являются либо трудоемкими, либо предметно-зависимыми [23]. В системе Opinosis текст представляется в виде ориентированного графа, вершинами которого являются словосочетания, а ребра отражают структуру предложений [23]. Граф в Opinosis напоминает граф, использованный для перефразирования в [28], но в последнем вершиной графа было отдельное слово. Подобное представление позволяет определить общую и различную информацию [23]. Построение графа начинается с выбора множества предложений, релевантных теме. Предложения разбиваются на слова, и каждому слову приписывается часть речи и позиция в предложении. Если один и тот же путь соответствует нескольким предложениям, эта информация считается избыточной. Если существует путь А — С, то путь -4 — Б — С также является избыточным. Если вершина связана со многими другими вершинами, то можно стянуть граф (обычно такими вершинами являются глаголы). При этом якорем является повторяющаяся последовательность вершин, стоящая до глагола, а "хвосты" объединяются при помощи союзов "и" или "но", если они имеют одинаковую или различную эмоциональную окраску соответственно.

Реферат строится по правильным предложениям, которые имеют высокую степень повторяемости в графе. Правильное предложение должно обладать следующими свойствами:

1. Оно должно начинаться со слова, которое может быть в начале предложения.

2. Предложение должно заканчиваться словом, которое может находиться в конце предложения.

3. Последовательность слов в предложении должна удовлетворять синтаксическим правилам [23].

3. Адаптация к предметной области

Немаловажным является адаптация классификаторов мнений к новым предметным областям [29]. Обученные на выборке отзывов о видеокамерах классификаторы показывают очень скромные результаты на текстах про автомобили. Существует несколько вариантов решения данной проблемы:

1. Обучать классификатор на всех доступных наборах данных сразу - самый очевидный вариант. Данный метод показывает результаты хуже, чем классификатор для отдельного домена, он используется в качестве основы для других методов.

2. Разграничивать использование признаков для разных доменов. Другими словами, для каждого домена создается специализированный словарь. Таким образом, мы исключаем специфические высказывания для данной предметной области, но оставляем общие для всех областей эмоционально окрашенные тексты.

3. Использовать наборы классификаторов: разные классификаторы можно объединять в наборы [30]. При классификации в этом случае каждый из классификаторов участвует в итоговом решении с некоторым весом. Существуют различные варианты использования и обучения данных наборов, в том числе использование мета-классификатора [31] (который калибрует веса составляющих его классификаторов).

Использование внутридоменных неразмеченных данных [32]. В данном подходе требуется (несмотря на название) небольшая часть размеченных данных, для того чтобы определить параметры для наивного байесовского классификатора, используя ЕМ-алгоритм.

Заключение

За последние десять лет интерес к области анализа эмоциональной тональности текстов сильно возрос. Мы рассмотрели лишь основные направления развития в этой области. Однако стоит отметить, что на текущем этапе развития в данной области существует много нерешенных проблем.

Анализ эмоциональной окраски текста затруднителен не только в связи с проблемой выделения единиц оценки тональности, но и ввиду неоднозначности эмоциональной составляющей лексических компонент [3]. Например, в рамках одной и той же предметной области "высокая цена" - отрицательный аспект товара, в то время как "высокое качество" - положительный.

Для анализа тональности текста широко используются статистические методы благодаря своей простоте, но их основной недостаток в том, что требуется размеченный корпус, что в свою очередь является крайне трудоемкой и дорогостоящей задачей. С другой стороны, методы, основанные на поиске эмотив-ной лексики на базе тональных словарей, напрямую зависят от полноты представленной лексики и с их помощью не всегда можно дать количественную оценку эмоциональной окраски текста. Кроме того, эти подходы предметно зависимы, т.е. для различных предметных областей необходимо составлять различные словари.

Для английского языка разработаны системы, которые позволяют выполнить анализ эмоциональной окраски (TwitterSentiment, IDOL, AlchemyAPI, и др.), но для русского языка такой анализ затруднителен, поэтому на данный момент нет систем, работающих на приемлемом уровне. Помимо этого, для русского языка до сих пор не решены задачи синтаксического анализа и разрешения анафорических связей, что в значительной мере осложняет более тонкий анализ.

Список литературы

1. Gamon M., et al. Pulse: Mining Customer Opinions from Free Text // Proceedings of the 6th International Symposium on Intelligent Data Analysis (IDA). 2005. P. 121-132.

2. Wiebe J., Wilson T., Cardie C. Annotating Expressions of Opinions and Emotions in Language // Proceedings of Language

3. Пазельская А., Соловьев А. Метод определения эмоций в текстах на русском языке: труды международной конференции "Диалог, 2011". P.510-522.

4. "Дорожки РОМИП'2011" Available: http://romip.ru/ru/2011/tracks.html. [Дата обращения: 15.11.2011].

5. Ng R., Pauls A. Multi-document summarization of evaluative text // Proceedings of the 11st Conference of the European Chapter of the Association for Computational Linguistics. 2006. P.305-312.

6. Carenini G., Ng R. Zwart E. Extracting knowledge from evaluative text // Proceedings of the 3rd international conference on Knowledge capture. 2005. P. 11—18.

7. Hu M., Liu B. Mining and summarizing customer reviews // Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining. 2004. P. 168-177.

8. Snyder B., Barzilay R. Multiple Aspect Ranking using the Good Grief Algorithm // Proceedings of the Joint Human Language Technology / North American Chapter of the ACL Conference HLT-NAACL. 2007. P. 300-307.

9. Lerman K., Blair-Goldensohn S., Mcdonald R. Sentiment summarization: evaluating and learning user preferences // Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics. 2009.

10. Lu Y., Zhai C., Sundaresan N. Rated aspect summarization of short comments // Proceedings of the 18th international conference on World wide web. 2009. P.131-140.

11. Titov I., Mcdonald R. A Joint Model of Text and Aspect Ratings for Sentiment Summarization // Proceedings of ACL-08: HLT. 2008. P. 308-316.

12. Pang B., Lee L. Opinion Mining and Sentiment Analysis. 2008. P. 1-135.

13. Pang B., Lee L., Vaithyanathan S. Thumbs up? Sentiment Classification using Machine Learning Techniques // Proceedings of the Conference on

14. Turney P. Thumbs up or thumbs down?:

semantic orientation applied to unsupervised classification of reviews // Proceedings of the 40th Annual Meeting on Association for Computational

Linguistics. 2002. P. 417-424.

15. Wiebe J., Bruce R., O’Hara T.

Development and use of a gold-standard data set for subjectivity classifications // Proceedings of the 37th annual meeting of the Association for Computational

Linguistics on Computational Linguistics. 1999. P.246-253.

16. Kim S.-M., Hovy E. Identifying and

Analyzing Judgment Opinions //

Proceedings of the Human Language Technology Conference of the North American Chapter of the ACL, 2006, P. 200-207.

17. Yu H., Hatzivassiloglou V., Towards

answering opinion questions: separating facts from opinions and identifying the polarity of opinion sentences //

Proceedings of the 2003 conference on Empirical methods in natural language processing, 2003, P. 79-86.

18. Pang B., Lee L. A Sentimental Education: Sentiment Analysis Using Subjectivity // Proceedings of the ACL, 2004, P. 271278.

19. Wiebe J., Wilson T., Bell M. Identifying

Collocations for Recognizing Opinions // Proc. ACL/EACL 01 Workshop on

Collocation, 2001.

20. Павлов А., Добров Б. Метод

обнаружения массово порожденных неестественных текстов на основе анализа тематической структуры //

Вычислительные методы и

программирование, 2011, T. 12, P. 58-

72,.

21. Blei D., Ng A., Jordan M. Latent Dirichlet Allocation // Journal of Machine Learning Research, 2003, № 3, P. 993-1022.

22. Chetviorkin I., Loukachevitch N. Threeway movie review classification // Proceedings of international conference Dialog, 2011, P. 168-177.

14. Turney P. Thumbs up or thumbs down?:

semantic orientation applied to unsupervised classification of reviews // Proceedings of the 40th Annual Meeting on Association for Computational

Linguistics. 2002. P. 417-424.

15. Wiebe J., Bruce R., O’Hara T.

Development and use of a gold-standard data set for subjectivity classifications // Proceedings of the 37th annual meeting of the Association for Computational

Linguistics on Computational Linguistics. 1999. P.246-253.

16. Kim S.-M., Hovy E. Identifying and Analyzing Judgment Opinions // Proceedings of the Human Language Technology Conference of the North American Chapter of the ACL, 2006, P. 200-207.

17. Yu H., Hatzivassiloglou V., Towards answering opinion questions: separating facts from opinions and identifying the polarity of opinion sentences // Proceedings of the 2003 conference on Empirical methods in natural language processing, 2003, P. 79-86.

18. Pang B., Lee L. A Sentimental Education: Sentiment Analysis Using Subjectivity // Proceedings of the ACL, 2004, P. 271278.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

19. Wiebe J., Wilson T., Bell M. Identifying Collocations for Recognizing Opinions // Proc. ACL/EACL 01 Workshop on Collocation, 2001.

20. Павлов А., Добров Б. Метод

обнаружения массово порожденных неестественных текстов на основе анализа тематической структуры // Вычислительные методы и

программирование, 2011, T. 12, P. 58-

72,.

21. Blei D., Ng A., Jordan M. Latent Dirichlet Allocation // Journal of Machine Learning Research, 2003, № 3, P. 993-1022.

22. Chetviorkin I., Loukachevitch N. Threeway movie review classification //

ВЕСТНИК ПЕРМСКОГО УНИВЕРСИТЕТА 2012 Математика. Механика. Информатика Вып.1(9)

Overview of sentiment analysis methods

S. A. Ermakov, L. M. Ermakova

Perm State National Research University, Russia, 614990, Perm, Bukireva st., 15 [email protected]; +7 (342) 239-62-98.

Authors present an overview of traditional approaches and recent advantages in sentiment analysis techniques, focusing on multi document processing and redundancy removal.

Key words: sentiment analysis; opinion mining; machine learning; WordNet; graph models.

i Надоели баннеры? Вы всегда можете отключить рекламу.