ОБЗОР ПОДХОДОВ ДЛЯ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ ЭМОЦИЙ В ТЕКСТАХ
© Котельников Е.В.*, Окулов С.М.Ф
Вятский государственный гуманитарный университет, г. Киров
Доклад посвящен проблеме автоматического распознавания эмоций в текстах. Представлены различные формулировки задач, решаемых в рамках данной проблемы. Рассмотрены основные подходы, используемые для создания модели представления текста и для классификации эмоций; выделены достоинства и недостатки этих подходов.
1. Введение
Проблема автоматического распознавания эмоций, выраженных в текстах, является, с одной стороны, чрезвычайно сложной, с другой стороны -актуальной и интересной. Сложность проблемы определяется следующими причинами [1]: 1) выражение эмоций сильно зависит от контекста («иду читать книгу» - положительный пример для обзора книг, но, возможно, отрицательный для обзора фильмов); 2) расположение слов часто более важно, чем их частота (например, в тексте много положительных слов, но в конце отрицательный вывод); 3) наличие иронии.
Автоматическое распознавание эмоций в текстах находит применение во множестве областей - маркетинговые исследования, поисковые системы, рекомендательные системы, оценка тональности новостей, человеко-машинный интерфейс и др. Встречаются также весьма оригинальные примеры, такие как исследование по блогам, песням, сообщениям в Twitter «настроения» нации (Pulse of the Nation) [2] или создание видеоплеера с автоматическим определением эмоций из субтитров [3].
Рассматриваемая проблема оказалась в фокусе научных исследований относительно недавно - с начала 2000-х гг. За последнее десятилетие по ней опубликованы сотни трудов; в качестве подробного обзора (хоть и несколько устаревшего) можно порекомендовать работу Bo Pang и Lillian Lee [1]. В России работ по данной проблематике до последнего времени было крайне мало; только в 2012 году оценка тональности текста была выбрана одной из главных тем конференции по компьютерной лингвистике Диалог-2012 [4].
В нашем докладе кратко рассматриваются варианты постановки задачи и существующие подходы распознавания эмоций в тексте.
* Старший научный сотрудник кафедры Прикладной математики и информатики, кандидат технических наук, доцент.
* Декан факультета Информатики, математики и физики, доктор педагогических наук, профессор.
2. Постановка задачи
Обозначенная во введении проблема распознавания эмоций в текстах довольно обширна и в её рамках выделяют несколько различных задач. Приведем основные типы задач.
1. Анализ субъективности (subjectivity analysis) - определить, является ли текст субъективным или объективным, т.е. выражены ли в тексте эмоции [5].
2. Анализ тональности (sentiment analysis) - определить положение текста на заданной шкале тональности в диапазоне от отрицательной тональности до положительной [1]. Шкала может иметь два элемента (отрицательный текст - положительный текст), три (добавляется нейтральный текст, или текст, в котором выражены как положительные, так и отрицательные эмоции), или более элементов (например, пятибалльная шкала).
3. Классификация по эмоциям (emotion classification) - определить, какая конкретно эмоция выражена в тексте [6]. Обычно используются 6 базовых эмоций по П. Экману - радость, печаль, страх, гнев, отвращение, удивление [7].
4. Извлечение мнений (opinion mining) - определить, кто по отношению к кому / чему выразил в тексте мнение, и какова тональность этого мнения [8].
Кроме указанных основных типов существуют и другие постановки задач, например: задача иерархической классификации - сначала анализ субъективности, затем анализ тональности, в конце - классификация по эмоциям [9]; одновременное выделение темы и эмоции [10]; раздельное распознавание эмоций с точки зрения писателя и с точки зрения читателя [11].
Отметим, что задачи распознавания эмоций могут решаться на разных уровнях текста: на уровне документа, предложения, фразы, слова.
3. Подходы
В ходе автоматического распознавания эмоций в текстах требуется решать две главные проблемы: 1) создание модели представления текста; 2) собственно распознавание (классификация) эмоций на основе созданной модели. Выделим основные подходы, используемые для решения указанных проблем.
3.1. Модель представления текста
При создании модели представления текста как правило используются различные лингвистические ресурсы, поэтому выделим соответствующие подходы на основе типов таких ресурсов:
1. подход на основе словарей (lexicon-based approach) - для представления текста используются специальные словари, в основном эмо-
циональной лексики (Dictionary of Affect in Language, SentiWordNet, WordNet Affect, Harvard General Inquirer и др.), а также словари синонимов, антонимов, акронимов, смайликов [3, 6, 8, 9, 12]. При этом в модели представления текста остаются только те слова исходного текста, которые присутствуют в словарях эмоциональной лексики, возможно, расширенных словами из словарей синонимов, антонимов и акронимов. Также в модель часто входят смайлики, присутствующие в исходном тексте [12];
2. подход на основе корпусов (corpus-based approach) - модель представления текста создается на основе статистического анализа текстового корпуса (коллекции), содержащего тексты, заранее размеченные в соответствии с решаемой задачей [3, 6, 9, 12, 13, 14]. При этом каждому слову может быть присвоена эмоциональная оценка, обозначающая, например, его тональность, определяемую на основе отношения количества положительных и отрицательных текстов, в которые входит данное слово.
Преимуществом первого подхода является наличие достаточно полных словарей эмоциональной лексики английского языка (в то же время, например, для русского языка подобных общедоступных словарей в настоящее время не существует), такие словари обладают высокой степенью достоверности (поскольку часто составляются профессиональными лингвистами) и универсальности (не зависят от предметной области). Однако в подходе на основе словарей не учитывается контекст (одно и то же слово в разных контекстах может обладать разной степенью эмоциональности); не учитывается различная семантика одного и того же слова [6]. Кроме того, исследования показывают, что человек не в состоянии выявить все слова, отвечающие за выражение эмоций в тексте [15].
В подходе на основе корпусов статистический анализ позволяет определить слова, с человеческой точки зрения нейтральные, которые, тем не менее, оказываются весьма значимыми для распознавания эмоций [15]. Проблема учета контекста также может быть решена в рамках данного подхода, если рассматривать не отдельные слова, а словосочетания различной длины. Недостатки подхода заключаются в высокой трудоемкости составления и разметки представительных корпусов и в зависимости корпусов от предметной области.
Достоинства обоих подходов могут быть совмещены при помощи их комбинации, т.е. одновременного использования как словарей, так и корпусов для построения модели представления текста.
3.2. Распознавание эмоций
При распознавании (классификации) эмоций применяются два основных подхода: лексический и на основе машинного обучения. Оба подхода
используют модель представления текста, построенную либо при помощи словарей, либо на основе корпусов.
1. Лексический подход (lexical-based approach) - предполагается, что эмоции, выраженные в тексте, можно определить путем подсчета эмоциональных оценок слов, входящих в данный текст [8, 16, 17]. Окончательное решение осуществляется при помощи некоторой функции, например, разности между суммами эмоциональных оценок слов положительной и отрицательной тональностей.
2. Машинное обучение (machine learning based approach) - в этом подходе на основе некоторых данных в процессе обучения осуществляется автоматическое построение классифицирующей функции [3, 9, 10, 13, 14]. Машинное обучение является традиционным подходом в задаче текстовой классификации [18], а проблема распознавания эмоций в тексте имеет весьма близкое к ней отношение (но не совпадает с ней) [1]. Данные, на которых происходит обучение, могут представлять собой размеченную коллекцию текстов (supervised learning - обучение с учителем) или, например, словарь слов с эмоциональными оценками, который используется для автомагической разметки текстов (semi-supervised learning) [19, 20].
Преимуществами лексического подхода являются возможность точной классификации небольших текстов и текстовых фрагментов, отсутствие необходимости в большой размеченной текстовой коллекции, независимость от предметной области. Однако эти преимущества проявляются только при условии наличия качественной модели представления текста с эмоциональными оценками слов.
Подход на основе машинного обучения в многочисленных исследованиях доказал свою высокую точность. Недостаток подхода заключается в требовании наличия репрезентативной размеченной текстовой коллекции (supervised learning) или других лингвистических ресурсов (semi-supervised learning). Ещё один недостаток машинного обучения - классификатор, обученный на текстовом корпусе из одной предметной области, обычно неприменим для другой области.
* * *
Проблема автоматического распознавания эмоций в текстах является в настоящее время весьма важной и актуальной. Для её решения было разработано множество методов и алгоритмов, большинство из которых можно описать в рамках представленных в докладе подходов. Все они обладают своими достоинствами и недостатками, и одно из перспективных направлений исследований заключается в комбинировании методов разных подходов.
Список литературы:
1. Pang B., Lee L. Opinion Mining and Sentiment Analysis // Foundations and Trends® in Information Retrieval. - 2008. - No. 2.
2. Dodds P.S., Danforth C.M. Measuring the Happiness of Large-Scale Written Expression: Songs, Blogs, and Presidents // Journal of Happiness Studies, DOI:10.1007/s10902-009-9150-9. - Published online July 20, 2009.
3. Danisman T., Alpkocak A. Feeler: Emotion Classification of Text using Vector Space Model // In AISB 2008 Convention Communication, Interaction and Social Intelligence. - 2008. - Vol. 1. - P. 53-59.
4. Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной Международной конференции «Диалог» (2012). - М.: Изд-во РГГУ 2012. - Вып. 11 (18).
5. Pak A., Paroubek P. Twitter as a Corpus for Sentiment Analysis and Opinion Mining // Proceedings of the 7th conference on International Language Resources and Evaluation (LREC'10). - 2010. - P. 1320-1326.
6. Alm C.O., Roth D., Sproat R. Emotions from Text: Machine Learning for Text-Based Emotion Prediction // Proceedings of the Human Language Technology Conference and the Conference on Empirical Methods in Natural Language Processing. - 2005. - P. 579-586.
7. Ekman P. An Argument for Basic Emotions // Cognition and Emotion. -1992. - Vol. 6. - P. 169-200.
8. Godbole N. Srinivasaiah M., Skiena S. Large-Scale Sentiment Analysis for News and Blogs // Proceedings of the International Conference on Weblogs and Social Media (ICWSM). - 2007.
9. Ghazi D., Inkpen D., Szpakowicz S. Hierarchical Approach to Emotion Recognition and Classification in Texts // Proceedings of the 23 rd Canadian Conference on Artificial Intelligence (AI 2010). - Ottawa, ON, Canada. - May 2010. -P. 40-50.
10. Mei Q., Ling X., Wondra M., Su H., Zhai C. Topic Sentiment Mixture: Modeling Facets and Opinions in Weblogs // Proceedings of the 16th International Conference on World Wide Web. - 2007. - P. 171-180.
11. Bhowmick P.K., Basu A., Mitra P. Classifying Emotion in News Sentences: When Machine Classification Meets Human Classification // International Journal on Computer Science and Engineering. - 2010. - Vol. 2 (1). - P. 98-108.
12. Agarwal A., Xie B., Vovsha I., Rambow O., Passonneau R. Sentiment Analysis of Twitter Data // Proceedings of the Workshop on Language in Social Media (LSM 2011). - 2011. - P. 30-38.
13. Go A., Bhayani R., Huang L. Twitter Sentiment Classification using Distant Supervision // Association for Computational Linguistics. - 2009. - P. 30-38.
14. Saif H., He Y, Alani H. Alleviating Data Sparsity for Twitter Sentiment Analysis // Workshop: The 2nd Workshop on Making Sense of Microposts (#MSM 2012): Big things come in small packages at World Wide Web (WWW). - Lyon, France, 2012.
15. Pang B., Lee L., Vaithyanathan S. Thumbs up? Sentiment Classification using Machine Learning Techniques // Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP). - 2002. - P. 79-86.
16. Taboada M., Brooke J., Tofiloski M., Voll K., Stede M. Lexicon-Based Methods for Sentiment Analysis // Computational Linguistics. - 2011. - Vol. 37 (2). -P. 267-307.
17. Turney P. Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews // Proceedings of the Association for Computational Linguistics (ACL). - 2002. - P. 417-424.
18. Sebastiani F. Machine learning in Automated Text Categorization // ACM Computing Surveys. - 2002. - Vol. 34. - P. 1-47.
19. He Y. Incorporating Sentiment Prior Knowledge for Weakly Supervised Sentiment Analysis // ACM Transactions on Asian Language Information Processing. - 2012. - Vol. 11(2).
20. Tan S., Wang Y., Cheng X. Combining Learn-Based and Lexicon-Based Techniques for Sentiment Detection without using Labeled Examples // Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR). - 2008. - P. 743-744.
ПРИМЕНЕНИЕ МЕТОДОВ ЛОГИЧЕСКОГО ВЫВОДА В ИНТЕЛЛЕКТУАЛЬНОЙ ОБРАБОТКЕ ТЕКСТОВ
© Котельников Е.В.*, Окулов С.М.Ф
Вятский государственный гуманитарный университет, г. Киров
В докладе представлен подход к решению задачи анализа тональности текстов на основе ДСМ-метода автоматического порождения гипотез. ДСМ-метод обладает рядом преимуществ по сравнению с традиционными методами машинного обучения, не уступая им в характеристиках качества.
1. Введение
В настоящее время развитие методов искусственного интеллекта, компьютерной лингвистики и машинного обучения достигло того уровня, при котором возможна автоматическая интеллектуальная обработка машиночитаемых текстов на естественных языках. Такая обработка приобретает ещё большее значение в контексте развития глобальной сети Интернет и неизбежного увеличения количества текстов.
Важной задачей интеллектуальной обработки текстов является анализ тональности - определение эмоционального отношения, выраженного в тексте. Задача обычно сводится к определению расположения заданного
* Старший научный сотрудник кафедры Прикладной математики и информатики, кандидат технических наук, доцент.
* Декан факультета Информатики, математики и физики, доктор педагогических наук, профессор.