Системный анализ подходов к решению задачи идентификации тональности текста

Горбушин Даниил Андреевич; Гринченков Дмитрий Валерьевич; Мохов Василий Александрович; Нгуен Фук Хау

УДК 004.912

DOI: 10.17213/0321-2653-2016-2-36-41

СИСТЕМНЫЙ АНАЛИЗ ПОДХОДОВ К РЕШЕНИЮ ЗАДАЧИ ИДЕНТИФИКАЦИИ ТОНАЛЬНОСТИ ТЕКСТА

SYSTEMS ANALYSIS OF APPROACHES FOR SOLVING THE PROBLEM OF IDENTIFYING SENTIMENT IN TEXT

Горбушин Даниил Андреевич - инженер, Новочеркасский городской центр новых информационных технологий Южно-Российского государственного политехнического университета имени М.И. Платова, г. Новочеркасск, Россия. E-mail: [email protected]

Гринченков Дмитрий Валерьевич - канд. техн. наук, доцент, зав. кафедрой «Программное обеспечение вычислительной техники» Южно-Российский государственный политехнический университет (НПИ) имени М.И. Платова, г. Новочеркасск, Россия. E-mail: [email protected]

Мохов Василий Александрович - канд. техн. наук, доцент, кафедра «Программное обеспечение вычислительной техники» Южно-Российский государственный политехнический университет (НПИ) имени М.И. Платова, г. Новочеркасск, Россия. E-mail: [email protected]

Нгуен Фук Хау - аспирант, кафедра «Программное обеспечение вычислительной техники», Южно-Российский государственный политехнический университет (НПИ) имени М.И. Платова, г. Новочеркасск, Россия. E-mail: phuchauptit @gmail.com

Gorbushin Daniil Andreevich - engineer of «NovoCNIT», Platov South-Russian State Polytechnic University (NPI), Novocherkassk, Russia. E-mail: [email protected]

Grinchenkov Dmitriy Valerievich - Candidate of Technical Sciences, assistant professor, head of department «Software Computer Engineering», Platov South-Russian State Polytechnic University (NPI), Novocherkassk, Russia. E-mail: [email protected]

Mokhov Vasily Alexavdrovich - Candidate of Technical Sciences, assistant professor, department «Software Computer Engineering», Platov South-Russian State Polytechnic University (NPI), Novocherkassk, Russia. E-mail: [email protected]

Nguyen Phuc Hau - post-graduate student, department «Software Computer Engineering», Platov South-Russian State Polytechnic University (NPI), Novocherkassk, Russia. E-mail: phuchauptit@gmail. com

Рассматривается задача идентификации тональности текста и область научных исследований на представленную тематику. Дано определение и описано функциональное назначение лингвистического процессора как инструмента обработки и тональной классификации текстов на естественном языке. Рассмотрены четыре подхода к созданию лингвистического процессора: лексический, вероятностный, аспектный и гибридный. Проведен сравнительный анализ представленных подходов. Определены и классифицированы факторы, влияющие на качество и точность идентификации и анализа тональности текста.

Ключевые слова: анализ тональности текста; компьютерная лингвистика; лингвистический процессор; машинное обучение.

The article is reviewed the sentiment identification in the text and the area of science researches of that subject. There are described a definition of the concept of linguistic processor and the functionality of linguistic processor as the text processing system and sentiment analysis tool. The article also reviewed four approaches (lexicon-based, probabilistic, aspect-based and hybrid) for the creation of the linguistic processor. Also, it has been performed comparative analysis of the approaches. At the end, it has been identified the factors which is affected on the quality and the accuracy of the sentiment classification.

Keywords: sentiment analysis; computational linguistics; computer science; linguistic processor; machine learning.

Анализ тональности текста (Sentiment Analysis) - класс математических методов обработки текстов на естественном языке (ЕЯ) в целях выявления и изучения эмоциональной составляющей текста. Задача анализа тональности является частной задачей классификации текстов и извлечения информации, которая лежит в области компьютерной (математической) лингвистики (КЛ), возникшей на стыке таких наук, как

лингвистика, математика, информатика (Computer Science) и искусственный интеллект [1].

Сложность задач КЛ связана с тем, что ЕЯ - сложная многоуровневая система знаков, возникшая для обмена информацией между людьми, выработанная в процессе практической деятельности человека и постоянно изменяющаяся в связи с этой деятельностью [2, с. 91]. Другая сложность разработки методов КЛ связана с

многообразием естественных языков, существенными отличиями их лексики, морфологии, синтаксиса, вариативностью выражения смысла.

Создаваемый при решении задачи анализа тональности инструмент обработки текста может быть назван лингвистическим процессором (ЛП). ЛП использует ту или иную формальную модель языка и, следовательно, является так или иначе языково-зависимым [2, с. 91]. Рассмотрим актуальные подходы к решению задачи сентимент-анализа (рис. 1):

1. Лексический подход основан на поиске эмотивной лексики по заранее составленному тональному словарю (словарь оценочных слов) и применении булевых правил, моделирующих грамматики ЕЯ. Следует отметить, что тональные словари зачастую используются и в других подходах, однако основным отличием тональных словарей данного подхода является указание весов или валентности тональных слов, на основе которых рассчитывается общая тональность текста.

2. Вероятностный подход, основной идеей которого является предположение о том, что кортеж слов, образующий тональную единицу в одном тексте, будет обладать такой же тональностью в другом. В основе этого подхода лежат методы машинного обучения с учителем, тренировка классификаторов которых происходит на заранее размеченных экспертами коллекциях. В настоящее время размеченные обучающие выборки отсутствуют в свободном доступе.

3. Аспектный (интеллектуальный) подход. В основе этого подхода лежит анализ мнений и извлечение сущностей или аспектов объекта тональности, которые характеризуют его и, соответственно, могут выражать тональность. При решении задачи извлечения аспектов популярны методы обучения без учителя, не требующие обучающей выборки, при этом тональность может определяться как с помощью тональных словарей, так и статистических методов. Однако в исследовании [3] аспектный подход рассматривается как способ оценки суммарной тональности текста.

4. Гибридный подход, в той или иной мере сочетающий идеи вышеперечисленных подходов.

Рис. 1. Подходы к решению задачи анализа тональности текста

Основные проблемы, возникающие при проектировании и реализации ЛП и существенно влияющие на результаты анализа тональности текста, представлены на рис. 2.

Рис. 2. Проблемные области задачи анализа тональности текста

Рассмотрим подробнее описание каждой из представленных проблем:

1. Первым этапом реализации ЛП является предварительная подготовка, индивидуальная для каждого подхода. Описание и сравнительный анализ этапа предварительной подготовки для каждого из подходов к анализу тональности текста представлен в таблице.

Как видно из таблицы, наиболее трудоемкими в плане предварительной подготовки являются методы аспектного подхода. Тональные словари и обучающие выборки достаточно сложны в составлении, не являются универсальными и привязаны к предметной области.

2. Для большинства подходов характерна классификация на 2, 3 (положительный/отрицательный/смешанный) и 5 классов. Бинарная классификация осуществляется на тестовых коллекциях, из которых вручную, либо с применением специальных алгоритмов, исключаются нейтральные по тональности тексты. Увеличение числа классов влечет за собой прогрессивное снижение точности классификации. Отдельно стоит упомянуть, что коэффициент согласия экспертов (Каппа-коэффициент) при ручной оценке тональности текстов на 5 классов может иметь значение 0,398 [4].

3. Задача определения тональности на уровне предложения является достаточно тривиальной, за исключением анализа коротких предложений, например, из социальной сети Twitter, где длина сообщения ограничена 140 символами. В работе [5] авторы подчеркивают, что короткие тексты сложны для классификации, поскольку лингвистические признаки тональности разнообразны и разрежены. Определение тональности на

уровне текста, состоящего из двух и более предложений, является более сложной задачей, поскольку передаваемое текстом значение несводимо к сумме значений его компонентов [2, с. 44].

Методы статистического подхода в силу своих особенностей определяют тональность текста на основе вероятностной модели, не предоставляя доступа к промежуточным результатам классификации, что влечет трудности в их интерпретации и анализе. Методы лексического и аспектного подходов имеют возможность корректно определить тональность на уровне предложения; на уровне текста тональность вычисляется на основе тональности входящих в него предложений. Однако для методов аспектного подхода характерен смысловой анализ текста и выделение только значимых тональных оценок, что способно значительно повысить точность и качество классификации. Методики определения тональности текста, состоящего из нескольких предложений, приведены на рис. 3.

4. В исследовании [2, стр. 13] указано, что для создаваемых моделей в рамках задач компьютерной лингвистики недостаточно исключительно вычислительных методик оценки эффективности работы и окончательное слово остается за лингвистами. Для математической оценки результатов текстовой классификации разработаны специальные метрики [6], для корректной оценки при классификации на 5 классов требуется 24 метрики [7]. Корректное сравнение точности методов зачастую невозможно ввиду тестирования авторами методов на неидентичных тестовых коллекциях и с использованием различных тональных словарей (тональные словари отсутствуют в свободном доступе).

Сравнительный анализ этапа предварительной подготовки

Подход Этапы предварительной подготовки

Лексический подход - составление тональных словарей с указанием весов слов; - разработка набора правил грамматик ЕЯ

Вероятностный подход - составление и разметка обучающей выборки; - обучение и оценка классификатора

Аспектный подход - разработка алгоритмов извлечения аспектов и их атрибутов из текста; - составление базы знаний аспектов; - разработка алгоритмов идентификации мнения и его ориентации; - составление тональных словарей и набора правил грамматик ЕЯ или составление и разметка обучающей выборки в зависимости от выбранного метода тональной классификации

5. С точки зрения математического анализа текст на ЕЯ представляет собой массив неструктурированной информации, однако с точки зрения лингвистики текст имеет одномерную, линейную структуру, а также несет определенный смысл, язык же выступает как средство преобразования передаваемого смысла в тексты (синтез речи) и наоборот (анализ речи) [2, с. 91].

Парсинг текста с целью выделения компонентов является достаточно тривиальной задачей, однако дальнейший анализ получившегося набора затруднен разнообразием морфологических характеристик отдельных слов [8]. Помимо этого, в текстах часто встречаются синонимы, омонимы, сокращения, специальная лексика и т.п., способные существенно повлиять на качество классификации. Для публикаций в сети Интернет также остро стоит проблема орфографических и пунктуационных ошибок. Для решения данной проблемы применяются специализированные программные средства, проводящие предварительную обработку текста.

6. В работе [9] дается определение субъективности информации - это текст, выражающий чье-либо мнение или чувства, в то время как

объективный текст выражает факт и не содержит тональной оценки. Авторы приходят к выводу, что исключение объективных предложений из текста способно на порядок повысить точность и качество тональной классификации.

7. Тональность выражается по отношению к объекту эмоциональной оценки, называемому объектом тональности. Таким объектом может быть имя собственное, название продукта, организации, услуги и т.п. Объект эмоциональной оценки может быть задан как один в целом для текста (с учетом его синонимических и анафорических употреблений), так и определяться в предложениях как любое имя собственное или нарицательное. Лицо, выражающее тональность, называется субъектом тональности и в его роли может выступать автор текста, цитаты, прямой или косвенной речи. В случае цитаты, например, субъект может выражать негативную эмоциональную оценку по отношению к объекту, в то время как мнение автора, имеющее ключевое значение, может иметь положительную оценку. Для наглядности на рис. 4 представлено предложение, содержащее различные тональные оценки.

Рис. 3. Методики определения тональности на уровне текста

Характеристика атрибута

i

Характеристика атрибута

Мне очень понравился этот телефон: большой экран и хорошая камера.

Субъект тональности

Тональная оценка

Объект тональности (аспект)

Атрибут аспекта

Рис. 4. Разбор тонального предложения

Таким образом, понятия мнения и тональности текста неразрывно связаны. Для решения задачи анализа мнения необходимо обладать большим количеством вспомогательных знаний об объектах и их атрибутах, оценочных словах и выражениях, а также владельцах мнений - в виде специализированной базы данных [10]. Методики создания инструментов анализа мнений представляют собой отдельную область исследований - извлечение и анализ мнений (opinion mining).

8. Каждая предметная область может иметь свойственную только ей оценочную лексику и, как результат, математический метод может давать разные результаты на тестовых коллекциях различной тематики [10]. Например, слово «большой» имеет негативную тональность по отношению к габаритам фотоаппарата и положительную по отношению к объему памяти жесткого диска. На практике это означает необходимость создания тренировочных коллекций, тональных словарей и правил под заданную тематику, что является трудоемкой задачей.

На основе вышеизложенного можно сделать вывод, что наибольший научный интерес с точки зрения улучшения точности анализа представляет статистический подход, а с точки зрения улучшения качества - аспектный. Лингвистический подход по своей сути не обладает никакими интеллектуальными особенностями, поскольку формализует уже накопленные лингвистические знания, однако используемые в данном подходе правила могут успешно применяться в других подходах с целью повышения точности классификации.

Для анализа коротких текстов (одно предложение) наиболее эффективны лингвистический и аспектный подходы, а также некоторые методы статистического подхода. Для анализа больших текстов на данный момент наиболее эффективны статистические методы.

Проблемой статистических методов является составление тренировочного корпуса с примерами из предметной области, в которой будет использоваться классификатор. Однако схожей проблемой обладают и методы лингвистического

подхода: веса терминов словаря, составленного для одной предметной области, могут оказаться неадекватными для другой. Для лингвистического подхода также характерна проблема, заключающаяся в необходимости постоянного дополнения и обновления набора правил, тщательная подготовка текста и устранение опечаток и ошибок, существенно влияющих на точность анализа. Подготовительный этап методов статистического подхода является наименее трудоемким. Основной проблемой аспектного подхода является трудоемкость составления алгоритмов извлечения сущностей и составления онтологий, создание необходимой базы знаний об аспектах объектов, которая также зависит от предметной области.

Литература

1. Горбушин Д.А. Анализ методов автоматической классификации тональности текста // Науч.-техн. копф. и выставка инновационных проектов, выполненных вузами и научными организациями ЮФО в рамках участия в реализации федеральных целевых программ и внепрограммных мероприятий, заказчиком которых является Mинобрнауки России : сб. материалов копф., г. Новочеркасск, 14 - 16 дек. 2014 г. / Юж.-Рос. гос. политехн. ун-т им. M.H Платова. Новочеркасск: Лик, 2014. С. 123 -125.

2. Автоматическая обработка текстов па естественном языке и компьютерная лингвистика: учеб. пособие / Е.И. Большакова, Э.С. Клышинский, Д.В. Лапдэ, А.А. Носков, О.В. Пескова, Е.В. Ягунова. M.: MH3M, 2011. 272 с.

3. Collomb A. A Study and Comparison of Sentiment Analysis Methods for Reputation Evaluation [Электронный ресурс] / C. Costea, D. Joyeux, O. Hasan, L. Brunie // Отчет об исследовании RR-LIRIS-2014-002. 2014. http://liris.cnrs.fr/ Documents/Liris- 6508.pdf (Дата обращения: 07.03.2016).

4. Лукашевич Н.В., Четверкин И.И., Браславский П.И. Sentiment Analysis Track at ROMIP 2011 // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Mеждунар. копф. «Диалог» (Бекасо-во, 30 мая - 3 июня 2012 г.). M.: Изд-во РГГУ, 2012. Т. 2, С. 1 - 14.

5. Awadallah R. PolariCQ: Polarity Classification of Political Quotations In Proceedings of CIKM-2012 / M. Ramanath, G. Weikum // Conference on Information and Knowledge Management. 2012. P. 1945 - 1949.

6. Горбушин Д.А., Гринченков Д.В. Mетоды оценки качества анализа тональности текста // Традиции русской ин-жеперпой школы: вчера, сегодня, завтра. Новочеркасск: ЮРГПУ, 2015.

7. Sokolova M., Lapalme G. A systematic analysis of performance measures for classification tasks // Inf. Process. Manage. 2009. № 4. C. 427 - 437.

8. Горбушин Д.А., Гринченков Д.В. Особенности применения алгоритмов стемминга при анализе тональности текста // Теория, методы проектирования, программно-техническая платформа корпоративных информацион-

ных систем. Новочеркасск: ЮРГПУ, 2014. C. 22 - 24.

9. Pang B., Lee L. Opinion Mining and Sentiment Analysis // Foundations and Trends in Information Retrieval. 2008. Vol. 2, № 1-2, January, P. 1 - 135.

10. Четверкин И.И. Автоматизированное формирование базы знаний для задачи анализа мнений: дис. ... канд. физмат. наук. Москва, МГУ имени М.В. Ломоносова, 2013.

References

1. Gorbushin D.A. [The analysis of methods of automatic classification of a tonality of the text]. Nauchno-tekhnicheskaya konfer-entsiya i vystavka innovatsionnykh proektov, vypolnennykh vuzami i nauchnymi organizatsiyami YuFO v ramkakh uchastiya v realizatsii federal'nykh tselevykh programm i vneprogrammnykh meropriyatii, zakazchikom kotorykh yavlyaetsya Minobrnauki Rossii: sbornik materialov konferentsii [Scientific and technical conference and an exhibition of the innovative projects executed by higher education institutions and the scientific organizations of the Southern Federal District within participation in implementation of federal target programs and extra program actions which customer is the Ministry of Education and Science of the Russian Federation: collection of materials of conference]. Novocherkassk, Lik Publ., 2014, pp. 123-125. [In Russ.]

2. Bol'shakova E.I., Klyshinskii E.S., Lande D.V., Noskov A.A., Peskova O.V., Yagunova E.V. Avtomaticheskaya obrabotka tek-stov na estestvennom yazyke i komp'yuternaya lingvistika [Automatic processing of texts in a natural language and computational linguistics]. Moscow, MIEM Publ., 2011, 272 p.

3. Collomb A., Costea C., Joyeux D., Hasan O., Brunie L. A Study and Comparison of Sentiment Analysis Methods for Reputation Evaluation. Available at: http://liris.cnrs.fr/Documents/Liris-6508.pdf. (accessed: 07.03.2016).

4. Lukashevich N.V., Chetverkin I.I., Braslavskii P.I. [Sentiment Analysis Track at ROMIP 2011]. Komp'yuternaya lingvistika i intellektual'nye tekhnologii: Po materialam ezhegodnoi Mezhdunarodnoi konferentsii «Dialog» [Computational linguistics and intellectual technologies: On materials of the annual International Dialogue conference]. Moscow, Izd-vo RGGU, 2012, vol. 2, pp. 1-14. [In Russ.]

5. Awadallah R., Ramanath M., Weikum G. PolariCQ: Polarity Classification of Political Quotations In Proceedings of CIKM-2012 // Conference on Information and Knowledge Management.- 2012. pp. 1945-1949.

6. Gorbushin D.A., Grinchenkov D.V. Metody otsenki kachestva analiza tonal'nosti teksta [Methods of an assessment of quality of a sentiment analysis]. Traditsii russkoi inzhenernoi shkoly: vchera, segodnya, zavtra, Novocherkassk, YuRGPU Publ., 2015. [In Russ.]

7. Sokolova M., Lapalme G. A systematic analysis of performance measures for classification tasks // Inf. Process. Manage. 2009. vol 4. pp. 427-437.

8. Gorbushin D.A., Grinchenkov D.V. Osobennosti primeneniya algoritmov stemminga pri analize tonal'nosti teksta [Features of application of algorithms of a stemming at a sentiment analysis]. Teoriya, metodyproektirovaniya, programmno-tekhnicheskaya platforma korporativnykh informatsionnykh system, Novocherkassk, YuRGPU Publ., 2014, pp. 22-24. [In Russ.]

9. Pang B., Lee L. Opinion Mining and Sentiment Analysis // Foundations and Trends in Information Retrieval, 2008. vol. 2 n.1-2, January, pp.1-135.

10. Chetverkin I.I. Avtomatizirovannoe formirovanie bazy znanii dlya zadachi analiza mnenii. Diss. kand. fiz-mat. nauk [The automated formation of the knowledge base for a task of the analysis of opinions. Cand. phys. and math. sci. dis.]. Moscow, MGU imeni M.V. Lomonosova, 2013.

Поступила в редакцию 19 апреля 2016 г.

Системный анализ подходов к решению задачи идентификации тональности текста Текст научной статьи по специальности «Компьютерные и информационные науки»

SYSTEMS ANALYSIS OF APPROACHES FOR SOLVING THE PROBLEM OF IDENTIFYING SENTIMENT IN TEXT

Текст научной работы на тему «Системный анализ подходов к решению задачи идентификации тональности текста»