Научная статья на тему 'Анализ тональности текста: современные подходы и существующие проблемы'

Анализ тональности текста: современные подходы и существующие проблемы Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
4597
678
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АНАЛИЗ ТОНАЛЬНОСТИ / ИЗВЛЕЧЕНИЕ МНЕНИЙ / СУБЪЕКТИВНОСТЬ / ОЦЕНКА / АВТОМАТИЧЕСКАЯ ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА / SENTIMENT ANALYSIS / OPINION MINING / SUBJECTIVITY / ASSESSMENT / NATURAL LANGUAGE PROCESSING

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Семина Т. А.

Статья посвящена обзору работ по анализу тональности, одному из актуальных направлений автоматической обработки естественного языка. В настоящее время можно говорить об анализе тональности как об отдельном направлении компьютерной лингвистики. Приводятся основные термины, связанные с данной теорией, дается краткое описание возникновения анализа тональности, описываются уровни проведения анализа тональности (уровень документа, предложения, аспектов, сущностей и событий) и подходы к созданию систем. В статье представлены проблемы, связанные с проведением анализа тональности, включающие в себя выявление имплицитной оценки, сарказм и иронию, вопросы дизамбигуации, монотематичности систем, кореферентности и референции. Представлены компьютерные подходы к улучшению результатов работы программ анализа тональности, но большее внимание уделено лингвистическим подходам. Рассматриваются вопросы создания специальных лингвистических ресурсов для анализа тональности, таких как корпусы и лексиконы, кроме того, представлены теории, связанные с синтаксическими отношениями, риторической структурой текста и добавлением блока правил.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SENTIMENT ANALYSIS: MODERN APPROACHES AND EXISTING PROBLEMS

The paper is devoted to the review of scientific works on sentiment analysys, that is one of the most relevant fields of natural language processing. Nowadays sentiment analysis may be considered as a separate area of computational linguistics. The main terms related to this sphere and a brief history are given, levels of sentiment analisis (document level, sentence level, aspect level, entity and events levels) are described. The paper states the problems associated with sentiment analysis, including the identification of implicit sentiment, sarcasm and irony, issues of disambiguation, monothematic design of the systems, coreference and reference. Computational approaches to improving the performance of sentiment analysis programs are presented, but more attention is paid to linguistic ones. The issues of creating special linguistic resources for sentiment analysis, such as corpora and lexicons, are considered, in addition, theories related to syntactic relations, the rhetorical structure of the text and the addition of a rules are presented.

Текст научной работы на тему «Анализ тональности текста: современные подходы и существующие проблемы»

ревень на границах регионов, которые вполне могут понимать своих соседей.

Кроме того, необходимо избегать идеи оппозиции «испанского Испании» и «испанского Латинской Америки». В рамках проведения политики популяризации испанского языка в мире нужно избежать идеи Испании как центра испаноязычной культуры и заменить ее идеей паниспанизма.

Автор статьи отмечает увеличение количества китайских студентов, изучающих испанский язык. В период с 2001 по 2006 г. их число с 1540 человек выросло втрое, а в 2016 г. уже 15 000 студентов официально обучались испанскому языку.

Таким образом, несмотря на свой мощный потенциал, испанский язык сталкивается с рядом вызовов на пути к своему дальнейшему распространению и укреплению. Скрытая языковая политика, проводимая правительством Испании, позволяет защищать позиции официального языка государства, избегая при этом критики в свою сторону. Несомненно, поддержание языкового баланса и поддержка носителей испанского языка является необходимой задачей государства. В то же время стоит помнить о том, что в эпоху глобализации распространение языка в первую очередь зависит от того, дает ли он своим носителям больше шансов на улучшение уровня жизни. В таком случае именно сильная экономика и широкое международное влияние делают язык привлекательным для населения.

Е.В. Майорова

ПРИКЛАДНОЕ ЯЗЫКОЗНАНИЕ. ПЕРЕВОД, ПЕРЕВОДОВЕДЕНИЕ

2020.04.008. СЕМИНА ТА. АНАЛИЗ ТОНАЛЬНОСТИ ТЕКСТА: СОВРЕМЕННЫЕ ПОДХОДЫ И СУЩЕСТВУЮЩИЕ ПРОБЛЕМЫ1.

SEMINA T.A. Sentiment analysis: Modern approaches and existing problems.

Аннотация. Статья посвящена обзору работ по анализу тональности, одному из актуальных направлений автоматической

1 © Семина Т.А., 2020

обработки естественного языка. В настоящее время можно говорить об анализе тональности как об отдельном направлении компьютерной лингвистики. Приводятся основные термины, связанные с данной теорией, дается краткое описание возникновения анализа тональности, описываются уровни проведения анализа тональности (уровень документа, предложения, аспектов, сущностей и событий) и подходы к созданию систем. В статье представлены проблемы, связанные с проведением анализа тональности, включающие в себя выявление имплицитной оценки, сарказм и иронию, вопросы дизамбигуации, монотематичности систем, ко-референтности и референции. Представлены компьютерные подходы к улучшению результатов работы программ анализа тональности, но большее внимание уделено лингвистическим подходам. Рассматриваются вопросы создания специальных лингвистических ресурсов для анализа тональности, таких как корпусы и лексиконы, кроме того, представлены теории, связанные с синтаксическими отношениями, риторической структурой текста и добавлением блока правил.

Abstract. The paper is devoted to the review of scientific works on sentiment analysys, that is one of the most relevant fields of natural language processing. Nowadays sentiment analysis may be considered as a separate area of computational linguistics. The main terms related to this sphere and a brief history are given, levels of sentiment analisis (document level, sentence level, aspect level, entity and events levels) are described. The paper states the problems associated with sentiment analysis, including the identification of implicit sentiment, sarcasm and irony, issues of disambiguation, monothematic design of the systems, coreference and reference. Computational approaches to improving the performance of sentiment analysis programs are presented, but more attention is paid to linguistic ones. The issues of creating special linguistic resources for sentiment analysis, such as corpora and lexicons, are considered, in addition, theories related to syntactic relations, the rhetorical structure of the text and the addition of a rules are presented.

Ключевые слова: анализ тональности; извлечение мнений; субъективность; оценка; автоматическая обработка естественного языка.

Keywords: sentiment analysis; opinion mining; subjectivity; assessment; natural language processing.

Анализ тональности как направление компьютерной лингвистики берет начало в последней декаде XX в., и сейчас является одним из самых активно развивающихся видов автоматического анализа естественного языка.

Анализ тональности, несмотря на связь с теорией оценочно-сти и эмотивности, относится к группе прикладных или компьютерных задач. Цель подобного анализа состоит в автоматическом выделении в тексте тонального компонента высказывания, включающего в себя автора мнения, которого обычно называют субъектом или источником, объект, по отношению к которому выражено мнение, и тональность, представляющую собой полярность оценки [Семина, 2017].

Термин анализ тональности (англ. sentiment analysis) начал применяться начиная с 2003 г. Одной из первых работ, в которой появился данный термин, была работа Т. Насукавы и Дж. Йи [Nasukawa, Yi, 2003], где исследовалось извлечение мнений по отношению к заданному предмету. В этом же году вышла работа K. Дейва, С. Лоуренса и Д.М. Пеннока [Dave, Lawrence, Pennock, 2003], в которой авторы говорили об «извлечении мнений» (англ. opinion mining) из отзывов о товарах. Тем не менее работы по анализу тональности и извлечению мнений начались за несколько лет до того, как были установлены данные термины, раньше такой анализ был связан с понятием семантической ориентации и анализом субъективности. Одной из первых работ по анализу тональности можно считать работу Дж. Виби о выявлении точки зрения персонажей художественной литературы. Целью работы была автоматическая классификация фрагментов текстов на объективные и на фрагменты, в которых выражено мнение или эмоции одного из персонажей художественного произведения [Wiebe, 1994]. Позже объектом исследовательского интереса стала семантическая ориентация прилагательных [Hatzivassiloglou, McKeown, 1997; Hatzivassiloglou, Wiebe, 2000; Wiebe 2000]. Дж. Виби, Р. Брюс и Т. О'Хара начали тестировать применение статистических методов к анализу субъективности [Wiebe, Bruce, O'Hara, 1999].

Анализ тональности начал активно развиваться после появления крупных сайтов с кинорецензиями и отзывами, это связано с особенностью необходимого языкового материала для анализа тональности. В упомянутой ранее работе Дж. Виби [Wiebe, 1994] исследование проводилось на художественных произведениях, но автоматический анализ текстов такого рода не представлял интереса для широкой аудитории. С развитием сети Интернет, появлением новых пользователей и сайтов стали генерироваться большие объемы текстовых данных, содержащих оценку, и, в связи с этим возникла необходимость в их обработке. Нужно отметить, что анализ тональности применяется в тех случаях, когда невозможна ручная обработка текстов человеком, что возникает при большом объеме данных. Человек способен прочитать несколько текстов и определить в них оценку и тональность, в то время как программа за это время обработает тысячи текстов, хоть и с меньшей точностью.

Сам термин «тональность» не полностью соответствует понятиям «мнение» и «оценка». Раньше было принято выделять субъективные и объективные фрагменты текста, но всегда следовала оговорка о неравнозначности тональности и субъективности. Термин «тональность» менялся, подстраиваясь под новый материал, который становился объектом исследования, все дальше уходя от термина «субъективность». Классической задачей анализа тональности можно назвать анализ кинорецензий и отзывов на товары, первые крупные исследования и эксперименты проводились на этом материале. Кроме того, рецензия и отзыв как жанр подразумевают наличие мнения автора по отношению к продукту, следовательно, и тональность будет представлена в каждом из них. Кинорецензии как материал для анализа тональности не имеют большой практической ценности, но они послужили отправной точкой для развития систем анализа тональности и показали их потенциальные возможности.

Развитие сети микроблогов Twitter привело к появлению большого числа работ по анализу тональности этого материала. В компьютерных науках и компьютерной лингвистике проводится немало соревнований в различных областях, которые позволяют исследовательским группам высших учебных заведений, научных лабораторий и коммерческих компаний представить свое решение отдельных прикладных задач. Многие соревнования по анализу

тональности, в том числе SentiRuEval, проходящий в России, в обучающую и тестовые выборки добавляют именно твиты. Twitter оказался очень удачным источником для проведения анализа тональности, поскольку расширил потенциальные темы текстов. В Twitter есть как собственно отзывы, так и материалы, где высказывается мнение о различных персонах, событиях или объектах, что расширило возможности применения анализа тональности, например, для выявления мнения пользователей о политиках с возможностью регулярного мониторинга изменения тональности. Подобный проект реализует Sentdex.com, где собирают большое число данных о выделенных темах (война, система здравоохранения и т.д.) и об отдельных людях, постоянно подгружаются новые данные и можно просмотреть, как менялась тональность с течением времени. Этот сайт использует не только данные Twitter, но и публикации на различных новостных порталах. Новостные статьи как материал для анализа тональности выделяются среди остальных, поскольку тональность в них крайне далека от обыденного понимания термина «мнение». Тональность в новостных статьях скорее определяется как действие, положительно или отрицательно влияющее на некоторый объект, субъектом считается агент действия, объектом - экспериенцер.

Как было сказано ранее, целью анализа тональности является выделение в тексте тональных компонентов, но это может проводиться на разных уровнях. Под уровнем анализа тональности понимается единица, из которой выделяется одно мнение. Можно выделить уровень документа, предложения, аспектов, сущностей и событий. Выбор уровня анализа напрямую связан с материалом исследования и с поставленной задачей.

Под уровнем документа понимается анализ всего текста, выделение в нем одного субъекта (обычно совпадает с автором), одного объекта и, самое главное, одной тональности. Качественный анализ на этом уровне возможен при относительно небольшом объеме текста, как, например, у твитов, или при анализе текстов с сильно выраженной тональностью, как у отзывов или рецензий. Систем, работающих на этом уровне, немало, и они имеют в основе разные подходы.

Анализ на уровне предложений подразумевает деление исходного текста на предложения и анализ каждого из них отдельно.

После чего можно представить общую тональность для всего текста, применив правила. Стоит отметить, что анализ на этом уровне не так популярен, из доступных систем он есть в пакете Vader Sentiment в библиотеке Natural Language Tool Kit для языка программирования Python.

Анализ на уровне аспектов дает больше информации об отношении пользователей не к объекту в целом, а к его «аспектам» -отдельным компонентам объекта, которые могут иметь собственную тональность. Аспекты объекта «смартфон» могут включать в себя аспекты «камера», «операционная система», «дисплей» и т.д., иными словами, к аспектам отнесут те понятия, по отношению к которым в тексте может быть выражена тональность. Для сферы кино Т. Тхет, Дж. На и К. Кху [Thet, Na, Khoo, 2010, S. 828] выделили следующие аспекты: cast, director, story, scene, music; для каждого аспекта были представлены термины, которые могут быть отнесены к каждому из аспектов. Выделение тональности по отношению к аспектам, а не к объекту в целом, является востребованной задачей в интеллектуальном анализе данных, потому что в тексте может быть выражена положительная тональность по отношению к одному аспекту, но отрицательная по отношению к другому, и для некоторых задач это является важным фактором. Анализ тональности на этом уровне осложняется необходимостью составления списка аспектов и последующего соотнесения найденной тональности и выделенных аспектов. Составление списка нередко выполняется вручную экспертами, а для последующего анализа каждому аспекту могут приписать список терминов, которые в тексте могут быть репрезентацией аспекта.

Анализ на уровне сущностей является более сложным подходом, для начала стоит определить, что понимается под сущностью. Как правило, сущностью являются так называемые именованные сущности (Named Entities) - слова и словосочетания, имеющие строго определенного референта. Примерами именованных сущностей являются люди, локации, геополитические организации, средства массовой информации и т.д. Появление анализа тональности на уровне сущностей можно связать как с развитием и доступностью систем выделения именованных сущностей, так и с обращением интереса исследователей к текстам новостных статей, в которых именно такого рода анализ может дать большое ко-

личество информации. Анализ на этом уровне является одним из наиболее сложных, доступных систем пока нет. Сложность определяется необходимостью выделения сущностей, дальнейшего установления тональных отношений между ними с определением полярности оценки. Анализ тональности на уровне сущностей имеет серьезное отличие от других уровней: автор текста не всегда будет субъектом всех тональностей, сущности в тексте также могут быть субъектами мнения.

Как отдельный уровень выделяется уровень событий, хотя на самом деле от анализа тональности на уровне сущностей он мало чем отличается. Более того, «событие» может быть видом именованной сущности, следовательно, и процесс выделения тональности на этом уровне практически не отличается от представленного выше.

Методы анализа тональности не претерпели серьезных изменений во время развития этого направления. Обычно в анализе тональности выделяют подходы:

- основанный на правилах, имеет в основе набор правил, написанных экспертом-лингвистом. Подход достаточно трудоемкий, и успешность применения зависит от многих факторов, в том числе материала анализа;

- основанный на словарях, для выявления тональности использует различные тональные лексиконы. Этот подход можно назвать одним из самых простых, потому что он сводится к выявлению тональных единиц в тексте, что довольно просто при наличии лексикона, и последующего их подсчета;

- основанный на машинном обучении, наиболее широко распространен в анализе тональности. Машинное обучение - подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных к обобщению и обучению. Традиционно в машинном обучении выделяют задачи обучения с учителем, обучения без учителя и регрессии, но в анализе тональности широко используется только первый тип алгоритмов. Это связано с особенностями регрессии и неприменимостью результатов регрессионного анализа для выявления мнений (применяется только логистическая регрессия, которая на самом деле является линейным классификатором). Обучение без учителя применяется нечасто, поскольку кластеризация, т.е. объединение документов в кластеры

на основе метрик расстояния между ними, для анализа тональности редко дает хорошие результаты;

- гибридный, позволяет использовать одновременно несколько подходов, например машинное обучение может получать в качестве признаков не слова, а количество единиц, входящих в тональные лексиконы.

Перечисленные методы являются стандартными для интеллектуального анализа текста, при машинном обучении анализ тональности сводится к обычной классификации.

Проблемы анализа тональности

Анализ тональности, как и любой вид анализа естественного языка, имеет ряд сложно решаемых проблем.

Одной из наиболее сложных проблем считается выделение имплицитной оценки. Деление мнения на имплицитное и эксплицитное типично для анализа тональности, но раньше имплицитную оценку часто опускали и не рассматривали как объект исследования из-за сложной реализации анализа. Эксплицитная оценка в тексте выражена отдельным тональным высказыванием - словом или словосочетанием, явно выражающим тональность, это делает ее доступной для автоматического анализа. Имплицитная тональность очевидна для человека, но трудно формализуема при автоматической обработке.

Выделение иронии и сарказма является проблемой не только анализа тональности, но и многих других систем обработки естественного языка. Системы обработки текста оперируют графемами и словоформами, и обучить их улавливать смысл ироничных высказываний возможно только в небольшой степени.

Проблемой анализа тональности можно назвать и монотема-тичность отдельных систем. При разработке итогового продукта или обучают программу на выборке текстов определенной тематики, или учитывают характеристики текстов при написании алгоритма. Система, обученная на корпусе кинорецензий, не будет показывать высокие результаты при определении тональности, например, отзывов о мобильных телефонах из-за разной лексики, свойственной этим видам текстов.

Анализ тональности сталкивается и с проблемами, свойственными всем видам анализа текстов, таким как необходимость дизамбигуации и разрешения референции.

Дизамбигуация или разрешение многозначности далеко не всегда становится вопросом исследования, связанным с анализом тональности, но при использовании отдельных ресурсов она будет необходима. Для тезауруса Wordnet была проведена разметка тональности для отдельных синсетов, главных элементов этого тезауруса, и проект SentiWordnet [Baccianella, Esuli, Sebastiani, 2010] теперь входит в библиотеку Natural Language Tool Kit. Необходимость проведения дизамбигуации связана с разной тональностью значений одного слова.

Сложность представляют и проблемы референции и корефе-ренции. При анализе тональности для местоимений нужно устанавливать их антецеденты для верной интерпретации оценки, и неточные результаты разрешения референции могут привести к потенциальным ошибкам в анализе тональности. Проблема коре-ференции может решаться различными способами, или при помощи графа знаний, или при помощи дополнительных правил и составленных списков кореферентных элементов. Кореференция не ведет к серьезным проблемам с выделением мнений, но установление эквивалентности единиц позволит убрать дублирующиеся тональности.

Современные подходы

Анализом тональности занимаются специалисты в области компьютерных наук и лингвисты, и с каждым годом количество статей на тему извлечения мнений не снижается. Существующие подходы не меняются, но претерпевают изменения и развиваются. Все новые идеи в анализе тональности можно разделить на две группы: изменения, связанные с применением новых алгоритмов машинного обучения, и изменения, связанные с внедрением новых лингвистических теорий и созданием новых лингвистических ресурсов. Несомненно, вторая группа интересует нас больше, но нельзя не сказать и об изменении в арсенале методов машинного обучения, применяемых в сфере анализа тональности.

За последние годы арсенал методов машинного обучения значительно расширился и продолжает расширяться. Если около пяти лет назад чаще всего можно было встретить работы, в которых основным был метод опорных векторов (Support Vector Machine), один из наиболее точных линейных классификаторов, то сейчас все чаще применяются различные нейронные сети: сети прямого распространения, рекуррентные и сверточные сети. Этому способствовало развитие этой отрасли, повлекшее за собой появление крупных библиотек с нейросетями, таких как TensorFlow или Keras, обе вышли в 2015 г. Кроме того, применяются другие методы компьютерного анализа текста, в том числе тематическое моделирование.

Лингвистические новые подходы носят, стоит отметить, более разнообразный характер.

Одним из них является создание новых ресурсов для анализа тональности. Типовыми ресурсами можно назвать корпусы и тональные лексиконы, конечно, созданные для различного материала. Разметка корпуса для анализа тональности нетипична, так как для различных единиц должна быть указана тональность, поэтому обычно требуется ручная разметка, тем не менее в ряде случаев удается автоматизировать этот процесс. Для сравнения рассмотрим небольшое число корпусов для английского языка в табл. 1 [Семина, 2019].

Таблица 1

Название Объем Тексты

Movie Review Dataset 2000 документов Кинорецензии

Sentiment Relevance Corpus 125 документов 3847 предложений Кинорецензии

Sanders Twitter Dataset 5387 документов Twitter

Health Care Reform Dataset 1,922 документа Twitter

Stanford Twitter Sentiment 1 200 000 документов Twitter

MPQA v 3.0 70 документов Новостные статьи

Из данных, представленных в таблице, видно, что объем корпусов различается - если корпус новостных статей собран из 70 документов, то для Twitter число документов превышает миллион. Конечно, это связано и с объемом отдельного документа, и с глубиной разметки.

Другим важным лингвистическим ресурсом для анализа тональности является тональный лексикон. Тональный лексикон включает в себя тональные единицы языка, имеющие метку полярности оценки. При этом к созданию тональных лексиконов применяют разные подходы, часто они собираются автоматически. Выделяют несколько подходов к созданию тонального лексикона: ручной, основанный на словаре и основанный на корпусе текстов [Kochergina, 2015].

Тональные словари можно разделить на три вида:

1) содержащие только слова;

2) содержащие слова и полярность оценки;

3) содержащие слова, полярность и уровень оценки [Araque, Zhu, Iglesias, 2019].

Для английского языка представлено несколько тональных лексиконов, например SentiWordnet [Baccianella, Esuli, Sebastiani, 2010], LIWC [Tausczik, Pennebaker, 2010], NTU [Chen, Huang, Chen, 2018] и the Harvard inquirer [The general inquirer, 1966].

Для русского языка в свободном доступе находится РуСен-тиЛекс [Лукашевич, Левчик, 2016], кроме того, русский язык входит в пакет списков оценочных слов, собранный Й. Ченом и С. Скиеной [Chen, Skiena, 2014].

Существует и ряд нетипичных лингвистических ресурсов, созданных для анализа тональности, одним из них являются тональные фреймы. Тональный фрейм включает в себя лексическую единицу и подробную информацию, связанную с тональными отношениями между слотами фрейма, в том числе тональные отношения. Также прописывается возможное грамматическое окружение для поиска этого фрейма и установления тональных отношений. Такие ресурсы позволяют частично выделять имплицитную тональность, поскольку фрейм может содержать подробные отношения между слотами. Недостатком подхода является трудоемкость и невозможность охватить большое количество лексики и все возможные окружения.

Работа с синтаксическим уровнем языка

Интересным и важным является внедрение синтаксической информации в анализ. Тональность относится не только к семан-

тике, как компонент значения отдельных единиц, но и к прагматике высказывания, поэтому для максимально точного выделения тональности необходимо, начиная с графематического уровня пройти все уровни языка, чтобы дойти до тональности.

Синтаксическая информация может дополнять машинное обучение, положительно влияя на качество работы системы. При подобном подходе при обучении системы синтаксические характеристики войдут в число признаков, так в машинном обучении принято называть характеристики, при помощи которых описывается объект. Могут использоваться и синтаксические отношения, что в ряде задач будет давать лучшие результаты [Адаскина, Па-ничева, Попов, 2015].

Другим подходом является создание тональных корпусов с синтаксической разметкой, их можно назвать тональными трибан-ками. Группа исследователей университета Стэнфорд представила корпус Stanford Sentiment Treebank, объем которого составляет 9645 предложений [Recursive deep models for semantic compositio-nality over a sentiment treebank, 2013]. Предложения в корпусе имеют метку полярности на каждой вершине, при продвижении по дереву на каждой вершине метка зависит от показателей вершин под ней. Этот корпус используется для создания систем анализа тональности для английского языка и может использоваться совместно с разными методами автоматической классификации.

Если описанные ранее подходы к привлечению синтаксической информации были связаны с одной из теорий: грамматики непосредственных составляющих или грамматики зависимостей, то в рамках автоматической обработки возможна их комбинация. Сочетая эти способы представления структуры, можно нивелировать недостатки друг друга в извлечении оценочных выражений [Effective Sentiment Analysis of Chinese Online Reviews with Syntax Tree and Linguistics Heuristics, 2013, p. 10].

Это не единственные способы внедрения синтаксической информации в анализ тональности, кроме того, подробные синтаксические данные, которые представляют грамматика непосредственных составляющих и грамматика зависимостей, не всегда необходимы. П.Д. Турни занимался проблемой синтаксических паттернов, что можно назвать простым, но эффективным подходом к решению задачи добавления синтаксической информации.

Паттерн Турни состоит из трех элементов, соответствующих словам естественного языка, третий элемент не относится к тональному паттерну и необходим для более точного выделения паттерна [Титеу, 2002, S. 418]. Позже идея получила развитие, и паттерны были дополнены синтаксическими метками Стэнфорда, что значительно облегчало их применение [Almatameh, Gamallo, 2017]. В табл. 2 метки были заменены на эквивалентные им части речи.

Таблица 2

Первое слово Второе слово Третье слово

прилагательное существительное любое

наречие (может быть в сравнительной или превосходной степени) прилагательное не существительное

прилагательное прилагательное не существительное

существительное прилагательное не существительное

наречие (может быть в сравнительной или превосходной степени) глагол (начальная форма, форма прошедшего времени, форма причастия прошедшего времени, герундий) любое

Паттерны, представленные в работе П.Д. Турни, и в целом подобный подход к адаптации синтаксической информации для интеллектуального анализа, несомненно, не покрывают все возможные случаи представления тональных единиц в тексте. Тем не менее они являются более простыми в создании и применении и могут оказать положительное влияние на результат работы системы.

Привлечение теории риторической структуры

Дискурс как уровень языка редко становится объектом машинного анализа из-за сложностей, возникающих в процессе реализации, тем не менее он может быть полезен при анализе мнений. Идея привлечения теории риторической структуры дискурса к анализу тональности не нова, работы стали появляться с 2011 г., но эта идея не получила широкого распространения.

Несмотря на разные подходы к воплощению отдельных компонентов алгоритма, основной подход встречается во всех статьях: разбиение текста на элементарные дискурсивные единицы (ЭДЕ) и дальнейшее их объединение в древовидную структуру.

Системы такого рода дают хорошие результаты с f-мерой (одна из метрик для определения качества классификации имеет значения от 0 до 1) выше 0,7 [Polarity analysis of texts using discourse structure, 2011]. Более высокий результат показала система М. Крауса и С. Файерригеля [Kraus, Feuerriegel, 2019], также основанная на первоначальном анализе дискурса в рамках теории риторической структуры. Кроме того, возможно привлечение глубоких нейросе-тевых моделей, например рекуррентных нейронных сетей [Bhatia, Ji, Eisenstein, 2015].

Риторическая структура позволяет выделить более и менее «важные» фрагменты, и в соответствии с этим корректировать тональности этих фрагментов.

Добавление списка правил

Добавление правил можно считать одним из наиболее часто встречаемых способов улучшения работы алгоритма. Правила могут покрывать различные виды задач.

Возможно добавление правил для поиска ироничных и саркастических конструкций, которые будут основаны на поиске фрагментов текста, соответствующих некоторому шаблону. Частично это поможет решить проблему сарказма.

Часто отдельно расписывают правила для обработки отрицаний. В ряде случаев вводят правила, которые на начальном этапе работы добавляют единицам, входящим в сферу действия отрицания, определенный отрицательный маркер, например «не_хоро-ший». В таком случае компьютер будет считать это слово отдельной лексической единицей. Несомненно, существуют и другие подходы к решению этой задачи [A survey on the role of negation in sentiment analysis, 2010].

Добавление правил может также выделить часть имплицитной информации, например, Л. Чжан и Б. Лью [Zhang, Liu, 2011] собрали лингвистические шаблоны для распознавания фраз, выражающих имплицитное мнение, Л. Денг и Дж. Виби [Deng, Wiebe, 2015] использовали логические операции. Их модель определялась использованием множества элементарных элементов или атомов и правил если - то, выраженных в виде правил логики первого порядка. Идея логического вывода имплицитной тональности из экс-

плицитной является одной из удачно формализуемых идей, поскольку создание алгоритма вывода представляется возможным.

Отдельно могут составляться правила для обработки фрагментов усиления или ослабления тональности [Zhang, Liu, 2011].

Анализ тональности на протяжении последних 1 5 лет является актуальным и активно развивающимся направлением исследований, постоянно происходит улучшение подходов к анализу, внедрение новых идей и развитие старых.

Анализ тональности начал развитие с рецензий на фильмы и отзывы, но сейчас он более востребован в других сферах. Рецензии и отзывы стали хорошей основой для развития подходов, адаптации новых идей и методов. Если анализ отзывов имеет практическую значимость, то анализ рецензий для коммерческих компаний не представляет большого интереса. Актуальным направлением является анализ социальных сетей и новостных сообщений с целью выявления отношения к отдельным персонам или событиям. Это востребовано как в сфере политики, поскольку можно отслеживать отношение людей к персонам и проводимым реформам, так и в коммерческой среде. Многие крупные компании заинтересованы в системах анализа данных, с помощью которых можно отслеживать изменения в отношении пользователей к бренду или продукту.

Анализ тональности может являться составной частью других интеллектуальных систем, популярных в настоящее время, таких как выявление стресса у пользователей социальных сетей, определения fake news, систем извлечения данных (англ. data mining), в которых тональные отношения могут извлекаться как отдельный вид связи между объектами.

Это позволяет говорить о неутихающем интересе к анализу тональности как прикладной задаче, более того, в настоящее время его можно считать самостоятельным направлением компьютерной лингвистики с собственной терминологией и уникальными методами.

Список литературы

Адаскина Ю.В., Паничева П.В., Попов А.М. Сентиментный анализ твитов на основе синтаксических связей // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диа-

лог» (Москва, 27-30 мая 2015 г.). - Москва: Изд-во РГГУ, 2015. - Вып. 14 (21): в 2 т. - Т. 2: Доклады специальных секций. - С. 1-12.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Лукашевич Н.В., Левчик А.В. Создание лексикона оценочных слов русского языка РуСентилекс // Труды конференции 0STIS-2016. - Минск: Белорусский государственный университет информатики и радиоэлектроники, 2016. - С. 377382.

Семина Т.А. Дихотомия субъективность vs объективность и тональная релевантность в задачах анализа тональности // Вестник Московского государственного областного университета. Серия Лингвистика. - Москва: Московский государственный областной университет, 2018. - № 1. - С. 38-45.

Семина Т.А. Корпусные исследования и анализ тональности // Слово. Словарь. Термин. Лексикограф [Электронный ресурс]: сборник статей по материалам Международной научно-практической конференции памяти доктора филологических наук, профессора Юрия Николаевича Марчука (г. Москва, 1-2 марта 2019) / ред. колл.: отв. ред. И.И. Валуйцева, отв. секр. Е.П. Савченко, ред. англ. текста И.А. Улиткин; под общ. ред. И.И. Валуйцевой. [Электрон. текстовые дан. (15,6 Мб)]. - Москва: ИИУ МГОУ, 2019. - С. 560-566.

A survey on the role of negation in sentiment analysis / M. Wiegand, A. Balahur, B. Roth, D. Klakow, A. Montoyo // Proceedings of the workshop on negation and speculation in natural language processing. - 2010. - P. 60-68.

Almatarneh S., Gamallo P. Searching for the most negative opinions // International Conference on Knowledge Engineering and the Semantic Web. Springer, Cham. - 2017. - P. 14-22.

Araque O., Zhu G., Iglesias C.A. A semantic similarity-based perspective of affect lexicons for sentiment analysis // Knowledge-Based Systems. - 2019. - Т. 165. -P. 346-359.

Baccianella S., EsuliA., Sebastiani F. Sentiwordnet 3.0: an enhanced lexical resource for sentiment analysis and opinion mining // Lrec. - 2010. - Т. 10, N 2010. -P. 2200-2204.

Bhatia P., Ji Y., Eisenstein J. Better document-level sentiment analysis from rst discourse parsing. - Mode of access: https://arxiv.org/pdf/1509.01599.pdf.

Chen C.C., Huang H.H., Chen H.H. NTUSD-Fin: a market sentiment dictionary for financial social media data applications // Proceedings of the 1 st Financial Narrative Processing Workshop (FNP 2018). - Mode of access: http://nlg.csie.ntu.edu.tw/~hhhuang/docs/fnp2018.pdf

Chen Y., Skiena S. Building Sentiment Lexicons for All Major Languages // ACL (2). - 2014. - P. 383-389.

Dave K., Lawrence S., Pennock D.M. Mining the peanut gallery: Opinion extraction and semantic classification of product reviews // Proceedings of the 1 2 th international conference on World Wide Web // ACM. - 2003. - P. 519-528.

Deng L., Wiebe J. Joint prediction for entity/event-level sentiment analysis using probabilistic soft logic models // Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. - 2015. - P. 179-189.

Effective Sentiment Analysis of Chinese Online Reviews with Syntax Tree and Linguistics Heuristics / C. Cai, Q. Meng, J. Ji, Z. Wang // International Journal of Advancements in Computing Technology. - 2013. - Т. 5, N 1. - P. 8-19.

Hatzivassiloglou V., McKeown K.R. Predicting the semantic orientation of adjectives // Proceedings of the 35 th annual meeting of the association for computational linguistics and eighth conference of the european chapter of the association for computational linguistics. / Association for Computational Linguistics. -1997. - P. 174-181.

Hatzivassiloglou V., Wiebe J.M. Effects of adjective orientation and gradability on sentence subjectivity // Proceedings of the 18 th conference on Computational linguistics. / Association for Computational Linguistics. -2000. - Vol. 1. - P. 299-305.

Kochergina K.S. Approaches to forming an evaluative lexicon (juridical linguistic aspect) // Актуальные проблемы лингвистики и литературоведения: сб. материалов I (XVI) Международной конференции молодых ученых (9-11 апреля 2015 г.). - Томск, 2015. - Вып. 16. - С. 365-367. - Режим доступа: http://vital.lib.tsu.ru/vital/access/manager/Repository/vtls:000534180

Kraus M., Feuerriegel S. Sentiment analysis based on rhetorical structure theory: Learning deep neural networks from discourse trees // Expert Systems with Applications. - 2019. - Т. 118. - P. 65-79.

Nasukawa T., Yi J. Sentiment analysis: Capturing favorability using natural language processing // Proceedings of the 2 nd international conference on Knowledge capture. ACM. - 2003. - P. 70-77.

Polarity analysis of texts using discourse structure / B. Heerschop, F. Goossen, A. Hogenboom [et al.] // Proceedings of the 20 th ACM international conference on Information and knowledge management. ACM. - 2011. - P. 1061-1070.

Recursive deep models for semantic compositionality over a sentiment treebank / R. Socher, A. Perelygin, J. Wu [et al.] // Proceedings of the 2013 conference on empirical methods in natural language processing. - 2013. - P. 1631-1642.

The general inquirer: A computer approach to content analysis / Stone P.J., Dunphy D.C., Smith M.S., Ogilvie D.M. - Cambridge: The MIT Press, 1966. - 651 p.

Tausczik Y.R., Pennebaker J.W. The psychological meaning of words: LIWC and computerized text analysis methods // Journal of language and social psychology. -2010. - Т. 29, N 1. - P. 24-54.

Thet T.T., Na J.C., Khoo C.S.G. Aspect-based sentiment analysis of movie reviews on discussion boards // Journal of information science. - 2010. - Т. 36. N 6. -P. 823-848.

Turney P.D. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews // Proceedings of the 40 th annual meeting on association for computational linguistics / Association for Computational Linguistics. -2002. - P. 417-424.

Wiebe J. Learning subjective adjectives from corpora // AAAI Proceedings 2000. - Mode of access: https://aaai.org/Papers/AAAI/2000/AAAI00-113.pdf

Wiebe J.M. Tracking point of view in narrative // Computational Linguistic. -Vol. 2 s.-1994. - Т. 20, N 2. - P. 233-287.

Wiebe J .M., Bruce R.F., O Hara T.P. Development and use of a gold-standard data set for subjectivity classifications // Proceedings of the 37 th annual meeting of the Association for Computational Linguistics. - 1999. - P. 246-253.

Zhang L., Liu B. Identifying noun product features that imply opinions // Proceedings of the 49 th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies: short papers / Association for Computational Linguistics. - 2011. - Vol. 2. - P. 575-580.

2020.04.009. ЛИНГВИСТИЧЕСКИЙ АНАЛИЗАТОР: ПРЕОБРАЗОВАНИЕ ТЕКСТА В МЕТАЯЗЫКОВУЮ СТРУКТУРУ ДАННЫХ / Кузнецов С.А., Скребцова Т.Г., Суворов С.Г., Клеменье-ва А.В. - Санкт-Петербург: СПбГУ, 2019. - 238 с.

Ключевые слова: автоматический перевод; автоматическая обработка текста; лингвистический анализатор; естественный язык; русский язык; метаязыковая сеть.

В пяти главах монографии (глава 1 «Графематический анализ», глава 2 «Атрибуция токенов», глава 3 «Конструктивно-синтаксический анализ предложения», глава 4 «Коммуникативно-синтаксический анализ», глава 5 «Функционально-прагматический анализ текста»), упорядоченных согласно последовательности этапов обработки текста, рассматриваются графематический анализ, морфологический (атрибуция токенов), конструктивно-синтаксический и коммуникативно-синтаксический анализ предложения, функционально-прагматический анализ текста. Продемонстрирована работа лингвистического анализатора, процесс преобразования понятийно-риторических единиц текста и информационного представления текста в метаязыковую структуру данных.

Проблема автоматической обработки естественного языка сохраняет свою актуальность по прошествии более полувека со времени первых опытов в данном направлении. Сам факт говорит о высокой сложности задачи и отсутствии ясного представления о путях ее решения.

В монографии предлагается оригинальный подход к решению задачи автоматического анализа текста, написанного на русском языке, направленный на выявление его информационной структуры. Конечным результатом анализа является метаязыковая сеть, в узлах которой находятся «участники» описываемой в тексте ситуации (объекты), а на дугах - отношения между ними. Про-

i Надоели баннеры? Вы всегда можете отключить рекламу.