Научная статья на тему 'О сентимент-анализе и перспективах его применения'

О сентимент-анализе и перспективах его применения Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
1167
182
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СЕНТИМЕНТ-АНАЛИЗ / АНАЛИЗ ТОНАЛЬНОСТИ ТЕКСТА / ЭМОЦИОНАЛЬНАЯ ТОНАЛЬНОСТЬ ТЕКСТА / ЭМОЦИИ / КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА / ПРИКЛАДНАЯ ЛИНГВИСТИКА / МАШИННОЕ ОБУЧЕНИЕ
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Майорова Е.В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «О сентимент-анализе и перспективах его применения»

комбинаторные, синтаксические, морфологические. В случае применения параметров могут быть выделены лексические единицы, сходные с терминами по своим свойствам (прототипы терминов).

Эти параметры заложены в указанные инструментальные средства выделения терминов и терминологических сочетаний. Проверена их эффективность.

На основе разработанной модели программно-лингвистического комплекса созданы корпусы по 31 тематическому направлению общим объемом около 25 млн словоупотреблений. На части из них проведены масштабные эксперименты по автоматизированному выделению терминов и терминологических сочетаний. Эксперименты подтвердили работоспособность разработанных методов. Полученные результаты имеют теоретическую значимость и практическую ценность.

Е.А. Казак

2020.04.011. МАЙОРОВА ЕВ. О СЕНТИМЕНТ-АНАЛИЗЕ И ПЕРСПЕКТИВАХ ЕГО ПРИМЕНЕНИЯ. (Обзор).

Ключевые слова: сентимент-анализ; анализ тональности текста; эмоциональная тональность текста; эмоции; компьютерная лингвистика; прикладная лингвистика; машинное обучение.

Актуальность технологии сентимент-анализа, также известного как автоматический анализ тональности текста, в современном мире растет. Данная технология позволяет обрабатывать большие объемы текстов, что находит применение во многих сферах. Сентимент-анализ может использоваться для мониторинга общественного мнения, проведения маркетинговых кампаний, оценки новостных событий, прогнозирование мнений на основе анализируемых текстов, выявления эмоционального насилия.

Статья А.В. Колмогоровой и др. [Колмогорова, Калинин, Маликова, 2018] посвящена обсуждению промежуточных результатов проекта ранжированного классификатора русскоязычных текстов. В статье представлен подробный теоретический обзор современного этапа развития систем сентимент-анализа. Авторы пишут, что развитие современных технологий позволяет анализировать и классифицировать тексты по представленному в них эмо-

циональному состоянию, - радости, грусти, гнева, - «исходя из анализа статистической значимости некоторых лексем, языковых конструкций, их морфологических и синтаксических признаков, рассматриваемых как маркеры того или иного класса эмоций» [там же, с. 140]. В то же время авторы указывают на определенный ряд дискуссионных вопросов, возникающих несмотря на то, что и с лингвистической, и с технической стороны задача классификации текстов является достаточно разработанной.

Традиция изучения вербального проявления эмоций - лингвистическая эмотиология, являющаяся достаточно сформировавшейся традицией в лингвистике, в последние годы получила широкое распространение и развитие вследствие значительного роста текстового материала за счет популяризации Интернета и социальных сетей.

С технологической стороны сентимент-анализ представляет собой «процедуру идентификации и извлечения из текста эмоционально и оценочно окрашенного отношения говорящего или пишущего к предмету высказывания» [там же]. В настоящее время возрос интерес к возможностям сентимент-анализа со стороны коммерческих организаций, которые используют данную технологию для изучения общественного мнения относительно своих товаров и услуг.

Основными типами классификаторов текстовых данных являются двухчастные и трехчастные классификаторы. Двухчастные классификаторы позволяют разделить тексты на положительно-оценочные и негативно-оценочные (иногда на тексты, имеющие объективную или субъективную модальность), трехчастные же позволяют выделить три типа текстов: положительно-оценочные, негативно-оценочные и нейтральные. Фокусирование разработчиков на выявлении наличия оценки, а не собственно эмоции, отмечено авторами как недостаток современных систем сентимент-анализа.

Технологии сентимент-анализа основываются на двух группах методов: (1) методах, использующих правила и словари оценочной лексики, и (2) использовании машинного обучения. Отмечается отсутствие достаточных по объему размеченных коллекций текстовых данных для русского языка, в связи с чем применение машинного обучения становится затруднительным. Таким обра-

зом, создание общедоступной размеченной коллекции русскоязычных текстов становится весьма востребованной задачей.

В рамках своего проекта авторы стремятся к созданию программы, способной автоматически классифицировать русскоязычные фрагменты текстов по девяти категориям на основе доминирующей в них эмоции: (1) интерес / возбуждение, (2) удовольствие / радость, (3) удивление, (4) страдание / тоска, (5) страх / ужас, (6) стыд / унижение, (7) брезгливость / отвращение, (8) злость / гнев, (9) нейтральные тексты. Теоретической основой для выделения данного репертуара эмоций послужила классификация эмоций Г. Левхейма, известная как «куб Левхейма». Нейрофизиологом Г. Левхеймом были выделены восемь эмоций, зависящих от сочетания уровня трех мономинов - серотонина, дофамина и норадре-налина в крови субъекта эмоции. Первая номинация в классе отражает наименее выраженную степень эмоции, а вторая -наивысшую. Классификатор был разработан на основе технологии машинного обучения с учителем. В качестве коллекции текстов был взят художественный текст, вручную разбитый на 1500 фрагментов, которые в дальнейшем были классифицированы волонтерами по девяти вышеназванным категориям. Далее на основе метода «мешка слов» и метода лингвистической экспертной оценки были выявлены дискриминантные черты каждого из классов и выстроена статистическая модель вероятности принадлежности текста к тому или иному классу.

Авторы проекта поднимают ряд дискуссионных вопросов, возникающих на этапе обсуждения промежуточных результатов. Среди вопросов лингвистического характера трудность определения субъекта эмоции-критерия (вследствие того, что в основе выборки лежит художественный текст, субъектом эмоции можно считать и автора, и персонажа, и реципиента текста) и асимметрия между выражаемыми и переживаемыми эмоциями. Среди технических моментов авторы выделяют выбор сверхфразового единства в качестве уровня анализа, так как одного предложения может оказаться недостаточно для определения эмоции, а также проблемы полифоничности эмоций большого количества разрядов лексических единиц, выражающих эмоцию. Предполагается, что адекватность принятых теоретических решений будет проверена на практике в дальнейшем.

В другой статье [Колмогорова, 2019] автор рассматривает возможность применения текстов другого жанра для создания обучающей выборки текстов. В частности, в данной работе рассматривается жанр нарративных интернет-откровений, появившийся относительно недавно в русскоязычной социальной сети «ВКонтакте». Автор формулирует вопрос о преимуществах и ограничениях использования данного жанра в сравнении с другими интернет-жанрами.

Жанр интернет-откровений - достаточно новое явление и не имеет закрепившегося определения в научной литературе. В статье подробно анализируется контент публичной группы, в которой публикуются тексты интернет-откровений. Так, контент группы составляют «эмоционально окрашенные нарративы от первого лица, в которых авторы анонимно <...> делятся самыми интимными личностными переживаниями» [там же, с. 74]. Опубликованные на интернет-странице тексты находятся в рамках разговорного письменно-речевого стиля, характерного для интернет-среды, и иногда включают обсценную лексику. Разнообразная тематика контента отражается в наборе хештегов группы. Автор статьи предлагает краткое описание данного жанра, следуя методологии нарративной семиотики: актантом выступает человеческая личность, субъектом -«я» рассказчика, объектом - образ самого себя. Актантную позицию помощника занимает откровенность, а чувство стыда выступает в роли противоборствующей силы.

Большинство кейсов, выполненных с использованием технологий сентимент-анализа, позволяют классифицировать тексты на две или три группы (позитивно-оценочные, негативно-оценочные и иногда нейтральные тексты) и часто объединяются в группу opinion mining technologies. Основными источниками данных для них являются твиты, посты в блогах, пользовательские рецензии на товары и фильмы и финансовые отчеты. Так как проект классификатора, описываемый автором, предполагает не двух- и трех-частную классификацию, а более сложную схему «8 эмоциональных классов + 1 нейтральный», возникает вопрос о возможности использования вышеназванных жанров для данной цели. Расположив различные жанровые разновидности текстов, традиционно используемых в качестве источников данных для сентимент-анализа, между тремя лингвистическими категориями, - экспрес-

сивностью, оценочностью и эмотивностью, можно увидеть, что из всех интернет-жанров интернет-откровения и посты в блогах обладают наибольшей степенью эмотивности.

Помимо наибольшей выраженности категории эмотивности, интернет-откровения обладают рядом других преимуществ. Во-первых, их размер не является ни слишком большим, ни слишком маленьким, но достаточным для идентификации эмоции. Во-вторых, они обладают всеми основными чертами интернет-дискурса: вводными, неполными, параллельными и эллиптическими конструкциями, обилием повторов, вопросительных и восклицательных предложений, сокращений, разговорных и просторечных лексических единиц. Третье преимущество интернет-откровений связано со способом их публикации: редактор перед публикацией приписывает каждому тексту хештег, таким образом фиксируя эмоцию, которую описывает автор текста. Это значительно упрощает задачу разработчикам классификатора, которым остается только соотнести хештеги с восемью эмоциональными классами. Тем не менее все тексты интернет-откровений являются эмоционально окрашенными, вследствие чего авторам предстоит использовать внешний корпус нейтральных текстов.

Единственным существенным недостатком данного жанра является тот факт, что все тексты представляют собой примеры нарративного дискурса. Отсутствие в выборке текстов-дескрип-тивов и текстов-аргументативов может оказать негативное влияние на точность модели.

Таким образом, тексты жанра интернет-откровения кажутся весьма удачным материалом для создания обучающей выборки.

В статье Г.К. Гималетдиновой и Э.Х. Довтаевой [Гималет-динова, Довтаева, 2020] рассматривается возможность применения сентимент-анализа для лингвистических исследований эмоциональной составляющей читательского комментария - жанра интернет-коммуникации, «<...> изучаемого в неразрывной связи с новостной статьей, к которой он оставлен в режиме онлайн» [там же, с. 42]. Автоматизированная обработка текстового материала предоставляет исследователям существенные возможности для проведения качественного и количественного анализа эмоциональности читательских комментариев. В своем исследовании ав-

торы статьи изучают особенности выражения эмоциональности у представителей англоязычной и русскоязычной культур.

Изучив данные об исследовании других жанров интернет-коммуникации, авторы статьи делают вывод о невозможности применения неавтоматического способа обработки материала на большом объеме комментариев и предполагают, что качественный анализ эмоциональной составляющей читательских комментариев возможен только в случае применения методов автоматического сентимент-анализа. В настоящий момент существуют два основных метода автоматического определения тональности текста: статистический (на основе заранее размеченных по тональности текстов) и основанный на использовании заранее созданных тональных словарей - семантических тезаурусов позитивных и негативных слов и выражений.

Исследование эмоциональной тональности читательских комментариев проводилось в три этапа. На первом этапе были отобраны 38 газетных статей и составлена картотека читательских комментариев. Второй этап заключался непосредственно в самом проведении автоматического сентимент-анализа отобранного материала при помощи прикладного программного интерфейса ParallelDots API. В результате были выявлены комментарии с позитивной, негативной и нейтральной тональностью. На третьем этапе был произведен экспертный анализ читательских комментариев, позволивший определить, какие именно темы приводят к появлению той или иной тональности читательских комментариев.

В результате исследования было выявлено, что среди русскоязычных комментариев превалировали негативные комментарии (59,3%), в то время как среди англоязычных комментариев наибольшую группу составляли комментарии с нейтральной тональностью (46,1%). И среди русскоязычных, и среди англоязычных комментариев наименьшую долю составили комментарии с позитивной тональностью, однако в процентном соотношении среди русскоязычных комментариев их оказалось вдвое больше (17,7 и 8,4% соответственно).

На этапе экспертного анализа все три типа комментариев были разделены на подгруппы. Среди комментариев позитивной тональности были выделены (1) комментарии, выражающие сочувствие (31,4% среди русскоязычных и 28% среди англоязыч-

ных); (2) комментарии-призывы (5,9 и 7,5% соответственно); (3) отвлеченные комментарии (62,7 и 64,5%). Негативная тональность комментариев была представлена в четырех подгруппах: (1) затрагивающие политические темы (26,4% среди русскоязычных и 49,3% англоязычных); (2) комментарии, содержащие насмешку, иронию или сарказм (16,9 и 13,5%); (3) содержащие оскорбления, имплицитную или эксплицитную оценку ситуации (9,9 и 5,8%); (4) отвлеченные комментарии (46,8% русскоязычных и 31,4% англоязычных). Нейтральные комментарии представлены тремя подгруппами: (1) комментарии на политические темы (6,3% русскоязычных и 16,4% англоязычных нейтральных комментариев); (2) комментарии-отклики (5,2 и 2,7%); (3) отвлеченные комментарии (88,5 и 80,9%). На основании полученных результатов авторы делают вывод о частом употреблении русскоязычными пользователями негативной оценочной лексики, а также большого количества иронии, сарказма и оскорблений, направленных на государство и других комментаторов, в то время как среди комментариев к англоязычным статьям превалирует нейтральная тональность.

Таким образом, авторы приходят к выводу об успешном применении автоматического анализа тональности в изучении читательских комментариев. Несмотря на общий успех применения сентимент-анализа, были отмечены отдельные несоответствия между результатами автоматизированного и экспертного анализа. Предполагается, что подобное несоответствие вызвано неспособностью программного интерфейса выявить подтекст читательских комментариев, выраженный большим количеством иронии и сарказма. В целом автоматический анализ тональности текста представляет собой достаточно объективный и действенный метод, который может с успехом применяться не только в области социологических, но и лингвистических исследований.

М.В. Чернышевич в своей работе [Чернышевич, 2018] анализирует основные существующие типы классификации тональности мнений и предлагает свою шкалу мнений, которая оперирует одновременно как абсолютными, так и сравнительными оценками.

Популярная в настоящее время категориальная шкала, чаще всего является бинарной и оперирует положительной и отрицательной тональностями, которые в некоторых работах дополняют-

ся смешанной и нейтральной. Использование бинарной шкалы требует предварительной фильтрации объективных суждений и нейтральных мнений, что представляет дополнительные неудобства пользователю.

Количественная шкала, используемая наряду с категориальной, не только выявляет наличие сентимента, но и определяет его интенсивность по определенной шкале. В то же время сфера применения многомерных шкал, учитывающих различные эмоциональные оттенки, весьма специфична и ограничена.

Другим существенным недостатком существующих шкал тональности является то, что они учитывают только общие оценки, в то время как сравнительные и частотные оценки, отражающие причины возникновения эмоционального отношения автора, остаются неучтенными. Так, проведя исследование корпуса сообщений пользователей социальных сетей и интернет-платформ, автор статьи приходит к выводу о необходимости создания «гибкой, ориентированной на построение как абсолютных, так и сравнительных оценок [шкалы]» [там же, с. 138]. Предложенная им шкала тональности мнений оперирует как абсолютными, так и сравнительными оценками, что позволит сделать системы сентимент-анализа востребованными у массового пользователя. В такой шкале разделяются общая оценка (Positive - положительная, Negative - отрицательная), отражающая только оценочное значение, и частотная оценка (Appreciation - положительная, Deficiency - отрицательная), которая позволяет проанализировать, что именно нравится или не нравится пользователю. Кроме того, автор выделил дополнительные категории тональности, указывающие на желания и потребности пользователей (например, Desire, Wish). Также отмечается, что в одном и том же предложении могут содержаться разные типы оценок мнений. Таким образом, по мнению автора, представленная в работе шкала является наиболее приемлемой для решения задач сентимент-анализа.

Исследование [Sentiment analysis, 2020] посвящено возможности использования метода анализа тональности текстов научной литературы для упрощения мета-анализа эффективности тех или иных мер, принимаемых в определенной научной сфере. В настоящее время количество опубликованной научной литературы настолько велико, что даже в узкоспециализированных отраслях

экспертам требуются месяцы работы, чтобы собрать необходимые для работы данные. Обработка естественного языка (Natural Language Processing - NLP) позволяет автоматизировать процесс обработки большого объема текстовой информации при минимальном участии человека. Анализ тональности, применяемый в данном исследовании, подразумевает выделение в тексте отдельных проявлений тональности при помощи заранее подготовленного набора текстов, в которых тональность уже определена и оценена.

В статье представлены результаты анализа тональности англоязычных аннотаций к научным статьям, посвященным реин-тродукции - переселению диких животных и растений на территории, где они ранее обитали, но по каким-либо причинам исчезли. В процессе работы был собран корпус из 4313 исследований, опубликованных в 1987-2016 гг.; объем корпуса аннотаций составил 1 030 558 словоформ. В ходе проведения анализа тональности были применены языковые модели, обученные на материале текстов общей тематики и не применявшиеся ранее для анализа научных текстов. В связи с этим авторы исследования уделили особенное внимание связи между степенью тональности текстов и наличию в них терминологической лексики.

Самыми частыми позитивно окрашенными словами стали: success, protect, growth, support, help, benefit ('успех ', 'защищать ', 'рост', 'поддерживать', 'помогать', 'преимущество'); негативно окрашенными словами: threaten, loss, risk, threat, problem, kill ('угрожать', 'утрата', 'риск', 'угроза', 'проблема', 'убивать'). Авторы исследований выявили общий тренд на увеличение позитивно окрашенных текстов с течением времени, что свидетельствует о положительном развитии данной дисциплины. Авторы исследования делают вывод об успешности применения методов сентимент-анализа для анализа научной литературы.

Таким образом, мы можем говорить о высокой востребованности автоматического анализа тональности текстов в современном мире и расширении перспектив его применения.

Список литературы

Гималетдинова Г.К., Довтаева Э.Х. Сентимент-анализ читательского интернет-комментария к политическому тексту // Политическая лингвистика. -2020. - № 1 (79). - С. 42-51. - DOI: 10.26170/pl20-01-05.

Колмогорова А.В. Использование текстов жанра «интернет-откровение» в контексте решения задач сентимент-анализа // Вестник НГУ. Серия Лингвистика и межкультурная коммуникация. - 2019. - Т. 17, № 3. - С. 71-82. - DOI: 10.25205/1818-7935-2019-17-3-71-82.

Колмогорова А.В., Калинин А.А., Маликова А.В. Лингвистические принципы и методы компьютерной лингвистики для решения задач сентимент-анализа русскоязычных текстов // Актуальные проблемы филологии и педагогической лингвистики. - 2018. - № 1(29). - С. 139-148. - DOI: 10.29025/2079-6021-2018-1(29)-139-148.

Чернышевич М.В. Классификация тональности мнений для задачи автоматического сентимент-анализа текста // Ученые записки УО ВГУ им. П.М. Маше-рова. - 2018. - Т. 28. - С. 136-140.

Sentiment analysis of conservation studies captures successes of species reintroductions / van Houtan K.S., Gagne T., Joppa L., Jenkins С. // Patterns. - 2020. -URL: https://osf.io/f4dc7/

2020.04.012. КРУГЛЫЙ СТОЛ «ЛИНГВИСТИКА И "НЕЛИНГВИСТИКА"».

Ключевые слова: дискуссия; лингвистика; наука - псевдонаука; междисциплинарность; лингвокультурология.

07 ноября 2019 г. в Институте русского языка им. А.С. Пушкина (Москва) прошел круглый стол на тему «Лингвистика и "нелингвистика": Как междисциплинарность меняет границы». Обсуждение выявило интерес к теме и множественность взглядов, существующих в профессиональном сообществе. Данный обзор написан на основе статей, отражающих материалы докладов, сделанных на заседании круглого стола. Статьи опубликованы в выпуске журнала «Русский язык за рубежом», издаваемого Институтом русского языка им. А.С. Пушкина1.

Раздел открывается статьей Н.Г. Брагиной «Подвижные границы лингвистики», в которой анализируется проблема разграничения науки и «ненауки» и представлены точки зрения по этой теме. Автор отмечает, что в течение ХХ в. философы и методологи науки стремились выработать универсальные критерии для распознавания рационального научного знания и отделения его от нена-

1 Общая проблематика представлена в электронной версии. - URL: http://www.pushkin.institute/science/rasskiy_yazyk_za_rabezhom/

Работы цитируются по: Русский язык за рубежом / Ин-т рус. яз. им. А.С. Пушкина. - М., 2020. - № 1 (разд. Границы лингвистики). - С. 4-55.

i Надоели баннеры? Вы всегда можете отключить рекламу.