Научная статья на тему 'ПОДХОДЫ К СЕНТИМЕНТ-АНАЛИЗУ'

ПОДХОДЫ К СЕНТИМЕНТ-АНАЛИЗУ Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
258
34
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СЕНТИМЕНТ-АНАЛИЗ / ЭЛЕКТРОННЫЙ ТЕКСТ / КОРПУСА / НЕЙРОЛИНГВИСТИЧЕСКОЕ ПРОГРАММИРОВАНИЕ / ИНТЕРТЕКСТ / СЕГМЕНТИРОВАНИЕ ТЕКСТА

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Семенова М. О.

Сентимент-анализ - это процесс по анализу эмоциональной тональности фрагментов текста или речи. Согласно используемому подходу, классификация эмоций состоит из двух этапов. На первом этапе текст разделяют на дискурсивные единицы по методу Хёрста, и определяют эмоцию каждой дискурсивной единицы на основе частоты эмоциональных слов, содержащихся в этой единице. На втором этапе осуществляется работа с предложениями, в которых появляется эмоция, и классифицируется эмоция каждого предложения методом, подходящим для такого типа предложения.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SENTIMENT ANALYSIS APPROACHES

Sentiment analysis is the process of analyzing the emotional tonality of fragments of text or speech. According to the approach used, the classification of emotions consists of two stages. At the first stage, the text is divided into discursive units according to the Hearst method, and the emotion of each discursive unit is determined based on the frequency of emotional words contained in this unit. At the second stage, work is carried out with sentences in which an emotion appears, and the emotion of each sentence is classified by a method suitable for this type of sentence.

Текст научной работы на тему «ПОДХОДЫ К СЕНТИМЕНТ-АНАЛИЗУ»

Научная статья УДК 81-139

DOI 10.52070/2542-2197_2022_12_867_83

Подходы к сентимент-анализу

М. О. Оеменова

Московский государственный лингвистический университет, Москва, Россия

mariaurahara@mail.ru

Аннотация. Сентимент-анализ - это процесс по анализу эмоциональной тональности фрагментов текста или

речи. Согласно используемому подходу, классификация эмоций состоит из двух этапов. На первом этапе текст разделяют на дискурсивные единицы по методу Хёрста, и определяют эмоцию каждой дискурсивной единицы на основе частоты эмоциональных слов, содержащихся в этой единице. На втором этапе осуществляется работа с предложениями, в которых появляется эмоция, и классифицируется эмоция каждого предложения методом, подходящим для такого типа предложения.

Ключевые слова: сентимент-анализ, электронный текст, корпуса, нейролингвистическое программирование, интертекст, сегментирование текста

Для цитирования: Семенова М. О. Подходы к сентимент-анализу // Вестник Московского государственного лингвистического университета. Гуманитарные науки. 2022. Вып. 12 (867). С. 83-87. DOI 10.52070/2542-2197_2022_12_867_83

Original article

Sentiment Analysis Approaches

Mariia O. Semenova

Moscow State Linguistic University, Moscow, Russia mariaurahara@mail.ru

Abstract.

Keywords: For citation:

Sentiment analysis is the process of analyzing the emotional tonality of fragments of text or speech. According to the approach used, the classification of emotions consists of two stages. At the first stage, the text is divided into discursive units according to the Hearst method, and the emotion of each discursive unit is determined based on the frequency of emotional words contained in this unit. At the second stage, work is carried out with sentences in which an emotion appears, and the emotion of each sentence is classified by a method suitable for this type of sentence.

sentiment analysis, E-text, corpora, NLP, intertextuality, segmentation

Semenova, M. O. (2022). Sentiment Analysis Approaches. Vestnik of Moscow State Linguistic University. Humanities, 12(867). C. 83-87. 10.52070/2542-2197_2022_12_867_83

Linguistics

введение

Художественный текст особенно расположен к эмоционально окрашенному содержанию. В литературном жанре сказок такие эмоции, как счастье и гнев, связанные с ними когнитивные состояния, например, любовь или ненависть, становятся неотъемлемыми частями сюжета истории и, следовательно, имеют особое значение. Более того, рассказчик, читающий историю, интерпретирует эмоции, чтобы устно передать историю таким образом, чтобы она ожила и привлекла внимание слушателей.

В речи можно эффективно выражать эмоции, изменяя просодию, высоту тона, интенсивность и длительность сигналов в потоке речи. Таким образом, для того, чтобы синтез текста в речь звучал как можно более естественно и увлекательно, важно сохранить тональную составляющую. Однако это подразумевает, что сначала необходимо определить эмоциональное значение соответствующего отрывка текста, в этом и заключается суть сентимент-анализа.

Учитывая тот факт, что сентимент-анализ применяется к содержащему контекст неструктуризи-рованному тексту, и успех анализа зависит от определённого числа факторов, нужно уметь различать личное мнение автора и факты, идентифицировать ошибки в синтаксисе, отличать иронию и сарказм. Обнаружить такие субъективные моменты достаточно трудно из-за разной интерпретации предложений.

Существует два основных подхода к сенти-мент-анализу: включающий анализ лексического состава и основанный на написании нейросетей. Согласно лексическому сентимент-анализу составляются списки эмоционально окрашенных слов. Ориентированный на лексику сентимент-анализ подразделяется на основанный на словарях и на корпусах.Большая часть ранних исследований в области сентимент-анализа была сосредоточена на прилагательных или адъективных группах как на основном источнике субъективного содержания в тексте.

В целом, семантическая ориентация текста - это совокупный эффект прилагательных или соответствующих слов, найденных в нем, на основе списка эмоционально окрашенных слов. Словарь может быть создан различными способами: вручную, с использованием соответствующих словарей, таких как General Inquirer или полуавтоматически, используя такие ресурсы, как WordNet. Словарь также может быть создан автоматически с помощью ассоциации, где оценка для каждого нового прилагательного рассчитывается

с использованием проиндексированной частоты близости этого прилагательного к одному или нескольким ключевым словам.

Ключевые слова - это небольшой набор слов с сильными негативными или позитивными ассоциациями. В принципе, положительное прилагательное должно чаще встречаться рядом с положительными ключевыми словами и, таким образом, оно получит высокий положительный индекс, в то время как отрицательные прилагательные будут чаще всего встречаться рядом с отрицательными ключевыми словами, таким образом, получая отрицательный индекс. Словари, созданные с помощью поисковой системы Google, хотя и пригодны для использования, нестабильны. При повторном запуске системы результаты для каждого слова могут измениться.

Очевидный подход к отрицанию состоит в том, чтобы просто поменять полярность лексического элемента рядом с отрицающим словом, изменив good (+3) на not good (-3). Существуют отрицающие слова, в том числе not, none, nobody, never и nothing, которые имеют эквивалентный эффект, воздействующий на значительном расстоянии от лексического элемента, на который они влияют.

Проблемы со сдвигом полярности, вероятно, были бы решены путем точной настройки значений и модификаторов сентиментальной ориентации.

Одним из интересных аспектов прагматики отрицания является то, что негативные утверждения, как правило, воспринимаются как более выраженные, чем их позитивные аналоги, как с прагматической, так и с психологической точки зрения.

Отрицание, как правило, выражается эвфемистическими способами, что затрудняет выявление негативных настроений в целом.

Корпусный подход тоже начинается со списков эмоционально окрашенных слов, он может включать также анализ синтаксических моделей (например, если два слова соединены конъюнкцией). Начальный список слов генерируется статистическими методами. Для улучшения результатов лексический подход можно комбинировать с методами машинного обучения.

Глубокое обучение появилось десять лет назад и успело стать мощной техникой машинного обучения с очень хорошими результатами во многих областях применения, таких как обработка естественного текста.

Emotion Mining - это компьютерные системы для интеллектуального автоматического извлечения так называемой «субъективной»» информации (эмоций, личной точки зрения и т. д.).

Основной трудностью такого рода исследований является классификация эмоций. Среди

множества классификаций эмоций признание получила модель Экмана, согласно которой различают шесть основных эмоций.

Исследования, направленные на классификацию текста по полярности (положительные / отрицательные), доминируют в сентимент-анализе.

При компьютерной обработке в сентимент-анализе текст без четкой структуры приводит к ошибкам. Неправильно написанные слова, ирония и сарказм, сложноподчиненные предложения, сравнительные обороты, нейтральные (объективные) предложения затрудняют удачный анализ.

анализ тональности слов

В работах Гордона Олпорта акцент сделан на том, что для идентификации отдельных эмоций нет нужды в эволюционном взгляде на эмоции [АИроМ:, 1924]. Сентимент-анализ в наше время ориентирован на фиксирование определенных ключевых слов, статистические показатели по которым могут служить основой определения эмоциональной тональности [Ектап, 1972].

Отслеживание таких показателей в электронных библиотеках может служить нескольким целям:

1) поиск и отбор по заданным эмоциональным характеристикам (какие из сказок братьев Гримм больше всего внушают ужас? пятая или же шестая серия Шерлока является образчиком британского юмора?);

2) социальный анализ (по дистрибуции тех или иных эмоционально окрашенных слов можно проанализировать отношение к определенным слоям населения в конкретный временной период);

3) компаративный анализ литературных работ (в какой степени отличается использование эмоционально окрашенной лексики женщинами-авторами и мужчинами-авторами).

Различные показатели эмоций для целевого термина были найдены путем определения класса интенсивности эмоций. Для определенной пары термин-эмоция класс интенсивности - это степень эмоций, которые вызывает слово.

Значительный процент существительных, глаголов, прилагательных и наречий вызывает ассоциации. Наречия и прилагательные являются одними из самых провокативных в плане эмоций, и это неудивительно, учитывая, что они используются для обозначения существительного или глагола.

Классификация эмоций включает два этапа. На первом этапе текст разбивается на дискурсивные единицы методом, часто используемым при сегментации текста, а эмоции каждой дискурсивной

единицы классифицируются на основе частоты эмоциональных слов, содержащихся в такой единице. На втором этапе осуществляется категоризация эмоции каждого предложения с учетом типа предложения и эмоциональных слов, содержащихся в предложении.

Дискурсивные единицы, разделенные на части, в которых присутствуют соответствующие эмоции

Рис. 1. Разбивка текста

На рисунке 1 представлена иллюстрация разбивки текста. Каждой единице дискурса соответствует определенная эмоция. Предельные значения интонационных параметров, высоты и силы тона, а также темпа речи не приписывают для всей единицы дискурса, поскольку цель этого этапа -передать атмосферу каждой единицы дискурса. Между тем озвучивание предложения с более сильной эмоциональной составляющей в рамках единицы дискурса осуществляется со строго контролируемыми интонационными параметрами, при этом может быть выражена более сильная эмоция.

анализ структуры предложения

В последние годы было написано множество работ по анализу тональности больших массивов текстов. Чем длиннее предложение, тем легче оценить его структуру с точки зрения эмоциональной тональности.

На этапе объективной категоризации эмоций текст разбивают на единицы дискурса и определяют эмоцию, выраженную в каждой такой единице. При разбивке текста на дискурсивные единицы применялся алгоритм разбивки текста на ячейки (text tiling) [Hearst, 1994]. Часть текста делится путем размещения двух блоков в тексте; аналогичный уровень между двумя блоками рассчитывается по уравнению (1).

(1)

Где £ - это слова, которые встречаются в тексте, а юМ - вес слова £ в контексте блока /'. Такой вес, как

Linguistics

правило, рассчитывается как частота слова в блоке. Наконец, точки разделения определяются в тех точках, где аналогичный уровень ниже критерия.

Хотя слово t обычно относится к одному слову, относят его к группе слов с одинаковым значением с учетом данных тезауруса [National Language Laboratory in Japan, 2002]. Такое расширение от слов к синонимам может повысить значение сходства в уравнении (1).

Для определения эмоции, выраженной в каждой дискурсивной единице, помечают все существительные, прилагательные и наречия, встречающиеся в такой единице, как приятные, неприятные или нейтральные, используя словарь эмоциональных слов, и определяют эмоцию каждой единицы с учетом частоты приятности или неприятности.

Для точного анализа эмоциональной тональности необходимо анализировать тексты в более широком контексте, т. е. в больших коллекциях.

С учётом целевого текста система должна определять, какие слова существуют в нашем лексиконе эмоций и вычислять такие отношения, как количество слов, связанных с эмоциями, к общему количеству слов в тексте. Этот простой подход может быть ненадежным при определении того, выражает ли конкретное предложение определенную эмоцию, но он надежен в определении того, какой кусок текста имеет больше эмоциональных выражений.

Классификация эмоций разделена на два процесса. В ходе одного процесса текст разбивается на дискурсивные единицы с помощью метода, который часто используется при сегментации текста, и эмоции каждой единицы дискурса просто классифицируются на основе частоты употребления эмоциональных слов, распределенных по всему тексту. В результате второго процесса эмоция каждого предложения классифицируются по типу предложения.

Грамматическая структура простого предложения получается путем морфологического анализа и анализа зависимостей. Морфологический анализ - это метод разделения предложения на морфемы, которые являются примитивами предложения, причем каждой морфеме соответствует та или иная часть речи. С другой стороны, анализ зависимостей определяет зависимость между предложениями. О структуре предложения можно судить на основе результатов этих двух анализов. Используют три типа предложений: предложение с прилагательным, предложение с существительным и предложение с глаголом.

После того, как был определен тип предложения, осуществляется его классификация по одной

из вышеупомянутых пяти эмоций с использованием словаря эмоциональных элементов.

Предложение с прилагательным и предложение с существительным соответствуют английскому предложению, S + V + C. В прилагательном предложении С - это прилагательное, а в предложении с существительным - существительное. Глагольное предложение соответствует модели S + V или S + V + O. На эмоцию предложений с прилагательным / существительным влияет эмоция прилагательного или существительного в роли дополнения, как показано на примерах ниже. В этих случаях прилагательное и существительное становятся элементами, содержащими эмоцию.

This book is interesting. -

«Эта книга является интересной».

эмоция предложения = Радость 1.0

S : Эта (This) (нейтральное) книга (book) = Нейтральное

V : является (is)

C : интересной (interesting) = Радость 1.0

Эмоция предложений с глаголами определяется сочетанием существительного в роли подлежащего и глаголом в роли сказуемого, как в примере ниже. В таком случае эмоциональный тон задается комбинацией.

A hateful enemy loses. -

«Ненавистный враг проигрывает».

эмоция предложения = Радость 0,7

S : Ненавистный (A hateful) (Злость 0,9) враг (enemy) = Враждебность

V : проигрывает (loses) = Горе 0,8

Как видно из этих примеров, эмоция предложения с глаголом изменяется с эмоции глагола в зависимости от подлежащего. Словарь эмоциональных элементов также содержит эти комбинации.

Чтобы определить эмоцию, которая выражается в каждом блоке дискурса, помечают все существительные, прилагательные и наречия, появившиеся в единице дискурса, маркерами приятных эмоций, неприятных или нейтральных, и определение эмоций каждой единицы происходит на основе частоты встречаемости в тексте приятных или неприятных эмоций.

В классификации локальных эмоций простое предложение относится к одной из пяти эмоций: радость, печаль, гнев, удивление и нейтральная эмоция, такое соотнесение основано на грамматической структуре и эмоционально окрашенных словах.

Морфологический анализ - это метод разделения предложения на морфемы, которые являются элементарными частями предложения. После обнаружения шаблона предложения оно соотносится с одной из пяти эмоций, упомянутых выше.

заключение

Отталкиваясь от процедур морфологического анализа и анализа эмоционально окрашенных слов, можно провести первичный сентимент-анализ. Система, предложенная в этой статье, позволяет объективно классифицировать эмоцию текста согласно распределению эмоциональных слов и классифицировать эмоцию предложения согласно эмоции существительных, прилагательных или

глаголов, включенных в предложение, не стремясь к пониманию смысла текста. Отсутствие размеченных данных - один из важных тормозов для более быстрого развития добычи эмоций.

Одно предложение может содержать одновременно и удивление, и гнев, и, возможно, страх, поэтому соотнесение фрагмента текста с той или иной эмоцией иногда невозможно. В последнее время метод глубокого обучения становится все более и более популярен в сентимент-анализе. Применяются в глубоком обучении и искусственные нейронные сети, распознающие семантические отношения в тексте.

Технология искусственного интеллекта была разработана достаточно давно, однако понимание смысла текста до сих пор не всегда представляется возможным.

список источников

1. Allport F. H. Social psychology. Boston: Houghton Mifflin, 1924.

2. Ekman P. Universals and cultural differences in facial expressions of emotion. Lincoln, NE: University of Nebraska Press, 1972. P. 207-283.

3. Hearst M. A. Multi-Paragraph Segmentation of Expository Text. Proceedings of the 32nd Annual Meeting of Association for Computational Linguistics. 1994. P. 9-16.

4. National Language Laboratory in Japan. Bunrui Goi Hyou. Dainihon Tosyo, 2002.

REFERENCES

1. Allport, F. H. (1924). Social psychology. Boston: Houghton Mifflin.

2. Ekman, P. (1972). Universals and cultural differences in facial expressions of emotion (pp. 207-283). Lincoln, NE: University of Nebraska Press.

3. Hearst, M. A. (1994). Multi-paragraph segmentation of expository text. Proceedings of the 32nd Annual Meeting of Association for Computational Linguistics (pp. 9-16).

4. National Language Laboratory in Japan. (2002). Bunrui Goi Hyou. Dainihon Tosyo.

информация об авторе

Семенова Мария Олеговна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

аспирант кафедры переводоведения и практики перевода английского языка переводческого факультета Московского государственного лингвистического университета

information about the author Semenova Mariia Olegovna

Postgraduate Student of the Department of Translation Studies and Practice of English Translation, Faculty of Translation and Interpreting, Moscow State Linguistic University

Статья поступила в редакцию 15.05.2022 The article was submitted 15.05.2022 одобрена после рецензирования 23.05.2022 approved after reviewing 23.05.2022 принята к публикации 10.09.2022 accepted for publication 10.09.2022

i Надоели баннеры? Вы всегда можете отключить рекламу.