Научная статья на тему 'Сентимент-анализ как один из методов определения семантической направленности медиатекста'

Сентимент-анализ как один из методов определения семантической направленности медиатекста Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
15
4
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
сентимент-анализ • медиатекст • тональность сообщения • автоматический анализ текста / sentiment analysis • media text • opinion mining • automated text analysis

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Комарова Е. В., Дрейер В. Г.

нализ тональности медиатекста и выявление имплицитной информации имеет большое значение для современных исследователей. В силу своей специфики изучение медиатекста требует применения новых форм анализа текста, в том числе привлечения автоматических программ текстового анализа и нейросетевых технологий. В данной работе была использована синергия методов, а именно сентимент-анализ и анализ лексических ассоциаций с применением нейросетевых технологий, для определения семантической направленности англоязычных интернет-сообщений, посвященных мигрантам. В результате было обнаружено, что для подтверждения и корректировки полученных данных необходимо комбинировать способы автоматического анализа медиатекста с лингвистической экспертизой.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SENTIMENT ANALYSIS AS ONE OF THE METHODS TO STUDY SEMANTIC ORIENTATION OF MEDIA TEXTS

The analysis of the media text semantic orientation and the identification of implicit information is of great importance for modern researchers. Due to its specific characteristics, the study of media text requires the use of new forms of text analysis, including automatic text analysis programs and neural network technologies. In this study, a combination of methods was used, namely sentiment analysis and analysis of lexical associations using neural network technologies, to determine the semantic orientation of English-language Internet messages about migrants. The results show that in order to confirm and correct the obtained data, it is necessary to use both the methods of automatic analysis of the media text and linguistic expertise

Текст научной работы на тему «Сентимент-анализ как один из методов определения семантической направленности медиатекста»

Сентимент-анализ как один из методов определения семантической направленности медиатекста

Комарова Е. В., кандидат филологических наук, доцент кафедры английского языка № 8 МГИМО (У) МИД РФ, Москва, elvakom@rambler.ru

Дрейер В. Г., старший преподаватель кафедры английского языка № 8 МГИМО (У) МИД РФ, Москва, 1094564@gmail.com

Анализ тональности медиатекста и выявление имплицитной информации имеет большое значение для современных исследователей. В силу своей специфики изучение медиатекста требует применения новых форм анализа текста, в том числе привлечения автоматических программ текстового анализа и ней-росетевых технологий. В данной работе была использована синергия методов, а именно сентимент-анализ и анализ лексических ассоциаций с применением нейросетевых технологий, для определения семантической направленности англоязычных интернет-сообщений, посвященных мигрантам. В результате было обнаружено, что для подтверждения и корректировки полученных данных необходимо комбинировать способы автоматического анализа медиатекста с лингвистической экспертизой.

• сентимент-анализ • медиатекст • тональность сообщения • автоматический анализ текста

ВВЕДЕНИЕ

Изучение тональности текста и выявление объективности или субъективности сообщения представляется одной из наиболее перспективных и активно развивающихся областей компьютерной лингвистики. Проблема определения оценок и сопричастности автора особенна актуальна при работе с медиатекстом, поскольку последний характеризуется более свободной формой построения текста и адаптивностью к новым форматам.

Извлечение имплицитной информации из медиатекста оказывается важной для специалистов самых разных областей. Например, определение фейковых сообщений, в том числе новостей, может быть проведено с помощью автоматического анализа текста, а именно методов машинного обучения, где изучаются определенные признаки структуры дискурса. Чем больше обнаружено причинно-следственных отношений между предложениями, тем выше вероятность того, что данное сообщение не является достоверным (Толдова, 2019:533). Очевидно, выявление коннотатив-ных нюансов медиатекста представляет интерес для целого ряда специалистов: лингвистов, математиков, политологов, маркетологов и т. д.

10

Существует множество интерпретаций термина «коннотация». Ю. Д. Апресян определяет лексические коннотации как устойчивые признаки понятия, которые передаются лексемой и отражают общественное мнение касаемо этого явления (Апресян, 1988:36). Ю.С. Маслов понимает под коннотациями «созначения, то есть эмоциональные, экспрессивные, стилистические „добавки" к основному значению, придающие слову особую окраску» (Маслов, 2007:100). В компьютерной лингвистике коннотации определяются как «оценочные ассоциации слов, появление в тексте слов с положительными или отрицательными коннотациями коррелирует с соответствующими оценками, выражаемыми в тексте» (Большакова, 2017:130).

Степень объективности текста и авторской сопричастности измеряется его семантической направленностью, которая с помощью оценочных элементов выявляет авторскую позицию (отрицательную или положительную) относительно того или иного явления (Taboada, 2011). Анализ семантической направленности текста встречается в работах исследователей под различными собирательными терминами: субъективность (Lyons, 1981; Langacker, 1985), извлечение мнений (Pang, 2008), анализ позиции автора (Biber, 1988; Conrad, 2000), определение оценки (Martin, 2007), точка зрения (Wiebe, 1994; Scheibman, 2002), эвиденци-альность (Chafe, 1986), сентимент-анализ (Pang, 2008).

Сентимент-анализ, или анализ тональности текста, является одним из методов контент-анализа, направленного на определение эмотивной лексики в тексте. Анализ тональности может быть выполнен экспертами или с помощью компьютерной программы, где применяются алгоритмы машинного обучения, инструменты обработки естественного языка и статистики. Существуют различные методы классификации тональности, например: методы машинного обучения, методы, основанные на теоретико-графовых моделях, методы, основанные на заранее составленных тональных словарях.

Для определения тональности англоязычного текста существует достаточно большое количество таких словарей, например: General Inquirer, ANEW, MPQA, SentiWordNet, WordNet-Affect, SenticNet, AFINN. Для русскоязычных текстов тональных словарей пока значительно меньше: ProductSentiRus, LinisCrowd, RuSentiLex, SentiRusColl и др.

Цель работы: определить возможности использования и степень достоверности метода сентимент-анализа для интерпретации медиатекста, а именно выявления имплицитной информации и авторской оценки, на примере анализа сообщений о мигрантах.

Материал: 7400 контекстов (199 190 слов) данных корпуса англоязычных сообщений интернета по входному слову migrant, корпус iWeb.

Инструменты: TextAnalyst 2.01, LIWC.

Методы: сентимент-анализ, анализ лексических ассоциаций с применением нейросетевых технологий.

РЕЗУЛЬТАТЫ И ДИСКУССИЯ

Для определения семантической направленности англоязычных медиатекстов мы использовали программу автоматического анализа текста LIWC (Linguistic Inquiry and Word Count), которая рассчитывает процент содержания слов, отражающих различные эмоции, стили, социальные проблемы. Используемый в данной работе тональный словарь включает 6400 слов, основы слов и эмотиконов. Достоверность и надежность результатов, полученных с помощью LIWC, уже была доказана в работах ряда исследователей (см.: Pennebaker, 2015; Alpers, 2005; Jang, 2016; Young, 2012 и др.).

Согласно полученным результатам (рис. 1), общий эмоциональный тон изучаемых сообщений достаточно низкий — 28,67 %. В данных контекстах доминируют слова, выражающие негативные эмоции, такие как беспокойство, враждебность и злость. Процент эмотивной лексики — 3,17, фиксируются негативные эмоции: беспокойство (0,30), злость (0,45), грусть (0,28). Высокий процент «воздействия» сообщений (72,83) фиксирует степень убежденности автора, что подтверждается высоким процентом «аналитического мышления» (96,39).

Filename Dic Segment WC Analytic Clout Authentic Tone WPS

Sixltt function pronoun ppron I we you shehe they

ipron article prep auxverb adverb conj negate verb adj conpare interrog

number quant affect posemo negemo anx anger sad social family

friend female male coqproc insight cause discrep tentat centain differ percept

see hear feel bio body health sexual ingest drives affliation

achieve power reward risk focuspast focuspresent focusfuture relativ

motion space time work leisure home money relig death informal

swear netspeak assent nonflu filler AllPunc Period Comma Colon SemiC

Qmark Exclam Dash Quote Apostro Parenth OtherP

iweb corpus.docx 1 207099 96,39 72,83 14,96 28,67 28,35 32,96

69,22 37.24 5,05 2,26 0,28 0, 35 0,20 0,62 0,84 2,79 7,69

13,90 4,66 2,22 4,91 0,49 0,53 3,71 2,05 1,02 2,74 1,73

3,17 1,66 1,48 0,30 0,45 0, 28 8,07 0,43 1,55 0,50 0,59

6,64 1,34 1,36 0,71 1,63 0,70 1,75 1,33 0,58 0,45 0,17

2,54 0,22 1,95 0,12 0,28 9,20 1,82 2,74 4,95 0,67 0,87

2,52 5,32 0,66 12,73 1,59 7,45 3,74 6,49 0,83 0,63 1,11

0,31 0,22 0,20 0,02 0,08 0,03 0,07 0,00 20,93 9,26 4,65

0,29 0,15 0,15 0,03 1,25 0,87 0,90 0,90 2,49

Рис. 1. LIWC результат анализа корпуса iWeb

Полученные данные были сверены с помощью анализа лексических ассоциаций, который позволяет выявить интенции автора и коннотативные нюансы сообщения. Для этого мы использовали интеллектуальный анализ текста TextAnalyst и выполнили ассоциативный поиск (рис. 2).

Л

ir tí cm

* IliVIitM

■i Id«

4 Si"=

■S Т

4 Isa*»

4 ÏPÎVl

4 iit'-ïr;

4 IhHi

4 iHIvrt

4

4 Hnpjylíct+l

4 H^ïifim

4 l^üHw

4 î

4 : i-.Ti.di i.T,

Рис. 2. Результаты ассоциативного поиска по запросу migrant

Комарова Е. В., Дрейер В. Г.

Сентимент-анализ как один из методов определения семантической направленности медиатекста

Так, в данных контекстах были определены следующие лексические единицы по запросу migrant: migrant work (34), child (9), crisis (8), migrant crisis (7), country (6), program (5), refugees (5), students (5), migrant camp (5), migrant child (3), migrant farm (3), migrant labour (3), migrant students (3), migrant farm work (2).

Например: French Presidential election upcoming, the topic of Immigration and the impact of the European Migrant Crisis remains an incredibly important campaign issue.

I read in the New York Times today that the European migrant crisis is triggering fear, misunderstanding and racism among some people.

The obvious place to look at is how many new migrant are coming into the country from overseas.

Education develops supplemental academic and hands-on programs and services to meet the educational needs of migrant students.

She also called for the government to review its migrant labour policies in the aftermath of the riot...

Eventually, the American government listened and passed laws to reform the rights of migrant farm workers.

Затем все сообщения были разбиты на три кластера: нейтральные, позитивные и выражающие эмпатию. Группа нейтральных контекстов посвящена теме интеграции мигрантов в принимающее общество, а именно программам для студентов-мигрантов и детей мигрантов. Сообщения, выражающие эмпатию, освещают тему эксплуатации рабочих мигрантов.

Например: The entity's proposal must describe a two-year strategy for meeting the needs of eligible migrant and seasonal farmworkers in the geographic area the entity seeks to serve.

Ms Mohamud is optimistic the practice will end, but she fears migrant communities or individual women will be demonised.

Thai women are shown to be paid significantly lower than average even for other migrant communities.

Несмотря на присутствие лексем с отрицательной семантикой (fears, de-monized, paid significantly lower), данные сообщения нельзя отнести к разряду негативных, поскольку контексты предполагают отрицательную оценку условий труда, а не самих мигрантов.

Негативные контексты освещают проблему количества мигрантов. Замена нейтральных слов маркированными синонимами (hordes) меняет коннотацию всего сообщения и отображает отрицательную авторскую оценку данного события. Определенную тональность сообщению

речь — коммуникация — медиатекст

12

придают лексемы с отрицательным семантическим компонентом, находящиеся в непосредственной близости со словом migrant (unlimited mass invasion, unscreened, anxiety).

Например: Angie. Now you have gone ahead and green-lighted an unlimited mass invasion of unscreened migrant hordes from the Middle East and Africa.

It is safe to say, then, that through the prism of the unrestricted movement of EU nationals into the UK, immigration was and is a cause of anxiety for many.

Помимо количественных характеристик мигрантов в группу негативных сообщений попадают контексты, посвященные экономическим мигрантам, а также контексты, где распространяются этнические стереотипы.

Например: If you feel that way, then why not' multi-culturalize' your home with a migrant or two. Then I can laugh my asss off when they rape your wife.

.real refugees take refuge in the first country they arrive in..these are financial migrants,,

trying to get on the uk gravy train...... the UK govt badly misjudged the feelings of its

population over the farce that was brexit, the uk are leaving because the countries population has simply had enough of mass unchecked migration to the UK by millions..... letting in these 25 yr old children just compound the issues.

ЗАКЛЮЧЕНИЕ

Таким образом, проведенный сентимент-анализ и последующий анализ лексических ассоциаций англоязычных сообщений о мигрантах показал, что анализ медиатек-ста требует комплексного подхода. Для эффективного извлечения имплицитной информации следует комбинировать различные формы текстового анализа, такие как автоматические программы анализа текста, нейросетевые технологии, критический дискурс-анализ. Использование только автоматических программ текстового анализа может привести к некоторой погрешности, поэтому их необходимо дополнить лингвистической экспертизой.

Данную тему можно продолжить в контексте мультимодальных исследований, которые дают возможность наиболее точно изучить особенности построения и функционирования медиатекста.

Список использованных источников:

1. Апресян, Ю. Д. Прагматическая информация для толкового словаря // Прагматика и проблемы интенсиональности. Институт языкознания АН СССР. Проблемная группа «Логический анализ языка». — М.: Наука, 1988. — С. 7-44.

2. Большакова, Е. И. Автоматическая обработка текстов на естественном языке и анализ данных: учеб. пособие / Е. И. Большакова, К. В. Воронцов, Н. Э. Ефремова, Э. С. Клышинский, Н. В. Лукашевич, А. С. Сапин. — М.: Изд-во НИУ ВШЭ, 2017. — 269 с.

3. Маслов, Ю. С. Введение в языкознание: учебник для студ. филолог. и лингв. фак. высш. учеб. заведений. — 6-е изд., стер. / Ю. С. Маслов. — СПб.: Филологический факультет СПбГУ; М.: Академия, 2007. — 304 с.

4. Толдова, С. Ю. Извлечение информации из текста // Введение в науку о языке / С. Ю. Толдова, А. Е. Кибрик [и др.]; под ред. О. В. Федоровой и С. Г. Татевосо-ва - М.: Буки Веди, 2019. - 672 с. - ISBN 978-5-4465-2188-3.

5. Alpers, Georg W., Andrew J. Winzelberg, Catherine Classen, Heidi Roberts, Parvati Dev, Cheryl Koopman, and C. Barr Taylor. Evaluation of Computerized Text Analysis in an Internet Breast Cancer Support Group. Computers in Human Behavior 21(2). 2005. - p. 361-76.

6. Biber, Douglas and Edward Finegan. Adverbial stance types in English. Discourse Processes, 11(1). - 1988. - Pp. 1-34.

7. Chafe, Wallace and Johanna Nichols. Evidentiality: The Linguistic Coding of Epistemology. Ablex, Norwood, NJ. - 1986. - 346 p.

8. Conrad, Susan and Douglas Biber. Adverbial marking of stance in speech and writing. In Geoff Thompson, editor, Evaluation in Text: Authorial Distance and the Construction of Discourse. Oxford University Press, Oxford. - 2000. - pp. 56-73.

9. Jang, S. Mo and Yu Won Oh. Getting Attention Online in Election Coverage: Audience Selectivity in the 2012 US Presidential Election // New Media Society 18(10). -2016. - pp. 2271-86.

10. Langacker, Ronald W. Observations and speculations on subjectivity // In John Haiman, editor, Iconicity in Syntax. - John Benjamins, Amsterdam and Philadelphia. - 1985. - pages 109-150.

11. Lyons, John. Language, Meaning and Context. - Fontana, London. - 1981. - 256 p.

12. Martin, James R. and Peter R. R. White. The Language of Evaluation. - Palgrave, New York. - 2007. - 290 p.

13. Pang, Bo and Lillian Lee. Opinion mining and sentiment analysis. // Foundations and Trends in Information Retrieval, 2(1-2). - 2008. - pp. 1-135.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

14. Pang, Bo and Lillian Lee. Opinion mining and sentiment analysis. // Foundations and Trends in Information Retrieval, 2(1-2). - 2008. - pp. 1-135.

15. Pennebaker, J. W., R. Boyd, K. Jordan, and K. Blackburn. The Development and Psychometric Properties of LIWC2015. - 2015. URL: http://hdl.handle. net/2152/31333

16. Scheibman, Joanne. Point of View and Grammar: Structural Patterns of Subjectivity in American English. - John Benjamins, Amsterdam and Philadelphia. - 2002. -187 p.

17. Taboada M, Brooke J, Tofiloski M, Voll K, Stede M. Lexicon based methods for sentiment analysis. Computational Linguistics Vol. 37(2). - 2011. - pp. 267-307.

18. Wiebe, Janyce. Tracking point of view in narrative // Computational Linguistics, 20(2). - 1994. - pp. 233-287.

19. Young, Lori and Stuart Soroka. Affective News: The Automated Coding of Sentiment in Political Texts // Political Communication 29(2). - 2012. - pp. 205-231.

SENTIMENT ANALYSIS AS ONE OF THE METHODS TO STUDY SEMANTIC ORIENTATION OF MEDIA TEXTS

Komarova E. V., PhD, Associate professor at Department of the English Language № 8, Moscow, MGIMO

Drejer V. G., Senior Lecturer at Department of the English Language № 8, Moscow, MGIMO

14

The analysis of the media text semantic orientation and the identification of implicit information is of great importance for modern researchers. Due to its specific characteristics, the study of media text requires the use of new forms of text analysis, including automatic text analysis programs and neural network technologies. In this study, a combination of methods was used, namely sentiment analysis and analysis of lexical associations using neural network technologies, to determine the semantic orientation of English-language Internet messages about migrants. The results show that in order to confirm and correct the obtained data, it is necessary to use both the methods of automatic analysis of the media text and linguistic expertise.

• sentiment analysis • media text • opinion mining • automated text analysis

i Надоели баннеры? Вы всегда можете отключить рекламу.