Научная статья на тему 'Лингвистические принципы и методы компьютерной лингвистики для решения задач сентимент-анализа русскоязычных текстов'

Лингвистические принципы и методы компьютерной лингвистики для решения задач сентимент-анализа русскоязычных текстов Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
2303
315
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СЕНТИМЕНТ-АНАЛИЗ / SENTIMENT ANALYSIS / ХУДОЖЕСТВЕННЫЙ ТЕКСТ / FICTION TEXT / МАШИННОЕ ОБУЧЕНИЕ ПО ПРЕЦЕДЕНТАМ / SUPERVISED MACHINE LEARNING / ЛИНГВИСТИЧЕСКАЯ ЭМОТИОЛОГИЯ / LINGUISTIC EMOTIOLOGY / КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА / COMPUTATIONAL LINGUISTICS / КЛАССИФИКАЦИЯ ЭМОЦИЙ Г. ЛЕВХЕЙМА / EMOTION CLASSIFICATION OF H. LöVHEIM / ДИСКРИМИНАНТНЫЕ ЧЕРТЫ ТЕКСТОВ / TEXT CLASSES FEATURES

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Колмогорова Анастасия Владимировна, Калинин Александр Андреевич, Маликова Алина Вячеславовна

В статье представлены промежуточные результаты проекта по созданию ранжированного классификатора русскоязычных текстов по критерию их эмоциональной тональности. Цель статьи обсуждение лингвистических принципов и методов компьютерной лингвистики, положенных в основу разработки. Методология. Исследование носит междисциплинарный характер и выстроено в рамках, с одной стороны, лингвистики эмоций, а с другой технологии сентимент-анализа текстов. Базисным методом для разработки компьютерного классификатора послужил такой алгоритм машинного обучения по прецедентам, как Наивный Байесовский классификатор. Для решения задачи выявления дискриминантных черт восьми классов текстов, каждый из которых вербализует в качестве ведущей одну из восьми эмоций, согласно классификации Г. Левхейма, использовалась модель текста «мешок слов (Bag-of-words)», основанная на автоматическом выявлении статистической значимости лексических единиц для некоторого класса текстов, а также метод экспертного лингвистического анализа. Для составления размеченной коллекции текстов, послужившей затем в качестве основы для тренировочной выборки классификатора, был использован метод экспертного аннотирования посредством краудсорсинга. Результаты, обсуждаемые в публикации, заключаются в выделении дискриминантных черт (features) для дальнейшего использования их в различных алгоритмах машинного обучения в целях автоматической атрибуции текстов к одному из 9 классов: тексты, вербализующие 1) интерес / возбуждение, 2) удовольствие / радость, 3) удивление, 4) страдание / тоска, 5) страх / ужас, 6) стыд /унижение, 7) брезгливость / отвращение, 8) злость / гнев либо тексты, являющиеся «нейтральными». Подчеркивается, что выявленные маркеры эмоций включают в себя как единицы эмотивной лексики, так и лексику эмоций, а также ситуативно эмотивную лексику и дескрипторы внешних проявлений эмоциональных состояний. В заключении делаются выводы о том, что разработка ранжированного классификатора русскоязычных текстов по их эмоциональной тональности является перспективным направлением исследований, которое позволяет по-новому взглянуть на некоторые методологические вопросы теоретической лингвистики, проверив их в практике прикладных исследований.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Колмогорова Анастасия Владимировна, Калинин Александр Андреевич, Маликова Алина Вячеславовна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

LINGUISTIC PRINCIPLES AND COMPUTATIONAL LINGUISTICS METHODS FOR THE PURPOSES OF SENTIMENT ANALYSIS OF RUSSIAN TEXTS

The article focuses on the current results of research project aiming at the design of Russian text classifier according to the criterion of text’s emotional tonality. In this paper we discuss linguistic principles and computational linguistics methods basic for our project. Materials and Methods: The research framework integrates theoretical basis of linguistic emotiology and technologies of sentiment analysis. The methodology is axed on Naïve Bayes classifier the supervised machine-learning algorithm as one of the most suitable approaches for handling lexical issues in tasks of Natural Language Processing. For text classes feature selection we apply a hybrid methodology using the “bag of words” model and manual linguistic annotation of the data implemented with help of crowdsourcing practice. Results: A feature set is proposed in order to use it for testing different machine learning algorithms aimed to attribute Russian texts to one of nine text classes, such as: texts articulating 1) interest / excitement, 2) enjoyment / joy, 3) surprise, 4) distress / anguish, 5) fear / terror, 6) shame / humiliation, 7) contempt / disgust, 8) anger / rage or 9) “neutral” texts. Eight emotion classes are borrowed from the biological emotion classification of H. Lövheim. The selected features include a rich inventory of linguistic items: emotional lexicon, emotion names, situation based emotional vocabulary and verbal descriptions of emotion behavior manifestations. Conclusions: the design of Russian text classifier according to the criterion of text’s emotional tonality gives the opportunity to rethink some tenets of theoretical linguistics testing them in the practice of applied research.

Текст научной работы на тему «Лингвистические принципы и методы компьютерной лингвистики для решения задач сентимент-анализа русскоязычных текстов»

А.В. Колмогорова ORCID iD: 0000-0002-6425-2050

Сибирский федеральный университет, г. Красноярск, Россия

А.А. Калинин ORCID iD: 0000-0002-0012-1692

Сибирский федеральный университет, г. Красноярск, Россия

А.В. Маликова ORCID iD: 0000-0002-3438-1839

Сибирский федеральный университет, г. Красноярск, Россия

УДК 811.111

ЛИНГВИСТИЧЕСКИЕ ПРИНЦИПЫ И МЕТОДЫ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ ДЛЯ РЕШЕНИЯ ЗАДАЧ СЕНТИМЕНТ-АНАЛИЗА РУССКОЯЗЫЧНЫХ ТЕКСТОВ DOI: 10.29025/2079-6021-2018-1(29)-139-148

В статье представлены промежуточные результаты проекта по созданию ранжированного классификатора русскоязычных текстов по критерию их эмоциональной тональности. Цель статьи - обсуждение лингвистических принципов и методов компьютерной лингвистики, положенных в основу разработки. Методология. Исследование носит междисциплинарный характер и выстроено в рамках, с одной стороны, лингвистики эмоций, а с другой - технологии сентимент-анализа текстов. Базисным методом для разработки компьютерного классификатора послужил такой алгоритм машинного обучения по прецедентам, как Наивный Байесовский классификатор. Для решения задачи выявления дискриминантных черт восьми классов текстов, каждый из которых вербализует в качестве ведущей одну из восьми эмоций, согласно классификации Г. Левхейма, использовалась модель текста «мешок слов (Bag-of-words)», основанная на автоматическом выявлении статистической значимости лексических единиц для некоторого класса текстов, а также метод экспертного лингвистического анализа. Для составления размеченной коллекции текстов, послужившей затем в качестве основы для тренировочной выборки классификатора, был использован метод экспертного аннотирования посредством краудсорсинга. Результаты, обсуждаемые в публикации, заключаются в выделении дискриминантных черт (features) для дальнейшего использования их в различных алгоритмах машинного обучения в целях автоматической атрибуции текстов к одному из 9 классов: тексты, вербализующие 1) интерес / возбуждение, 2) удовольствие /радость, 3) удивление, 4) страдание / тоска, 5) страх /ужас, 6) стыд /унижение, 7) брезгливость / отвращение, 8) злость / гнев либо тексты, являющиеся «нейтральными». Подчеркивается, что выявленные маркеры эмоций включают в себя как единицы эмотивной лексики, так и лексику эмоций, а также ситуативно эмотивную лексику и дескрипторы внешних проявлений эмоциональных состояний.

В заключении делаются выводы о том, что разработка ранжированного классификатора русскоязычных текстов по их эмоциональной тональности является перспективным направлением исследований, которое позволяет по-новому взглянуть на некоторые методологические вопросы теоретической лингвистики, проверив их в практике прикладных исследований.

Ключевые слова: сентимент-анализ, художественный текст, машинное обучение по прецедентам, лингвистическая эмотиология, компьютерная лингвистика, классификация эмоций Г. Левхейма, дискриминантные черты текстов.

Введение. Данная публикация посвящена обсуждению промежуточных результатов проекта по разработке ранжированного классификатора русскоязычных текстов по критерию их эмоциональной тональности и появившихся в ходе работы методологических дискуссионных вопросов.

Попытки типологизировать тексты по критериям, выходящим за пределы объективно наблюдаемых структурно-композиционных признаков (жанровых, например), но связанных с психологическим состоянием их автора, эманирующим из такого текста и производящим определенное впечатление на его реципиента, известны отечественной лингвистике. Так, в частности, имеет высокий индекс цити-руемости психолингвистическая классификация художественных текстов по критерию их эмоциональ-

но-смысловой доминанты, коррелирующей с тем или иным типом акцентуации личности автора текста [1]: «светлые», «активные», «тёмные», «печальные», «веселые», «красивые». Данная типология основана на особенностях сюжета, персонажей и основных смысловых оппозициях, образующих художественную канву литературного произведения.

Развитие современных компьютерных технологий автоматической обработки языковых данных сделало возможным создание компьютерной программы, способной классифицировать тексты по эмоциональному состоянию, представленному в них, - тексты, выражающие эмоцию грусти, радости, гнева и т.д. - исходя из анализа статистической значимости некоторых лексем, языковых конструкций, их морфологических и синтаксических признаков, рассматриваемых как маркеры того или иного класса эмоций.

Несмотря на разработанность теории эмоций в лингвистике, с одной стороны, и технологий сенти-мент-анализа - с другой, задача создания классификатора текстов по выраженности в них той или иной эмоции не является тривиальной, поэтому в ходе работы возник ряд дискуссионных вопросов, которые мы бы хотели обсудить в данной публикации.

Обзор литературы. Междисплинарный характер проекта обусловливает двухчастную структуру обзора исследований в рамках интересующего нас научного поля: в первой кратко рассматриваются значимые результаты, полученные лингвистами в области эмотиологии, а во второй - характер технологических разработок, существующих сегодня в сфере сентимент-анализа.

В лингвистике существует сформировавшаяся традиция изучения вербального аспекта проявления эмоций - лингвистическая эмотиология, объединяющая эмотивную стилистику текста [2], эмотивную ономасиологию [6], эмотивную концептологию [4], изучение эмоциональной составляющей высказывания [9], толкование эмоциональных концептов при помощи семантических примитивов [3]. Отметим, что изучение эмоциональной составляющей семантики и прагматики языковых единиц в вышеназванных научных направлениях было мотивировано стремлением теоретического объяснения взаимосвязей языка и эмоций. Однако значительный рост текстового материала (интернет, социальные сети) и появление технологических инструментов обработки больших объемов данных на естественном языке стимулировали интерес лингвистов к прикладным аспектам лингвистики эмоций. Поиск вербальных маркеров различных проявлений личности, ее внутреннего мира, например, экстремистских настроений [17], лжи [27; 23], получил свое «эмоциональное» продолжение в рамках школы Р.К. Потаповой -были выявлены и описаны лингвистические корреляты таких внутренних состояний, как агрессия [24] и страх [5].

Проведенный анализ теоретической литературы показывает, что выявление вербальных маркеров эмоций является актуальной областью научных исследований, которая, имея солидный теоретический базис, находится в стадии становления.

Под сентимент-анализом понимается процедура идентификации и извлечения из текста эмоционально и оценочно окрашенного отношения говорящего или пишущего к предмету высказывания [19; 14]. Направление активно развивается в последние десять лет благодаря появлению новых компьютерных технологий и заинтересованности крупных корпораций, коммерческих организаций в мониторинге общественного мнения относительно производимых или продаваемых товаров и услуг [15]. Наиболее распространенными технологиями сентимент-анализа являются двухчастные и трехчастные классификаторы текстовых данных. Первые делят тексты либо на положительно-оценочные / негативно-оценочные (см. [20]), либо на имеющие объективную / субъективную модальность (например, [13]). Вторые выделяют положительно-оценочные, негативно-оценочные и нейтральные по тональности тексты [22]. Реже создаются так называемые ранжированные классификаторы, делящие тексты по их оценочности, например, на подкатегории strong positive, positive, neutral, negative, strong negative [26]. Анализ литературы показывает, что разработчики классификаторов в большинстве своем фокусируются на проблеме выявления оценки, а не собственно эмоции, представленной в тексте, как это сделано в проводимом нашей рабочей группой исследовании.

Основой для разработки технологий сентимент-анализа являются две группы методов: 1) использование правил, основанных на n-граммах, и словарей или баз данных оценочной лексики [28; 25] и 2) подход с использованием машинного обучения [18]. Исследователи отмечают [7, с. 248], что русско-

язычные программы сентимент-анализа, как правило, используют методы первой группы, а англоязычные - второй, поскольку для русского языка не существует пока размеченных коллекций данных, на которых можно было бы тренировать модели машинного обучения, хотя последние представляются более эффективными для решения задач анализа тональности текста. Кроме того, создавая классификаторы для других языков, кроме английского, даже при опоре на словари тональностей, разработчики вынуждены переводить данные англоязычных словарей на нужный язык [11], в том числе - на русский. Таким образом, инструменты сентимент-анализа для русскоязычных текстов являются областью, нуждающейся в разработке, в частности - в создании общедоступной размеченной коллекции текстов.

Методы исследования. Целью реализуемого проекта является создание компьютерной программы, способной автоматически классифицировать русскоязычные текстовые фрагменты по критерию доминирующей в них эмоции, распределяя тексты по 9 категориям: тексты, в которых выражены следующие эмоции, согласно классификации эмоций Г. Левхейма [21]: 1) интерес / возбуждение, 2) удовольствие / радость, 3) удивление, 4) страдание / тоска, 5) страх / ужас, 6) стыд /унижение, 7) брезгливость / отвращение, 8) злость / гнев, а также «нейтральные» тексты, т.е. тексты, в которых трудно выделить какую-либо эмоцию. Двучленные названия 7 эмоций призваны, по мысли Г. Левхейма, отразить градуированный характер эмоциональных состояний - первая номинация отражает слабую степень выраженности эмоции, а вторая - ее наивысшее проявление.

В качестве метода для разработки классификатора мы выбрали технологию машинного обучения с учителем (обучение по прецедентам), основной принцип которой - по частным данным, представляющим набор пар «объект, ответ», выявить закономерности, присущие не только конкретной обучающей выборке, но и генеральной совокупности данных.

Что касается этапов работы, то независимо от сферы применения можно выделить общие этапы решения задачи машинного обучения [8], основные из которых: постановка задачи исследования, определение требований к данным, сбор первичных данных, их предварительный анализ, улучшение качества данных, выбор наилучшего алгоритма обучения, настройка параметров алгоритма для улучшения качества получаемой модели, интерпретация полученных результатов.

Выбор источника первичных данных имеет первостепенное значение для достоверности обучающей выборки.

В нашем случае, чтобы отойти от привычных social media [16], мы выбрали художественное произведение, написанное на русском языке - роман М. Шишкина «Письмовник», поскольку: 1) роман написан в «псевдоэпистолярном» жанре, позволяющем героям вести друг с другом очень личный эмоционально насыщенный внутренний разговор; 2) просмотр рецензий о книге показывает, что текст вызывает сильный эмоциональный отклик у читателей, создавая эмоциональное состояние, практически изоморфное состоянию героев.

Для трансформации текста романа в коллекцию размеченных данных его 416 страниц были «вручную» разбиты на контекстуально законченные фрагменты объемом около 100 слов. Получившиеся 1500 фрагментов были выложены на одном из сайтов, предназначенных для краудсорсинга, где волонтерам предложили для каждого фрагмента поставить одну из 8 эмоциональных «меток» либо охарактеризовать фрагмент как нейтральный. В качестве примеров были приведены несколько размеченных авторами проекта текстовых фрагментов. В результате мы получили коллекцию из 1500 текстов (в технологии машинного обучения - «объектов»), снабженных «ответами», т. е. размеченных как выражающие определенную эмоцию либо нейтральные 100 пользователями, носителями русского языка в возрастном диапазоне от 17 до 52 лет. Отметим, что разметка данных на сайте продолжается - чем богаче будет коллекция размеченных данных, тем эти данные будут качественнее.

На следующем этапе работы была поставлена задача выявления дискриминантных черт каждого из 8 классов эмоционально окрашенных текстов, для того чтобы, выстраивая статистическую модель вероятности принадлежности текста к тому или иному классу, классификатор принимал во внимание значимость именно данных черт. Поскольку тексты в обучающей выборке уже были поделены на классы благодаря аннотации экспертов-волонтеров, можно было применить несколько методов для поиска отличительных черт каждого из классов (features) [29, с. 82]: «мешок слов» (bag of words), «мешок мнений» (bag of opinions), метод, основанный на словарях и тезаурусах (lexicon-base), метод экспертной

оценки (hand-ranking). Нами были использованы 2 из них: bag of words и метод экспертной лингвистической оценки.

Мешок слов (или bag of words) - это модель текстов на натуральном языке, в которой каждый документ или текст выглядит как неупорядоченный набор слов без сведений о связях между ними [12]. Его можно представить в виде матрицы, каждая строка в которой соответствует отдельному документу или тексту, а каждый столбец - определенному слову. Ячейка на пересечении строки и столбца содержит количество вхождений слова в соответствующий документ, либо иное значение, связанное с «весом» -важностью конкретного термина в конкретном документе.

Экспертная оценка включала в себя лингвистический анализ особенностей текстовых данных на лексическом, морфологическом, синтаксическом и графическом уровнях. На данный момент проводится тестирование валидности выделенных дискриминантных черт для работы классификатора с использованием различных статистических моделей.

Результаты и дискуссия. В качестве предварительных итогов проекта мы рассматриваем набор дискриминантных черт каждого из 8 эмоциональных классов текстов. В таблице 1 представлены дис-криминантные черты, полученные как при анализе по технологии «bag of words», так и путем экспертного лингвистического анализа.

Таблица 1

Дискриминантные черты (features) для 8 классов текстов различной эмоциональной тональности

№ Доминирующая эмоция, вер- Дискриминантные черты

бализованная в тексте Метод bagofwords Экспертный лингвистический анализ

1 Интерес / Возбуждение Соматизм голова Наречия и местоимения с элементом-то (когда-то, чего-то, столько-то, сам-то и т.д.)

2 Удовольствие / Радость Соматизм палец Парцелляция; конструкция так + Аdv; единицы лексико-семантических полей «счастье», «любовь», «природа», «цвет»; уменьшительно-ласкательные суффиксы; восклицательный знак

3 Удивление Семантические маркеры со значением предельности, крайней степени выраженности признака (самый, совершенно, вовсе); конструкция так + Аdv; сочетание восклицательного и вопросительного знаков в пунктуационном оформлении

4 Страдание / Тоска - Отрицательные формы глаголов

5 Страх / Ужас Малое число глаголов (2) в списке 20-ти наиболее статистически значимых слов и отсутствие специфических глаголов Парцелляция; негативные префиксы неглагольной лексики; единицы лексико-семантических полей «насилие», «тело», «болезнь/аномалии» в сочетании с ЛЕ с семой «время».

6 Стыд /Унижение Отсутствие соматизмов, частотность глаголов говорения ЛЕ с оппозитивными временными значениями «сейчас» и «тогда»; единицы из лексико-се-мантических полей «физиология», «насилие», отрицательные формы глаголов и негативные префиксы

7 Брезгливость / Отвращение Соматизм зуб, глагольная лексема тошнить Единицы лексико-семантических полей «физиология», «тело», «болезнь»

8 Злость / Гнев Глагольная лексема кричать Отрицательные формы глаголов и негативные префиксы

Отметим, что применение метода bag of words имеет в качестве неоспоримых преимуществ способность выделить конкретные лексемы, «вес» которых (в разнообразных словоформах) является статистически значимым для классификатора, например, лексемы голова (интерес / возбуждение), палец (удовольствие / радость), кричать (злость / гнев) и т. д. Недостатком же является то, что данный метод не позволяет увидеть закономерности совместной встречаемости слов, грамматические структуры, рассмотреть служебные слова, которые, например, при лингвистической экспертизе по атрибуции тек-

стов считаются важнейшими маркерами авторского стиля, но в рамках метода bagofwords во внимание принимаются только полнозначные знаменательные слова, а все остальные попадают в категорию так называемых стоп-слов.

Использование же лингвистического экспертного анализа («ручной» оценки) позволяет восполнить этот пробел, выявив подлежащие формализации закономерности на уровне речевой синтагматики и языковой парадигматики. Примером закономерностей первого типа являются выявленная значимость конструкции так + Аdv для классов текстов, вербализующих эмоции удовольствия / радости и удивления, а также употребление в одном контексте ЛЕ из ЛСП «насилие», «тело», «болезнь/аномалии» и ЛЕ с семой «время» для классов текстов, вербализующих страх / ужас, например:

1. Ну да, есть часы и минуты, а время - это ведь мы. Без нас время разве существует? То есть мы лишь форма существования времени. Его носители. И возбудители. Получается, что время - это такая болезнь космоса. Потом космос с нами справится, мы исчезнем, и наступит выздоровление. Время пройдет, как ангина.

Примером закономерностей второго типа являются лексико-семантические поля, специфические для того или иного класса текстов: «счастье», «любовь», «природа», «цвет» для удовольствия / радости, «физиология», «насилие» для стыда / унижения, «физиология», «тело», «болезнь» для брезгливости / отвращения.

В контексте обсуждения вышеописанных промежуточных результатов проекта возникает ряд вопросов дискуссионного характера.

Во-первых, при подобной технологии выявления дискриминантных черт возникает трудность в определении субъекта той эмоции, которая служит критерием для ранжирования текстов. Предполагается, что в тексте проявляются речевые / языковые особенности, свидетельствующие о переживании пишущим той или иной эмоции - «вербальные корреляты эмоционального состояния». Но поскольку основу обучающей выборки в нашем случае составили фрагменты художественного текста, аннотированные по эмоциональным классам экспертами, то предполагаемый субъект эмоции утраивается: это сам писатель? это его персонаж? это реципиент текста? В рамках проекта мы ответили на данный вопрос следующим образом: эмоциональное состояние обладает высокой степенью энтропии - описывая переживания героя, писатель как бы сам их испытывает (И поручиком в отставке сам себя воображал, - пишет Б. Окуджава), чувствует их и реципиент, хотя глубина сопереживания зависит от степени его эмпатичности. Следовательно, предметом нашего анализа являются эмоции, переживаемые пишущим и узнаваемые реципиентом текста.

Во-вторых, в дискуссиях неоднократно возникал вопрос об асимметрии между выражаемыми и реально переживаемыми эмоциями: действительно ли речь идет только о переживаемых эмоциях и можно ли сымитировать эмоциональное состояние и вербализовать такую имитацию? Отметим, что, на наш взгляд, ориентироваться следует на «честных» эмоциональных агентов, переживающих определенное эмоциональное состояние в момент написания текста, однако момент имитации также исключать нельзя - в этом один из аспектов актуальности проекта в контексте, например, деятельности модераторов так называемых детских «групп смерти» в социальных сетях, провоцирующих эмоции тоски, страха у целевой аудитории.

Наконец, требует обсуждения ряд технических моментов.

1. Несмотря на возможность выбрать в качестве уровня анализа как отдельное предложение, так и весь текст, мы остановились на сверхфразовом единстве, поскольку эмоциональное состояние - вещь чрезвычайно изменчивая, с одной стороны, а с другой - диффузная, а не точечная. Трудно выразить эмоцию одним словом - зачастую она проявляется при помощи языковых средств различного уровня, поэтому для ее узнавания недостаточно одного предложения.

2. В этой связи возникает и проблема полифоничности эмоций: как правило, эмоции не возникают изолированно - удовольствие может быть тесно связано с интересом, а гнев сопровождаться отвращением. Нашим экспертам, аннотировавшим текстовую коллекцию, было предложено, если они чувствуют несколько эмоций в данном фрагменте, относить его к нескольким классам одновременно. В дальнейшем такой текст попадал в тренировочную выборку как «представитель» нескольких классов.

3. В лингвистике эмоций традиционно выделяется несколько разрядов лексических единиц, способных «выразить» эмоцию: а) эмотивная лексика, содержащая в своем лексическом значении эмо-

циональный компонент, б) лексика эмоций (номинации эмоций), в) ситуативно эмотивная лексика и г) дескрипторы внешних проявлений эмоциональных состояний [10]. Использование в нашем проекте для выделения дискриминантных черт методов как автоматического, так и экспертного лингвистического анализа позволило нивелировать вышеназванное разделение: в число маркеров эмоций попали единицы всех вышеназванных классов (а) диминутивы, (б) радость, счастье (в) соматизмы (г) глаголы кричать (дескриптор для состояния гнева), тошнить (дескриптор для состояния отвращения) и др.

Заключение. Как показывает анализ литературы, создание ранжированного классификатора русскоязычных текстов по критерию репрезентированной в них ведущей эмоции является актуальной задачей, решение которой неизбежно затрагивает важные методологические проблемы как лингвистики эмоций, так и когнитивной и компьютерной лингвистики. Обсуждение подобных вопросов в аспекте прикладных исследований обогащает оба направления исследований. Поскольку работа над проектом продолжается, адекватность принятых разработчиками теоретических решений будет проверена на практике.

Библиографический список

1. Белянин В.П. Введение в психиатрическое литературоведение. München: Verlag Otto Sagner, 1996. 281 c.

2. Болотное В.И. Эмоциональность текста в аспектах языковой и неязыковой вариативности: основы эмотивной стилистики текста. Ташкент: Фан, 1981. 116 с.

3. Вежбицкая А. Прототипы и инварианты // Язык. Культура. Познание. М., 1996. С. 201-231.

4. Заячковская О.О. Концептуальный анализ семантики эмоционального лексикона // Методы когнитивного анализа семантики слова: компьютерно-корпусный подход / под общ. ред. В.И. Заботкиной. М.: Языки славянской культуры, 2015. С. 243-268.

5. Колосов Я.В. Лингвистические корреляты эмоционального состояния «страх» в русской и английской речи: формирование базы данных: дис. ... канд. филол. наук: 10.02.21. М., 2004. 214 с.

6. Красавский Н.А. Терминологическое и обиходное название эмоций (на материале русского и немецкого языков): автореф. дис. ... канд. филол. наук: 10.02.19. Волгоград, 1992. 25 с.

7. Николаев И.С., Митренина О.В., Ландо Т.М. Прикладная и компьютерная лингвистика. М.: ЛЕ-НАНД, 2016. 320 с.

8. Ножина Е.П., Луценко А.В. Типовые этапы решения задачи обучения по прецедентам // Перспективы развития информационных технологий. 2016. № 29. С. 11-15.

9. Пиотровская Л.А. Эмотивные высказывания как объект лингвистического исследования (на материале русского и чешского языков). СПб.: Изд-во Санкт-Петербургского университета, 1994. 146 с.

10. Шаховский В.И. Лингвистическая теория эмоций: монография. М.: Гнозис, 2008. 416 с.

11. AldayelH.K., Azmi A.M. Arabic tweets sentiment analysis - a hybrid scheme // Journal of Informational Science. 2015. Vol. 42, issue 6. Pp. 782-797. DOI: 10.1177/0165551515610513.

12. Bag of Words Meets Bags of Popcorn: Use Google's Word2Vec for movie reviews // Kaggle. [Электронный ресурс]. URL: https://www.kaggle.com/c/word2vec-nlp-tutorial/details/part-1-for-beginners-bag-of-words (дата обращения: 16.01.2018).

13. Banea C., MihalceaR., Wiebe J. Multilingual subjectivity: are more languages better? // Proceedings of the 23rd International Conference on Computational Linguistics COLING. 2010. Vol. 2. Pp. 28-36.

14. Cambria E. Affective computing and sentiment analysis // IEEE Intelligent Systems. 2016. Vol. 2 (31). Pp. 102-107. DOI: 10.1109/MIS.2016.31.

15. CeronA., Curini L., IacusS. Using sentiment analysis to monitor electoral campaigns: method matters -evidence from the United States and Italy // Social Science Computer Review. 2015. Vol. 1 (33). Pp. 3-20. DOI: 10.1177/0894439314521983.

16. Ceron L. et al. Every tweet counts? How sentiment analysis of social media can improve our knowledge of citizens political preferences with an application to Italy and France // New Media Soc. 2014. № 16 (2). Pp. 340-358. DOI: 10.1177/1461444813480466.

17. Cohen K. et al. Detecting Linguistic Markers for Radical Violence // Social Media, Terrorism and Political Violence. 2014. Vol. 1 (26). Pp. 246-256. DOI: 10.1080/09546553.2014.849948.

18. Kennedy A., Inkpen D. Sentiment classification of movie reviews using contextual valence shifters // Computational Intelligence. 2006. Vol. 22. Pp. 110-125. DOI: 10.1111/j.1467-8640.2006.00277.x.

19. Khan F.H., Qamar U., Bashir S. eSAP: A decision support framework for enhanced sentiment analysis and polarity classification // Information Sciences. 2016. Vol. 367-368. Pp. 862-873. DOI: 10.1016/j. ins.2016.07.028.

20. Liu Y. et al. ARSA: A sentiment-aware model for predicting sales performance using blogs // Proceedings of the 30th annual international ACM SIGIR conference on research and development in information retrieval. 2007. Pp. 607-614.

21. Lovheim H. A new three-dimensional model for emotions and monoamine neurotransmitters // Medical Hypotheses. 2012. № 78. Pp. 341-348.

22. Lucas G.M. et al. GOAALLL!: Using Sentiment in the World Cup to Explore Theories of Emotion // Image and Vision Computing. 2017. Vol. 65. Pp. 58-65. DOI: 10.1016/j.imavis.2017.01.006.

23. Potapova R., Lykova O. Verbal Representation of Lies in Russian and Anglo-American Cultures // Procedia - Social and Behavioral Sciences. 2016. Vol. 236. Pp. 114-118. DOI: 10.1016/j.sbspro.2016.12.045.

24. Potapova R., Komalova L. Multimodal perception of aggressive behavior // Lecture Notes in Computer Science. 2016. Vol. 9811. Pp. 499-506.

25. Sánchez-Rada J.F., Iglesias C.A. Onyx: A Linked Data approach to emotion representation // Information Processing & Management. 2016. Vol. 52, issue 1. Pp. 99-114. DOI: 10.1016/j.ipm.2015.03.007.

26. Tang H., Tan S., ChengX. A survey on sentiment detection of reviews // Expert Systems with Applications. 2009. Vol. 36. Pp. 10760-10773.

27. Villar G., Arciuli J., Paterson H. Linguistic Indicators of a False Confession // Psychiatry, Psychology and Law. 2013. Vol. 4 (20). P. 504-518. DOI: 10.1080/13218719.2012.712834.

28. Yan G. et al. A bilingual approach for conducting Chinese and English social media sentiment analysis // Computer Networks. 2014. Vol. 75, issue PB. Pp. 491-503. DOI: 10.1016/j.comnet.2014.08.021.

29. Yousefpour A., Ibrahim R., Hamed H.A. Ordinal-based and frequency-based integration of feature selection methods for sentiment analysis // Expert Systems With Applications. 2017. Vol. 75. Pp. 80-93. DOI: 10.1016/j.eswa.2017.01.009.

Колмогорова Анастасия Владимировна, доктор филологических наук, профессор, заведующая кафедрой романских языков и прикладной лингвистики Сибирского федерального университета, Россия, Красноярск, пр. Свободный, 79: e-mail: [email protected]

Калинин Александр Андреевич, старший преподаватель кафедры романских языков и прикладной лингвистики Сибирского федерального университета, Россия, Красноярск, пр. Свободный, 79: e-mail: [email protected]

Маликова Алина Вячеславовна, преподаватель кафедры романских языков и прикладной лингвистики Сибирского федерального университета, Россия, Красноярск, пр. Свободный, 79: e-mail: ban-ka1996@mail. ru

Для цитирования: Колмогорова А.В., Калинин А.А., Маликова А.В. Лингвистические принципы и методы компьютерной лингвистики для решения задач сентимент-анализа русскоязычных текстов // Актуальные проблемы филологии и педагогической лингвистики. 2018. №1(29). С. 139-148. DOI: 10.29025/2079-6021-2018-1(29)-139-148.

LINGUISTIC PRINCIPLES AND COMPUTATIONAL LINGUISTICS METHODS FOR THE PURPOSES OF SENTIMENT ANALYSIS OF RUSSIAN TEXTS DOI: 10.29025/2079-6021-2018-1(29)-139-148

Anastasia V. Kolmogorova ORCID iD: 0000-0002-6425-2050 Siberian Federal University Krasnoyarsk, Russia

Alexander A. Kalinin ORCID iD: 0000-0002-0012-1692

Siberian Federal University Krasnoyarsk, Russia

Alina V. Malikova ORCID iD: 0000-0002-3438-1839

Siberian Federal University Krasnoyarsk, Russia

The article focuses on the current results of research project aiming at the design of Russian text classifier according to the criterion of text's emotional tonality. In this paper we discuss linguistic principles and computational linguistics methods basic for our project. Materials and Methods: The research framework integrates theoretical basis of linguistic emotiology and technologies of sentiment analysis. The methodology is axed on Naïve Bayes classifier - the supervised machine-learning algorithm - as one of the most suitable approaches for handling lexical issues in tasks ofNatural Language Processing. For text classes feature selection we apply a hybrid methodology using the "bag of words" model and manual linguistic annotation of the data implemented with help of crowdsourcing practice. Results: A feature set is proposed in order to use itfor testing different machine learning algorithms aimed to attribute Russian texts to one of nine text classes, such as: texts articulating 1) interest / excitement, 2) enjoyment / joy, 3) surprise, 4) distress / anguish, 5) fear / terror, 6) shame /humiliation, 7) contempt /disgust, 8) anger /rage or 9) "neutral" texts. Eight emotion classes are borrowed from the biological emotion classification of H. Lövheim. The selectedfeatures include a rich inventory of linguistic items: emotional lexicon, emotion names, situation based emotional vocabulary and verbal descriptions of emotion behavior manifestations.

Conclusions: the design ofRussian text classifier according to the criterion of text's emotional tonality gives the opportunity to rethink some tenets of theoretical linguistics testing them in the practice of applied research.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Key words: sentiment analysis, fiction text, supervised machine learning, linguistic emotiology, computational linguistics, emotion classification of H. Lövheim, text classes features.

References

1. Belyanin VP. Vvedenie v psikhiatricheskoe literaturovedenie [Foundations ofpsychiatric theory of literature], München: Verlag Otto Sagner, 1996, 281 p.

2. Bolotnov V.I. Emotsional'nost' teksta v aspektakh yazykovoi i neyazykovoi variativnosti: osnovy emo-tivnoi stilistiki teksta [Emotionality of text in the aspects of linguistic and non-linguistic variability: foundations of emotional stylistics of text], Tashkent: Fan, 1981, 116 p.

3. Vezhbitskaya A. Prototipy i invarianty [Prototypes and invariants], Yazyk. Kul'tura. Poznanie [Language. Culture. Cognition], Moscow, 1996, pp. 201-231.

4. Zajachkovskaja O.O. Konceptual'nyj analiz semantiki jemocional'nogo leksikona [Conceptual analysis of emotional lexicon semantics]: Metody kognitivnogo analiza semantiki slova: komp'juterno-korpusnyj pod-hod [Methodology of word semantics cognitive analysis: computer-based approach] / ed. by V.I. Zabotkina, Moscow: Jazyki slavjanskoj kul'tury, 2015, pp. 243-268.

5. Kolosov J.V. Lingvisticheskie korreljaty emotsional'nogo sostojanija «strakh» v russkoy i angliyskoy rechi: formirovanie bazy dannykh [Linguistic correlates of emotion of "fear" in Russian and English speech: design of database], Candidate of Philology Dissertation, Moscow, 2004, 214 p.

6. Krasavskiy N.A. Terminologicheskoe i obikhodnoe nazvanie emotsiy (na materiale russkogo i nemetsko-go yazykov) [Terminological and everyday nominations of emotions (on the linguistic material of Russian and German languages)], Abstract of Candidate of Philology Dissertation, Volgograd, 1992, 25 p.

7. Nikolaev I.S., Mitrenina O.V., Lando T.M. Prikladnaya i komp'yuternaya lingvistika [Applied and computational linguistics], Moscow: LENAND, 2016, 320 p.

8. Nozhina E.P., Lutsenko A.V. Tipovye etapy resheniya zadachi obucheniya po pretsedentam [Typical steps in tasks of supervised machine learning], Perspektivy razvitiya informatsionnykh tekhnologiy [Perspectives of information technologies development], 2016, no 29, pp. 11-15.

9. Piotrovskaya L.A. Emotivnye vyskazyvaniya kak ob"ekt lingvisticheskogo issledovaniya (na materiale russkogo i cheshskogo yazykov) [Emotional utterances as a focus of linguistic research (on the linguistic ma-

terial of Russian and Czech languages)], Saint Petersburg: Izd-vo Sankt-Peterburgskogo universiteta, 1994, 146 p.

10. Shakhovskiy VI. Lingvisticheskaya teoriya emotsiy [Emotions: Protolinguistics, linguistics and lingvokulturology], Moscow: LIBROKOM, 2013, 128 p.

11. Aldayel H.K., Azmi A.M. Arabic tweets sentiment analysis - a hybrid scheme, Journal of Informational Science, 2015, vol. 42, issue 6, pp. 782-797. DOI: 10.1177/0165551515610513.

12. Bag of Words Meets Bags of Popcorn: Use Google's Word2Vec for movie reviews. Available at: https://www.kaggle.com/c/word2vec-rip-tutorial/details/part-1-for-beginners-bag-of-words (access at 16 January 2018).

Banea C., Mihalcea R., Wiebe J. Multilingual subjectivity: are more languages better?: Proceedings of the 23rd International Conference on Computational Linguistics COLING, 2010, vol. 2, pp. 28-36.

13. Cambria E. Affective computing and sentiment analysis: IEEE Intelligent Systems, 2016, vol. 2 (31), pp. 102-107. DOI: 10.1109/MIS.2016.31.

14. Ceron A., Curini L., Iacus S. Using sentiment analysis to monitor electoral campaigns: method matters - evidence from the United States and Italy: Social Science Computer Review, 2015, vol. 1 (33), pp. 3-20. DOI: 10.1177/0894439314521983.

15. Ceron L. et al. Every tweet counts? How sentiment analysis of social media can improve our knowledge of citizens political preferences with an application to Italy and France: New Media Soc, 2014, no 16 (2), pp. 340-358. DOI: 10.1177/1461444813480466.

16. Cohen K. et al. Detecting Linguistic Markers for Radical Violence: Social Media, Terrorism and Political Violence, 2014, vol. 1 (26), pp. 246-256. DOI: 10.1080/09546553.2014.849948.

17. Kennedy A., Inkpen D. Sentiment classification of movie reviews using contextual valence shifters, Computational Intelligence, 2006, vol. 22, pp. 110-125. DOI: 10.1111/j.1467-8640.2006.00277.x.

18. Khan F.H., Qamar U., Bashir S. eSAP: A decision support framework for enhanced sentiment analysis and polarity classification, Information Sciences, 2016, vol. 367-368, pp. 862-873. DOI: 10.1016/j. ins.2016.07.028.

19. Liu Y. et al. ARSA: A sentiment-aware model for predicting sales performance using blogs: Proceedings of the 30th annual international ACM SIGIR conference on research and development in information retrieval, 2007, pp. 607-614.

20. Lovheim H. A new three-dimensional model for emotions and monoamine neurotransmitters: Medical Hypotheses, 2012, no 78, pp. 341-348.

21. Lucas G.M. et al. GOAALLL!: Using Sentiment in the World Cup to Explore Theories of Emotion: Image and Vision Computing, 2017, vol. 65, pp. 58-65. DOI: 10.1016/j.imavis.2017.01.006.

22. Potapova R., Lykova O. Verbal Representation of Lies in Russian and Anglo-American Cultures: Procedia - Social and Behavioral Sciences, 2016, vol. 236, pp. 114-118. DOI: 10.1016/j.sbspro.2016.12.045.

23. Potapova R., Komalova L. Multimodal perception of aggressive behavior: Lecture Notes in Computer Science, 2016, vol. 9811, pp. 499-506.

24. Sánchez-Rada J.F., Iglesias C.A. Onyx: A Linked Data approach to emotion representation: Information Processing & Management, 2016, vol. 52, issue 1, pp. 99-114. DOI: 10.1016/j.ipm.2015.03.007.

25. Tang H., Tan S., Cheng X. A survey on sentiment detection of reviews: Expert Systems with Applications, 2009, vol. 36, pp. 10760-10773.

26. Villar G., Arciuli J., Paterson H. Linguistic Indicators of a False Confession, Psychiatry, Psychology and Law, 2013, vol. 4 (20), pp. 504-518. DOI: 10.1080/13218719.2012.712834.

27. Yan G. et al. A bilingual approach for conducting Chinese and English social media sentiment analysis, Computer Networks, 2014, vol. 75, issue PB, pp. 491-503. DOI: 10.1016/j.comnet.2014.08.021.

28. Yousefpour A., Ibrahim R., Hamed H.A. Ordinal-based and frequency-based integration of feature selection methods for sentiment analysis: Expert Systems With Applications, 2017, vol. 75, pp. 80-93. DOI: 10.1016/j.eswa.2017.01.009.

Anastasia V. Kolmogorova, Doctor of Philology, Full Professor, Federal State Autonomous Educational Institution of Higher Education "Siberian Federal University", Romance Languages and Applied Linguistics

Department, Head of Department; the address: Russia, Krasnoyarsk, 79 Svobodny pr.; e-mail: nastiakol@ mail.ru

Alexander A. Kalinin, Federal State Autonomous Educational Institution of Higher Education "Siberian Federal University", Romance Languages and Applied Linguistics Department, Senior Lecturer; the address: Russia, Krasnoyarsk, 79 Svobodny pr.; e-mail: [email protected]

Alina V. Malikova, Federal State Autonomous Educational Institution of Higher Education "Siberian Federal University", Romance Languages and Applied Linguistics Department, Lecturer; the address: Russia, Krasnoyarsk, 79 Svobodny pr.; e-mail: [email protected]

For citation: Kolmogorova A.V., Kalinin A.A., Malikova A.V. Linguistic principles and computational linguistics methods for the purposes of sentiment analysis of russian texts. Aktual'nye problemy filologii i pedagogiceskoj lingvistiki [Current Issues in Philology and Pedagogical Linguistics], 2018, no 1(29), pp. 139-148 (In Russ.). DOI: 10.29025/2079-6021-2018-1(29)-139-148.

i Надоели баннеры? Вы всегда можете отключить рекламу.