Научная статья на тему 'Современные методы анализа состояния «Агрессия» в письменных текстах'

Современные методы анализа состояния «Агрессия» в письменных текстах Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
150
34
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АГРЕССИЯ / КОНТЕНТ-АНАЛИЗ / НЕЙРОННЫЕ СЕТИ / WORD2VEC / МАШИННОЕ ОБУЧЕНИЕ / AGGRESSION / CONTENT ANALYSIS / NEURAL NETWORKS / MACHINE LEARNING

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Гордеев Д.И.

В статье представлен обзор существующих методов определения состояния «агрессия» и тональности в письменных текстах. Демонстрируется собственный метод классификации данного состояния. Излагаются результаты тестирования для предложенного алгоритма.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MODERN ANALYSIS METHODS OF THE EMOTIONAL STATEOF «AGGRESSION» IN WRITTEN TEXTS

An overview of current methods of sentiment analysis and the state of «aggression» detection in written texts is presented in the article. A new method of classification of this state is introduced. The results of the algorithm testing are demonstrated.

Текст научной работы на тему «Современные методы анализа состояния «Агрессия» в письменных текстах»

УДК 81'322.2

Д. И. Гордеев

аспирант кафедры прикладной и экспериментальной лингвистики Института прикладной и математической лингвистики английского факультета МГЛУ; e-mail: gordeev-d-i@yandex.ru

СОВРЕМЕННЫЕ МЕТОДЫ АНАЛИЗА СОСТОЯНИЯ «АГРЕССИЯ» В ПИСЬМЕННЫХ ТЕКСТАХ1

В статье представлен обзор существующих методов определения состояния «агрессия» и тональности в письменных текстах. Демонстрируется собственный метод классификации данного состояния. Излагаются результаты тестирования для предложенного алгоритма.

Ключевые слова: агрессия; контент-анализ; нейронные сети; word2vec; машинное обучение.

Gordeev D.

Postgraduate Student Department of Applied and Experimental Linguistics, Institute of Applied and Mathematical Linguistics, Faculty of the English language, MSLU; e-mail: gordeev-d-i@yandex.ru

MODERN ANALYSIS METHODS OF THE EMOTIONAL STATE OF «AGGRESSION» IN WRITTEN TEXTS

An overview of current methods of sentiment analysis and the state of «aggression» detection in written texts is presented in the article. A new method of classification of this state is introduced. The results of the algorithm testing are demonstrated.

Key words: aggression; content analysis; neural networks; word2vec; machine learning.

Введение

В настоящее время со всё более активным развитием цифровых технологий набирают обороты новые методы компьютерной обработки текста - как письменного, так и устного, связанные с его статистической обработкой и анализом признаков для разного рода задач. Цифровые технологии, способы визуализации и обработки информации открыли дорогу для целого ряда методов, используемых для

1 Исследование финансировалось в рамках проекта № 14-18-01059 Российского научного Фонда (РНФ) на базе МГЛУ. Научный руководитель -доктор филологических наук, профессор Р. К. Потапова.

решения множества задач, с которыми раньше было сложно справиться, используя традиционные методы. Среди таких задач можно выделить определение тематики текста, генерацию и понимание текста.

Анализ существенных подходов к решению данных задач

Особую популярность в последнее время получила задача анализа тональности текстов.

Одним из ведущих исследователей в данном направлении является Р. К. Потапова, которая проделала огромную работу и создала множество методов для анализа самых разных эмоций и тональности в тексте. Так, например, Р. К. Потапова совместно с В. В. Потаповым разработали методику для анализа состояния «агрессия», описанную в работах «Семантическое поле "наркотики"» [5] и «Язык, речь, личность» [6].

Согласно этой методике, считается целосообразным и необходимым использовать трехуровневую модель смыслового декодирования текста (дискурса):

1) семантизированное декодирование;

2) когнитивное декодирование;

3) интерпретирующее декодирование [6, с. 401-403; 4].

Первый уровень данной модели семантизированное декодирование - это извлечение «информации об объекте текста (дискурса) и его авторе (авторах)» [6], в том числе психолингвистические признаки идентифицируемого лица, на основе которых моделируется психологический портрет личности. Второй уровень - когнитивное декодирование - это извлечение специфической познавательной информации, «заключенной в тексте (дискурсе)». Третий уровень модели смыслового декодирования в системе Р. К. и В. В. Потаповых - интерпретирующее декодирование - «перевод смысла текста (дискурса), заложенного в нем автором (авторами), в систему знаний, оценок, предшествующего опыта и ассоциативных связей реципиента» [1].

В ходе исследования, проведенного Р. К. Потаповой и Л. Р. Комало-вой, было выявлено, что семантическое поле «агрессия» можно разделить на следующие категории:

- физическая агрессия (описание насильственных действий, призывы к насильственным действиям);

- вербальная агрессия (описание словесного воплощения агрессивных действий);

- негативизм (выражающийся в преобладающей оценочности и критичности текстов);

- аутоагрессия (описание переживаний, негативных эмоциональных состояний, обиды и вины).

Кроме вышеназванной методики, Р. К. Потапова совместно с Л. Р. Комаловой составили словарь, позволяющий облегчить исследования в области изучения состояния «агрессия» [3], и базу данных [2], которая состоит из аннотированных текстов СМИ, содержащих лексику из семантического поля «агрессия».

Эту базу данных можно применять для:

- обучения автоматизированных систем выявления агрессии в СМИ;

- составления словарей и тезаусоров, содержащих слова из семантического поля «агрессия», что и было впоследствии сделано в работе [словарь];

- исследования языковых и речевых признаков передачи и порождения состояния агрессии через сообщения СМИ в Интернете [2].

Кроме того, в этом исследовании было выявлено, что лексемы в сообщениях, характерных для состояния «агрессия», обычно содержат:

1. Определенную частотность грамматических групп:

- имена существительные

- глаголы

- имена прилагательные

- наречия

- однословные

- неоднословные

- деривационные гнезда (используется префиксальный и суффиксальный способы образования).

2. Лексико-семантические группы: слова, сходные по некоторым компонентам лексического значения.

3. Антонимические оппозиции.

4. Синонимические ряды.

5. Синтагматические особенности:

- актор + действие + инструмент

- актор + действие + качество

- актор + действие + объект

- актор + действие + объект

- действие + актор

- действие + актор + качество

- действие + актор + объект

- действие + инструмент / инструмент + действие

- действие + объект

- качество + актор

- качество + действие

- качество + инструмент

- объект + объект

Эту информацию можно использовать для автоматического определения агрессии в предложениях, сообщениях и текстах. Например, инвективная лексика часто содержится в сообщениях, содержащих агрессию, поэтому для задач анализа тональности часто используют системы, основанные на правилах и словарях. Такие системы часто оказываются точными и эффективными, но требуют долгой и кропотливой работы.

Так, Поляков и другие [10] в соревновании по анализу тональности текста при конференции Диалог-2015 использовали словарь слов, характерных для негативных сообщений, и набор семантических шаблонов, которые описывают отношения между словами, а Васильев и другие [12] использовали сложную систему, основанную более, чем на 500 самых различных правилах. Оба подхода зарекомендовали себя как эффективные. Однако они требуют работы больших коллективов и огромных ресурсов и капиталовложений, поэтому предпринимаются попытки найти иные, более энергоэффективные и легкие способы решения задач, даже несмотря на некоторую потерю эффективности и точности.

Некоторые исследователи пытаются применять методы статистической обработки текстов и машинного обучения. Так, Иванов и другие [7] в том же соревновании использовали метод опорных векторов и ряд признаков для классификации, также включающий вручную отобранные слова, характерные для положительной и отрицательной тональностей.

Еще один из схожих подходов - это нейронные сети. Так, Тарасов [11] в том же соревновании использовал рекурентную нейронную сеть, которая тренировалась на ряде признаков. Хотя результаты и оказались хуже, чем у других методов, этот метод не требует ничего, кроме аннотированного текста, поэтому тоже может найти свое применение.

Многие исследователи предлагают использовать метрики семантического пространства, например предложенные Миколовым [9]. Данный метод с помощью нейронной сети находит, как связаны по смыслу слова в корпусе, основываясь на их взаимном расположении. На входе алгоритм получает отдельные предложения, на выходе образуется метрическое пространство, где слова ближе по смыслу.

In 36]: for el in m.most_similar(u'Hbio йорк"): print el[0], elIII

париж 6.965638101101 работавшего 0.961249479711 берлин 0.959228098392 прожил лет 0.958453959196 Лондон 0.957536578178 ельцин 0.957345128059 ангар 9.957253038883 мегаполис 0.957053899765 уральский 0.957019030746 проспект 0.954898893833

Рис 1. Показ наиболее близких слов для словарной единицы «Нью-Йорк» Разработка методики исследования

Мы проанализировали данный алгоритм на собранной нами базе данных из 6 млн сообщений анонимных форумов, где взяли подвы-борку из 1.1 млн сообщений (для увеличения скорости анализа). На основе полученных данных была построена модель. Заметим, что семантическое сходство, особенно на самых верхних уровнях, присутствует, хотя модель и требует доработки. Модель содержит 1.8 млн словоформ.

Для анализа агрессии на анонимных форумах была использована и модифицирована модель, предложенная Кимом [8] для анализа кинорецензий. Эта модель предполагает использование сверточной сети, к которой на вход поступают слова с их вложениями из векторного пространства (word embeddings). После чего Сеть на выходе показывает, является ли сообщение агрессивным или нет. Сверточная сеть обучалась на заранее проанатированной выборке из 2000 сообщений с анонимных форумов на русском языке. Модель вложений-слов, которая ранее уже упоминалась, тренировалась на 1.1 млн сообщений.

37 for el in п.most similarfu'иг pa престолов'):

мосфильме 6.962181448936

филлеры 6.966947811664 экранизация 0.966169651689

в ремя при клочен и й 6.959688553 919 спешл 8.958545386791 первая часть 6.958499372665

Рис 2. Показ наиболее близких слов для словарной единицы «Игра престолов»

Кроме того, из иллюстраций видно, что модель автоматически находит коллокации в зависимости от употребляемости, составляющих их лексем.

Рис. 3. Схема нейронной сети

Таблица 1

Сравнение результатов сверточных сетей

Модель Точность(%)

CNN - русский, агрессия 66.68

CNN-rand (Kim) 76.1

CNN-static (Kim) 81.0

CNN-non-static (Kim) 81.5

Заключение

Результаты исследования мы сравнивали с результатами модели Кима для корпуса классификации рецензий на кинофильмы, как наиболее близкой из задач, на которых этот алгоритм был продемонстрирован. Результаты в нашем случае хуже, это связано с менее обширной обучающей выборкой, с возможными ошибками аннотации, так как Ким использовал популярный корпус, который проверяли много людей, и со сложностью русского языка, связанной с более свободным порядком слов, чем в английском, что не позволяет методу [9] работать настолько же эффективно.

СПИСОК ЛИТЕРАТУРЫ

1. Кириллова Л. Е. Понятие «дискурс» и процедура экспертного лингвистического исследования // Юрислингвистика: межвуз. сб. науч. ст. / под ред. Н. Д. Голева. - Кемерово-Барнаул : Изд-во Алт. ун-та, 2007. - № 8. -С. 335-343.

2. Потапова Р. К., Комалова Л. Р. База данных русскоязычных текстов, содержащая единицы семантического поля «агрессия» // Семиотическая гетерогенность межкультурной коммуникации. Часть I. - М. : ФГБОУ ВПО МГЛУ, 2014. - С. 112-121. - (Вестн. Моск. гос. лингвист. ун-та; вып. 19 (705). Сер. Языкознание).

3. Потапова Р. К., Комалова Л. Р. Вербальная структура коммуникативного акта агрессии: Тематический толковый словарь. - Вып. 1. - М. : Институт научной информации по общественным наукам РАН, 2015. - 146 с.

4. Потапова Р. К., Комалова Л. Р. Лингвокогнитивное исследование состояния «агрессия» в межъязыковой и межкультурной коммуникации: письменный текст // Семиотическая гетерогенность языковой коммуникации: теория и практика. Часть II. - М. : ФГБОУ ВПО МГЛУ, 2013. -С. 164-175. - (Вестн. Моск. гос. лингвист. ун-та; вып. 15(675). Сер. Языкознание).

5. Потапова Р. К., Потапов В. В. Семантическое поле «наркотики»: Дискурс как объект прикладной лингвистики. - М. : УРСС, 2004. - 190 с.

6. Потапова Р. К., Потапов В. В. Язык, речь, личность. - М. : Языки славянской культуры, 2006. - 496 с.

7. Ivanov V. V., TutubalinaE. V., MingazovN. R., AlimovaI. S. Extracting Aspects, Sentiment and Categories of Aspects in User Reviews about Restaurants and Cars // Proceedings of the 21st International Conference on Computational Linguistics Dialog-2015. - 2015. - Vol. 2. - P. 22-33.

8. Kim Y., Jernite Y., Sontag D., Rush A. Character-Aware Neural Language Models. arXiv Prepr. arXiv1508.06615. (2015).

9. Mikolov Т., Chen K, Corrado G, Dean J. Nips. 1-9 (2013).

10. Polyakov P. Yu., Kalinina M. V., Pleshko V. V. Automatic Object-oriented Sentiment Analysis by Means of Semantic Templates and Sentiment Lexicon Dictionaries // Proceedings of the 21st International Conference on Computational Linguistics Dialog-2015. - 2015. - Vol. 2. - P. 44-52.

11. Tarasov D. S. Deep Recurrent Neural Networks for Multiple Language Aspect-based Sentiment Analysis of User Reviews // Proceedings of the 21st International Conference on Computational Linguistics Dialog-2015. - 2015. -Vol. 2. - P. 53-64.

12. Vasilyev V. G., Denisenko A. A., Solovyev D. A. Aspect Extraction and Twitter Sentiment Classification by Fragment Rules // Proceedings of the 21st International Conference on Computational Linguistics Dialog-2015. - 2015. -Vol. 2. - P. 77-88.

i Надоели баннеры? Вы всегда можете отключить рекламу.