Научная статья на тему 'Сентимент-анализ как инструмент исследования текстов'

Сентимент-анализ как инструмент исследования текстов Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
2716
352
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТОНАЛЬНОСТЬ ТЕКСТА / TONALITY OF THE TEXT / СЕНТИМЕНТ-АНАЛИЗ / ИНТЕРАКТИВНОЕ ПРИЛОЖЕНИЕ / INTERACTIVE APPLICATION / SENTIMENT-ANALYSIS

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Юрганов Александр Александрович

Принимая решения, мы привыкли опираться на информацию извне, будь то отзывы, социальные опросы или чьи-либо суждения об интересующем нас предмете, а потому вовсе неудивительно, что такая область лингвистики, как сентимент-анализ, прочно вошла в нашу жизнь. И тем очевиднее необходимость исследований по разрабатыванию методики, которая сделает возможным определение тональности текста как в целом, так и его отдельных частей. Данная работа посвящена разработке интерактивного приложения, позволяющего автоматизировать процесс сентимент-анализа.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Сентимент-анализ как инструмент исследования текстов»

СЕНТИМЕНТ-АНАЛИЗ КАК ИНСТРУМЕНТ ИССЛЕДОВАНИЯ

ТЕКСТОВ

Юрганов А.А. Email: Yurganov17111@scientifictext.ru

Юрганов Александр Александрович - магистр, кафедра дискретной математики и информатики, Новосибирский государственный университет, г. Новосибирск

Аннотация: принимая решения, мы привыкли опираться на информацию извне, будь то отзывы, социальные опросы или чьи-либо суждения об интересующем нас предмете, а потому вовсе неудивительно, что такая область лингвистики, как сентимент-анализ, прочно вошла в нашу жизнь. И тем очевиднее необходимость исследований по разрабатыванию методики, которая сделает возможным определение тональности текста как в целом, так и его отдельных частей. Данная работа посвящена разработке интерактивного приложения, позволяющего автоматизировать процесс сентимент-анализа.

Ключевые слова: тональность текста, сентимент-анализ, интерактивное приложение.

SENTIMENT-ANALYSIS AS A TOOL OF INVESTIGATION OF

TEXTS Yurganov A.A.

Yurganov Alexander Alexandrovich - Master, DEPARTMENT OF DISCRETE MATHEMATICS AND INFORMATICS, NOVOSIBIRSK STATE UNIVERSITY, NOVOSIBIRSK

Abstract: making decisions, we are accustomed to rely on information from outside, whether it is feedback, social surveys or someone's opinions about the subject of interest to us, and therefore it is not surprising that such a field of linguistics as sentiment-analysis has firmly entered our life. And the more obvious is the need for research on the development of a methodology that will make it possible to determine the tonality of the text both in its entirety and its individual parts. This work is devoted to the development of an interactive application that allows you to automate the process of sentiment analysis. Keywords: tonality of the text, sentiment-analysis, interactive application.

УДК 517.518.23

Каждому человеку хорошо знаком процесс принятия решений. Еще задолго до появления интернета мнения окружающих могли оказывать влияние на то или иное решение. Тем более значительным стал гул голосов в наши дни, когда пользователь может получить информацию для размышления буквально со всех сторон. Мы читаем и оставляем отзывы в интернет-магазинах, социальных сетях и блогах, ориентируясь на чужие мнения. А потому совершенно неудивительно, что в компьютерной лингвистике возникло такое направление как сентимент-анализ.

Сентимент-анализом (или анализом тональности текстов) принято называть область компьютерной лингвистики, призванную заниматься исследованием эмоций и мнений, содержащихся в текстах.

Мнением (тональностью) называют суждение о какой-либо сущности или ее аспекте, высказанное неким субъектом и окрашенное положительно, негативно, либо нейтрально.

То есть формально тональность представима кортежем из пяти элементов [1]:

(е, at, s, h, t), где

• e (entity) - объект, об аспекте at которого автор h высказал мнение в момент времени t. Объектом может быть товар, человек, событие, организация либо тема обсуждения;

• ai (aspect) - свойство объекта, по отношению которому выражается мнение;

• s (sentiment) - тональность мнения по отношению к i-му аспекту сущности e;

• h (holder) - выразитель мнения (субъект);

• (time) - время выражения мнения.

Умение распознавать тональность текстов широко применимо в различных видах деятельности человека, таких как изучение предпочтений потребителя; системах рекомендаций призванных помочь потребителю при выборе товаров или услуг; анализе новостных ресурсов на предмет тональности сообщений относительно различных персон или событий; поддержке поисковых систем и систем извлечения информации; психологических исследованиях и пр.

Тем не менее, существует множество проблем, с которыми сталкиваются исследователи при попытке определения тональности текста. Опишем некоторые из них:

1. Тональность может зависеть от предметной области текста. Так, к примеру, слово «огромный» применимое к описанию телевизора, имеет положительную тональность, но как характеристика телефона, это слово принимает уже несколько негативный оттенок.

2. Использование отрицания способно поменять тональность высказывания на противоположную.

К примеру, в высказывании «Раньше мне нравилось ходить в кафе рядом с домом. Там была потрясающая кухня. К сожалению, теперь там слишком громко играет музыка». Первое и второе предложения положительно окрашены, но из-за использования отрицания в последнем предложении общая тональность объекта «кафе» меняется на негативную.

3. Сентимент-анализ плохо справляется с распознаванием саркастический высказываний. Такие выражения могут иметь общую тональность, обратную тональности отдельных слов: «Отличная машина для любителей ходить пешком».

4. Значение тональности зависит от того, кто проводит анализ. К примеру, фраза «У KFC отлично идут дела» имеет положительный окрас для компании KFC и отрицательный для McDonald's.

Данная работа направлена на изучение методов распознавания тональности текстов и реализацию интерактивного приложения для автоматического определения тональности как текста в целом, так и отдельных его частей.

Принято различать следующие подходы к распознаванию тональности текста [2] :

1. Подход, основанный на правилах, заключается в использовании наборов правил, выявленных экспертами на основе анализа предметной области, на основании которых из текста извлекаются n-граммы (n-компонентные цепочки).

2. Метод, основанный на применении тональных словарей. Каждое слово текста сопоставляется со словарем, итоговая тональность текста определяется как среднее арифметическое всех тональностей.

В зависимости от словаря могут быть применятся различные шкалы оценок. Например, в данной работе используется NRC Word-Emotion Association Lexicon -словарь, приписывающий словам различные эмоции.

3. Обучение с учителем. Алгоритм тренируется на некотором заранее размеченном корпусе текстов. Каждый размеченный текст представлен в виде пары - вектора признаков текста (набор слов и словосочетаний с соответствующими им весами) и приписанной ему тональности. На основании такой выборки строится затем статистический классификатор, используемый для определения тональности новой коллекции документов.

4. Обучение без учителя. Для тренировки алгоритма используется обучающая выборка неразмеченных заранее текстов. При таком подходе наибольший вес получают наиболее часто встречающиеся в тексте термины, но которые при этом присутствуют только в ограниченном количестве текстов всего множества.

В данной работе реализован алгоритм определения тональности на основе онтологии в виде консольного приложения на языке PHP. Онтология строится из словаря UNL и хранится в реляционной базе данных MySQL с использованием метода вложенных множеств Nested Sets.

Так, анализируя различные тексты, можно наглядно увидеть, как в целом окрашен текст: позитивно или негативно. В ходе работы приложение строит круговую диаграмму, с указанием количественных величин в процентном отношении показывающую детальные характеристики рассматриваемого текста: anger, anticipation, disgust, fear, joy, sadness, surprise, trust. Разработанное приложение может быть широко применимо в области языкознания, а также стать хорошим подспорьем в различных литературных, маркетинговых или социальных исследованиях.

Список литературы /References

1. Котельников Е.В. Распознавание эмоциональной составляющей в текстах: проблемы и подходы / Е.В. Котельников, М.В. Клековкина, Т.А. Пескишева, О.А. Пестов; под ред. С.М. Окулова. - Киров: Изд-во ВятГГУ, 2012. 103 с.

2. Лукашевич Н.В. Автоматический анализ тональности текстов по отношению к заданному объекту и его характеристикам // Электронные библиотеки, 2015. Т. 18. № 3-4. С. 88-119.

КОНЦЕПТ «MOTHER» (МАТЬ) И СРЕДСТВА ЕГО РЕАЛИЗАЦИИ В СЕРИИ РОМАНОВ ДЖОАН РОУЛИНГ

«ГАРРИ ПОТТЕР» Ганиева А.О. Email: Ganieva17111@scientifictext.ru

Ганиева Арзы Османовна - студент, специальность: крымскотатарский язык и литература, английский язык и литература, Крымский инженерно-педагогический университет, г. Симферополь

Аннотация: в статье рассмотрены языковые единицы, выражающие концепт «mother» (мать) в серии романов Джоан Роулинг «Гарри Поттер», изучены средства реализации данного концепта. Проведённый анализ показывает значимость лексических единиц, представляющих концепт «mother» (мать) в системе языковых особенностей романов «Гарри Поттер», а также даёт полную картину понимания данного концепта писательницей. Понятие «mother» (мать) в серии указанных романов выражается следующими лексемами: mother, mum, mom, mummy и mommy. В идиолекте писательницы мать - самоотверженная женщина, готовая на всё ради своих и чужих детей.

Ключевые слова: английский язык, концептология, концепт «мать», Джоан Роулинг, Гарри Поттер.

i Надоели баннеры? Вы всегда можете отключить рекламу.