Научная статья на тему 'НАИВНЫЙ КЛАССИФИКАТОР БАЙЕСА ДЛЯ РЕШЕНИЯ ЗАДАЧИ СЕНТИМЕНТ-АНАЛИЗА ТЕСТОВ'

НАИВНЫЙ КЛАССИФИКАТОР БАЙЕСА ДЛЯ РЕШЕНИЯ ЗАДАЧИ СЕНТИМЕНТ-АНАЛИЗА ТЕСТОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
192
32
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БАЙЕСОВСКИЙ КЛАССИФИКАТОР / МАШИННОЕ ОБУЧЕНИЕ / БИНАРНАЯ КЛАССИФИКАЦИЯ / АНАЛИЗ ТОНАЛЬНОСТИ / СЕНТИМЕНТ-АНАЛИЗ / BAYES CLASSIFIER / MACHINE LEARNING / BINARY CLASSIFICATION / TONALITY ANALYSIS / SENTIMENT ANALYSIS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Золина Е.В., Гамова Н.А.

В статье рассматривается применение наивного байесовского классификатора для анализа эмоциональной окраски записей с платформы микроблогинга Twitter. Проводится анализ стабильности его работы по 20 признакам. Сама задача определения эмоциональной оценки текста субъективна. Так, согласно некоторым опытам, разные люди могут по-разному оценить один и тот же текст. Более того, мнения могут быть противоположными, часть испытуемых относит текст в положительный класс, а часть - в отрицательный. Тональность текста напрямую зависит от предметной области. В частности, при использовании списка оценочных слов эмоциональная оценка одного и того же слова может меняться в разных предметных областях.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Золина Е.В., Гамова Н.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

NAIVE BAYES CLASSIFIER FOR SOLVING THE PROBLEM OF TEST ANALYSIS-CENTER ANALYSIS

The article discusses the use of a naive Bayes classifier for analyzing the emotional coloring of records with micro Twitter blogs. An analysis of the stability of his work is carried out according to 20 features. The very task of determining the emotional evaluation of a text is subjective. So, according to some experiments, different people can evaluate the same text in different ways. Moreover, opinions may be opposed, some of the subjects include the text in the positive class, and some - in the negative. The tonality of the text depends on the subject area. In particular, when using a list of evaluative words, the emotional assessment of the same word may vary in different subject areas.

Текст научной работы на тему «НАИВНЫЙ КЛАССИФИКАТОР БАЙЕСА ДЛЯ РЕШЕНИЯ ЗАДАЧИ СЕНТИМЕНТ-АНАЛИЗА ТЕСТОВ»

УДК 519.688

НАИВНЫЙ КЛАССИФИКАТОР БАЙЕСА ДЛЯ РЕШЕНИЯ ЗАДАЧИ СЕНТИМЕНТ-АНАЛИЗА ТЕСТОВ

Золина Е.В., магистрант, направление подготовки 04.01.02 Прикладная математика и информатика, Оренбургский государственный университет, Оренбург e-mail: visyagina.evgenia@yandex.ru

Гамова Н.А., кандидат педагогических наук, доцент, доцент кафедры прикладной математики, Оренбургский государственный университет, Оренбург e-mail: gamovana@yandex.ru

Аннотация. В статье рассматривается применение наивного байесовского классификатора для анализа эмоциональной окраски записей с платформы микроблогинга Twitter. Проводится анализ стабильности его работы по 20 признакам. Сама задача определения эмоциональной оценки текста субъективна. Так, согласно некоторым опытам, разные люди могут по-разному оценить один и тот же текст. Более того, мнения могут быть противоположными, часть испытуемых относит текст в положительный класс, а часть - в отрицательный. Тональность текста напрямую зависит от предметной области. В частности, при использовании списка оценочных слов эмоциональная оценка одного и того же слова может меняться в разных предметных областях.

Ключевые слова: байесовский классификатор, машинное обучение, бинарная классификация, анализ тональности, сентимент-анализ.

NAIVE BAYES CLASSIFIER FOR SOLVING THE PROBLEM OF TEST ANALYSIS-CENTER ANALYSIS

Zolina E.V., master student, training direction 04.01.02 Applied Mathematics and Computer Science, Orenburg

State University, Orenburg

e-mail: visyagina.evgenia@yandex.ru

Gamova N.A., Candidate of Pedagogical Sciences, Associate Professor, Associate Professor at the Department of Applied Mathematics, Orenburg State University, Orenburg e-mail: gamovana@yandex.ru

Abstract. The article discusses the use of a naive Bayes classifier for analyzing the emotional coloring of records with micro Twitter blogs. An analysis of the stability of his work is carried out according to 20 features. The very task of determining the emotional evaluation of a text is subjective. So, according to some experiments, different people can evaluate the same text in different ways. Moreover, opinions may be opposed, some of the subjects include the text in the positive class, and some - in the negative. The tonality of the text depends on the subject area. In particular, when using a list of evaluative words, the emotional assessment of the same word may vary in different subject areas.

Keywords: Bayes classifier, machine learning, binary classification, tonality analysis, sentiment analysis.

В настоящее время широко распространены различные интернет-сервисы с помощью которых можно приобрести различные товары и услуги, посмотреть фильмы, прочесть книги. Также пользователи могут оставить свое мнение о предоставленной услуге интернет-сервиса. В связи с этим возникает проблема обработки информации, чтобы определить отношение пользователя к тем или иным объектам.

К примеру, в социальных сетях количество публикуемых отзывов достигает несколько десятков тысяч и анализировать эти данные в ручную эксперты не могут. Исходя из этого, в компьютерной

науке широкое распространение получили такие области, как Opinion Mining и Sentiment Analysis [1]. Для того чтобы получить автоматическое мнение об эмоциональной оценке используют методы машинного обучения

Сентимент-анализ или анализ тональности текста это класс методов, с помощью которых автоматически выявляется эмоционально окрашенная лексика и эмоциональная оценка мнений авторов по отношению объектов которые описываются в тексте.

Эмоциональная оценка которая выражается в тексте, называется тональностью или сентимен-

ФИЗИКО-МАТЕМАТИЧЕСКИЕ НАУКИ

том текста (от англ. sentiment - мнение, настроение). Эмоциональная составляющая, выраженная на уровне лексемы или коммуникативного фрагмента [5], называется лексической тональностью (или лексическим сентиментом). Тональность всего текста в целом определяется с помощью лексической тональности его единиц и правилами их сочетания.

Проводить сентимент-анализ твитов сложно из-за ограничений на их размер - 140 символов. Для того чтобы правильнее его провести не годится типичный подход.

В работе был рассмотрен наивный классификатор Байеса для решения задачи бинарной классификации (то есть разбиение на два класса). Он является одним из самых простых методов классификации, но часто работает даже лучше чем более сложные классификаторы. Этот классификатор хорош тем, что он быстро обучается, использует не много памяти, а незначимые признаки игнорирует. На практике этот алгоритм очень хорошо работает.

На деле наивный байесовский классификатор отслеживает принадлежность признака определенному классу [4].

Введем переменные: С - класс твита;

Я - в твите встречается слово «отличный»; Я2 - в твите встречается слово «ужасный»; В ходе обучения была построена модель, возвращающая вероятность класса С, по известным признакам Я, Rr Она записывается виде формулы:

P(C | Ri,Я2) =

P(C ) • P(Ri, R2\C ) P(Ri, R2)

или

prior =

posterior • likelihood

evidence

Prior - априорная вероятность класса без знаний о данных.

Evidence - вероятность наличия признаков Rp R2 одновременно.

Likelihood - вероятность присутствия признака, если известно что образец принадлежит классу.

Получая на вход новый твит, классификатор вычисляет вероятности[3]:

P(C =" pos"|Ri, R2) = P(C =" neg"\Ri, R2) =

P(C =" pos" ) • P(R1 \ C =" pos" ) • P(R2 | C =" pos" )

P(Ri, R2)

P(C =" neg" ) • P( Ri\C =" neg" ) • P( R2\C =" neg" )

P( Ri, R2)

После этого выбирает класс с наибольшей вероятностью. Фактически вероятность вычисляется один раз, а потом классификатор оценивает какой

класс правдоподобнее по имеющимся признакам. Формулу нахождения вероятности класса можно записать так:

C = argmaxP(C = c)• P(Ri \ C = c)• P(R2 \ C = c).

CGC

Наивный классификатор Байеса строится на двух предположениях.

1) об условной независимости слов;

2) о независимости позиций слов.

По другому это можно интерпретировать следующим образом, во внимание не принимается тот факт, что на естественном языке появление двух различных слов часто взаимосвязано, (например, вероятнее, что слово «пуанты» встретится в одном тексте со словом «балет», чем со словом «бокс»), во-вторых не берется во внимание, что вероятность встретить одно и то же слово на разных местах в тексте различна [2]. Именно поэтому рассматриваемая модель естественного языка называется наивной. Несмотря на это, модель показывает достаточно точные результаты классификации.

Набор текстов был сформирован с помощью платформы микроблогинга Twitter. В настоящее время поисковые системы и инструменты по сбору текстовых отзывов, которые имеются в открытом доступе, не дают возможность собирать актуальные отзывы и оперативно работать с данными. В связи с этим на основе программного интерефейса API twitter был разработан программный инструмент для извлечения отзывов об интересующих товарах, услугах, событиях, персонах из микроблоггинг-платформы twitter, который позволяет учитывать время публикации сообщения и авторитетность автора сообщения.

В ходе тестирования работы алгоритма (который был написан на языке программирования Python) были получены результаты, представленные в таблице 1.

i4i

Таблица 1 - Байесовский классификатор на тестовых данных

Точность Полнота поиска fl-score Представителей

Отрицательные 0.61 0.68 0.64 4295

Нейтральные 0.36 0.33 0.34 4030

Положительные 0.87 0.86 0.86 17088

Среднее 0.74 0.74 0.74 25413

На тестовых положительных данных классификация производится правильным образом. На отрицательных данных классификатор работает хуже. А наихудшие показатели достигаются при исследовании нейтральных твитов.

Что бы проверить стабильность работы наивного классификатора Байеса было сделано следующее. В первом прогоне были выбраны по 20 признаков, для каждого класса, с максимальным значением вероятности Р(Я\С). Далее в каждом следующем прогоне значение этой вероятности для каждого класса сортировались по убыванию, и рассматривалась позиция выбранных признаков в таком списке. Можно сделать вывод, что во всех

классах наибольшие значения вероятностей имеют признаки, которые не дают конкретную информацию об эмоциональной окраски текста. То есть они не дают информацию о принадлежности записи к какому-то классу, а это просто слова которые чаще всего встречаются в текстах твита.

Таким образом, было проведено исследование работы наивного байесовского классификатора для решения задачи сентимент-анализа группы твитов. Исследование проводилось на тренировочном корпусе русскоязычных твитов, который состоит из 114,911 положительных, 111,923 отрицательных записей.

Литература

1. Manning Christopher D., Raghavan Prabhakar, Schütze Hinrich Introduction to Information Retrieval. -Cambridge University Press, 2008.

2. Набор твитов с проставленной тональностью [Электронный ресурс]. - Режим доступа: http://study mokoron.com/2016.

3. Рубцова Ю. В. Метод построения и анализа корпуса коротких текстов для задачи классификации отзывов // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды XV Всероссийской научной конференции RCDL'2013. - Ярославль. - 2013. - С. 269-275.

4. Четверкин И. И., Лукашевич Н. В. Тестирование систем анализа тональности на семинаре РО-МИП-2012 // Т. 2: Доклады специальных секций РОМИП. - М.: Изд-во РГГУ, 2013. - С. 25-33.

5. Четверкин И. И. Автоматизированное формирование базы знаний для задачи анализа мнений // Автореферат диссертации на соискание учёной степени кандидата физико-математических наук (05.13.11). - М., 2014. - С. 20.

i Надоели баннеры? Вы всегда можете отключить рекламу.