Научная статья на тему 'Анализ применения дистрибутивно-семантических моделей для пополнения словаря оценочной лексики'

Анализ применения дистрибутивно-семантических моделей для пополнения словаря оценочной лексики Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
460
52
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АНАЛИЗ ТОНАЛЬНОСТИ / СЛОВАРЬ ОЦЕНОЧНОЙ ЛЕКСИКИ / ДИСТРИБУТИВНО-СЕМАНТИЧЕСКАЯ МОДЕЛЬ / WORD2VEC / SENTIMENT ANALYSIS / SENTIMENT LEXICON / DISTRIBUTIONAL SEMANTIC MODEL

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Пескишева Татьяна Анатольевна

В статье предложен подход к пополнению универсального тонального словаря словами, близкими по смыслу. Для реализации этого подхода используются предобученные дистрибутивно-семантические модели русского языка. Эксперименты с полученными словарями продемонстрировали более высокое качество анализа тональности текста. Выполнено сравнение использованных дистрибутивно-семантических моделей, даны рекомендации по их выбору.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Пескишева Татьяна Анатольевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Analysis of distributional semantic models for sentiment lexicon extension

In this paper we propose an approach for sentiment lexicon extension by semantically similar words. For the purpose we use pretrained Russian distributional semantic models. Experiments with new lexicons showed that the quality of text sentiment analysis was improved. Comparison of distributional semantic models is held and recommendations on their choice are given.

Текст научной работы на тему «Анализ применения дистрибутивно-семантических моделей для пополнения словаря оценочной лексики»

УДК 004.89

Анализ применения дистрибутивно-семантических моделей для пополнения словаря оценочной лексики

Пескишева Т.А.

Вятский государственный университет, РФ, г. Киров

Аннотация. В статье предложен подход к пополнению универсального тонального словаря словами, близкими по смыслу. Для реализации этого подхода используются предобученные дистрибутивно-семантические модели русского языка. Эксперименты с полученными словарями продемонстрировали более высокое качество анализа тональности текста. Выполнено сравнение использованных дистрибутивно-семантических моделей, даны рекомендации по их выбору.

Ключевые слова: анализ тональности; словарь оценочной лексики; дистрибутивно-семантическая модель; word2vec.

Статья поступила в редакцию 19.10.2017.

Analysis of distributional semantic models for sentiment lexicon extension

Peskisheva T.A.

Vyatka State University, Russia, Kirov

Abstract. In this paper we propose an approach for sentiment lexicon extension by semantically similar words. For the purpose we use pretrained Russian distributional semantic models. Experiments with new lexicons showed that the quality of text sentiment analysis was improved. Comparison of distributional semantic models is held and recommendations on their choice are given.

Keywords: sentiment analysis; sentiment lexicon; distributional semantic model; word2vec.

The article was received on 19.10.2017.

В настоящее время Интернет предоставляет возможности каждому пользователю высказывать свое мнение о товарах и услугах в социальных средствах коммуникации (на форумах, в социальных сетях, в блогах, на страницах интернет-магазинов). Такие отзывы полезны не только другим потребителям данных товаров и услуг, но и их производителям и продавцам. Однако объем текстовых данных, содержащих отзывы, очень велик и проанализировать его без специальных программных средств практически невозможно.

Извлечением мнений людей о конкретных объектах, фактах и их характеристиках занимается раздел компьютерной лингвистики - анализ тональности текстов (sentiment analysis, opinion mining).

Анализ тональности выполняется в соответствии с выбранной шкалой. Например, можно отзывы о книгах поделить на «положительные» и «отрицательные» (двухуровневая шкала), а можно на «очень хорошие», «хорошие», «нейтральные», «плохие» и «очень плохие» (пятиуровневая шкала).

В большинстве случаев тональность текста выражается словами, поэтому для ее анализа широко используются словари оценочной лексики для разных языков. Такие словари, как правило, представляют собой списки слов, помогающих определить отношение автора к некоторому объекту. Словари оценочной лексики могут быть созданы вручную или автоматически, некоторые из них опубликованы и могут использоваться для проведения исследований и решения практических задач.

В работе [1] представлен алгоритм создания словаря для анализа тональности текстов на основе гибридного подхода -вручную и с помощью корпуса. Сначала на основе имеющего корпуса текстов некоторой предметной области автоматически были отобраны слова, которые могут влиять на тональность текста. Далее эксперты вручную оценивали тональность каждого из этих слов в рамках данной области. Использование построенных

таким образом словарей позволило получить результаты, сопоставимые со словарями, созданными автоматически, а в некоторых случаях превзойти их.

На основе полученных словарей для разных предметных областей был составлен универсальный словарь, который может использоваться в любой предметной области.

В качестве базового тонального словаря был взят один из универсальных словарей из работы [1] Universal (n=4). Данный словарь содержит слова, которые были отмечены как оценочные всеми экспертами.

Целью данной работы является пополнение базового универсального словаря. Для этого каждому слову из тонального словаря сопоставлялся список потенциально близких к нему по смыслу понятий. Для нахождения семантически связанных слов использовались модели русского языка, построенные с помощью инструмента Word2Vec [2].

Word2Vec - программный инструмент анализа семантики естественных языков, разработанный группой исследователей Google.

Word2Vec включает в себя набор алгоритмов для получения векторных представлений слов. Алгоритм Word2Vec обучается на большом корпусе текстовых документов. В результате каждое слово представляется в виде вектора, состоящего из координат слов. Предполагается, что близкие по смыслу слова встречаются в похожих контекстах, и их векторы располагаются рядом друг с другом.

В Word2Vec используются две архитектуры нейронной сети, с помощью которой осуществляется перевод слова в вектор: CBOW (Continuous Bag of Words, «непрерывный мешок со словами») и Skip-gram. Архитектура CBOW предназначена для предугадывания слова по окружающим его словам. Архитектура Skip-gram использует слово, чтобы предсказать окружающий его контекст.

На основе алгоритма Word2Vec может быть построена модель семантических связей между словами русского языка, так называемая дистрибутивно-семантическая модель. Обучение дистрибутивно-семантических моделей выполняется на основе больших корпусов, требует больших вычислительных возможностей. Поэтому в нашем исследовании использовались уже

обученные модели Russian Distributional Thesaurus (RDT) [3] и RusVectöres [4].

Russian Distributional Thesaurus - проект создания открытого дистрибутивного тезауруса русского языка. Модель русского языка была построена автоматически на основании корпуса текстов книг на русском языке [5].

RusVectöres - это инструмент, который позволяет исследовать отношения между словами в дистрибутивных моделях. В настоящий момент доступны несколько моделей, обученных на разных корпусах. Каждая модель содержит от 120 до 400 тысяч лемм [6].

Для экспериментов была выбраны 3 модели:

• ruwikiruscorpora, построенная на основе Национального Корпуса Русского Языка в полном объёме и дампа русской Ви-кипедии за ноябрь 2016;

• web, обученная на основе веб-корпуса, состоящего из случайно отобранных 9 миллионов русскоязычных веб-страниц, скачанных в декабре 2014 года;

• ruwikiruscorpora_2015 - самая большая по объёму словаря модель, построенная на основе Национального Корпуса Русского Языка в полном объёме и дампа русской Википедии за 2015 год.

В таблице 1 приведены характеристики использованных моделей.

Таблица 1.

Характеристики дистрибутивно-семантических моделей

русского языка

Модель Размер Размер Объём Алгоритм Размер-

файла, корпуса, словаря ность

Мбайт млн слов вектора

rdt 496 12 900 1 239 964 Skip-gram 100

ruwikiruscorpora 420 600 392 339 CBOW 300

web 290 900 267 540 CBOW 300

ruwikiruscorpora 2015 1100 280 604 043 Skip-gram 500

Для каждого из слов базового тонального словаря с помощью модели rdt, а также моделей ruwikiruscorpora, web и ruwikiruscorpora_2015 осуществлялся поиск наиболее близких 5

и 10 понятий. В итоге в дополнение к базовому универсальному словарю Universal (n=4) были получены словари rdt_5, rdt_10, web_5, web_10, ruwikiruscorpora_5, ruwikiruscorpora_10, ruwikiruscorpora_2015_5, ruwikiruscorpora_2015_10.

Каждый из полученных словарей использовался для анализа тональности корпуса текстов отзывов из предметной области «туризм». Корпус текстов содержит 1000 отзывов людей об отдыхе в разных отелях по всему миру. Для решения задачи анализа тональности применялся метода опорных векторов. Сравнение качества анализа тональности отзывов выполнялось с помощью Fi-меры.

Результаты, полученные в ходе исследования отражены в таблице 2.

Таблица 2.

Результаты применения словарей для анализа тональности

текстов

Словарь Количество слов словаря Количество оценочных слов в отзывах Среднее значение Fl-меры Время анализа тональности, с

Universal (n=4) 1110 608 66,6 78.13

rdt 5 3520 1385 74 178.77

rdt_10 5560 1958 77,8 246.52

web 5 3872 1447 73,4 184.54

web 10 6050 2031 76,4 256.25

ruwikiruscorpora 5 3963 1512 73,9 190.13

ruwikiruscorpora 10 6268 2079 75,3 256.99

ruwikiruscorpora 2015 5 3937 1591 73,1 202.15

ruwikiruscorpora 2015 10 6250 2149 74,9 270.26

Всего в корпусе текстов отзывов содержится 13401 уникальное слово. При использовании полученных с помощью моделей тональных словарей, примерно 1500-2000 из них относятся к оценочным словам. В то же время применение базового универсального словаря (Universal (n=4)) выявило только 608 оценочных слов в корпусе текстов отзывов.

Выбор количества семантически близких слов влияет на размер получаемого словаря. Так при учете 5 ближайших терминов для каждого слова исходного словаря размер итогового словаря для всех моделей колеблется в диапазоне от 3500 слов до 4000 слов, а при учёте 10 ближайших терминов - от 5500 слов до 6300 слов.

В среднем добавление 5 ближайших слов из моделей дало прирост качества анализа тональности отзывов с 66,6 до 73,6, а добавление 10 ближайших слов - до 76,1. При этом время анализа тональности по сравнению с использованием базового словаря увеличилось с 78 секунд до 189 секунд (в среднем для 5 ближайших терминов) и до 258 секунд (в среднем для 10 ближайших терминов).

Наилучший результат был получен на основе моделей rdt и web. Интересно сравнить характеристики этих моделей, оказывается, у них почти нет ничего общего. Можно лишь сделать предположение о том, что модель rdt продемонстрировала наилучший результат благодаря наибольшему размеру корпуса, на котором она была обучена. Чем больше размер исходного корпуса текстов, тем точнее полученная модель отражает семантические связи между словами языка. Модель web, в свою очередь, была обучена на веб-корпусе, возможно, поэтому возникает больше совпадений с оценочными словами из текстов отзывов.

По результатам исследования были сделаны следующие выводы.

Дополнение словаря оценочной лексики большим количеством близких слов повышает качество анализа тональности текста. Однако учет слишком большого количества таких слов приводит к большим временным затратам при пополнении тонального словаря и к существенному увеличению времени анализа тональности текста. Более того, это приводит к появлению большого количества случайных слов в словаре.

При выборе дистрибутивно-семантической модели для пополнения словаря оценочной лексики наиболее важными характеристиками являются размер корпуса, на котором она обучена, а также сходство терминологии текстов, входящих в обучающий модель корпус с текстами отзывов.

Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 16-07-00342 а.

Библиографический список:

1. Kotelnikov E. V., Bushmeleva N. A., Razova E. V., Peskisheva T. A., Pletneva M. V. Manually Created Sentiment Lexicons: Research and Development // Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference "Dialogue" (2016). Issue 15. - 2016. - Pp. 300-314.

2. Word2Vec Project [Электронный ресурс]. - URL: https://code.google.com/pZword2vec/

3. Russian Distributional Thesaurus [Электронный ресурс]. -URL: https://nlpub.ru/Russian_Distributional_Thesaurus

4. RusVectöres: дистрибутивные семантические модели для русского языка [Электронный ресурс]. - URL: http://rusvec-tores.org

5. Panchenko A., Ustalov D., Arefyev N., Paperno D., Konstanti-nova N., Loukachevitch N. and Biemann C. (2016): Human and Machine Judgements about Russian Semantic Relatedness. In Proceedings of the 5th Conference on Analysis of Images, Social Networks, and Texts (AIST'2016). Communications in Computer and Information Science (CCIS). Springer-Verlag Berlin Heidelberg

6. Kutuzov A., Kuzmenko E. (2017) WebVectors: A Toolkit for Building Web Interfaces for Vector Semantic Models. In: Ignatov D. et al. (eds) Analysis of Images, Social Networks and Texts. AIST 2016. Communications in Computer and Information Science, vol 661. Springer, Cham

Об авторе:

Пескишева Татьяна Анатольевна - кандидат технических наук, доцент кафедры фундаментальной информатики и прикладной математики Вятского государственного университета, РФ, г. Киров

E-mail: peskisheva.t@mail.ru

About the author:

Peskisheva Tatyana Anatolyevna - candidate of engineering sciences, associate Professor, chair of Fundamental Computer Sciences and Applied Mathematics, Vyatka State University, Russia, Kirov

i Надоели баннеры? Вы всегда можете отключить рекламу.