Научная статья на тему 'ИССЛЕДОВАНИЕ ОЦЕНОЧНОЙ ОРИЕНТАЦИИ НАРЕЧИЙ'

ИССЛЕДОВАНИЕ ОЦЕНОЧНОЙ ОРИЕНТАЦИИ НАРЕЧИЙ Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
127
14
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СИНОНИМ / АНТОНИМ / СЕМАНТИЧЕСКАЯ МЕТРИКА / ШКАЛА ОСГУДА / ГЕОДЕЗИЧЕСКИЕ

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Потемкин С. Б.

Анализ эмотивно-оценочной характеристики, выражаемой в тексте, часто основывается на изучении семантической ориентации присутствующих в нем положительных и отрицательных лексем. В статье предлагается подход к определению численной величины положительного или отрицательного склонения наречий с опорой исключительно на данные специальных словарей. Такой подход предполагает построение цепочек квази-синонимичных слов, связывающих наречия. Характеризуются методы определения семантической метрики в пространстве Осгуда, возможности установления непротиворечивой метрики на множестве наречий с использованием геодезического расстояния между словами.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ADVERBS SENTIMENT STUDY

The paper proposes an approach to determine correspondences betweenthe relevant pairs of Russian emotive adverbs. Chains ofquasi-synonymous words linking the adverbs are constructed. An important feature of antonyms is the fact that negatively-oriented antonyms are marked with respect to the positive ones. The different methods for the determination of semantic metrics in the Osgood space are described. Usage of geodesic distance between two arbitrary words enables introduction of unambiguous metrics over the set of Russian adverbs. Coordinates of antonyms and those synonyms which connect antonymous pairs are displayed in the two-dimensional space.

Текст научной работы на тему «ИССЛЕДОВАНИЕ ОЦЕНОЧНОЙ ОРИЕНТАЦИИ НАРЕЧИЙ»

ИССЛЕДОВАНИЕ ОЦЕНОЧНОЙ ОРИЕНТАЦИИ НАРЕЧИЙ С.Б. Потемкин, канд. техн. наук, ст. науч. сотр.

Московский государственный университет имени М.В. Ломоносова (Россия, г. Москва)

DOI:10.24412/2500-1000-2021-10-1-145-152

Аннотация Анализ эмотивно-оценочной характеристики, выражаемой в тексте, часто основывается на изучении семантической ориентации присутствующих в нем положительных и отрицательных лексем. В статье предлагается подход к определению численной величины положительного или отрицательного склонения наречий с опорой исключительно на данные специальных словарей. Такой подход предполагает построение цепочек квази-синонимичных слов, связывающих наречия. Характеризуются методы определения семантической метрики в пространстве Осгуда, возможности установления непротиворечивой метрики на множестве наречий с использованием геодезического расстояния между словами.

Ключевые слова синоним, антоним, семантическая метрика, шкала Осгуда, геодезические.

Пользователи Интернета все чаще ориентируются на мнения потребителей и независимых экспертов для принятия решений о приобретении того или иного продукта. Потенциальному покупателю товара или услуги доступно множество отзывов пользователей на публичных форумах. В деятельности организаций контент социальных медиа может заменять даже данные социологических опросов. Однако поиск, изучение и обработка отзывов, публикуемых в Интернете, — сложная задача. Каждый сайт содержит большой объем мнений, которые не так-то просто эффективно охватить и обобщить. Для решения этой задачи необходимы специальные формальные методики. Технологии анализа эмоций сегодня востребованы в самых различных областях: от оценки потребительских товаров или услуг здравоохранения до проведения социальных акций и политических выборов. Большое значение при изучении оценочной ориентации текста и его фрагментов (параграфов, предложений, фраз), имеет анализ входящих в текст оценочно-ориентированных наречий. Наречия в тексте усиливают, модифицируют или инвертируют значения связанных с ними слов. Сегодня доступность ресурсов для обработки естественного языка (Natural Language Processing, NLP) остается актуальной проблемой, особенно для

русского языка вследствие отсутствия исчерпывающих семантических ресурсов, несмотря на усилия, направленные на развитие русской версии WordNet (RusWordNet) [1]. Возможность определения сходства или семантического расстояния между лексемами и выражаемыми ими понятиями лежит представляет собой одну из существенных задач вычислительной лингвистики. В этой статье рассмотрено измерение семантического расстояния в синтаксической категории наречий. Наречия модифицируют или уточняют смысл других слов, входящих в предложение (глаголов, существительных, прилагательных), в силу чего представляют особый интерес при определении оценочной ориентации синтагм, содержащих наречие-модификатор. Определение семантического расстояния между словами английского языка чаще всего основывается на использовании базы данных WordNet [16] и почти исключительно на таксономических отношениях, установленных в ней. В рамках такого подхода возможно определение семантического расстояния только между словами, относящимися к синтаксическим категориям существительных или глаголов, но не наречий. Цель данной работы — сформировать список оценочных наречий и разработать метод определения меры их

семантической близости с использованием словарей синонимов.

Составление базового набора наречий

Ранее был предложен ряд подходов к созданию словарей оценочной ориентации для английского языка. Такие подхожы являются дорогостоящими в силу вычислительной сложности и предполагают существенную ручную обработку данных и использование крупных текстовых корпусов. В частности, при оценке качества новых словарей как эталон используется Генеральный Вопросник (ГВ) [18], созданный в начале прошлого века. Русская лексикография не имеет открытого и надеж-

В качестве основного источника антонимов русского языка нами принят «Словарь антонимов русского языка» М.Р. Львова [8], содержащий более 2000 антонимических пар. Пополнение списка из других словарей [19] дало примерно 7600 пар антонимов (прилагательные, существительные, глаголы, наречия и предлоги), то есть их число близкок числу антонимических пар WordNet. Оценочные слова были вручную извлечены из этого списка и расположены в двух отдельных подсписках - положительно-

ориентированных (1859) и отрицательно-ориентированных (2229) слов. Эти базовые списки можно сравнить с английским лексиконом ГВ, который содержит маркеры оценочной ориентации, всегооколо 3600 пар. Основным источником списков синонимов и антонимов английского языка, распределенных в алфавитном и идеографическом порядке, в течение многих десятилетий служил знаменитый тезаурус Ро-же.В настоящее время опыт тезауруса Роже обобщен в виде лексической базы дан-

ного лексикона с позитивно и негативно помеченными словарными статьями. Мы предлагаем некоторые подходы к созданию лексикона оценочной ориентации множества русских наречий, который включал бы как отдельные слова, так и наречные фразеологизмы. В выдвигаемом подходе используются словари антонимов и синонимов. Создание такого лексикона требует небольшого объема ручной фильтрации при обработкебаз данных.Прежде всего мы проанализировали опубликованные словари антонимов. В работе [10] приведена таблица подсчета общего числа антонимов, включая оригинальные антонимические пары и процент последних.

ных WordNet, которая является общепризнанным источником лексикографической информации. Простота структуры позволяет сравнительно легко встраивать эту базу знаний в прикладные системы. Основным структурным элементом WordNet является синсет - синонимический ряд. Одно слово может принадлежать различным синсетам и выражать различные понятия. Между синсетами установлен ряд ассоциативных отношений типа: гипоним, гипероним, голоним, мероним. Для некоторых лексических единиц, входящих в WordNet, указанытакже антонимы. Число антонимических пар в WordNet превыша-ет10000. Для иных языков имеющиеся ресурсы подобного рода значительно меньше по объему - от 20 до 70% от английского ресурса. Известно, что RusWordNet [1] менее развит, чем английский, в отношении покрытия лексики и представленных семантических отноше-ний.Двуязычный словарь, используемый как источник переводных эквивалентов, представляет собой лексическую базу дан-

Таблица 1 Количество антонимических пар в словарях антонимов [10]

Редактор словаря Всего пар Оригинальные пары Оригинальные пары %

А.С. Гаврилова [5] 585 29 4 96

Д. Ушакова [12] 886 117 13 21

Л.А. Введенская [4] 943 101 10 71

Н.П. Колесников [6] 1334 345 25 86

М.Р. Львов [8] 2838 551 19 42

А. Михайлова [9] 4056 1567 38 63

Л.Г. Бабенко [3] 15397 12823 83 28

Краудсорсинг (Викисловарь) [7] 17870 14272 79 87

ных - ЛБД [11], которая в своей основе имеет англо-русские и русско-английские словари, доступные в электронном виде и частично введенные в компьютер с бумажных носителей. Всего использовано более 30 словарей, из которых отобрано и внесено в реляционную БД около 1,5 млн записей.Каждая запись включает следующие поля:— английское слово (словосочетание);— POS английского слова;— русское слово (словосочетание);— граммати-

Следующий шаг состоял в том, чтобы расширить базовый лексикон для достижения плотного покрытия различных текстов, рассматриваемых при анализе настроений. В качестве лексического источника мы используем структурированный список русских синонимов, собранных из ряда опубликованных и доступных в Интернете словарей (11 источников), в частности широко известный словарь З.Е. Александровой [2]. Список синонимов содержит около 600 тыс. пар слов, включая около10000 пар наречий. В первом приближении все синонимы каждого слова wi базового набора получают ту же эмотивную ориентацию,что и wi. Число вхождений синонимов s(wi) в расширенном множестве, порожденном разными словами базового набора wi, ^ = 1... п), указывает на достоверность оценочной ориентации. После ручной фильтрации нами получен список положительно (5990 лексем, включая 731 наречие) и негативно маркированных (6853 лексем, включая 592 наречия) слов. Следует отметить, что при составлении списка пар антонимов мы старались выделить главное значение лексемы: например, выбиралосьзначение «страшно» как эмоциональное состояние, а не как синоним слова «сильно». Так как большая часть русских наречий совпадает

ка русского слова (по А.А. Зализняку);— лексические и стилевые пометы;— список словарей, зафиксировавших данную англорусскую пару эквивалентов. Представление ЛБД в виде реляционной таблицы позволяет легко проводить всевозможные сортировки, поиск, вводить новые поля для записи производных данных и составлять программы обработки, пользуясь языками программирования БД.

с краткой формой единственного числа среднего рода или краткой формой прилагательного множественного числа (3135), список оценочных наречий может быть расширен.

Меры расстояния

Предложено несколько мер для определения семантического расстояния между словами английского языка, основанных (полностью или частично) на WordNet. Например, такая мера определяется как число ребер пути через таксономические отношения (отношение К^, Part-of или гиперонимия). В [11] понятие длины цепочки было расширено для всех отношений в WordNet посредством их кластеризации в горизонтальном (синонимы) или вертикальном (гипонимы-гиперонимы) направлении и назначении штрафа за изменение направления движения по пути. Обзор пяти мер и оценка их эффективности с использованием ассоциаций между словами приведены в [15]. Однако такие меры не могут быть применены к прилагательным и наречиям. Семантическое расстояние между словами можно было бы определить по аналогии с тем, как устанавливаются расстояния в теории графов. Самый простой подход — собрать все слова из словаря синонимов и связать каждый член синонимической группы с ее доми-

Таблица 2 Фрагмент списка антонимов ^ английского и русского языков

Ea Eb Ra Rb

Acclaim boo аплодировать освистывать

Acclaim hiss аплодировать свистеть

Acclivity descent подъем спуск

Acquaintance stranger знакомый неизвестный

Acquiesce dissent соглашаться возражать

Action inactivity действие бездействие

Action inactivity деятельность бездействие

нантой, указанной в словаре. Пусть G(W,S) — неориентированный граф; W — множество узлов, являющихся словами определенной части речи из словаря синонимов; S — набор ребер, соединяющих каждый член группы синонимов с доминантой. Слова в каждой синонимической группе будут связаны друг с другом через доминанту и сформируют клику в графе G.Путь Р представляет собой последовательность узлов, связанных ребрами G, а геодезическая — кратчайший путь между двумя узлами. Геодезическое расстояние D(wi, wj) между словами wi и wj является длиной (числом ребер) кратчайшего пути между wi и wj. Если между wi иwj нет пути, расстояние между ними не определено. Геодезические задают метрику на множестве синонимов, для которой выполняются все аксиомы метрического пространства. Обычно синонимичные группы содержат слова одной и той же грамматической категории, а весь граф G разбивается на непересекающиеся подграфы для существительных, глаголов, прилагательных и наречий. В каждом подграфе существует максимальная связная компонента, содержащая 70-90% всех узлов графа. Максимальная компонента в классе русских наречий содержит около 8500 лексем.

Оценочная ориентация наречий

Большинство западных исследований оценочной ориентации слов базируется на использовании ресурса SentiWordNet 3.0 [14], фрагментаWordNet 3.0, синсеты которого вручную аннотированы как ориентированные положительно, отрицательно или нейтрально. Этот ресурс содержит примерно 117 тысяч слов. Прямой перевод SentiWordNet на русский язык вызывает серьезные затруднения, как это показала работа над RusWordNet [1]. Фундаментальное значение для измерения оценочных или аффективных значений слов в текстах имеет теория семантического дифференциала (СД) Чарльза Осгуда. Значение слова в когнитивной психологии является строго психологическим. Ч. Осгуд [18], который впервые предложил метод семантического дифференциала, пытался получить от испытуемых оценку слов-понятий из разных синтаксических клас-

сов, в частности прилагательных (например: близкий, простой, приблизительный и т.д.). Испытуемым предлагалось оценить эти слова с точки зрения того, насколько они «добрые» или «злые», «сильные» или «слабые», «большие» или «маленькие» и т.п. Математическая обработка результатов эксперимента показала, что по некоторым шкалам оценки в значительной степени совпадали между собой. При этом выяснилось, что совпадающие шкалы могут быть объединены в три группы — так называемые факторы, которым Ч. Осгуд приписал следующие названия: оценка, сила и активность. Каждая пара противоположно ориентированных прилагательных является осью в методе СД. Применение факторного анализа к обширному эмпирическому материалу дало неожиданный результат — большую часть вариаций суждений можно объяснить только тремя основными факторами: положительный / отрицательный, сильный / слабый и активный / пассивный. Среди этих факторов первый имеет наибольший относительный вес для определения оценочной ориента-ции.Семантический дифференциал может быть естественным образом распространен на качественные наречия, которые обладают семантическим значением и, соответственно, доставляют информацию об оценочной ориентации. Все три пары биполярных наречий отрицательно /положительно; слабо / сильно, пассивно / активно содержатся в максимальной связной компоненте подграфа синонимичных наречий Gadv. Можно предположить, что расстояние от произвольного наречия до «положительно» является мерой положительной оценки наречия. Однако нетрудно показать, что эта мера на самом деле довольно противоречива. Яркой иллюстрацией является то, что слова «положительно» и «отрицательно» довольно близко связаны через цепочку синонимов. В английском языке антонимы связывает цепочка из 5 слов (negatively, hardly, tightly, thoroughly, comprehensively, soundly, positively), а в русском — из слов (плохо, дешево, легко, просто, совсем, очень, здорово, хорошо). Каждая пара слов в этой последовательности является сино-

нимами (по крайней мере, в одном из значений). Конечно, это не связано с какой-либо ошибкой в словаре синонимов. Частичное объяснение заключается в широком использовании русских наречий «хорошо» (625 ipm) и «плохо» (187 ipm) [13]. Мы можем рассматривать не только кратчайшее расстояние от любого наречия до «хорошо», но и кратчайшее расстояние до его антонима «плохо». Эта идея конкретизирована в определении функции EVA [17], которая позволяет измерять относительное расстояние от некоторого слова до двух антонимов:EVA (w) = ((d(w, neg) -d(w, pos)) / d(neg, pos).B предположении, что нет слова «хуже, чем плохо» или «лучше, чем хорошо», значения EVA лежат в интервале [-1, 1]. Например, оценка слова «честно» равна EVA (честно) = d(честно, neg) - d^dTO, pos)| / d(pos, neg) = (8 - 2) /6 = 1. Аналогичным образом определяются меры для других размерностей СД. Для фактора сильно / слабо определена функция POT (w) = (d(w, weakly) — d(w, strongly)) / d (weakly, strongly).Для фактора активности определена функция ACT (w) = (d(w,passively) - d(w, actively)) / d (actively, passively).Таким же образом можно определять относительное расстояние для любых двух слов, принадлежащих к максимальной связной компоненте подграфа наречий. Предположение о крайнем положении слов хорошо / плохо не вполне оправданно. Очевидно, существуют наречия, выражающие высшую степень некоторого свойства. Для слова хорошо (в

главном значении) таким наречием будет превосходно. С использованием лексической функции Magn() можно записать: превосходно = Magn(хорошо). То же самое справедливо и для английских слов: excellent = Magn(good). Интуитивно координаты превосходно и excellent должны выходить за пределы интервала [-1, 1] в осях плохо-хорошо, bad-good. Для учета этого явления мы заменяем функцию EVA функцией EVA1 (w):EVA1 (w) = (d (w, neg) - d (w, pos)) * (d (w, neg) + d (w, pos)) / d2 (neg, pos). Значения EVA1 могут выходить за интервал [-1, 1]. Аналогично мы можем переопределить POT1(w) и ACT1(w). Для английских прилагательных (и качественных наречий) существует источник для оценки построенной нами меры в сравнении с независимо полученными ответами на ГВ [18], который содержит набор слов для оценки трех факторов Осгуда. Сравнение результатов из ответов на ГВ дало значения70—80% совпадений с нашими результатами в зависимости от того, какие слова считались нейтральными относительно функций EVA1, POT1, ACT1. Мы полагаем, что антонимичные наречия лежат на противоположных концах, или диаметрах, множества наречий. Методы многомерного шкалирования обеспечивают отображение многомерного пространства с заданными расстояниями между отдельными точками d(wi, wj) на пространство меньшей размерности, а именно на плоскость (рис. 1).

25 = богато убого

■ 1 1 ! 1 1 * '* *

• •• v'

■ • • ■ v'l vi í''.'.'.. 1_

-

■ ' • 'if • •:

- 1 1 : -

Рис. 1. Подмножество наречий, отображенное на плоскость.

Каждое наречие отображается точкой (метка +). На рисунке 1 видно, что пары антонимов лежат вблизи диаметров множества наречий. Для более подробного изучения структуры пространства наречий мы построили цепочки синонимов, соеди-няющихпары антонимов в подграфе Gadv. Путь на рисунке 3 а является цепочкой синонимов, которая проходит по периферии множества наречий, а расстояния между синонимами не превышают расстояния между антонимами. К сожалению, ситуация не всегда благоприятна. На рисунке 2б

пара антонимов близка к диаметру, но цепочка синонимов не находится на периферии множества, а лежит в его центральной части и изменяет свое направление. При этом расстояние между синонимами часто больше, чем расстояние между антонимами. Вероятно, необходимо точнее определить семантическое расстояние между словами и правильно выбрать оси пространства наречий, используя метод главных компонентов. Эти новые оси необязательно будут совпадать с размерностями Осгуда.

48 = весело припеваючи легко слабо тускло пасмурно хмуро

— . ■ / V"

■''<■}'.у-' ¿¿»•'V

i У '«f -лъ>

Рис. 2. Две цепочки синонимов, соединяющие антонимические пары наречий^ - цепочка, согласованная с расстоянием EVA; б - цепочка, не согласованная с расстоянием EVA

Подведем итог. Мера расстояния между наречиями может быть определена с использованием графа синонимов. Выбор меры расстояния на основе цепочки синонимов намечает подход к проблеме определения оценочной ориентации наречий. В отличие от семантического дифференциала Осгуда, связанного с реакцией людей на представленные им стимулы или возможным эмоциональным воздействием слов, наша модель основана исключительно на лексическом материале и предназначена для представления объективных значений, которые зафиксированы в словарях. Определенные нами функции расстояния до семантически противоположных лексем,

лять расстояния до лексем Magn(хорошо), Magn(плохо) и пр. и находить супремум и инфинум на осях Осгуда. Дальнейшие исследования будут направлены на определение оценочной ориентации предложения или всего текста на основе ориентации составляющих его слов. Наш метод позволяет оценивать не только наречия, но и другие классы слов — таких, как существительные, прилагательные и глаголы, но для этого потребуется значительное увеличение объема вычислений и развитие специальных методов обработки больших данных, поскольку для вычисления кратчайших путей требуются число операций O(n3), где п — число слов в графе G(W, S).

EVA1, POT1 и ACT1, позволяют вычис-

Библиографический список

1. Азарова И.В., Митрофанова О.А., Синопальникова А.А. Компьютерный тезаурус русского языка типа WordNet. URL: http://project.phil.spbu.ru/RussNet/index.ru.shtml (дата обращения: 11.10.202).

2. Александрова З.Е. Словарь синонимов русского языка : практ. справочник.М., 2005.

3. Бабенко Л.Г. Большой толковый словарь синонимов русской речи: идеографическое описание, антонимы, фразеологизмы. - М., 2008.

4. Введенская Л.А. Словарь антонимов русского языка. М., 2004.5.

Гаврилова А.С. Словарь синонимов и антонимов современного русскогоязыка. - М., 2014.

6. Колесников Н.П. Словарь антонимов русского языка. - Тбилиси, 1972.

7. Русский Викисловарь: [сайт]. URL: https://ru.wiktionary.org (дата обра-щения: 11.10.2021).

8. Львов М.Р. Словарь антонимов русского языка. - М., 2006.

9. Михайлова О.А. Словарь синонимов и антонимов для школьников. - М., 2009.

10. Мухин Ю.М. Границы русской антонимии. Лексическая практика // Известия Уральского федерального университета. Сер. 2: Гуманитарные науки.2017. Т. 19, №3 (166). С. 203-214.11.

11. Потемкин С.Б. Семантическое расстояние на лингвистической базе данных и WordNet // Матер. X Междунар. конф. «Когнитивное моделирование в лингвистике», CML-2008, Черногория. Бечичи, 2008. С. 88.

12. Ушакова О.Д. Синонимы и антонимы. Словарик школьника. - СПб., 2016.

13. Шаров С.А., Ляшевская О.Н. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). - М., 2009. URL: http://www.artint.ru/projects/frqlist.asp (дата обращения: 11.10.2021).

14. Baccianella S., Esuli A., Sebastiani F. SentiWordNet 3.0: An Enhanced LexicalResource for Sentiment Analysis and Opinion Mining // Proceedings of the 7th Con-ference on International Language Resources and Evaluation, LREC, 2010. URL:http://www.lrecconf.org/proceedings/lrec2010/pdf/769_Paper.pdf (дата обраще-ния 25.10.2021).

15. Budanitsky A., Hirst G. Semantic Distance in WordNet // Workshop onWordNet and Other Lexical Resources. NAACL, 2001. URL: http://ftp.cs.toronto.edu/pub/gh/Budanitsky+Hirst-2001.pdf (дата обращения: 11.10.2021).

16. WordNet: An Electronic Lexical Database / ed. by C. Fellbaum. Cambridge,1998. URL: http://wordnet.princeton.edu/ (дата обращения: 11.10.2021).

17. Kamps J., Marx M., Robert J., Mokken M. Using WordNet to Measure SemanticOrienta-tions of Adjectives // Proceedings of the 4th International Conference onLanguage Resources and Evaluation, LREC. 2004. P. 1115-1118.

18. Osgood C.E., Succi G.J., Tannenbaum P.H. The Measurement of Meaning. Urbana, 1957.

19. Potemkin S.B., Kedrova G.E. Exploring Semantic Orientation of Adverbs // CDUD'11 — Concept Discovery in Unstructured Data. URL: https://www.academia.edu/3031219/CDUD_11_Concept_Discovery_in_Unstructured_Data (дата обращения: 11.10.2021).

ADVERBS SENTIMENT STUDY

S.B. Potemkin, Candidate of Technical Sciences, Senior Researcher Lomonosov Moscow State University (Russia, Moscow)

Abstract The paper proposes an approach to determine correspondences betweenthe relevant pairs of Russian emotive adverbs. Chains ofquasi-synonymous words linking the adverbs are constructed. An important feature of antonyms is the fact that negatively-oriented antonyms are marked with respect to the positive ones. The different methods for the determination of semantic metrics in the Osgood space are described. Usage of geodesic distance between two arbitrary words enables introduction of unambiguous metrics over the set of Russian adverbs. Coordinates of antonyms and those synonyms which connect antonymous pairs are displayed in the two-dimensional space.

Keywords synonym, antonym, semantic metric, Osgood scale, geodesics.

i Надоели баннеры? Вы всегда можете отключить рекламу.