Научная статья на тему 'Семантический анализ антонимов русского и английского языка'

Семантический анализ антонимов русского и английского языка Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
461
72
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
семантическое расстояние / антонимические пары / переводные эквиваленты / лексическая омонимия / кластеризация. / semantic distance / antonymic pairs / translation equivalents / lexical homonymy / clustering.

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — С. Б. Потемкин

Методы количественного анализа базируются на фундаментальном понятии расстояния между объектами. Применение этих методов для исследований в области семантики возможно только после задания адекватной метрики на множестве лексических единиц. Предлагаемый подход представляет один из возможных способов задания такой метрики. Собранная лингвистическая база данных является основой для определения расстояния между словами русского языка. Предлагается подход к оценке семантического расстояния в одном языке с использованием лингвистических ресурсов этого языка и двуязычных словарей. С этой целью разработаны алгоритмы без использования аннотированных данных или выровненных параллельных корпусов. Мера семантического расстояния применяется к двум задачам: (1) семантическая кластеризация слов одного языка, и (2) разрешение лексической неоднозначности при переводе. В задаче (1), выявлены особенности, присущие применению мер близости на основе WordNet. В задаче (2) намечена возможность разрешения омонимии на основе корпуса параллельных текстов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — С. Б. Потемкин

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SEMANTIC ANALYSIS OF ANTONYMS OF RUSSIAN AND ENGLISH

Methods of quantitative analysis are based on the fundamental concept of distance between entities. Application of these methods in semantics researches is possible only when the adequate metrics is defined over the set of lexical units. An approach for defining such metrics is proposed in this paper. Lexical database is used for defining distance between Russian words. Monolingual and bilingual resources are used for words clustering and sense disambiguation in Machine Translation systems.

Текст научной работы на тему «Семантический анализ антонимов русского и английского языка»

СЕМАНТИЧЕСКИЙ АНАЛИЗ АНТОНИМОВ РУССКОГО И АНГЛИЙСКОГО ЯЗЫКА

С.Б. Потемкин, канд. техн. наук, научный сотрудник Московский государственный университет им. Ломоносова (Россия, г. Москва)

DOI: 10.24411/2500-1000-2019-11490

Аннотация. Методы количественного анализа базируются на фундаментальном понятии расстояния между объектами. Применение этих методов для исследований в области семантики возможно только после задания адекватной метрики на множестве лексических единиц. Предлагаемый подход представляет один из возможных способов задания такой метрики. Собранная лингвистическая база данных является основой для определения расстояния между словами русского языка. Предлагается подход к оценке семантического расстояния в одном языке с использованием лингвистических ресурсов этого языка и двуязычных словарей. С этой целью разработаны алгоритмы без использования аннотированных данных или выровненных параллельных корпусов. Мера семантического расстояния применяется к двум задачам: (1) семантическая кластеризация слов одного языка, и (2) разрешение лексической неоднозначности при переводе. В задаче (1), выявлены особенности, присущие применению мер близости на основе WordNet. В задаче (2) намечена возможность разрешения омонимии на основе корпуса параллельных текстов.

Ключевые слова: семантическое расстояние, антонимические пары, переводные эквиваленты, лексическая омонимия, кластеризация.

Вопрос адекватной передачи слова, входящего в антонимическую пару языка оригинала его эквивалентом в целевом языке представляет теоретический и практический интерес. Как известно, двуязычные словари дают множество слов-эквивалентов для одного слова исходного языка, причем не, всегда эти эквиваленты являются синонимами. Задача подбора слова, наиболее близкого по своему семантическому наполнению к слову оригинала лежит в основном на переводчике и не всегда решается оптимальным образом, несмотря на наличие стилистических и др. помет, примеров использования и других подсобных средств, призванных облегчить выбор.

Если же данное слово входит в состав антонимической пары, задача подбора эквивалента существенно упрощается. Действительно, переводчик, как правило, распознает антонимию и возможность выбора адекватного перевода была бы ограничена тем словом-эквивалентом, которое также входит в антонимическую пару целевого языка. Это лишь один из возможных спо-

собов привлечения антонимии для практического использования, в частности, при переводе.

Лексическая антонимия характеризуется в лингвистических исследованиях как тип семантических отношений, устанавливаемых, прежде всего в парадигматическом плане между лексическими единицами одной части речи, имеющими противоположные значения [1].

Антонимичность есть способность лексической единицы иметь противоположное значение и вступать в антонимические отношения [2].

Проявлением лексической антонимии как свойства языка выступают антонимы -слова с противоположным значением. Степень противоположности значений антонимов, т.е. степень антонимичности, может быть различной. Классифицируя антонимы по степени антонимичности, М.Р. Львов выделяет наряду с полными и неполными, также закрепившиеся в результате частого употребления индивидуально-стилистические антонимы (противопоставления): волки - овцы, мед - яд,

хи^жина дворец и т.п.; они становятся фактами языка [3]. Так, например, значения слов warm и cool воспринимаются носителями английского языка как предельно противопоставленные, подобно словам superior и inferior, хотя обозначаемые ими температурные явления находятся в весьма близком диапазоне [4].

Антонимические оппозиции, содержащиеся в языке оригинала, могут не передаваться в языке перевода не только в формальном, но и в семантическом плане, что может быть обусловлено отсутствием лексических или грамматических средств в языке перевода по сравнению с языком оригинала, или собственными соображениями переводчика.

Антонимы по типу выражаемых понятий:

- контрадикторные корреляты - такие противоположности, которые взаимно дополняют друг друга до целого, без переходных звеньев; они находятся в отношении привативной оппозиции. Примеры: плохой - хороший, ложь - истина, живой - мёртвый.

- контрарные корреляты - антонимы, выражающие полярные противоположности внутри одной сущности при наличии переходных звеньев - внутренней градации; они находятся в отношении градуальной оппозиции. Примеры: чёрный (серый -) белый, старый (- пожилой -средних лет -) молодой, большой (- средний -) маленький.

- векторные корреляты - антонимы, выражающие разную направленность действий, признаков, общественных явлений и т. д. Примеры: войти - выйти, спуститься - подняться, зажечь - потушить, революция - контрреволюция.

- конверсивы - слова, описывающие одну и ту же ситуацию с точки зрения разных участников. Примеры: купить - продать, муж - жена, преподавать - учиться, проиграть - выиграть, потерять -найти, молодой - старый.

- энантиосемия - наличие в структуре слова противоположных значений. Примеры: одолжить кому-то денег - одолжить у кого-то денег, обнести чаем - угостить и не угостить.

- прагматические - слова, которые регулярно противопоставляются в практике их употребления, в контекстах (прагматика - «действие»). Примеры: душа - тело, ум - сердце, земля - небо.

По структуре антонимы бывают:

- разнокорневые (вперёд - назад);

- однокорневые - образуются с помощью приставок, противоположных по смыслу: входить - выходить, либо с помощью приставки, прибавляемой к исходному слову (монопольный - антимонопольный).

С точки зрения языка и речи антонимы разделяют на:

- языковые (узуальные) - антонимы, существующие в системе языка (богатый

- бедный);

- речевые (окказиональные) - антонимы, возникающие в определённом контексте (чтобы проверить наличие данного типа, надо свести их к языковой паре) - (золотой - полушка медная, то есть дорогой -дешевый). Они часто встречаются в пословицах.

С точки зрения действия антонимы бывают:

- соразмерные - действие и противодействие (вставать - ложиться, богатеть - беднеть);

- несоразмерные - действие и отсутствие действия (в широком смысле) (зажечь

- погасить, думать - раздумать).

Источники. Основным источником лексикографической информации для английского языка, в том числе антонимических пар, в настоящее время признается [5]. Простота структуры позволяет сравнительно легко встраивать эту базу знаний в прикладные системы. Базовым структурным элементом WordNet являются синсет, синонимический ряд, кодирующий некоторое понятие. Между синсетами установлены немногочисленные ассоциативные отношения типа: гипоним, гипероним, синоним, голоним, мероним. Для многих лексических единиц, входящих в WordNet указаны также антонимы. Число антонимических пар в WordNet превышает 10000. В то же время даже для английского языка покрытие лексики в оригинальном WordNet далеко не полно. Для языков,

отличных от английского, имеющиеся ресурсы подобного рода значительно меньше по объему, составляя от 20 до 70% от английского [6]. Хотя русский язык не относится к языкам, бедным ресурсами, известно, что русский WordNet менее развит, чем английский в отношении покрытия лексики и представленных семантических отношений. С другой стороны, имеются тщательно разработанные одно и двуязычные словари, а также большие по объему корпуса параллельных текстов, в том числе морфологически и грамматически размеченные. В качестве основного источника антонимов для русского языка нами принят Словарь антонимов Львова, содержащий более 2500 антонимических пар. Пополнение списка антонимов из других словарей дало общее число пар антонимов равное примерно 7600. В данной работе не ставится задача расширения списка антонимов, хотя существуют методы, позволяющие подойти к ее решению [7]. Нашей целью является сопоставление имеющихся антонимических пар русского и английского языков.

Двуязычный словарь, используемый как источники переводов, представляет собой лексическую базу данных - ЛБД [8], которая в своей основе имеет англо-русские и русско-английские словари, доступные в электронном виде и частично введенные в компьютер с бумажных носителей - всего более 30 словарей. Таким образом, собрано и внесено в реляционную таблицу около 1,5 млн. записей ЛБД. Каждая запись включает следующие поля:

- английское слово (словосочетание);

- POS английского слова;

- русское слово (словосочетание);

- грамматика русского слова (по А.А. Зализняку);

- лексические и стилевые пометы;

- список словарей, зафиксировавших данную англо-русскую пару.

Представление ЛБД в виде реляционной таблицы позволяет легко проводить всевозможные сортировки, индексирование, вводить новые поля для записи производных данных и составлять программы обработки, пользуясь языками программирования БД.

Метод сопоставления антонимических пар.

Суть метода сопоставления достаточно проста. Для каждого члена русской антонимической пары (Ra, Rb) в русско-английском словаре находятся все переводы, которые записываются в списки ({Eai}, {Ebj}). Затем каждая пара (Eai, Ebj) проверяется по словарю английских антонимов. Если пара (Eai, Ebj) принадлежит словарю антонимов, делается заключение, что (Eai, Ebj) есть перевод (Ra, Rb), причем Eai есть эквивалент для Ra, Ebj есть эквивалент для Rb, или Eai ~ Ra, Ebj ~ Rb. Дополнительным ограничением на возможность установления эквивалентности служит совпадение частей речи пар (Eai, Ebj) и (Ra, Rb).

После выполнения вышеописанных действий был получен список переводов

Таблица 1 Фрагмент списка антонимов английского и русского языка

Ea Eb Ra Rb

Acclaim boo Аплодировать освистывать

Acclaim hiss Аплодировать освистывать

Acclaim hiss Аплодировать свистеть

acclivity descent Подъем падение

acclivity descent Подъем спуск

Для проведения дальнейших экспериментов на реальных словарях выбраны списки пар антонимов - наречий. Объем пар антонимов наречий составляет при-

мерно 10% от числа всех антонимов, как для русского, так и для английского языка.

Направления работы. В отличие от методов разрешения омонимии на основе тезаурусов, в частности, WordNet, предла-

гается использовать подход, основанный частью на двуязычных словарях и частью на обработке двуязычных корпусов.

В качества отдельного значения поли-семичного русского слова wR используется пара (w0R, w0E), где w0R - лемма русского слова wR и w0E - лемма английского слова (как приводится в двуязычном словаре).

Если у нас имеется выровненный по предложениям корпус параллельных текстов русского и английского языков, а также в каждом предложении проведено оптимальное сопоставление слов русского предложения словам параллельного ему английского предложения, выделяются пары (w0Ri, w0Ej). Для каждой такой пары выделяется контекст - слова, окружающие w0Ri в русском и w0Ej в английском предложении.

Как в моноязыковых дистрибутивных мерах, по контекстам определяется ДП, но не для русского слова wRi, а для пары (w0Ri, w0Ej), которая задает отдельное значение wRi.

Следует отметить, что из всего состава ЛБД (порядка 1,5 млн. пар англо-русских эквивалентов) около 20% являются уникальными парами, то есть русское слово (словосочетание) имеет единственный английский эквивалент и наоборот. Для таких однозначных слов (словосочетаний) не требуется строить дистрибутивные профили.

С другой стороны, часто многозначные слова в одном языке имеют для большинства значений один и тот же эквивалент в другом языке. Напр., слово с ДП слова star:

star: space 0.28, movie 0.2, famous 0.13, light 0.09, rich 0.04,...

будет иметь аналогичный дистрибутивный профиль в русском языке

звезда: кино, эстрада, свет, небо То есть значения согласно дистрибутивной метрике будут очень близки. Но такое смешение значений не приводит к ошибкам, скажем, при выборе эквивалента в машинном переводе.

Для остального массива слов требуется построение ДП, которые могут быть приписаны каждой паре R-E эквивалентов в ЛБД. Следует отметить, что такая работа может проводиться постепенно, по мере обработки все более обширных корпусов параллельных текстов различной тематики.

Заключение. В статье предлагается подход к определению семантического расстояния между словами одного языка на основе многоязычных ресурсов, параллельных текстов и двуязычных словарей. Приведены результаты кластеризации и выделения доминант в метрике, наложенной на лингвистическую базу данных, составленную из двуязычных словарей.

Проводится сравнение с подходами на основании тезауруса - WordNet и чисто дистрибутивным подходом на базе одноязычного корпуса. Делается вывод о несовершенстве подхода к построению тезаурусов в виде иерархических структур. Отдельное значение слова предлагается связать не с синсетом, или синонимическим рядом одного языка, а с парой слово-перевод. Дистрибутивные профили такой пары могут быть построены с использованием выровненного корпуса параллельных

текстов.

Библиографический список

1. Новиков, Л.А.: Антонимия // Большой энциклопедический словарь: Языкознание. -М.: Большая российская энциклопедия, 1998. - С. 35.

2. Миллер, Е.Н.: Антонимия номинативных единиц в современном немецком языке -Куйбышев, 1985. - С. 18.

3. Львов, М.Р.: Опыт систематизации лексических антонимов // Актуальные проблемы лексикологии и лексикографии. - Пермь, 1972. - С. 308-309.

4. Sapir, E.: Selected Writings of Edward Sapir in Language, Culture and Personality - Berkley and Los Angeles, 1958. - p. 133.

5. Fellbaum, C. (ed.): WordNet: An Electronic Lexical Database. Cambridge, MA: MIT Press, 1998a p. 449.

6. Hofmann, K., TjongKim Sang, E.: Automatic extension of non-English

7. WordNets // Proceedings of SIGIR'07, Amsterdam, The Netherlands, pp. 833-834, 2007.

8. Luluh Aldhubayi, Mana Alyahya: Automated Arabic antonym extraction using a corpus analysis tool // Journal of Theoretical and Applied Information Technology, Vol. 70 №3, pp 422433.

9. Potemkin, S., Kedrova, G.: Semantic metrics and WordNet // Proceedings of the Conference "Life beyond Dictionaries" Ivanovo-Florence, 2013 pp 230-233.

SEMANTIC ANALYSIS OF ANTONYMS OF RUSSIAN AND ENGLISH

S.B. Potemkin, Candidate of Technical Sciences, Researcher Lomonosov Moscow State University (Russia, Moscow)

Abstract. Methods of quantitative analysis are based on the fundamental concept of distance between entities. Application of these methods in semantics researches is possible only when the adequate metrics is defined over the set of lexical units. An approach for defining such metrics is proposed in this paper. Lexical database is used for defining distance between Russian words. Monolingual and bilingual resources are used for words clustering and sense disambiguation in Machine Translation systems.

Keywords: semantic distance, antonymic pairs, translation equivalents, lexical homonymy, clustering.

i Надоели баннеры? Вы всегда можете отключить рекламу.