Научная статья на тему 'Распознавание семантики падежа для целей автоматического перевода с русского языка на китайский (на примере творительного места и времени)'

Распознавание семантики падежа для целей автоматического перевода с русского языка на китайский (на примере творительного места и времени) Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
105
26
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РУССКО-КИТАЙСКИЙ МАШИННЫЙ ПЕРЕВОД / СЕМАНТИКА / ТВОРИТЕЛЬНЫЙ ПАДЕЖ / ЛОКАТИВНОЕ И ТЕМПОРАЛЬНОЕ ЗНАЧЕНИЕ / RUSSIAN-CHINESE AUTOMATIC TRANSLATION / SEMANTICS / INSTRUMENTAL CASE / LOCATIVE AND TEMPORAL MEANING

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Сунь Шуан

Одной из серьезных проблем при автоматическом переводе (АП) с русского языка на китайский является распознавание семантики русских падежей. В работе строятся формальные правила распознавания локативного и темпорального значений творительного падежа. При формулировании правил используется метаязык прикладной семантической теории «Онтологической семантики» С. Ниренбурга и В. Раскина.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Сунь Шуан

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Detecting Semantics of the Case for the Purposes of Machine Translation from Russian into Chinese (illustrated by the example of the instrumental of place and time)

Recognition of the meaning expressed by Russian morphological cases poses a serious problem for Russian-Chinese automatic translation. In the paper, formal rules for the recognition of locative and temporal meaning of the Russian instrumental case are proposed. The metalanguage used in formulating those rules is taken from Ontological Semantics a computational semantic theory proposed by S. Nirenburg and V. Raskin.

Текст научной работы на тему «Распознавание семантики падежа для целей автоматического перевода с русского языка на китайский (на примере творительного места и времени)»

ВЕСТНИК МОСКОВСКОГО УНИВЕРСИТЕТА. СЕР. 9. ФИЛОЛОГИЯ. 2009. № 3

Сунь Шуан

РАСПОЗНАВАНИЕ СЕМАНТИКИ ПАДЕЖА ДЛЯ ЦЕЛЕЙ АВТОМАТИЧЕСКОГО ПЕРЕВОДА С РУССКОГО ЯЗЫКА НА КИТАЙСКИЙ (на примере творительного места и времени)

Одной из серьезных проблем при автоматическом переводе (АП) с русского языка на китайский является распознавание семантики русских падежей. В работе строятся формальные правила распознавания локативного и темпорального значений творительного падежа. При формулировании правил используется метаязык прикладной семантической теории «Онтологической семантики» С. Ниренбурга и В. Раскина.

Ключевые слова: русско-китайский машинный перевод, семантика, творительный падеж, локативное и темпоральное значение.

Recognition of the meaning expressed by Russian morphological cases poses a serious problem for Russian-Chinese automatic translation. In the paper, formal rules for the recognition of locative and temporal meaning of the Russian instrumental case are proposed. The metalanguage used in formulating those rules is taken from Ontological Semantics - a computational semantic theory proposed by S. Nirenburg and V. Raskin.

Key words: Russian-Chinese automatic translation, semantics, instrumental case, locative and temporal meaning.

Серьезной проблемой при автоматическом переводе (АП) с русского языка на китайский является распознавание семантики русских падежей, в особенности падежей свободных синтаксем [Золотова, 2001], т.е. именных групп (ИГ), не заполняющих валентности каких-либо слов в предложении. Цель нашей работы - на конкретном примере свободных синтаксем творительного падежа без предлога (далее - ТВОР) показать, что данная проблема может быть решена путем включения в систему АП семантического компонента, построенного на основе «Онтологической семантики» - прикладной семантической теории, разработанной С. Ниренбургом и В. Раскиным [Nirenburg, Raskin, 2004], и содержащего универсальную онтологию, настроенный на нее словарь, а также правила приписывания семантических ролей, условия применения которых задаются в терминах данной онтологии.

По нашим подсчетам, проведенным на материале Национального корпуса русского языка (НКРЯ), свободные синтаксемы составляют около 20% от общего числа синтаксем ТВОР. И хотя по частотно-

сти эти синтаксемы уступают обусловленным, они заслуживают особого внимания. Дело в том, что для распознавания семантики обусловленных синтаксем требуется небольшое количество общих правил, опирающихся на грамматические признаки управляющего синтаксемой предикатного слова (например, признак «пассивного залога»). Семантические роли связанных синтаксем при семантическом анализе извлекаются из словаря системы АП, где они записаны при соответствующих актантах в моделях управления (МУ) слов с предикатной семантикой. Свободные же синтаксемы не входят в МУ слов, и для установления того, какую семантическую роль они выражают, необходимы многочисленные специальные правила семантико-син-таксического анализа, учитывающие свойства как самой синтаксемы, так и слов, с которыми данная синтаксема связана в предложении. Без таких правил качественный перевод1 невозможен. Предполагается, что семантико-синтаксическому анализу предложения предшествуют этапы морфологического и предсинтаксического анализа (разбиение текста на клаузы), и начинается он с приписывания словам семантической информации, извлекаемой из словаря.

Необходимый для создания таких правил инвентарь семантических ролей, выполняемых свободными синтаксемами ТВОР, равно как и условия, при которых ТВОР выражает те или иные роли, описаны (см. в особенности [Золотова, 2001]), но описаны недостаточно формально для целей АП. Для разработки формальных правил распознавания семантики падежей необходим семантический метаязык, включающий в себя достаточное количество четко определенных семантических единиц и заданных на них семантических отношений. Именно такой язык и предлагает «Онтологическая семантика» [Nirenburg, Raskin, 2004] в форме онтологии - иерархической системы, включающей около 10 000 субстанциональных и реляционных концептов из самых разных предметных областей, в терминах которых могут быть выражены как парадигматические свойства слов (например, семантический класс, семантический признак), так и их синтагматические свойства (например, выражаемые падежами семантические роли). Именами концептов в этой теории служат английские слова, что в данном случае несущественно, так как содержание концепта задается развернутым определением, четко фиксирующим объем соответствующего понятия. Мы будем давать переводы имен концептов на русский язык, что позволит нам обойтись без их определений. Данный метаязык обеспечивает практически полное покрытие выделенных в русистике падежных значений и условий их реализации. Если необходимо, он может пополняться

1 В ситуации АП качественным можно считать перевод, в котором смысл оригинала передан без существенных потерь и искажений, хотя, возможно, и со стилистическими погрешностями.

новыми концептами при условии, что последние будут ясным и непротиворечивым образом вписаны в существующую онтологию.

В связи с ограниченным объемом публикации мы рассмотрим здесь только два значения свободных синтаксем ТВОР - локативное и темпоральное («транзитив» и «темпоратив» по [Золотова, 2001]). Их распознавание необходимо, так как каждое из них переводится на китайский язык своими специальными средствами. Естественно, что при формулировании правил приптоывания синтаксеме этих значений мы учитывали и другие в принципе возможные для нее значения, чтобы правильно задать границы применимости правил. Правила распознавания инструментального и сравнительного значений у свободных синтаксем ТВОР в рамках данного подхода предложены в [Сунь Шуан, Кобозева, 2008].

На первый взгляд кажется, что распознать, в какой семантической роли выступает синтаксема ТВОР - маршрута движения («транзи-тив», роль Path) или времени действия/состояния («темпоратив», роль Time) - достаточно легко: в роли транзитива выступают имена мест (класс PLACE), а в роли темпоратива - имена отрезков времени (класс TIME-PERIOD). Но для целей АП с русского языка на китайский язык этих, в общем верных, соображений явно недостаточно.

Во-первых, в китайском языке роль маршрута кодируется по-разному в зависимости от того, к какому топологическому типу (см. [Talmy, 1983; Рахилина, 2000]) принадлежит «место», обозначаемое именем в ТВОР. Если «место» относится к типу «линейных», протяженных в одном направлении «мест» вроде реки, ее берегов, дороги и т.п., то синтаксема ТВОР должна переводиться либо при помощи предлога yan (^), либо чисто синтаксическим способом: путем постановки переводного эквивалента соответствующей ИГ в позицию прямого дополнения. Если же «место» не относится к типу «линейных», то для перевода ТВОР обычно используется слово chuanguo (0Й) в функции предлога2. Таким образом, чтобы правильно перевести свободную синтаксему ТВОР в значении транзитива на китайский, необходимо не только установить ее общее грамматическое значение в русском языке, но и конкретизировать его, разделив единую роль Path на две: 1) маршрута-траектории (Path-Тrajесtrory) и 2) маршрута-среды (Path-Environment). Правила приписывания этих ролей должны учитывать не только семантический класс имени в ТВОР, но и дополнительный семантический признак - топологический тип объекта («линейный» vs. «нелинейный»). Это в свою очередь означает, что в словаре соответствующие предметные имена должны быть охарактеризованы по данному признаку.

Вторая трудность состоит в том, что одно и то же имя в форме ТВОР может иметь как значение транзитива (см., например: Да,

2 В функции предиката chuanguo (^Й) имеет значение 'проходить через'.

именно этой дорогой подвозили мазут), так и значение темпоратива (см., например: А ну как да захворают дорогой?).

Естественно, что здесь мы имеем дело с двумя разными ЛСВ слова дорога. Следовательно, для правильного распознавания данных семантических ролей надо учитывать не только семантику имени, которое может оказаться многозначным, но и семантику предиката, позволяющую разрешить неоднозначность имени.

Для выявления условий реализации ролей транзитива и темпоратива из НКРЯ были выбраны 100 первых предложений со словом дорога в форме ТВОР, которое в 63 случаях оказалось свободной синтаксемой. При этом в 50 случаях слово дорогой (дорогою) выступало в роли транзитива (Path), как в примерах (1), а в 13 случаях - в роли темпоратива (Time), как в (2):

(1) а) В Москву надо ехать быстрее, кратчайшей дорогой; б) От рокового места веселый путник привычно топал лесной дорогой двенадцать километров до дачи... в) Я двинулся знакомой дорогой к аптечному складу; г) Так что и под гору я спустился лесной дорогой; д) Бричка нас катит дорогой крутой.

(2) а) - ...я тоже увязался за Соней и Тамарой и дорогой скупо поведал им о себе; б) - Ваньк, дорогой-то не пей шибко; в) Ак-Бозат заморилась длинной дорогой и действительно имела такой жалкий вид; г) ... ехал я через ваш город по делам, да дорогой напали на меня разбойники.; д) Измучусь я дорогой-то, думавши о тебе.

Анализ примеров показал, что слово дорога в ТВОР интерпретируется как показатель роли маршрута-траектории (Path-Trajectory) в контексте глаголов поступательного движения (семантический класс MOTION-EVENT) и как показатель роли темпоратива (Time) в контексте глаголов других классов.

На этой основе формулируется правило, которое требует приписать свободной синтаксеме имени в ТВОР, принадлежащего к семантическому классу мест «линейной» формы, роль маршрута-траектории, если этой синтаксемой непосредственно управляет глагол поступательного движения:

(3) R-Path-Trajectory V: MOTION-EVENT + [NP [Nins: PLACE (SHAPE (value (LINEAR))]]np <?> ^ NP2ms ^Л-Гпуес^я^

Здесь и далее в левой части правила задается исходный шаблон, содержащий синтаксему ТВОР с незаполненной семантической ролью - <?>, а в правой части правила приводится та же синтаксема с указанной ролью. При именах (N) и глаголах (V) указывается вся необходимая информация: 1) морфологическая - в виде нижнего индекса (в (3) это творительный падеж - ins); 2) семантическая -а) семантический класс или классы, указываемые после двоеточия и обозначаемые именами онтологических концептов (в (7) для V это класс поступательного движения MOTION-EVENT, а для N - класс

мест PLACE); б) дополнительные семантические признаки, обозначаемые принятым в «Онтологической семантике» способом при помощи соответствующих концептов (так, в (7) при N2 признак «линейности» записан как (SHAPE(value(LINEAR))), что означает, что атрибут формы имеет у денотата дорога-1 значение «линейный»).

Проверка правила (3) по корпусу на других лексемах, относящихся к семантическому классу PLACE и имеющих признак «линейности» (путь, берег, тропа, шлях, курс и др.), показала, что оно правильно устанавливает значение ТВОР во всех случаях, в которых соблюдались условия его применимости.

После установления семантической роли синтаксемы в русском тексте в дело вступают правила перевода семантических ролей на китайский язык. Оказалось, что способ перевода роли маршрута-траектории (Path-Trajectory) лексически обусловлен со стороны управляющего глагола. Если это глаголы итди, ехать, пойти, поехать, которые на китайский язык переводятся одним и тем же словом zou (^), то имеется два варианта перевода: при помощи предлога yan

и без предлога, когда управляемая NP просто ставится после глагола - в позицию прямого дополнения. Если это глагол пройтись (кит. sdnsdnM(^^^), zouyizou (^—^)), как в примере (4):

(4) Вчера (в субботу) вечером возвращался домой с работы и несмотря на усталость прошелся даже длинной дорогой, так благостно было на улице

то единственный вариант перевода роли маршрута-траектории -позиция прямого дополнения. При всех прочих глаголах поступательного движения (топать, катить, подвозить, возвращаться и т.п.) эта роль может быть переведена только при помощи предлога yan (^). Таким образом, получаем следующие три правила перевода:

(5) V + NP < Path-Trajectory > = yan + NP + V или 0 + V + NP, если V = идти, пойти, ехать, поехать

(6) V + NP < Path-Trajectory > = V + NP, если V = пройтись, проехаться

(7) V + NP < Path-Trajectory> = yan + NP + V, если V Ф идти, пойти, ехать, поехать, пройтись, проехаться.

Аналогичным образом на материале НКРЯ было сформулировано и проверено следующее правило приписывания синтаксеме ТВОР роли маршрута-среды (Path-Environment):

(8) R-Path-Environment: V: MOTION-EVENT + [NP [Nins: PLACE (shape (value (NOT LINEAR))]]np <?> ^ NPins <Path- Environment>.

Заметим, что в роли маршрута-среды встречаются и слова, в своем прямом номинативном значении не относящиеся к семантическому классу мест - трава, куст, грязь, снег и др., ср. (9): 120

(9) а) ... ехать бы нам путем-дорогою, чистыми полями, белыми снегами...; б) Ехали селами, городами, темными лесами, частыми кустами, быстрыми реками, крутыми берегами (примеры из [Зо-лотова, 2001]).

Ясно, что в контексте глаголов поступательного движения подобные слова выступают в значении места, покрытого растительностью или субстанцией того типа, который эти слова обозначают в своем прямом значении. Естественно, что правило R-Path-Environment (9) сможет приписать словам такого типа данную семантическую роль, только если в словаре системы будут соответствующие «локативные» ЛСВ таких слов. Так, в словаре должен быть не только ЛСВ снег-1, класс PRECIPITATION 'осадки' и ЛСВ снег-2, класс MATERIAL 'вещество', но и ЛСВ снег-3, класс PLACE 'место', причем в зоне морфологической информации для снег-3 должно быть указано, что этот ЛСВ употребляется только в форме множественного числа. Это нужно не только для правильного распознавания семантических ролей, выражаемых падежными формами, но и для выбора адекватного переводного эквивалента. Так, если снег-1 и снег-2 переводятся как хиё (Ш), то снег -3 переводится как xuedi (Шй) ('снежная земля').

Как говорилось выше, роль маршрута-среды переводится на китайский язык при помощи предлога chuanguo (0Й). Однако, если в этой роли выступает слово гора (как правило, во множественном числе), то русский глагол движения, каков бы он ни был, должен быть переведен при помощи глаголов fan (Ц) или yueguo (ЙЙ) со значением 'перевалить, перебраться'. Таким образом, для данной роли необходимо два правила перевода - (10) и (11):

(10) V + NP <Path- Environment = V + chuanguo (0Й) + NP, если N Ф гора

(11) V + NP <Path- Environment = fan (Ц) / yueguo (ЙЙ)+ NP, если N = гора.

Обратимся теперь к распознаванию семантической роли тем-поратива (TIME). Выше мы предположили, что роль TIME может быть приписана свободной синтаксеме ТВОР, если ядерное имя в ее составе обозначает отрезок времени (TIME-PERIOD). Е.В. Рахилина заметила, что темпоральное значение творительного падежа не едино. Если имя обозначает отрезок времени, служащий единицей измерения (год, век, час, неделя, сутки, месяц и под.), то в форме ТВОР множественного числа оно интерпретируется как 'непрерывный (очень долгий) отрезок времени, измеряемый соответствующими единицами времени'. Если же имя обозначает дискретные отрезки времени - или очень короткие (как момент, мгновение, минута) или прерывистые (как ночь, вечер), т.е. такие, которые не «складываются» в один длинный промежуток времени, то возникает другая интерпретация 'в некоторые моменты из периода Х', 'иногда, время

от времени' [Рахилина, 2000: 78]. Мы считаем, что интерпретация 'в некоторые моменты из периода Х' подходит только для синтаксем типа моментами, а синтаксемы типа ночами означают 'обычно в периоды Х', ср. Вечерами выбираемся в гости ~ 'обычно в вечернее время...' и пример из НКРЯ: Иногда вечерами выбираемся в гости (= 'иногда в вечернее время.'), где смысл эксплицитного кванторного наречия иногда «зачеркивает» смысл 'обычно', имплицированный в ТВОР. Приведем примеры на каждое из трех указанных значений:

(12) а) «Новый Журнал» Иванов считал лучшим русским журналом, годами регулярно печатался в нем...; б) А наши письма шли

неделями.

(13) а) Вечерами Кямал учил со Снежаной уроки.; б) Суровыми зимами ... могут замерзнуть проходящие по воздуху коммуникации;

(14) а) Мгновениями мы тоскуем, мгновениями болит у нас сердце... б) Минутами артист побеждал во мне человека...

К этому следует добавить, что свободные синтаксемы ТВОР единственного числа без предлога есть только у существительных, обозначающих во множественном числе «прерывистые» отрезки времени, - время суток (ночь, утро и под.), время года (зима, лето и под.), и они имеют значение непрерывного отрезка времени, обозначенного данным именем. Таким образом, семантическая роль Time должна быть разделена на четыре более конкретные роли, каждая из которых переводится на китайский по-своему: 1) Time-Continuous-Sg ('на одном непрерывном отрезке времени, равном Х') 2) Time-Continuous-Pl ('на едином непрерывном долгом отрезке времени, измеряемом в Х-ах'); 3) Time-Discontinuous ('на большинстве дискретных отрезков времени, равных Х'); 4) Time-Points 'в некоторые моменты времени, равные Х'. Для АП важно то, что все эти роли по-разному переводятся на китайский язык (см. правила перевода ниже).

Указанные четыре роли приписываются именным группам по следующим правилам, учитывающим значение ядерного имени и его числовую форму:

(15) R-Time-Continuous-Sg: [NP [Nins, sg: TIME-PERIOD]]NP <?> ^ NP <Time-Continuous-Sg>

(16) R-Time-Continuous-Pl: [NP [Nins pl: TEMPORAL-UNIT (CON-VERSION-TO-STANDARD(value(> 3600)))]]NP <?> ^ NP <Time-Continuous-Pl>

(17) R-Time-Discontinuous: [NP [Nins, pl: TIME-PERIOD]^ <?> ^ NP <Time- Discontinuous>

(18) R-Time-Points: [NP [Nins pl: MOMENT, TEMPORAL-UNIT(CONVERSION-TO-STANDARD(value(<60)))]NP <?> ^ NP <Time-Points>.

По правилу (15) роль Time-Continuous-Sg будет приписана NP, если ее ядерное имя имеет форму ТВОР ЕД и относится к классу

отрезков времени (TIME-PERIOD3). Правило в (16) гласит, что роль Time-Continuous приписывается NP, если N имеет форму ТВОР МН и входит в семантический класс единиц времени (TIME-UNIT), имеющих семантическое свойство 'при приведении к стандарту быть больше или равно, чем 3600 секунд'. Правило в (17) гласит, что роль Time-Discontinuous приписывается NP, если N имеет форму ТВОР ЕД и входит в семантический класс отрезков времени (не единиц!). Наконец, по правилу в (15) роль Time-Points приписывается имени Nins pl, если оно входит или в семантический класс моментов времени (MOMENT), или в семантический класс единиц времени, имеющих семантическое свойство 'при приведении к стандарту быть меньше или равным 60 секунд'.

Данные семантические роли переводятся на китайский язык по правилам:

(19) NP <Time-Continuous-Sg> = NP или zai(&) NP, где zai ~ в

(20) NP <Time-Continuous-Pl> = hёnduд(Ш^) NP, где hёndu5 ~ много

(21) NP <Time-Discontinuous> = tdngchang (ЖЖ) NP или tdngchang (ЖЖ) zai NP, где tdngchang ~ обычно

(22) NP <Time-Points> = yixie (—ШШ) shunjian(M), гдеyixie ~ некоторые, а shunjian ~ мгновение.

Выше мы обсуждали омонимию формы ТВОР у слова дорога (транзитива vs. темпоратив). Справятся ли наши формальные правила с такой омонимией? На этапе семантического анализа словоформе дорогаins будут приписаны оба ЛСВ: дорога-1 (ROAD(SHAPE(value (LINEAR))) и дорога-2 (TIME-PERIOD). Если мы упорядочим правила таким образом, чтобы раньше применялись правила, имеющие больше ограничений, то раньше будут проверены R-Path-Trajec-tory и R-Path-Environment, поскольку они имеют ограничения на семантику управляющего глагола. Правило R-Time-Continuous-Sg вступит в действие только в случае их неприменимости. Это обеспечит правильное приписывание синтаксеме дорогаins sg роли маршрута-траектории в случаях типа (1) и роли темпоратива <Time-Сontinuous-Sg> в случаях типа (2).

Мы показали, что адекватный перевод значений русских падежей на китайский язык в процессе АП в принципе возможен. Для этого в системе АП необходим семантический компонент, включающий в себя словарь, в котором каждому ЛСВ русского слова помимо переводного эквивалента и МУ должна быть сопоставлена разнообразная информация, важная для распознавания семантических ролей имен-

3 В онтологии класс TIME-PERIOD 'отрезок времени' является подклассом класса TEMPORAL-OBJECT 'темпоральный объект', в который наряду с ним входят еще два подкласса: TEMPORAL-UNIT 'единица времени' и TIME-POINT 'момент времени'.

ных групп, выражаемых при помощи падежей. Для формализации этой информации и самой процедуры распознавания семантических ролей может быть использован семантический метаязык «Онтологической семантики», ориентированный на задачи автоматической обработки текста.

Список литературы

Золотова Г.А. Синтаксический словарь. Репертуар элементарных единиц

русского синтаксиса. М., 2001. Рахилина Е.В. Когнитивный анализ предметных имен: семантика и сочетаемость. М., 2000. Сунь Шуан, Кобозева И.М. Распознавание семантики падежа для целей автоматического перевода с русского языка на китайский: творительный инструмента vs. творительный сравнения // Компьютерная лингвистика и интеллектуальные технологии. Вып. 7 (14). М., 2008. С. 503-510. Nirenburg S., Raskin V. Ontological Semantics. Cambridge, MA: MIT Press, 2004.

Talmy L. How language structures space // Pick H., Acredolo L. (eds.). Spatial Orientation: Theory, Research and Application. Plenum Press, 1983.

Сведения об авторе: Сунь Шуан, аспирант кафедры теорет. и приклад. лингвистики филол. ф-та МГУ имени М.В. Ломоносова. E-mail: sunshuang@mail.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.