Научная статья на тему 'Об одном подходе к семантико-синтаксическому анализу корейского предложения'

Об одном подходе к семантико-синтаксическому анализу корейского предложения Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY-NC-ND
298
53
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОРЕЙСКИЙ ЯЗЫК / KOREAN LANGUAGE / АВТОМАТИЧЕСКИЙ СИНТАКСИЧЕСКИЙ АНАЛИЗ ТЕКСТА / AUTOMATIC SYNTACTIC ANALYSIS / СИНТАКСИЧЕСКАЯ РАЗМЕТКА / SYNTACTIC ANNOTATION / СЕГМЕНТАЦИЯ ТЕКСТА / TEXT SEGMENTATION / ФОРМАЛЬНЫЙ АНАЛИЗ ТЕКСТА / TEXT ANALYSIS

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Бречалова Евгения Владимировна

В настоящей статье описывается процедура построения вспомогательной синтаксической разметки современного корейского предложения. Разметка содержит две компоненты. Первая компонента показывает членение текста на именные и предикативные фрагменты, осуществляемое на основании морфологических показателей, присутствующих в тексте. Вторая компонента отражает предполагаемую актантно-предикатную структуру данного предложения, причем правила ее построения разыскивают предикативы и их актанты внутри фрагментов. Такая разметка представляет собой первый шаг на пути полного семантико-синтаксического анализа корейского предложения. Построение предлагаемой разметки полностью формализовано и реализовано в виде компьютерной программы на языке Python.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

An Approach to the Formal Semantic and Syntactic Analysis of Korean Sentences

The purpose of the present paper is to describe a procedure designing some kind of syntactical marking of modern Korean sentences. The marking consists of two components. The first one shows some linear fragmentation of a sentence. To recover fragments, the procedure appeals to a short list of affixes. The second component shows a hypothetical actantpredicate structure of the same sentence. The procedure finds predicatives and their actants mostly within fragments. Rules designing the second component use a dictionary of predicatives which includes information on number of their valencies and grammatical forms of their potentional actants. Such marking can be viewed as a good start for subsequent syntactical and semantic analysis. To prove the procedure, a computer program was realized in Python and tested on a set of Korean sentences.

Текст научной работы на тему «Об одном подходе к семантико-синтаксическому анализу корейского предложения»

Прикладные исследования

Е.В. Бречалова

Об одном подходе к семантико-синтаксическому анализу корейского предложения

В настоящей статье описывается процедура построения вспомогательной синтаксической разметки современного корейского предложения. Разметка содержит две компоненты. Первая компонента показывает членение текста на именные и предикативные фрагменты, осуществляемое на основании морфологических показателей, присутствующих в тексте. Вторая компонента отражает предполагаемую актантно-предикатную структуру данного предложения, причем правила ее построения разыскивают предикативы и их актанты внутри фрагментов. Такая разметка представляет собой первый шаг на пути полного семантико-синтаксического анализа корейского предложения. Построение предлагаемой разметки полностью формализовано и реализовано в виде компьютерной программы на языке Python.

Ключевые слова: корейский язык, автоматический синтаксический анализ текста, синтаксическая разметка, сегментация текста, формальный анализ текста.

А. Первичная синтаксическая разметка корейского предложения: знакомство

§1. Формальные составляющие первичной разметки.

Синтаксическая разметка содержит две компоненты: первая показывает членение обрабатываемого предложения на линейные составляющие; вторая - гипотетическую актантно-предикатную структуру этого предложения. Первая компонента - это безостаточная разрезка предложения на следующие друг за другом отрезки, называемые в настоящей работе фрагментами, в которой каждый фрагмент снабжен одной из меток N или Р. Вторая - это совокупность не связанных между собою деревьев, в вершинных узлах которых размещаются предикатные слова, а подчиненные узлы могут быть заполненными -

© Бречалова Е.В., 2009

в этом случае там размещаются актанты соответствующего предикатива, - а могут оставаться и незаполненными. Вторая компонента называется в работе бедным предикативным скелетом соответствующего предложения.

Заметим, что задача разрезания предложения на ранговые единицы старше, чем слово, но младше, чем предложение - классическая синтаксическая задача, и существуют ее решения, например, для современного русского языка1 и для древне-русского языка2. Специальных работ, посвященных проблеме разрезки корейского предложения, мы не нашли; хотя, разумеется, в неявном виде эта задача разбирается хотя бы и не полно в любом грамматическом описании корейского языка3.

Приведем пример корейского предложения и его первичной синтаксической разметки4. Первая компонента разметки представлена во второй строке Табл. 1, а вторая - на Рис. 1 ниже.

Табл. 1. Пример первой компоненты синтаксической разметки

tokkaypi-ka|N taymwun aph.-ey|N tul.ese-myen-se ||р kho-lul|N khungkhungtay

-ess-e-yo ||р

черт главные перед встать нос принюхиваться

ворота

'Черт встал перед главными воротами и долго принюхивался'.

ТиЬЕЗЕ-'вс гать

КИШСКПШСТАУ-' принюхиваться'

N0111 / \ . Асс

1оккаур1 'черт" арЬ "перед' 0 кКо 'нос'

Рис. 1. Пример второй компоненты синтаксической разметки

§2. Содержательная характеристика первичной разметки. Первоначальная цель семантико-синтаксического анализа предложения — вскрыть предикативные связки (предикативное слово и его актанты) текста, то есть понять «кто, с кем, что». Разумеется, достаточно полное синтаксическое представление эксплицирует все актантно-предикатные связки соответствующего предложения, таковы, например, глубинно-синтаксические представления в модели «СмыслоТекст»5. В первичной разметке выявлены все предикатные слова, которые могли бы оказаться вершинами отдельной предикативной связки.

Как известно, слуги предикативных слов могут в определенных случаях располагаться не только в непосредственном соседстве к своим хозяевам, но располагаться дистантно, так что между хозяином и его слугой могут располагаться или другие предикативные связки целиком, или отдельные члены таких связок. В корейском языке для целей сборки предикативных связок удобно располагать единицей большей длины, чем словоформа (отрезок, отделяемый в корейском тексте пробелами). В первичной разметке проставлены границы между фрагментами, причем каждый фрагмент имеет метку N — кандидат в актанты, Р — кандидат в вершину предикативной связки. Заметим, что подобные единицы, так называемые бунсэцу, рассматривались и в традиционной грамматике японского языка6.

Разумеется, не все Р-фрагменты оказываются в конечном счете хозяевами, и не все ^фрагменты - актантами. Синтаксическая организация корейского текста в большинстве случаев сложнее. Однако первичная синтаксическая разметка определяется как бы с двух сторон: с одной стороны, эта разметка должна работать на указанные цели; с другой стороны, она должна получаться по ограниченному корпусу поверхностно наблюдаемых данных.

Необходимо подчеркнуть, что главная цель построения первичной разметки — найти такое компромиссное представление текста, которое может быть получено максимально скупыми средствами, одновременно доставляя данные, достаточно ценные для последующих этапов разбора текста.

§3. Замечание о грамматических классах. Правила разметки фрагментов (Р-фрагменты или ^фрагменты), а также обнаружения границ между фрагментами используют в качестве исходных сведений сведения о принадлежности некоторых лексем к одному из двух грамматических классов: N или Р. Используемое в работе начальное представление предложения построено так, что имя лексемы совпадает с основой словоформы, а основа соответствует последовательности символов до первого дефиса (см. ниже §4). Мы стремимся найти в первую очередь те формальные, не зависящие от семантики, характеристики слова, которые обеспечивают нам понимание того, к какому грамматическому классу принадлежит лексема наблюдаемой словоформы. Соответственно, мы хотим использовать минимум элементов, необходимых для опознавания грамматического класса слова и связанных с ним возможностей синтаксического поведения.

Грамматические классы лексем N и Р, разумеется, скорре-лированы определенным образом с классическими частереч-ными характеристиками: если грамматический класс лексемы характеризует только ее морфологические свойства, то часть речи лексемы - это характеристика по целому ряду признаков, включая семантические. Однако для наших целей достаточно эксплицировать противопоставление «глаголов» (Р) и «субстан-тивов» (N3. Также и С. Мартин делит все слова корейского языка на имена и глаголы7. При этом по С. Мартину «быть глаголом» значит, прежде всего, не входить в текст без некоторых служебных элементов, так называемых «глагольных окончаний». Легко видеть, что перечисляемые нами ниже предикативные ключи являются некоторыми из этих окончаний или составными частями окончаний. Имена по Мартину могут не сопровождаться в тексте никакими частицами, однако, анализируя синтаксическую дистрибуцию имен, он отмечает, в качестве типового контекста имени, употребление их перед некоторыми специфическими частицами8. В нашей работе мы в первую очередь интересуемся теми контекстами, в которых имя предшествует частице, показывающей синтаксическую роль данного имени по отношению к управляющему им слову.

Б. Первичная синтаксическая разметка корейского предложения: правила построения

§4. Исходный вид обрабатываемого предложения.

Каждое анализируемое предложение проходит первичную обработку: от стандартной орфографической записи к начальному представлению. Во-первых, предложение переводится из стандартной орфографической записи в так называемую Йельскую транслитерацию, правила которой сформулированы в грамматике С.Мартина9. Заметим, что пробелы между словами расставлены по правилам стандартной корейской орфографии, а не по правилам, указанным в цитируемой грамматике С. Мартина. Во-вторых, произведены следующие морфологические преобразования этой записи: (1) в каждой словоформе основа отделена от аффиксов, (2) аффиксы отделены друг от друга. На этом же предварительном этапе связка отделяется пробелом от своего комплемента, в отличие от стандартного орфографического правила. Для наглядности в иллюстрациях начальное представление предложения может сопровождаться интерпретацией грамматических показателей, которая по существу следует общепринятым в корееведении грамматическим описаниям10.

§5. Порядок действий и исходная информация. Работа правил построения первичной синтаксической разметки представима в виде последовательных этапов. На первом этапе некоторые словоформы предложения помечаются метками грамматического класса N Р или X (метка неизвестна), для чего сперва в словоформах выделяются так называемые ключи (см. ниже §6). На втором этапе расставляются границы фрагментов, а сами фрагменты помечаются как Р-фрагменты или ^фрагменты. Тут заканчивается построение первой компоненты синтаксической разметки. Необходимо отметить одну особенность правил построения первой компоненты разметки: они работают пракатически без обращения к словарю лексем.

Далее, все Р-фрагменты обрабатываются правилами построения частичных деревьев (правилами, разыскивающими актанты). Эти правила, в свою очередь, опять делятся на два этапа: на первом этапе строится предварительная версия (эскиз) бедного предикативного скелета, который может быть получен без обращения к дополнительной информации; а именно, (1) информации о грамматической интерпретации показателей и (2) информации о моделях управления. На втором этапе, который запускается только в том случае, если построенный на предыдущем этапе эскиз оказывается неудовлетворительным, эскиз предикативного скелета усовершенствуется. Усовершенствования вносятся по мере того, как к исходным минимальным данным добавляется дополнительная информация. Последняя извлекается по запросам из (1) словаря грамматических показателей, (2) словаря моделей управления, (3) словаря лексем, содержащего их частеречные пометы. Используемая в нашей процедуре стратегия «пропускания неопределившихся» элементов искомой синтаксической разметки может рассматриваться как формальное отражение феномена временно неоднозначных предложений, введенного в научный обиход Т. Бевером11.

Разбору случаев, в которых для построения синтаксической разметки не удается обойтись минимальными исходными данными, посвящены специальные параграфы (§11-15).

Необходимо подчеркнуть, что построение первичной синтаксической разметки в целом, также как и построение бедных предикативных скелетов — не есть самоцель. Разумеется, для любых разумных целей необходимо из текста извлечь значительно более богатые данные. Однако цель — провести демаркационные линии, отмечающие, какие эшелоны данных используются для построения каких синтаксических записей,

представляется целесообразной; по крайней мере как цель вспомогательная. В самом деле, разработчик алгоритмов се-мантико-синтаксического анализа должен отдавать себе отчет в том, какие операции какой исходной информацией пользуются12.

Б.1. Механизм фрагментации - общие правила

§6. Синтаксические ключи. Механизм фрагментации, как уже указывалось, делит текст на фрагменты и размечает их метками Р или N. Граница между фрагментами устанавливается при помощи 44 аффиксов, называемых далее синтаксическими ключами или просто ключами. Их список приводится ниже. Механизм фрагментации не использует информацию о семантике синтаксических ключей. Известно, что в корейском языке наборы предикативных и именных аффиксов практически не совпадают. Благодаря этому обстоятельству и синтаксические ключи могут быть разделены на три группы.

Табл. 2. Синтаксические ключи

P-ключи N-ключи Х-маркеры

a ko le ni taka um ey lo nun

ca kwun lye o tolok umye i lul ul

ci l m sey ula umyen ka ulo un

e la mye so ule una kwa wa

key n myen ta ulye uni

ki na ney

(1) Предикативные ключи (P-ключи). Присоединяются только к предикативам, то есть к прилагательным и глаголам. Так, например: sal-ko iss-ess-e-yo 'жил да был' (продолж. вид, прош. вр.), manh-ass-ci 'конечно же, было много' (прош. вр.), kel. enaka-lye-myen 'если собираешься идти пешком' (lye - деепр. намерения, myen - деепр. условия), kel-e-ya ha-ass-ta 'должен был идти пешком' (долженств., прош. вр.), pulu-ca 'когда запел' (деепр. мгновенности), malha-myen-se 'говоря' (деепр. одновременности), ollao-ass-na 'поднялся ли?' (вопрос. прош. вр.), huymiha-n 'неясный' (определит. форма прилаг.), mwusep-so 'страшный' (финит. вежл. форма). Заметим, что предикативные синтаксические ключи обладают общим свойством: в любой цепочке аффиксов, сопровождающих предикативный корень, должен быть хотя бы один из них. Каждый предикативный ключ способен быть единственным аффиксом при предикативном корне; некоторые из перечисленных аффиксов способны образовывать цепочки.

(2) Именные ключи (N-ключи). Присоединяются к именам и к именным формам предикативов (инфинитивам). Так, например: kwi-lul 'ухо' (Acc), sankol-ey 'в горной долине' (Dat), kulimca-ka 'тень' (Nom), talpich sai-lo 'в лунном свете' (Instr), mal-lo-man 'только на словах' (Instr), tokkaypi-wa 'с чертом' (Com), chinkwu-hanth-ey-se 'от друга' (Dat).

(3) Амбивалентные маркеры (Х-маркеры). Возможны и при именах, и при предикативах, и поэтому не дают точной информации о грамматическом классе лексемы. Следующая таблица отражает интерпретацию амбивалентных маркеров при лексемах разных грамматических классов в том случае, если амбивалентный маркер - единственный аффикс словоформы:

Табл. 3. Интерпретация Х-маркеров

Х-маркер с именами с предикативами

(V)nun Top Part Praes

(C)nun - (невозможно) Part Praes

(C)ul Acc Part Fut

(C)un Top Part Past (Verb ) /Part (Adj)

Здесь символ (V) обозначает, что основа, к которой присоединяется Х-маркер, оканчивается на гласную фонему; соответственно, символ (C) обозначает, что основа оканчивается на согласную.

Можно видеть, что маркер nun имеет две интерпретации после основ, заканчивающихся на гласную. После основ на согласную он однозначно интерпретируется как показатель причастия настоящего времени. Также маркер ul интерпретируется как показатель аккузатива после имен, оканчивающихся на согласную, но как показатель причастия будущего времени после предикативных основ, оканчивающихся на согласную. В свою очередь показатель ип, присоединяющийся только к основам на согласную, интерпретируется как топик при именах и как причастная форма при предикативах.

Приведем примеры фраз, содержащих словоформы с амбивалентными ключами:

(2) salam-tul-un (X) ton-ul (X) coh.aha-n-ta-te-n-tey 'а я слышал, что люди любят деньги, правда ведь?' Здесь Х-ключи ип и ul входят в именные словоформы salam-tul-un 'люди' и ton-ul 'деньги' соответственно.

(3) mwusun soli-ka tul-li-e o-nun (X) kes i-e-yo '(до него) донесся какой-то звук'. Здесь Х-ключ входит в состав предикативной словоформы o-nun 'приходящий'.

(4) hal.apeci-nun (X) nemwu mwusep-e-se 'дедушка очень испугал-

ся, и поэтому...' Здесь Х-ключ входит в состав именной словоформы hal.apeci-nun 'дедушка'.

(5) kipwun nappu-n elkwul-ul (X) ha-ko-nun (P) 'скорчив гримасу'. Здесь Х-ключ ul входит в состав именной словоформы elkwul-ul 'лицо', а Х-ключ nun - в состав предикативной ha-ko-nun 'сделав'.

Приведем некоторые примеры, показывающие типовое распределение ключей в корейском тексте (показатели-ключи выделены жирным шрифтом):

(6) 1908 nyen kyeng kwahakca-tul.-un wuli unha-ka wucwu cenchey-lul kwusengha-n-ta-ko sayngkak.ha-ess-ta. 'Примерно в 1908 году ученые думали, что наша галактика образует весь космос'.

(7) icey wuli-nun wuli unha-ka kwanchuk kanungha-n wucwu-ey pheci-e-iss-nun 4 chen.ek kay isang-uy unha-tul cwung hana-i-la-nun kes.-ul al-n-ta. 'Сейчас мы знаем, что наша галактика - одна из более 400 миллиардов галактик, распростертых в доступной наблюдению части Вселенной'.

(8) cina-n seyki tongan wucwulon-pota te manh.ipyenhwaha-n cicek tham-kwupwun.ya-lulsayngkak.ha-ki-nun elyep-ulkes.-i-ta. 'Наверное, трудно представить себе область научных исследований, изменившуюся за последнее столетие больше, чем космология.'

(9) ecey-kkaci-to ce-wa na-nun iyaki-to cal an ha-ko selo manna-a-topon-cheymancheyha-ko ileh-key cemcanh-key cinay-te-n the-i-lye-n-man onul-lo kapcaksuley taykyenha-e- ci-ess-um.-un wen il-i-n-ka? 'До вчерашнего дня я с ней даже и не разговаривал как следует, даже встречаясь, мы делали вид, будто не замечаем друг друга, и вот так мы должны были бы с достоинством вести себя, как вдруг сегодня я ей стал нужен, - к чему бы это?'

§7. Расстановка границ фрагментов. Механизм фрагментации анализирует цепочку аффиксов в составе каждой словоформы и ищет вхождения синтаксических ключей. Граница P-фрагмента проставляется после словоформы, среди аффиксов которой был обнаружен предикативный ключ (в примерах обозначена как ||P ); а после словоформы, содержащей именной ключ, проставляется граница N-фрагмента (в примерах обозначена как |N ). Даже если словоформа содержит более одного ключа, после нее проводится только одна граница. Из этого следует, что количество фрагментов в некотором тексте меньше или равно количеству встретившихся в нем ключей. Амбивалентные маркеры часто сочетаются с именными и предикативными. Если анализируется цепочка с подобным сочетанием, граница проставляется в зависимости от не амбивалентного ключа. Например, после словоформы ha-ko-nun (см. пример (5) выше), которая содержит предикативный ключ ко и амбива-

лентный ключ nun, проставляется граница P-фрагмента.

Если амбивалентный ключ встретился как единственный ключ словоформы, то при первом проходе граница после него не проставляется вовсе. Для того чтобы проставить границу фрагмента после такой словоформы, требуется знать грамматический класс соответствующей ей лексемы. Если окажется, что лексема относится к классу предикативов, то проставляется граница P-фрагмента. Если окажется, что лексема относится к классу имен, то проставляется граница N-фрагмента. Поскольку амбивалентный ключ не позволяет установить грамматический класс лексемы наверняка, требуется привлечение дополнительной информации. Такой дополнительной информацией служат: (1) информация, доставляемая показателями данной словоформы, отличными от ключей; (2) информация о расположении словоформы с амбивалентным ключом по отношению к другим словам фразы; (3) словарная информация о грамматическом классе лексемы данной словоформы. При втором проходе предложения механизм фрагментации обрабатывает Х-словоформы и с помощью этой информации доставляет границы фрагментов. Приведем некоторые иллюстрации.

(a) В примере 2 (см. выше) Х-словоформа salam-tul-un интерпретируется как N-фрагмент благодаря показателю множественного числа tul.

(b) Во фразеpam-cwung-ey o-l salam-i eps-nun-tey 'нет никого, кто мог прийти бы ночью' после словоформы eps-nun-tey механизм фрагментации проставит границу P-фрагмента благодаря предикативному аффиксу tey, расположенному после Х-маркера nun.

(c) В примере 2 Х-словоформа ton-ul - именная, и это определяется по позиции Х-словоформы во фразе: причастие не может непосредственно предшествовать не-причастной глагольной форме, какой является coh.aha-n-ta-te-n-tey; значит, Х-словоформа - это имя с показателем аккузатива. То же самое правило применяется и к Х-словоформе elkwul-ul примера (5).

(d) В примере 3 Х-словоформа o-nun содержит Х-ключ nun. Эта Х-словоформа расположена непосредственно перед служебным именем kes 'факт', которое управляет причастными формами предикативов в составе аналитической конструкции P-Part kes i- 'факт такой, что P', и поэтому механизм фрагментации определит ее грамматический класс как Р и поставит после нее границу Р-фрагмента.

(e) Основа Х-словоформы hal.apeci-nun из примера 4 относится к классу имен, что в данной фразе может быть определено только по словарю основ.

Заметим, что в случае с амбивалентными ключами приоритет отдается использованию сведений о других показателях словоформы и ее синтаксическом контексте. И только в последнюю очередь, если грамматический класс лексемы Х-слово-формы все же не удалось определить, правила фрагментации обращаются к словарю. Такой подход связан с тем, что в корейском языке большое число лексем (более 20%) имеет омонимы по грамматическому классу, и в такой ситуации использование словаря в качестве первого средства устранения неоднозначности часто не приводит к желаемому результату.

§8. Предикативные фрагменты. Предикативный фрагмент - это отрезок текста, заключенный между двумя предикативными границами. Предикативные фрагменты могут быть как однословными, так и многословными. Приведем некоторые примеры: [sayngkakha-ess-ta] (см. выше пример 6), [cina-n] (см. выше пример 8), [selo ip-man chyetapo-ko] (см. ниже (пример 13), [onul-lo kapcaksuley taykyenha-e] (см. выше пример 9), [icey wuli-nun wuli unha-ka kwanchuk kanungha-n] (см. выше пример 7).

§9. Именные фрагменты. Именной фрагмент соответствует ровно одной словоформе - той, в которую входит именной ключ. Оказывается, что чаще всего именные фрагменты являются актантами какого-либо правее расположенного предиката. Разумеется, некоторые N-фрагменты не являются в предложении актантами каких-то предикатных слов, они могут соответствовать различным обстоятельствам (места, времени, цели)13. Приведем некоторые примеры: unha-ka 'галактика' (Nom), pwun.ya-lul 'сферу' (Acc), ce-wa 'со мной' (Com), elkwul-kwa '(похоже) на лицо' (Com), onul-lo 'сегодняшним днем' (Instr), hal. apeci-eyk-ey 'деду' (Dat).

§10. Простейшие примеры. Ниже приводится три предложения с выделенными ключами и размеченными фрагментами:

tayttum cikey maktayki-lul |N mey-ko ||P talli-e-||P tul.-e ||P cemswun-ney сразу же носилки палка нести бежать входить Чомсун

Я сразу же взвалил носилки на плечи и побежал во двор (соседки Чомсун),

talk-ul hwuli-e-||P chi-l-kka ||P ha-taka ||P sayngkak.-ul kochi-e- ||P mek-ko ||P курица избивать делать мысль исправлять съедать

собираясь избить ее петуха, но переменил намерение и

$

шаусП-1о |м йеу-е-шап ||р поЬ,-а88-1а. ||р напрасный битье отдирать класть

только замахнулся.

(11) ^^ ^ ^ ^

1 реп.-еу4о |м ceшswun.i-ka |м ssawuш.-u1 pwuth.-i-e ||р noh.-ass.-u1 kes.-i-ta ||р

этот раз Чомсун драку подстраивать класть вещь-Сор

Наверное, и в этот раз Чомсун подстроила драку.

пaшwu-1u1 |м Ъ.а-п ||р с1ш caпttuk с1-ко ||р saп.-u1 пау11-е-||р о-1уе-п1-кка ||р

дерево делать груз доверха взвалить гора спускаться приходить Доверху нагрузив заплечные носилки дровами, я уже собрался спускаться, как вдруг слышу:

^^ ЩЪ

ей^е ta1k.-i |м cwuk-nun so1i-1u1 N сЫ-п^а. ||р

где-то курица умирать звук кричать где-то курица кричит при смерти.

Б.2. Механизм фрагментации — особые случаи

§11. Объединение двух фрагментов. Два следующих друг за другом предикативных фрагмента объединяются в один, если во второй из них входит всего одна словоформа, а именно служебный предикатив, образующий аналитическую конструкцию с предикативом первого фрагмента. Содержательно это объясняется тем, что большинство служебных предикативов не влияют на число и порядок валентностей смысловых предикативов, а на последующем уровне построения деревьев необходимо в первую очередь отразить именно смысловые предикативы и их актанты.

Приведем пример14: (13) Si

N Com X Top X Acc N Dat P Ger

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

yengkam-kwa |N halmeni-nun ttek.-ul aph.-ey |N twu-ko ||P старик старуха ток перед оставлять

Старик и старуха положили ток15 перед (собой)

N N Pcl P Ger P Past Deel

selo ip-man chyetapo-ko iss.-ess-ta ||P

друг другу рот-только глядеть находиться и только в рот друг другу глядели'.

В этом предложении не проводится внутренняя граница между словоформами chyetapo-ko (P) и iss.-ess-ta (Paux), хотя при первой из них присутствует предикативный ключ ko. Таким

образом, вместо двух фрагментов, [selo ip-man chyetapo-ko] и [iss.-ess-ta] получаем один.

Однако не всегда легко отличить вспомогательное употребление некоторого предикатива от его же самостоятельного, ср. chac.-a || w-a-se || 'пришел навестить' (самостоятельное употребление глагола о- 'приходить') и sal.-a o-n-ta || 'жить (так- то до настоящего момента)' (употребление того же глагола в составе аналитической конструкции). Механизм не может различить этих двух случаев с формальной стороны, поэтому граница проводится всегда просто по ключам.

§12. Предикативный фрагмент содержит предикатив, зависящий от служебного слова. В тех случаях, когда сказуемое придаточного предложения представляет собой причастную форму или инфинитив, употребленную перед служебным именем (таким как cwung 'в течение', ci 'с тех пор как', ttay 'время', hwu 'после', cen 'до', nameci 'в результате',palam 'причина' и т.д.), механизм ставит границу после глагольной формы. Мы не относим служебное слово к придаточному предложению. Информация о подобных служебных словах, в частности о том, какой формой предикатива управляет данное слово, помещается в словарь. На следующем этапе анализа механизм построения деревьев обнаруживает союзное слово в начале некоторого фрагмента и анализирует конец предыдущего фрагмента в поисках той глагольной формы, которая предположительно зависит от служебного слова. Само служебное слово можно считать обстоятельством при последующей предикации.

Приведем пример:

(14) Ô1 ÛW #

NN N P PartFut N Pcl N Nom P Past PartPast Quest

i salam akka o-l ||P ttay-to meli-ka |N eps.-ess-na ||P

этот человек недавно приходить время голова не-иметься А у этого человека, когда [мы] пришли сюда, головы уже не было?

§13. Имя, составляющее именной фрагмент, не является актантом того предикатива, во фрагменте которого оно расположено. Всякий именной фрагмент вложен в предикативный. Имя, составляющее именной фрагмент, обычно является актантом предикатива того фрагмента, в который оно входит. Однако некоторые именные фрагменты оказываются не связанными синтаксическими отношениями с предикативом своего фрагмента, поскольку фрагментация текста производится формально, без учета семантики. Так, по правилам фрагментации граница предикативных фрагментов проходит между определительной формой прилагательного и его единственным актантом, расположенным правее. Если при этом левее прилагательного находится другое имя, то оно фор-

мально может оказаться во фрагменте прилагательного, даже если оно не связано с ним синтаксически.

Приведем примеры:

(15)^^

N Nom P Part N Acc P Ger Sugg X Acc P Praes Decl

thokki-ka |N wikup.ha-n ||P checi-lul |N momyenha-ko-ca ||P kecismal.-ul ha-n-ta ||P кролик опасный ситуация избегать ложь говорить

Кролик, чтобы избежать опасной ситуации, говорит ложь.

В этом предложении в предикативном фрагменте [thokki-ka wikup.ha-n] имя thokki-ka не связано синтаксически с wikup.ha-n, а является первым актантом глагола momyenha- 'избегать'.

(16)

N Nom P Advr P Past Decl pem.-i |N ileh-key ||P sayngkak.ha.-yess-ta ||P тигр такой думать

Тигр подумал так.

Именной подфрагментpem.-i 'тигр' с ключом i (Nom) оказывается во фрагменте адвербиальной формы прилагательного ileh- 'такой', хотя на самом деле он является актантом глагола sayngkakha- 'думать'.

§14. Вложение фрагмента в другой фрагмент. Один фрагмент вкладывается в другой в тех случаях, когда при одной и той же основе встретились одновременно два ключа, один предикативный, а другой именной. Эту ситуацию иллюстрирует следующее предложение:

N Nom P PartPast X Top N Cop Past Nmz Instr N P Past Decl

cey-ka |N tha-n ||P kes.-un pem.-i-ess.-um-ulo ||P |N kup.hi ttwienayly-ess-ta ||P сам ехать вещь тигр - быть поспешно спрыгивать

верхом

(Вор) поспешно спрыгнул, потому что то, на чем он ехал, оказалось тигром.

В данном предложении словоформа i-ess.-um-ulo содержит два ключа, предикативный um и именной ulo. Соответственно, ставятся две границы фрагментов. Если за «главную» границу принимать Р-границу, то получаем следующую последовательность двух Р-фрагментов: [kes.-unpem.-i-ess.-um-ulo] и [kup.hi ttwienayly-ess-ta]. Если же рассматривать словоформу i-ess.-um-ulo как N-фрагмент, то вместо двух Р-фрагментов получаем один более длинный Р-фрагмент [kes.-unpem.-i-ess.-um-ulo kup.hi ttwienayly-ess-ta] такой, что Р-фрагмент [kes.-unpem.- i-ess.-um-ulo] вложен в него. Это явление характерно также для сочетаний ключей ki-ey, ki-lo, ki-lul.

§15. Предикативные фрагменты, состоящие из имени и предикативной связки. В нижеследующих примерах по син-

таксическим ключам выделяются такие фрагменты, которые традиционно не считаются предикациями. В этих случаях предикативный синтаксический ключ используется при связке £- 'быть', например:

(18)^^1 UT-.Ö- ss Ö1 lö-ö- —1 s

N Cop Retr PartPast Mod N X Acc X PartPraes X Top N X Acc

nwukwu-i-tu-n-ci ||P mence mal.-ul ha-nun i-nun i ttek.-ul

кто угодно, любой сперва слово делать человек этот тток

Давай так уговоримся: кто первым скажет слово, тот не будет есть этот тток.

P Inf Not P Nmz Instr P Sugg

mek-ci ||P mos-ha-ki-lo ||P |N ha-ca ||P

есть не-делать делать

По сформулированным правилам граница фрагмента проходит после nwukwu-i-tu-n-ci 'кто угодно'. В этом случае удобно рассматривать nwukwu-i-tu-n-ci как отдельную предикацию, которую можно перевести как 'кто бы это ни был'. При таком решении исчезает конкуренция двух слов nwukwutunci 'кто угодно' и i 'человек' на заполнение первой валентности глагола ha- 'делать', что важно для механизма построения деревьев.

§16. Итоги работы механизма фрагментации. Анализируемый текст разделен на предикативные фрагменты без остатка. Именные подфрагменты вложены в предикативные. Последним в традиционной терминологии чаще всего, хотя и не всегда, как мы видели, соответствуют связки вида «предикатив со своими актантами». Однако именные фрагменты необязательно связаны актантными связями с предикативом своего фрагмента. В результате применения механизма фрагментации к контрольному материалу оказалось, что синтаксические ключи в большинстве случаев позволяют определить традиционные границы предикаций. Нетривиальные случаи деления были обсуждены выше.

Б.3. Бедный предикативный скелет

§17. Общая характеристика. На втором этапе строятся нелинейные представления текста в виде частичных деревьев семантико-синтаксических связей, то есть бедные предикативные скелеты. Эти представления называются частичными потому, что в общем случае они не составляют одну область связности. В них отражены прежде всего те связи, которые маркированы формальными средствами, а именно синтаксическими ключами и порядком слов. Например, благодаря

порядку слов определяется, что имя, непосредственно следующее за причастием, является его актантом; благодаря порядку слов определяется, что инфинитив, предшествующий глаголу, является его дополнением. При построении деревьев синтаксических зависимостей используется уже готовый фрагмен-тированный текст.

§18. Внешний вид бедного предикативного скелета.

Рассматриваемое представление выглядит следующим образом. Предикативы образуют вершинные узлы дерева, из узлов выходят стрелки валентных зависимостей. Количество стрелок равно количеству валентностей предикатива. Под стрелками подписаны те актанты, которые заполняют валентности предикатива в предложении. Сплошными линиями изображены те валентные связи предикативов, которые формально маркированы в предложении, то есть отвечают некоторым (необязательно всем из найденных) именным фрагментам. Пунктиром отмечены те валентные связи, которые не маркированы в тексте: либо при слове-актанте нет падежных аффиксов, либо актант вообще не выражен. В случае незаполненных связей (то есть не найденных актантов) под стрелкой указано «0». В бедных предикативных скелетах возможны отдельные узлы, которые не соединяются ни одной стрелкой ни с каким другим словом, например, остаются без связей некоторые имена, функционирующие как обстоятельства или определения. Особо отметим, что смысловые и синтаксические связи между предикативами в этих представлениях не даны, кроме тех случаев, когда предикатив с актантами заполняет валентность последующего глагола.

§19. Построение частичных деревьев. Процедура построения частичных деревьев состоит из четырех шагов, из которых первые три осуществляют внутрифрагментный поиск, а последний - межфрагментный. Укажем условные названия этих шагов: шаг 1 - «поиск вершинных предикатов», шаг 2 - «поиск актантов», шаг 3 - «просмотр оставшихся именных фрагментов», шаг 4 - «поиск актантов за границами фрагмента».

§20. Шаг 1- поиск вершиннык предикатов. На первом шаге механизм рисует узлы дерева. Каждый смысловой предикатив отражается в дереве как узел. По определению предикативных фрагментов предикативы находятся в конце каждого фрагмента. Если граница была перенесена, то можно воспользоваться информацией о том сочетании, после которого про-

изошел перенос границы, и найти смысловой предикатив по его грамматической форме (она зависит от вспомогательного предикатива). Перечисленные выше вспомогательные предикативы не влияют на число и характер актантных связей смыслового, поэтому их можно опустить. Для найденных предикативов механизм запоминает их грамматическую форму. Особенно важно учитывать, оформлен ли предикатив каким-либо из аффиксов причастий, потому что у причастия актанты могут быть расположены справа от него. После этого механизм обращается к словарю моделей управления16 и для каждого предикатива определяет: (1) число его валентностей, (2) допустимые грамматические формы актантов, (3) его переводные эквиваленты. Механизм рисует пунктирные стрелки по числу валентностей и подписывает под ними допустимые грамматические формы актантов.

§ 21. Шаг 2 - поиск актантов. На втором шаге механизм начинает просматривать фрагменты для того, чтобы найти актанты предикативов. Некоторые из них обнаружатся среди именных фрагментов, поскольку именные фрагменты представляют собой имена с показателями Nom, Acc, Dat, Instr, Com. Как уже было показано, именные подфрагменты необязательно являются актантами предикатива своего фрагмента, и поэтому построенные частичные деревья должны рассматриваться как предварительные. Для каждого предикатива его актанты ищутся следующим образом. Внутри его предикативного фрагмента механизм перебирает все именные фрагменты и сравнивает их ключи с теми показателями, которыми могут быть маркированы актанты данного предикатива согласно его модели управления. Если именной ключ некоторого имени совпадает с возможным маркером актанта, то это имя считается кандидатом в актанты. После этого производится словарная проверка, чтобы отсечь возможные наречия. Если данное имя не помечено в словаре как наречие, оно подписывается под стрелкой соответствующей валентности. Пунктирная стрелка заменяется на сплошную. Если не было найдено ни одного совпадения для данного показателя (обнаруженного при помощи модели управления), то валентность считается незаполненной, и под ее стрелкой подписывается «нуль» (0). Нули отражают актанты, не выраженные потому, что они кореферентны полной именной группе, встретившейся в тексте ранее.

На этом же этапе механизм построения деревьев использует информацию о грамматической форме предикатива. Если предикатив - адвербиальная форма на -key прилагательного,

то он по определению не имеет зависимых. Тогда, если в этом фрагменте содержится один или несколько подфрагментов, механизм запоминает, что они относятся к предикативу из какого-то последующего фрагмента. Механизм действует точно также и в том случае, если грамматическая характеристика одновалентного прилагательного - это причастие и в его фрагменте встретились именные подфрагменты. Актант с частицей топика будет отнесен к ближайшему предикативу как заполняющий его первую валентность и отмечен как требующий семантической проверки (может, он претендует на заполнение второй валентности, если она до сих пор пуста, или вообще относится к другому фрагменту). Если предикатив представлен причастием двухвалентного глагола или прилагательного (ср.

'похожий'), то механизм пытается заполнить одну (или обе) валентности теми подфрагментами, которые встретились внутри рассматриваемого фрагмента, и подписывает «ноль» (0) под временно незаполненными стрелками. После этого необходимо производить семантическую корректировку, поскольку найденный подфрагмент может оказаться актантом предикатива из фрагмента, расположенного правее.

§22. Шаг 3 - просмотр оставшихся имен внутри фрагмента. На третьем шаге механизм перебирает оставшиеся словоформы внутри каждого фрагмента и проверяет по словарю, может ли словоформа такой части речи замещать какую-нибудь из оставшихся валентностей предикатива из этого фрагмента. Наш контрольный материал показывает, что если словоформа является немаркированным актантом, то она находится внутри того же фрагмента, что и управляющий ею предикатив, и, в отличие от маркированных ^ключами актантов не может пересекать левую границу своего фрагмента. При этом ограничения на грамматическую форму предикатива отсутствуют. Это обстоятельство позволяет перебирать гораздо меньше словоформ - претендентов на незаполненные валентности, так как рассматриваются словоформы только данного фрагмента. На этом же шаге будет найден комплемент приименной связки, потому что в словаре прописано, что он находится непосредственно слева от нее. Оставшиеся после этой операции словоформы записываются как отдельные элементы представления.

§23. Шаг 4 - поиск актантов за границами Р-фрагмента.

На 4 шаге механизм ищет те актанты, которые заведомо должны располагаться не в том фрагменте, где находится синтаксически связанный с ними предикатив. Такая ситуация имеет

место в двух случаях. Во-первых, если предикатив представляет собой причастие, то есть имеет ключи nun, un, п, ul, l, то один из его актантов (или его единственный актант) может быть первым словом в непосредственно следующем справа фрагменте. Во-вторых, если предикатив способен управлять номинализи-рованной формой глагола, то такой актант будет расположен в непосредственно предшествующем фрагменте17.

i 24. Иллюстрация. Разберем пошагово работу данного механизма на примере следующего предложения:

(19) Л. Ц ^^

N N N N Cop Ger N Nom P E/A

ku ttay machim pam-cwung i-la ||P totwuknom.-i |N tul.-e ||P тот время как раз ночь-среди быть вор входить

Как раз в то время была ночь, и вор зашел и начал обшаривать дом.

P E/A Pcl N Acc P Nmnz P Past Decl

w-a-se ||P cip.an.-ul18 |N twici-ki ||P sicak.ha-yess-ta. ||P

приходить дом-в обшаривать начинать

На 1 шаге (см. Рис. 2) рисуются узлы, проводятся пунктирные стрелки по числу валентностей, определяется предположительная грамматическая характеристика актантов, проставлены метки при причастиях. Левая стрелка заполняется первым актантом, правая - вторым или третьим актантом.

На 2 шаге (см. Рис. 3) механизм ищет актанты внутри каждого фрагмента и привязывает их к узлам, меняя стрелки на сплошные. Подписывает нули под незаполненными стрелками:

м

Nom, Тор Ас с

Рис. 2. Шаг 1 - поиск вершинных предикативов

I-

'быть'

тиь-

' входить1

Мот, Тор _£

0рс1

0

0

I,:* V. |.'к пот 'вор'

О* приходить'

ты Мот / N

* -а

0 0 0

На 3 шаге (см. Рис. 4) механизм перебирает оставшиеся внутри каждого фрагмента словоформы и пытается привязать их к узлам. Так, в первом фрагменте этого предложения будут найдены имена pam-cwung - по правилу о комплементе связки - и Пау - просто потому, что это имя, а имя может заполнять первую валентность связки. Словоформа тасЫт 'как раз' будет отвергнута как кандидат на заполнение валентности связки, так как это наречие. После этого вычерчиваемое представление имеет такой вид:

Рис. 4. Шаг 3 - просмотр оставшихся имен внутри Р-фрагментов

На шаге 4 (см. Рис. 5) механизм обнаружит метку 1п/на второй стрелке глагола 81еак.ка- 'начинать' и найдет инфинитив глагола 1м>Ш- 'обшаривать' в соседнем фрагменте. Инфинитив вместе со всеми своими зависимыми связывается как объект с глаголом 81еак.ка- 'начинать'.

Теперь следует сделать два важных замечания. Во-первых, наши формальные средства оказываются ограниченными и не позволяют построить более связное дерево. Во-вторых, на материале корейского языка вновь подтвердилось уже известное по работам Г.С. Цейтина19 положение о том, что невозможно полностью отделить синтаксический анализ от семантического, поскольку они дополняют и корректируют друг друга. Так, в рассмотренном выше примере мы пользовались семантической информацией, например для того, чтобы наречие шаеЫт 'как раз' не было понято как актант. Имеет место и противоположная ситуация, когда синтаксическая информация позволяет разрешить семантическую неоднозначность.

Рис. 5. Шаг 4 - поиск актантов за границами Р-фрагмента

§25. В статье дано краткое неформальное описание некоторого алгоритма синтаксического анализа корейского предложения. Этот алгоритм был реализован в виде компьютерной программы на языке Python и опробован на небольшом корпусе корейских текстов (84 предложения из разных жанров, в том числе - научной прозы20). Этот первичный эксперимент, с одной стороны, показывает принципиальную формальную эффективность разработанной техники синтаксического анализа; с другой стороны - обнаруживает некоторые нетривиальные черты организации корейского текста, ускользающие от внимания исследователя, занимающегося анализом корейского текста «в ручную», то есть анализом, опирающимся на недостаточно формализованные правила.

Как известно, корейский язык относится к числу языков алтайской семьи, синтаксис которых в традиционных описаниях характеризуется следующими чертами: отсутствие механизма обязательных грамматических категорий; отсутствие сочинительно-подчинительного механизма связи между частями так называемого сложного предложения; значительным числом аналитических конструкций. Выделение этих черт покоится на имплицитном сравнении алтайских языков с языками флективно-парадигматического строя (каковы, в частности, древние индоевропейские языки и некоторые из современных индоевропейских, в том числе и русский). Предложенная процедура синтаксического анализа специфична в первую очередь для языков с синтаксическими чертами, названными выше как характерные для алтайских языков.

Табл. 4. Сокращения, использованные в глоссах

Acc винительный падеж Adv наречие

N имя

Nmz показатель именной формы глагола

Advr показатель наречной формы глагола Nom именительный падеж

Com совместный падеж

Cop предикативная связка

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Dat дательный падеж

Decl утвердительная форма

Det указательное местоимение

End частица вежливости yo

E/A вторая основа предикатива

Fut будущее время

Ger соединительное деепричастие -ko

Imper повелительная форма

Inf инфинитив

Instr творительный падеж

Mod модальная частица

Not отрицание Part причастие Past прошедшее время Paux служебный предикатив Pcl частица Praes настоящее время Quest вопросительная форма Retr ретроспективность Subst субстантив Sugg пригласительная форма Top показатель топика V глагол

Примечания

См. Кулагина О.С. Синтаксический анализ на основе предпочтений // Festschrift fur V.Yu.Rozencveig. Wiener Slavistischer Almanach, 1992. Sbd.33. P.43-61; Кобзарева Т.Ю. Принципы сегментационного анализа русского предложения // Московский лингвистический журнал. М.: РГГУ, 2004. Том 8. №1. С.31-80.

См. Зализняк А. А. Древнерусские энклитики. М.: Языки славянских культур, 2008, §0.3, §0.5, §0.6.

См. Martin S.E. A Reference Grammar of Korean // A Complete Guide to the Grammar and History ofthe Korean Language, 1-a ed. Tokyo: Charles E. Tuttle Company, 1992, §10.1, 10.2, 10.4. Нумерация примеров сквозная.

См. Мельчук И.А. Опыт теории лингвистических моделей «Смысла Текст». М.: Наука, 1974.

Алпатов В. М. Структура грамматических единиц в современном японском языке. М., 1979. С.31. Martin S.E. Op.cit. P.86-88. Ibid. P.130. Ibid. P.8.

См., в частности: Martin S.E. Op.cit. P. 415-954; Холодович А.А. Очерк грамматики корейского языка. М.: 1954; МазурЮ.Н. Грамматикакорей-ского языка (Морфология. Словообразование): Теоретический курс / Ю.Н. Мазур; Изд. подгот. Л.Р. Концевичем при участии Мун Хесук. - 2-е изд., испр. М.: Муравей: Вост. лит., 2004. C.86, 97, 108-112. Bever T.G. The cognitive basis for linguistic structures // Cognition and the Development of Language / Hayes, J. R. (ed.). Wiley, N.Y. 1970, P.279-352. Ср. в этой связи: Костыркин А.В. Исследования синтаксической неоднозначности в письменном японском языке // Московский лингвистический журнал. М.: РГГУ, 2004. Том 8. № 1. С.81-144. Именные корейские словоформы, функционирующие в предложении как определения, не содержат именных ключей и поэтому не выделяются при фрагментации предложения как N-фрагменты. Определения, выраженные предикативными словоформами, содержат хотя бы один из предикативных ключей, поэтому они завершают Р-фрагменты. Список сокращений, используемых в глоссах, приведен в конце статьи. Ток - маленький сладкий рисовый пирожок, любимое лакомство корейцев. При составлении словарика моделей управлений для предикативных слов рассмотренного корпуса мы особенно много обращались к работе Hyentay hankwuk.e tongsa kwumun sacen (Словарь моделей управления предикативов современного корейского языка) / Ed. Hong Cayseng. Sewul, 1997.

Поскольку показатель номинализированной формы - это предикативный ключ ki, механизм сегментации проведет после него границу фрагмента.

При первом проходе алгоритм пометит словоформу cip.an.-ul меткой «Х», поскольку она содержит амбивалентный маркер ul. Заменить эту метку на N удается при обращении к синтаксическому контексту: номинализированной форме twici-ki не может предшествовать причастие, зна-

2

6

11

12

13

17

18

чит, cip.an.-ul - это именная словоформа с показателем аккузатива.

19 ЖелезняковМ.И., НевлеваТ.Н, НовиикаяИ.М, СмирноваЛ.Н, ЦейтинГ.С. Опыт построения модели типа «Текст ^ действительность» с использованием ассоциативных сетей // Машинный фонд русского языка: пред-проектные исследования. М.: ИРЯ АН СССР, 1988. С.140-167.

20 Источниками корейских текстов послужили следующие книги и интернет-публикации: (1) Seng Kiyel. Hankwuk mintam.uy seykyey (Мир корейских народных рассказов). Сеул: Изд. ун-та Инха, 1982; (2) Cang Kiswuk. Khwulkhwul.iwa ppwungppangi. (серия «101 сказка, которые рассказывает нам папа»). Сеул: Изд. Хёнминсисытхем, 2001; (3) Saiensu Olcey: Scientific American Hankwukphan (Журнал «Scientific American»-корейская редакция), текст журнала доступен по интернет-адресу http: // www.scienceollze.com.

i Надоели баннеры? Вы всегда можете отключить рекламу.