Научная статья на тему 'Разработка словоизменительных типов глагола для корпуса бурятского языка'

Разработка словоизменительных типов глагола для корпуса бурятского языка Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
250
78
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОРПУСНАЯ ЛИНГВИСТИКА / БУРЯТСКИЙ ЯЗЫК / АВТОМАТИЧЕСКАЯ МОРФОЛОГИЧЕСКАЯ РАЗМЕТКА / СЛОВОИЗМЕНИТЕЛЬНЫЕ ТИПЫ / СЛОВОИЗМЕНЕНИЕ БУРЯТСКОГО ГЛАГОЛА / CORPUS LINGUISTICS / BURYAT LANGUAGE / AUTOMATIC MORPHOLOGICAL MARKING / INFLECTIONAL TYPES / INFLECTION OF BURYAT VERB

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Абаева Юлия Догоржаповпа

Рассматриваются принципы разработки словоизменительных типов бурятского языка на примере глагола процедуры, необходимой для работы морфологического анализатора программы автоматической обработки текстов для Корпуса бурятского языка.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Developing of verb inflectional types for the Buryat language corpus

The article reviews the principles of developing of inflectional types for Buryat language verb. This procedure is necessary for functioning of the morphological analyzer the program of automatic text processing for the Buryat language corpus.

Текст научной работы на тему «Разработка словоизменительных типов глагола для корпуса бурятского языка»

УДК 811.512.31

© Ю.Д. Абаева

Разработка словоизменительных типов глагола для Корпуса бурятского языка

Рассматриваются принципы разработки словоизменительных типов бурятского языка на примере глагола - процедуры, необходимой для работы морфологического анализатора - программы автоматической обработки текстов для Корпуса бурятского языка.

Ключевые слова: корпусная лингвистика, бурятский язык, автоматическая морфологическая разметка, словоизменительные типы, словоизменение бурятского глагола.

Y.D. Abaeva

Developing of verb inflectional types for the Buryat language corpus

The article reviews the principles of developing of inflectional types for Buryat language verb. This procedure is necessary for functioning of the morphological analyzer - the program of automatic text processing for the Buryat language corpus.

Keywords: corpus linguistics, Buryat language, automatic morphological marking, inflectional types, inflection of Buryat verb.

Одним из этапов работы над Корпусом бурятского языка [БК], явилась необходимость подробного описания словоизменительной морфологии бурятского языка. Как известно, Корпус представляет собой собрание текстов на определенном языке, представленное в электронном виде и снабженное специализированной аннотацией или разметкой [Плунгян]. Одним из основных параметров аннотирования является морфологическая разметка текстов, которая позволяет быстро найти в корпусе интересующие исследователя грамматические формы и конструкции.

Грамматическая разметка осуществляется при помощи специальных программ, которые проводят процедуру лемматизации, т.е. приводят словоформу к ее начальной форме и приписывают ей грамматические характеристики. Для работы такой программы, называемой морфологическим анализатором, необходима разработанная система словоизменительных типов.

Нами рассматривается процедура разработки словоизменительных типов бурятского языка на примере глагола. Необходимость разработки словоизменительных типов была обусловлена тем, что для образования почти каждой формы имеется несколько вариантов аффиксов, например, повелительно-наставительная форма 2 л. ед.ч. имеет следующие варианты: -аарай /-оорой /-ээрэй /-вврэй; -гаарай /-гоорой /-гээрэй /-геерэй; -яарай /-ёорой /-еэрэй. В связи с этим было необходимо разработать парадигму словоизменительных типов глагола, которая включала бы все варианты его спряжения.

Первоначально был составлен словник бурятских глаголов на базе Бурятско-русского словаря под редакцией Л. Д. Шагдарова и К.М. Черемисова [Шагдаров, Черемисов]. В список глагольных лексем включались слова, соответствующие формальному признаку - оканчивающиеся на -ха (хо, хэ), т.е. аффикс причастия будущего времени, эта форма выполняет роль инфинитива. В число лексем, отвечающих этому требованию, попали и слова, не являющиеся глаголами, например: хамха, CYлхэ, садь-ха, шанха, булаабха, шарха и др. Тогда был введен еще один формальный признак глагола: перед аффиксом -ха (хо, хэ) должен быть либо гласный, либо согласные р или л. Это позволило сократить количество неглагольных лексем в списке, однако в случаях типа CYлхэ, шарха потребовалась ручная проверка.

В словоизменительной парадигме основа слова представляет собой неизменяемую часть, к которой присоединяется изменяемая часть - аффиксы. За основу глагола программа морфологического анализатора принимает ту часть глагола, которая остается при отсечении аффикса -ха (хо, хэ). Показатели залога и вида включаются в основу, так как эти категории относятся к слово- и формообразованию, а не словоизменению. Основа глагола в бурятском языке совпадает с формой повелительно-желательного наклонения 2-го л. ед.ч. и всегда оканчивается гласной буквой.

Словоизменительная парадигма бурятского глагола включает категории времени, наклонения и лица-числа. Глагол в бурятском языке представлен четырьмя формами: изъявительное и повелительно-желательное наклонение, причастия и деепричастия. Согласно Академической грамматике бурятского языка категория времени свойственна формам изъявительного наклонения, причастия и некоторым деепричастным формам [Грамматика..., с. 157]. От себя можем добавить, что формы повели-

тельно-желательного наклонения также имеют в некоторой степени указание на категорию времени (близко-будущее и отдаленно-будущее). Категория лица-числа глагола морфологически выражена только в некоторых формах повелительно-желательного наклонения. Тем не менее, эта категория активно проявлена в бурятском языке в виде лично-предикативных частиц, произошедших от местоимений, которые присоединяются к формам наклонения и причастия.

Категория наклонения представлена двумя видами: повелительно-желательным и изъявительным наклонением. Аффикс изъявительного наклонения совпадает с аффиксом времени. Аффиксы повелительно-желательного наклонения бывают двух типов: некоторые из них несут в себе информацию не только о побуждении, но и о лице-числе, другие структурно схожи с аффиксами изъявительного наклонения, т.е. содержат информацию только о побуждении, а информация о лице-числе содержится в лично-предикативной частице.

Таким образом, морфологический состав бурятского глагола выглядит следующим образом: снова, словоизменительный аффикс (аффикс наклонения / причастия / деепричастия), и лично-предикативные частицы. Уточнение по лицу-числу, или лично-предикативные частицы, не имеют только формы деепричастия и некоторые формы повелительно-желательного наклонения.

Поскольку морфологический анализатор предназначен для обработки именно письменных текстов, при выявлении словоизменительных типов мы брали во внимание только те изменения, которые отражаются на письме. В письменном тексте границы словоформы определяются «от пробела до пробела», соответственно лично-предикативные частицы, которые пишутся слитно со словоформой, рассматриваются программой в качестве составляющей словоизменительных аффиксов.

При разработке словоизменительных типов основными критериями послужили: конечная буква основы, морфонологические процессы на стыке основы и аффикса, которые отражены орфографически, сингармонизм. Сложности морфологического членения и те изменения, которые имеют место при присоединении аффикса к основе или одного аффикса к другому, описываются в работах Г.А. Дырхеевой. Автор указывает, что членение на морфемы осложняется фузией, внутренней флексией, появлением вставных гласных и согласных [Дырхеева, Ринчинов, с. 12].

Как говорилось выше, основа глагола всегда оканчивается на гласную. Имеющим релевантное значение оказалось отличие по долготе-краткости гласных. Из кратких гласных в отдельную группу выделяются гласный и, вызывающий палатализацию предшествующего согласного, и йотированные гласные. Так было выделено 4 группы основ, которые получили следующие обозначения:

1) краткий гласный - short (аба-, оро-, бэшэ-, угэ-);

2) краткий гласный и - I-palat (барии-, орхи-, эди-, тули-);

3) йотированный гласный - j (оё-, эрье-, хая-);

4) долгий гласный или дифтонг - long (hy-y, боо-, нуу-, гуй-).

Поскольку компьютерная программа работает с линейной последовательностью букв, для разработчиков программ пришлось внести некоторые уточнения об особенностях написания долгих гласных в бурятском языке. Помимо удвоенного написания одной гласной, для обозначения долгих гласных используются: буква ы: амшы-ха, бэгзы-хэ; буквосочетания яа, еэ, ёо, юу: буляа-ха, заяа-ха, нюу-ха, хулеэ-хэ.

Морфонологические процессы, происходящие на стыке основы и аффикса, зависят от типа основы. Если словоизменительный аффикс начинается с долгого гласного, то финальный краткий гласный основы всегда выпадает: аба - аб-уужа, оро - ор-ыт. Если в финале основы краткий гласный и или йотированный гласный, то они также выпадают, но вызывают изменения в аффиксе (первый элемент долгого гласного меняется на йотированный гласный): бари - бар-юужа, орхи - орх-ёорой, эди

- эд-ииш, хая - ха-яарай, оё - о-ёоошо. При этом гласный и вызывает палатализацию предшествующего согласного, что при морфемном членении никак не отражается на письме. Есть одно исключение, согласно правилам орфографии бурятского языка, при присоединении к слову, оканчивающемуся на йотированный гласный, аффикса, начинающегося на ы, йотированный гласный сохраняется: хая

- хая-ыт, оё - оё-ыт [Правила..., с. 111]. На стыке долгого гласного основы и долгого гласного аффикса происходит появление интервокальной фонемы г: hyy - hyy-гааша, боо - боо-гоорой.

В группе short можно выделить еще один подвид: основы, в которых перед финальным кратким гласным стоят согласные р и л и состоящие из двух и более слогов: сэсэрэ, ногооро, аахила, эхилэ, утэлэ. В таких словах краткий гласный при присоединении к основе аффикса в большинстве случаев выпадает: сэсэрэ - сэсэр-бэ, аахила - аахил-ха, эхилэ - эхил-ээшэ. Но в некоторых случаях краткий гласный все же, сохраняется:

если в начале аффикса имеется стечение согласных: аахила-нхаар, ногооро-мсоор, эхилэ-нхэй, эхи-лэ-гты, Yтэлэ-нхаар, Yтэлэ-гшэ;

если аффикс состоит из одной буквы: эхилэ-е, ногооро-г, аахила-н; если аффикс начинается с буквы л: ногооро-лой, эхилэ-лэй;

если аффикс, начинающийся на согласный, присоединяется к основе, в которой перед конечным кратким гласным стоят две согласных: оогло-хо, нэрлэ-гшэ, бухалла-на.

Как известно, для бурятского языка характерно наличие двух типов гармонии гласных: палатальная и лабиальная. По закону палатальной гармонии гласные бурятского языка делятся на твердоряд-ные (задние), мягкорядные (передние) и нейтральные. Гласные нейтрального ряда могут употребляться в словах как твердого, так и мягкого рядов, если в слове имеются только эти гласные, то слово относится к мягкому ряду. Рядность основы определяет выбор твердорядного или мягкорядного аффикса.

При обозначении сингармонического ряда в компьютерной программе использованы термины back (задний ряд) и front (передний ряд). В современном бурятском языке принадлежность гласных к ряду выглядит следующим образом (см. табл. 1):

Таблица 1

Принадлежность гласных к сингармоническому ряду

Гласные Ряд Примеры

а, аа, ай, я, яа, о, оо, ой, ё, ёо, у, уу, уй задний (back): бурьял-ха, голо-хо, гуйга-ха

э, ээ, е, еэ, ее, у, уу, уй передний (front): шэнгэ-хэ, хульбэр-хэ, беемэйл-хэ

и, ии, ы, ю, юу нейтральный инагла-ха, бухир-хэ, аржы-ха гунзэгыр-хэ, нюдар-ха, югеел-хэ

тии-хэ, юды-хэ

Лабиальный сингармонизм выражается в том, что некоторые огубленные гласные корня слова влекут за собой огубленность гласного в аффиксе. Такие случаи обозначены как lab (лабиальные), сюда относятся гласные:

о, оо, ой, ё, ёо (back): холодхо-хо, тоогд-оорой, ойлго-бо, ёозогон-оо;

Y, ю, уй, ее (front): бYбэн-eeрeй, беегнэр-ее, MYÜM3p-eem3, бYгды-гeeрeй.

Огубленные твердорядные гласные у, уй в первом слоге не вызывают огубленности вокального состава аффиксов: булгил-ха; гуй-ха.

Если в середине слова имеются такие долгие гласные: back - уу, юу, front - уу, юу, ээ, еэ, то дальнейшее огубление снимается. Например: оруул-ба, зорюул-аа, бугтэруул-ээрэй; губюул-хэ.

По принципу палатального и лабиального сингармонизма все глаголы бурятского языка были разделены на четыре группы:

1) твердый ряд, неогубленный - back (аба, бари, хая, hуу);

2) твердый ряд, огубленный - back-lab (оро, орхи, оё, боо);

3) мягкий ряд, неогубленный - front (бэшэ, эди, эрье, нуу);

4) мягкий ряд, огубленный - front-lab (угэ, гуй, тули).

Таким образом, выбор варианта словоизменительного аффикса глагола зависит от следующих характеристик его основы: 1) конечная буква, 2) палатальный и губной сингармонизм. Комбинация этих критериев дает 16 теоретически возможных словоизменительных типов глагола, которые должны покрывать все глагольные лексемы.

Из теоретически возможных шестнадцати вариантов, реально существующими оказались пятнадцать типов (табл. 2). Вероятно, возможен вариант - слово, оканчивающееся на йотированный гласный мягкого, огубленного ряда, но пока мы его не смогли подобрать. Однако в качестве шестнадцатого типа могут выступить основы глаголов, в которых перед финальным кратким гласным стоят согласные р и л и которые состоят из двух и более слогов. В этих словах выпадение конечного краткого гласного происходит по иным правилам, описанным выше.

Таблица 2

Словоизменительные типы глагола

Back Back-lab front Front-lab

Short Аба оро бэшэ Yre

I-palat Барии орхи эди Тули

J Хая оё эрье -

Long Нуу боо hYY Гуй

Теоретически любому глаголу можно приписать его словоизменительный тип и тем самым выявить его полную словоизменительную парадигму. К примеру, все слова твердого неогубленного ряда, оканчивающиеся на краткий гласный, кроме и, имеют аналогичную словоизменительную парадигму, что и эталонный глагол аба.

При расширении материала возможно дальнейшее уточнение и дополнение парадигм. Тем не менее, выявленные парадигмы уже были апробированы на специальной программе POS, созданной Т.А. Архангельским (МГУ). С помощью этой программы были выполнены работы по автоматической разметке начальной версии Бурятского корпуса.

Литература

1. Грамматика бурятского языка. Фонетика и морфология. - М.: Изд-во вост. лит., 1962.

2. Дырхеева Г.А., Ринчинов О.С. Морфологическая структура слова в бурятском языке: лингвостатистическое описание (на материале художественного текста). - Улан-Удэ: Изд-во БНЦ СО РАН, 2005.

3. БК - Корпус бурятского языка [Электронный ресурс]. - URL: // http://web-corpora.net/BuryatCorpus/search /index.php?interface_language=ru

4. Плунгян В.А. Зачем мы делаем Национальный корпус русского языка // Отечественные записки. - М., 2005, № 2(23) [Электронный ресурс]. - URL: http://www.philology.ru/linguistics2/plungyan-05.htm

5. Правила орфографии и пунктуации бурятского языка. - Улан-Удэ: Бэлиг, 2009.

6. Шагдаров Л.Д., Черемисов К.М. Бурятско-русский словарь = Буряад-ород толи: В 2 т. - Улан-Удэ: Изд-во ОАО «Республиканская типография», 2006.

Абаева Юлия Догоржаповна, научный сотрудник Института монголоведения, буддологии и тибетологии СО РАН, кандидат филологических наук.

Тел.: +7-9021615762, e-mail: julaba@yandex.ru

Abaeva Iouliia Dogorzhapovna, research fellow, Institute of Mongolian, Buddhist and Tibetan studies SB RAS, сandidate of philological sciences.

УДК 81'373.21

© И.А. Дамбуев

П.С. Паллас как исследователь топонимии Байкальского региона

Систематизируются результаты исследований одним из первых российских топонимистов П.С. Палласом топонимии Байкальского региона на материале его произведения «Путешествие по разным провинциям Российского государства».

Ключевые слова: П.С. Паллас, топонимия, транслитерация, этимология, Байкальский регион, монгольские языки.

I.A. Dambuev

P.S. Pallas as a researcher of the Baikal region toponymy

The article reviews the results of toponymic studies of the Baikal region by P.S. Pallas in his work 'Reise durch verschiedene Provinzen des Russischen Reichs'. The author says that P.S. Pallas is among the first to develop Russian toponymy.

Keywords: P.S. Pallas, toponymy, transliteration, etymology, the Baikal region, the Mongolian languages.

В замечательном во многих отношениях произведении П.С. Палласа «Путешествие по разным провинциям Российского государства» встречается большое количество названий географических объектов, которые представляют научный интерес для историков, лингвистов, этнографов, географов, краеведов. Однако помимо простого упоминания названий, сам факт которого представляет ценность как источник изучения региональной топонимии XVIII в., в произведении можно обнаружить результаты собственных исследований автором топонии.

i Надоели баннеры? Вы всегда можете отключить рекламу.