Научная статья на тему 'Электронный глоссированный корпус текстов языка бамана: первый этап'

Электронный глоссированный корпус текстов языка бамана: первый этап Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
172
37
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЭЛЕКТРОННЫЙ КОРПУС ТЕКСТОВ / БАМАНА / АВТОМАТИЧЕСКИЙ АНАЛИЗАТОР / LANGUAGE CORPUS / BAMANA LANGUAGE / MANDE LANGUAGES

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Выдрин Валентин Феодосьевич

Электронный глоссированный корпус текстов на языке бамана состоит из трёх компонентов: электронного словаря, программыанализатора и проанализированных текстов. В статье рассматривается устройство каждого из этих компонентов и обосновываются пути решения трудностей, встающих перед рабочей группой.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

An electronic annotated corpus of Bamana texts: The first stage

The electronic annotated corpus of Bamana texts consists of three components: an electronic dictionary, a morphological parser, and the analyzed texts. The article examines the organization of each of the components and the ways of resolving the difficulties arising before the working group.

Текст научной работы на тему «Электронный глоссированный корпус текстов языка бамана: первый этап»

ЭЛЕКТРОННЫЙ ГЛОССИРОВАННЫЙ КОРПУС ТЕКСТОВ ЯЗЫКА БАМАНА: ПЕРВЫЙ ЭТАП1

0. Введение

В предыдущих публикациях, посвященных электронному корпусу бамана [Выдрин 2008а; Выдрин 2008б; Vydrine 2008], были высказаны предварительные соображения о необходимости и возможности создания такого корпуса, а также намечались пути решения некоторых конкретных трудностей, которые неизбежно должны были возникнуть в этой работе. Эти идеи стали предметом обсуждения на Второй Международной конференции по языкам манде (СПб, сентябрь 2008) и были поддержаны коллегами из разных стран; обсуждение было продолжено на VI Всемирном конгрессе по африканской лингвистике (Кёльн, август 2009). Осенью 2009 года в Петербурге была создана рабочая группа по разработке модели электронного корпуса текстов бамана, в которую, помимо автора, вошли лингвист-программист Кирилл Александрович Маслинский и специалисты по языкам манде Анна Владимировна Эрман и Артём Витальевич Давыдов. К систематической работе группа приступила в марте 2010 года (после окончания очередной зимней экспедиции российских лингвистов в Гвинею и Кот-д'Ивуар). В качестве метаязыка корпуса был выбран французский, который является официальными языком и основным языком образования в Мали.

В данной статье мы постараемся представить обзор конкретных проблем, решением которых занималась рабочая группа в течение полугода (с марта по сентябрь 2010 г.), и обоснования принятых решений.2

1 Данное исследование выполнено в рамках проекта «Разработка модели электронного корпуса текстов языков манден (манинка, бамана)», поддержанного грантом РФФИ № 10-06-00219-а.

2 Здесь не будут рассматриваться проблемы, связанные с подбором текстов и их метаразметкой; им посвящена статья А. В. Давыдова в данном сборнике.

Общие соображения о значимости электронного корпуса текстов на языках манде были высказаны в уже упомянутых публикациях, что позволяет не излагать их здесь и сразу перейти к более техническим вопросам.

Напомним принцип действия всех программ автоматического анализа текста, предназначенных для создания языковых корпусов. Несколько упрощая ситуацию, можно сказать, что программное обеспечение состоит из «словарного» файла, а также из программы автоматического анализа (морфологического, синтаксического и др.), т. е. рабочего файла (или, скорее, совокупности файлов), содержащего в себе правила построения словоформ, их сочетаемости между собой и т. д.; «движок» связывает текстовый и словарный файлы. В словарный файл вносятся морфемы (или лексемы, или словоформы3) описываемого языка; при каждой морфеме (или словоформе), в другом поле, даётся её эквивалент на метаязыке (который может совпадать с описываемым языком, - в таком случае мы получаем одноязычное глоссирование, -а может быть иным; в нашем случае метаязыком является французский). Для служебных слов и морфем, как правило, даётся условный эквивалент, в соответствии с принципами Лейпцигских правил глоссирования. В особом поле даётся частеречная помета.

Несколько упрощая картину, принцип автоматического анализа можно описать так. Когда даётся команда «анализировать текст», программа-«движок» находит в словарном файле каждую лексему и морфему, представленную в тексте (при этом она членит слова на морфемы), создаёт в текстовом файле строку «пар-синга» (поморфемной разбивки) и подставляет к каждой морфеме исходной фразы её эквивалент на метаязыке. Если же морфема в словарном файле не обнаруживается, то программа сигнализирует об этом, предлагая лингвисту различные варианты выбора: создать новую карточку в словаре; отметить слово как иноязычное вкрапление; устранить орфографическую ошибку в тексте.

Организационные структуры всех трёх компонентов корпуса -программы-анализатора, словаря и проанализированного текста -

3 Последнее может быть необходимо для флективного языка. Поскольку языки манден изолирующие, с элементами агглютинации, то в дальнейшем возможность введения в словарь словоформ рассматриваться не будет.

344

тесно взаимосвязаны. Тем не менее, в целях удобства изложения, эти компоненты и связанные с ними проблемы будут рассмотрены раздельно.

1. Программа-анализатор (парсер)4

На предварительном этапе я склонялся к тому, что компьютерная программа Тоо1Ьох - наиболее подходящее средство для создания электронного корпуса текстов на языках манден [Выдрин 2008б]. Однако в ходе дальнейших обсуждений с коллегами и в рамках рабочей группы стало очевидно, что некоторые недостатки этого программного продукта создают труднопреодолимые препятствия в работе над большим корпусом, насчитывающим миллионы словоупотреблений. Назовём лишь три таких недостатка:

1) закрытый характер этой программы, т. е. недоступность её исходных текстов. Это делает невозможным для разработчиков корпуса вносить изменения в программу парсинга для устранения конструктивных дефектов (с которыми доводилось сталкиваться, по-видимому, всем пользователям Тулбокса), а также с целью её приспособления к особенностям конкретного языка;

2) невозможность парсинга без ручного снятия омонимии. Эта особенность Тулбокса автоматически сводит его функцию к созданию микро-корпусов и делает невозможной обработку больших массивов текстов;

3) отсутствие в Тулбоксе средств для обработки внеязыковых вкраплений в текст на анализируемом языке - таких как слова или фразы из других языков (французские вкрапления нередки в текстах на бамана; в мусульманской религиозной литературе могут встречаться неадаптированные арабские слова и т. п.) и окказионализмы.

В результате было принято решение о создании специальной программы-анализатора текста на бамана; разработкой этой программы занимается К. А. Маслинский, в режиме постоянных консультаций с остальными членами рабочей группы. В качестве

4 Термин «парсер» чаще всего используется в значении «синтаксический анализатор», однако иногда его употребляют и в смысле «морфологический анализатор» (в частности, разработчики программы Toolbox). В данной статье этот термин будет применяться в основном в последнем значении.

345

языка программирования был избран Python, при этом рассматривается возможность перевода программы в дальнейшем на другой, более экономный язык.

На данном этапе речь идёт о разработке морфологического анализатора; разработка синтаксического анализатора текста на бамана - значительно более сложная задача, к решению которой предполагается перейти на более позднем этапе работы.

Для проверки работы парсера используется «пилотный корпус» разножанровых текстов на бамана, записанных в старой орфографии, объёмом в 102 тыс. слов (ок. 455 тыс. знаков). Этот файл был любезно предоставлен в наше распоряжение Жераром Дюместром.

В ходе разработки морфологического парсера были созданы следующие продукты:

1.1. Правила преобразования старой орфографии бамана в новую

Старая орфография основывалась на принципах, выработанных на совещании экспертов западноафриканских стран в Бамако в 1963 году и была официально принята в Мали в 1967 году. В 1986-1990 гг. она была замещена новой системой, основанной на африканской версии МФА. Эти две системы различаются в обозначении четырёх фонем (или шести, если учитывать вокалическую долготу): е, д, ee, do, ny, ng в старом написании соответствуют е, о, ее, оо, fl, q в новом. Трудность представляют два диграфа, которые в старой орфографии не различали релевантные фонологические сущности: ny в серединной позиции в слове мог обозначать как носовой сонант /р/, так и сочетание носового гласного с последующим палатальным сонантом, /Vy/; ng в начале знаменательной морфемы обозначал как носовой сонант /ц/, так и преназализованный велярный смычный /ng/. Эта неоднозначность не позволяет конвертировать тексты, имеющиеся в старой орфографии, путём простых автозамен. В то же время программа, предусматривающая обращение к словарю, решает эту проблему почти без остатка: в словаре Ш. Байоля обнаруживается только одна минимальная пара, демонстрирующая оппозицию /р/ и /Vy/ - kepe 'препятствовать; терпеть неудачу' : kenye 'выравнивать' (поскольку тоны ни в старой, ни в новой орфографии бамана на письме не обозначаются, следует учитывать и то-

346

новые квазиомонимы: каре 1. песок, каре 2. лобок, каре 3. воск).5 Минимальных пар на оппозицию /ц/ : /п§/ в словаре нет.

1.2. Правила обозначения тонов на письме

В ныне действующей практической орфографии бамана тоны не обозначаются,6 а в научных публикациях в этом отношении царит анархия: практически каждый автор придерживается своих собственных правил.

В создаваемом корпусе предполагается сплошное тонирование текстов (за исключением, разумеется, иноязычных вкраплений), поэтому весьма актуальным становится формулирование правил, по возможности экономных, но в то же время не допускающих утраты релевантной для языковой системы информации.

Некоторые идеи относительно принципов тональной нотации в корпусе текстов на бамана были высказаны в статье [Выдрин 2008а]. Не повторяя здесь всей аргументации, ограничимся изложением самих правил.

Предлагается использовать следующие тональные диакритики: акут - высокий тон, гравис - низкий тон, гачек - восходящий тон (последний используется редко, только в словах трёх маломестных

7

миноритарных классов, для восходящего тона перед высоким - но не перед низким; в последнем случае обходимся грависом, исходя из правила: «низкий перед низким реализуется как восходящий»).

В словах «стандартных» тональных классов обозначается только тон первого слога (высокий или низкий), вне зависимости от длины слова.

5 Конечно, нельзя исключать возможность возникновения омонимии в результате продуктивного словосложения.

6 Точнее, обозначение тонов допускается, но не считается обязательным; при этом правила тональной нотации не формулируются. В публикациях на бамана, предназначенных для малийцев, а также в школьном и университетском преподавании этого языка в Мали тоны не обозначаются практически никогда. Единственным исключением является, по-видимому, различение местоимений 3БО а и 2РЬ а: последнее пишется со знаком апострофа в постпозиции, и это правило соблюдается авторами текстов довольно последовательно.

7 В принципе, можно было бы обойтись и без гачека, но тогда пришлось бы вводить значок плавающего низкого тона внутри слова или циркумфлекс, т.е вместо nkаrangë- nk£rаngeили пкагаще 'ловушка'.

347

В префиксных глаголах тон (высокий или низкий) обозначается и на префиксе, и на первом слоге глагольной основы: !акб!о 'воспитывать', !акШп 'вызывать обморок', татше 'бронировать; обручаться', тадап 'стараться', та^ка 'показывать'.

Этот же принцип применяется и в причастиях (образуемых суффиксами -1еп/-пеп, -Iа, -ЪаИ), которые сохраняют тоны исходных глаголов (Ыктппеп, mаminеto, ШктпЪаИ, mаjiгata), -но не в отглагольных именах (образованных по конверсии или при помощи суффикса -¡1/-т), тоны которых становятся компактными (Иктпш 'вызывание обморока', татшеИ, татше 'помолвка', тадап 'усилие; прилежание').

Для глаголов-компаундов (типов К+У, [К+РГе£]+У) тон обозначается и на первом слоге именной части, и на первом слоге глагольной основы: кэпэпайИ 'тревожить', кэпэтнп 'размышлять', кйпкогоШ 'способствовать успеху', кйппаёа 'попрекать'.

В бамана, помимо глаголов-компаундов, менее 10% всех слов имеют нерегулярные тональные схемы; это почти исключительно существительные, наречия и служебные слова. Многие слова с нерегулярными тональными схемами малочастотны в текстах (в основном это названия биологических видов), и нередко их тональный контур варьируется от диалекта к диалекту (или даже идиолекту). Ниже даётся список тональных классов по [Бише811ге 1987]; примеры также даются из диссертации Дюмест-ра, при этом формы нередко отличаются от тонов соответствующих слов в словаре Ш. Байоля (Н - высокий тон, Ь - низкий тон, И - восходящий тон).

Таблица 1. Тоновая нотация для слов различных тональных классов

Структура слова и тон. схема Пример (в «полной» записи) Предлагаемая орфография Комментарий

СУ: Ь ка показатель инфинитива, а 3ед. ка, а только эти два слова

Двусложные:

СУ-СУ: НЬ Ьап?д 'потому что', кйийп 'вчера' Ьам^д, кйпйп не бывает на существительных

СУ-СУ: gëlй, geëlй 'маленький африканский филин', 1еепёа, Ъгпёа 'молотоглав' gëlй, 1епйа долгота гласного автоматическая

348

Структура Пример (в «пол- Предлагаемая Комментарий

слова и тон. ной» записи) орфография

схема

СУУ-СУ: 1аа1а 'возможно' 1аа1а редкий

И-Ь

Трёхсложные:

CV-CV-CV: Ьашапап 'бамана', bâmànan, самый многочис-

H-L-H ^а1еп 'чайник для омовений' tâsàlen ленный тип

CV-CVV- паапаа1ёп 'ласточ- nâanaalèn,

CV или ка', Ьакээпт bâkoonîn

CVV-CVV- 'большая ржанка'

CV: H-H-R

CV-CV-CV: пкагаще 'ловуш- nkârângé,

H-R-H ка', ёбгдшё '5 франков' doromé

CV-CVV- Ьд]аага 'колючий bôjârà, bàpândî долгота второго

CV: L-H-R молочай', ЬараапсИ 'сенегальский тка-чик' гласного автоматическая

CVV-CV- уЗаокЗш/'чёрный jonkomi, долгота первого

CV: R-B-H скорпион', шааngдг6 'манго' màngôro гласного автоматическая

Четырёхсложные (все - СУ-СУ-СУ-СУ):

H-H-L-H кё8ёкё1ё 'зоб (птицы)', f6g6nfдg6n 'лёгкое' késekèle, fogonfôgon частотный тип

H-H-R-H ЬаЬйgйnín 'муравьиный лев' bâbugunin редкий тип; некоторые слова реализуют тон факультативно как И-Я-И-И

H-H-H-R Ьйпйпк6ого 'шпор- bununkoorô, редкий тип; дол-

цевый гусь', koloborô гота предпослед-

кбНЬоого 'корич- него гласного ав-

невый цвет' томатическая

H-L-L-H п?ап]а1ака 'жираф' wânjàlaka редкий тип

H-L-H-H сбЬарп 'храбрец' cobàjiri редкий тип

L-H-L-H ёйпйпкаИ 'оса-строительница', кд16кд16 'ощипанная курица' dùnunkàle, kôlokôlo частотный тип

349

Структура Пример (в «пол- Предлагаемая Комментарий

слова и тон. ной» записи) орфография

схема

Ь-Н-И-Н капкаНЬа 'напиток кенкелиба', 1аЬйгёта 'мелкий сорт батата' капкаНЬа, 1аЬйгёта редкий тип

Ь-Н-Н-И gingërënln 'дневная хищная птица', какАака 'фараонова курица' g¡ngëren¡n, какПака редкий тип

Ь-Ь-Н-И tдnmаanа 'пиявка', tдrimanа, редкий тип; дол-

щдгдЬаапш 'кап- ngдroЬanin гота предпослед-

ская горлица' него гласного автоматическая

К сожалению, нельзя быть уверенным, что этот список исчерпывает все возможности, допустимые в различных диалектах бамана. С другой стороны, поскольку подавляющее большинство подлежащих анализу исходных текстов не будет иметь тоновой нотации, для них эта проблема будет нерелевантной.

Если от существительного с нерегулярной тональной схемой образуется дериват или если такое существительное входит в составное слово, оно переходит в регулярный тональный класс (тон первого слога определяет тональный контур всего слова). Например: пкага^ё 'ловушка' ^ пкагапдешп 'ловушечка', Ьатапап 'бамана' ^ Ьатапапкап 'язык бамана'.

В бамана выделяется особый класс существительных-композитов, которые, вслед за Жераром Дюместром [Бише811ге 1987/1994, 261-285], принято называть «конгломератами». Эти существительные (в отличие от «обычных») образуются не по моделям именных групп и могут сохранять тоны своих компонентов. По наблюдению Ж. Дюместра, более краткие конгломераты (до 3 слогов) имеют сильную тенденцию к приобретению компактных схем, а более длинные - к сохранению исходных тонов компонентов. Нередко в произнесении конгломератов наблюдаются колебания между компактной и некомпактной тоновыми схемами, например: sigínfë (предлагаемая орфография: sigí-п-Я?) ~ siginfe ^дшИ) 'мигрант', tаakasëgín (предлагаемая орфография: tаa-ka-sëgin) ~ tаakаsëgín (tаakasegin) 'хождение туда и

350

обратно', ]ёп1кар1Ш1 (предлагаемая орфография: ]ёш-ка-р1тц) ~ ]ёшкар1ш1 (¡ёшкарт) 'благоприятный случай'.

Конгломераты образуют открытый список; они образуются по различным моделям, причём каждая модель имеет самые разные варианты наполнения, в связи с чем исчисление тональных схем, допустимых для конгломератов, представляется невозможным.

Серьёзный вопрос представляет собой обозначение на письме тонового артикля бамана. В статье [Выдрин 2008а] он уже обсуждался и обосновывалась необходимость его фиксации. Однако реальность такова, что в огромном большинстве имеющихся текстов артикли (как и тоны в целом) не обозначены; соответственно, расстановку артиклей должен осуществлять или парсер, или человек (очевидно, тот, кто занимается ручным снятием омонимии). Однако правила употребления артикля ясны далеко не во всех деталях8 (их выявлению препятствует как раз малое количество имеющихся текстов, в которых артикли были бы обозначены), так что программировать автоматическую расстановку артиклей в настоящее время невозможно - парсер отразил бы, в лучшем случае, неполноту наших знаний по этой части и создал бы ложную иллюзию у пользователя. Очевидно, расстановку артиклей мог бы осуществить носитель языка бамана (обученный соответствующим образом) или лингвист, обрабатывающий текст при содействии носителя языка. Поэтому надеяться на то, что в обозримом будущем удастся получить значительное количество текстов с обозначенными тоновыми артиклями, вряд ли приходится.

Как уже говорилось в статье [Выдрин 2008а], игнорирование тонового артикля ведёт, в частности, к неразличению разных видов синтаксических отношений в рамках именной группы, что весьма нежелательно. Однако в письменной практике бамана

8 Можно упомянуть в этой связи работу [Сге188ек 2009], где для ма-нинка р-на Кита упоминаются контексты употребления и неупотребления артикля, о которых не шла речь ни в предыдущих работах этого автора по языкам манден, ни в трудах других исследователей. Проверка аналогичных контекстов в бамана показала, что по крайней мере некоторые сформулированные Кресельсом правила можно распространить и на этот язык.

351

можно отметить следующую тенденцию: именные группы гени-тивного типа, характеризующиеся компактным типом связи между своими составляющими (лексический тон неначального компонента устраняется, тон первого компонента распространяется на всю синтагму), часто пишут слитно, в одно графическое слово. Иначе говоря, такие ИГ трактуются скорее как сложные слова. При всей теоретической спорности такой трактовки,9 подобное написание имеет практический смысл, указывая на отсутствие тонового артикля у первого компонента ИГ. Орфографическое правило слитного написания для тонально-компактных ИГ такого типа можно было бы предложить, по крайней мере, для нетони-рованных текстов.

1.3. Усовершенствование практической орфографии бамана Как это ни удивительно, при всём внимании к вопросам орфографии со стороны малийских лингвистов, этот интерес фокусируется в основном на составе графем и лишь минимально затрагивает проблем слитного/раздельного написания и использования дефиса [Guide 1979; Guide 1993]. Во всяком случае, никакого детального свода правил орфографии, где затрагивались бы эти вопросы, по-видимому, опубликовано не было.10

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Очевидно, что для автоматического анализа текста унификация орфографии необходима. Можно поставить вопрос и другой стороной: разработка корпуса глоссированных текстов на бама-на - это хороший повод для стандартизации орфографии.

В ходе работы над Корпусом весной 2010 года в международной электронной рассылке прошла дискуссия относительно правил использования дефиса в бамана. Участники дискуссии сошлись во мнении, что дефис следует употреблять в двух случаях: - при редупликации глаголов и прилагательных со значением интенсивности: tfjie 'портить' - tfjie-tfjie 'портить сильно и мно-

9 Отметим при этом, что Дени Кресельс в своей грамматике манинка Кита [Сге188е18 2009], а также Шарль Байоль [2000] идут ещё дальше, предлагая рассматривать как сложные слова и иные типы тонально-компактных единств (прежде всего, атрибутивную синтагму).

10 В устных беседах в июне 2010 года в Бамако малийские лингвисты говорили о том, что когда-то такие правила обсуждались и вырабатывались и что свод этих правил должен где-то храниться. Однако его местонахождение нам установить не удалось.

352

го'; айтап 'хороший' -/¡йтап-рйтап 'очень хороший'. Дефис не употребляется при немотивированной редупликации (т. е. в тех случаях, когда соответствующая нередуплицированная форма в языке отсутствует), например, ^гдго^гого 'шуметь (о ветре)' (в отсутствие соотносимой лексемы *нгдго);11

- для соединения компонентов конгломерата, если эти компоненты сохраняют свои исходные тоны (см. примеры в предыдущем разделе).

В ходе дальнейшей работы, несомненно, будут сформулированы и другие правила.

1.4. Упорядоченное представление словоизменительной и де-ривативной морфологии

Составление полного списка словоизменительных морфем абсолютно необходимо для автоматического анализа текста; без этого невозможно опознание очень многих текстовых словоформ даже в таком преобладающе-изолирующем языке как бамана. Однако, с точки зрения задач парсинга, различие между словоизменительными и регулярными словообразовательными морфемами (такими как суффиксы причастий и номинализации, суффиксы диминутива и огмантатива и др.) оказывается несущественным: регулярные дериваты также, как правило, не даются в словаре, и парсер должен уметь членить их на аффиксы и основы, даже если и не ставить задачи полного морфологического разбора словоформ.

Таким образом, стала очевидной необходимость полного списка аффиксов бамана, с указанием их алломорфов и правил сочетаемости, а также их стандартных глосс на метаязыке. Составление инвентаря аффиксов существенно облегчалось тем, что словоизменение и деривация в бамана изучены достаточно хорошо (можно упомянуть, в первую очередь, работы [Бише81;ге 1987/1994, 187-233, 281-321; Шше81ге 2003]). Оставалось лишь свести аффиксы в таблицы, более формально представить их алломорфы и снабдить каждый аффикс глоссой. Кроме того, была составлена таблица служебных слов и их унифицированных глосс. Отдельная задача - выявление допустимых и запретных сочетаний аффиксов друг с другом и с основами, что позволяет

11 Это правило - впрочем, сформулированное не вполне чётко - имеется и в упомянутых малийских изданиях [Guide 1978; Guide 1993].

353

существенно сократить количество вариантов разбора, предлагаемых парсером. Для непродуктивных аффиксов были составлены максимально полные (в идеале - исчерпывающие) списки образуемых с их помощью дериват. Таблицы служебных морфем и слов, с предлагаемыми стандартными глоссами (см. приложение к данной статье), выносились на обсуждение в международную электронную рассылку, так что предлагаемые глоссы можно теперь считать, применительно к бамана, международным стан-дартом.12

1.5. Представление композитов

Большую сложность для автоматического анализа текста на бамана представляет обилие композитов, образующихся по продуктивным моделям (особенно если последовательно применять правило слитного написания всех тонально-компактных комплексов, о котором шла речь в 1.2) - и, соответственно, не представленных в словаре. Если парсеру ставится задача не только вычленять деривативные и словоизменительные аффиксы, но и пытаться анализировать каждую словоформу как композит (при этом в каждой его компоненте, в свою очередь, также могут выделяться деривативные аффиксы), то количество теоретически допустимых вариантов морфологического разбора словоформы резко возрастает. Чтобы сократить их количество (и, таким образом, повысить качество работы парсера), необходимо найти и сформулировать реально существующие ограничения на словосложение - или попытаться исчислить допустимые в бамана модели словосложения. Попытка такого исчисления была сделана; её результаты не приводятся здесь лишь из соображений экономии места. Однако следует быть готовым к умеренной результативности работы по этой модели - она осложняется, во-первых, возможностью рекурсивности в применении моделей словосложения, во-вторых - уже упоминавшейся анархией в отношении словоделения в большинстве публикуемых текстов на бамана. В целом композиты, по-видимому, будут представлять одну из главных трудностей для автоматического анализа баманского текста.

12 В дискуссии приняли активное участие Жерар Дюместр, Эрвин Эберман, Дмитрий Идиатов, Клаудиа Домбровски.

354

1.6. Поморфемное глоссирование

Как правило, в электронных корпусах различных языков программа автоматического анализа выдаёт, в качестве конечного продукта, лемматизированный текст, т. е. такой текст, где каждая словоформа снабжена пометами, отражающими её словоизменительные характеристики. Это совершенно оправдано для индоевропейских и иных языков с развитым словоизменением и достаточно чёткими словесными границами.13 Бамана же относится к языкам, где (а) словоизменение минимально, причём крайне немногочисленные словоизменительные морфемы - это аффиксы, присоединяемые агглютинативно; (б) очень развито словосложение, при этом провести границу между сложным словом и словосочетанием часто очень непросто. В таких языках лемматизация оказывается малоэффективной.

Поэтому наша рабочая группа приняла решение о двух уровнях глоссирования - лексемном (с представлением словоизменения) и поморфемном, в котором будет систематически отражаться морфемный состав каждого графического слова бамана. Таким образом, во-первых, отчасти снимается проблема разграничения словосочетаний и композитов; во-вторых, пользователь корпуса получает возможность поиска не только по лексемам, но и по морфемам (как служебным, так и знаменательным).

2. Словарное обеспечение

2.1. Основной словарь

Шарль Байоль, автор наиболее популярного бамана-французского словаря, неоднократно переиздававшегося в Мали (последнее издание - [Bailleul 2007]), предоставил электронную версию этого словаря в формате Toolbox в распоряжение рабочей группы по созданию корпуса, что существенно облегчило её задачу. В то же время, довольно быстро стало очевидным, что для использования в качестве программного продукта для электронного корпуса бамана этот словарь нуждается в весьма существен-

13 К сожалению, я не знаком с практикой корпусной лингвистики для языков Дальнего Востока и Юго-Восточной Азии, типа китайского или вьетнамского. Можно ожидать, что принятые для этих языков подходы могут быть схожи с теми, которые мы выработали для бамана.

355

ной доработке. Перечислим те параметры, которые затронула эта доработка.

2.1.1. Орфографическая конверсия. В словаре Ш. Байоля используется авторская версия тоновой нотации: низкий тон обозначается (знаком грависа) над каждой гласной; высокотоновые слоги остаются без тональных диакритик; восходящий тон (который фактически является аллотоном низкой тонемы на односложном сегменте, если за ним следует другая низкотоновая то-нема) маркируется гачеком. Существительные и прилагательные даются в своей «артиклевой» форме (т. е. с повышением тона на конце низкотоновых слов), глаголы - с тоновым контуром позиции перед паузой (без повышения тона на конце низкотоновых слов).

Автоматическая трансформация такой нотации в принятую у нас оказалась возможной только для слов, принадлежащим двум основным тональным классам - «высокотоновому» и «низкотоновому». Автоматизация конверсии для миноритарных тональных классов потребовала бы такого сложного алгоритма, что более простым решением оказалась ручная замена.

2.1.2. Фонетические варианты и отсылочные статьи. Даже в письменной форме «стандартного бамана», на которую, в первую очередь, ориентируется проект по созданию электронного корпуса текстов, сохраняется достаточно высокая вариативность. Так, многие корни могут выступать в виде вариантов Cipe и Ciyen (tifie ~ tiyen 'правда', bífe ~ bíyen 'печень' и т. д.);14 неустойчивой может быть назализация (díla ~ dílan 'изготавливать', búnte ~ búnten 'размалывать в муку' и т. д.) и гласные (fé ~ fá 'глаз', mogo ~ maa 'человек') - при этом одна лексема может иметь достаточно большое количество вариантов. Конечно, в большинстве случаев фонетические варианты - диалектного происхождения,15 однако их встречаемость в текстах на бамана (как устных, так и

14 Следует отметить, что Guide de transcription рекомендует в данном случае формы типа Cipe, однако на практике авторы текстов очень часто используют и альтернативные варианты.

15 В «стандартном бамана» за основу взят диалект столицы Мали, Бамако, однако выходцы из различных районов страны привносят формы из своих диалектов, что облегчается слабостью политики кодификации языка со стороны государственных органов.

356

письменных) требует приведения таких вариантов в словаре. В то же время, учёт в словаре всех диалектных вариантов невозможен: во-первых, очень многие слова будут представлены в таком случае десятками вариантов, что, к тому же, резко увеличит омонимию и затруднит парсинг. Во-вторых, надеяться на полное представление в словаре всех диалектных вариантов всё равно не приходится - хотя бы потому, что диалекты бамана для этого недостаточно полно описаны. В-третьих, в диалектном континууме манден трудно провести границы между говорами бамана, ма-нинка, дьюла и т. д., так что стороннику тотального включения диалектных вариантов в словарь было бы провести границу между языками.

В словаре Байоля последовательно представлены формы трёх локальных диалектов бамана; разумеется, отражён и стандартный бамана. Наша рабочая группа приняла решение сохранять имеющиеся в словаре варианты, но с некоторыми оговорками. В частности, иногда словарь Байоля даёт формы из периферийных диалектов, появление которых в текстах на стандартном бамана маловероятно, при этом такие формы создают омонимию с употребительными словами. Например, среди форм лексемы dña, dílan 'изготавливать' даётся и южная форма bíla. Последняя оказывается омонимичной (в отсутствие тоновой нотации) весьма употребительному глаголу bila 'класть'. Если учесть, что словоформа bila может быть также проанализирована как сочетание основы bi (диалектный вариант глагола bin 'падать') с суффиксом прогрес-сива -la, то количество вариантов анализа каждой встретившейся в тексте словоформы hila превосходит все рамки здравого смысла. В то же время, словарь Байоля не даёт аналогичные диалектные формы для многих других слов, например, bld (стандартный бамана: doló) 'пиво', bldki (стандартный бамана: dúlokíI) 'рубаха' и др. В этой ситуации представляется предпочтительным убрать такие диалектные формы, которые сильно увеличивают «шум» и затрудняют работу парсера.

В словаре Байоля принят принцип подачи каждого фонетического варианта на своём алфавитном месте в виде особой статьи, с отсылкой к основной статье. Впрочем, в реальности тут много непоследовательного: по своему оформлению отсылочные статьи часто мало отличаются от основных и содержат полный набор информации о лексеме; иногда отсылочная статья содержит ин-

357

формацию, в главной статье не представленную. Не так уж редко лексема, имеющая фонетические варианты, оказывается представлена в словаре двумя полноценными статьями, не содержащими эксплицитных отсылок друг к другу.

Надо сказать, что для парсера отсылочные статьи не нужны вовсе, поскольку он может осуществлять поиск по всем фонетическим вариантам, упомянутым в основной статье, без обращения к отсылочной статье. Более того - упоминание фонетического варианта и в основной статье, и в отсылочной лишь осложняет его работу, продуцируя «фиктивную омонимию», поскольку пар-сер учитывает оба упоминания этого варианта (в главной и в отсылочной статьях).

В такой ситуации наиболее простым путём для упорядочивания информации было признано уничтожение всех отсылочных статей (а также дублирующих статей), с обязательным перенесением, в случае необходимости, всей содержательной информации в главную статью.

2.1.3. Подбор французских эквивалентов и проблема полисемии. Выбор переводного эквивалента при глоссировании нередко оказывается весьма непростым делом, особенно если идёт речь о большом корпусе текстов. Изначально рабочая группа приняла технически простое решение: если в статье в словаре Байоля поле ^е (предназначенное для французского эквивалента) встречается более одного раза,16 то программа берёт в качестве глоссы для баманской лексемы содержимое первого по порядку поля ^е. При этом исходили из того, что при описании семантики полисе-мичного глагола лексикограф ставит на первое место, по умолчанию, наиболее прототипическое значение лексемы, из которого легче всего вывести все остальные.

В ходе дальнейшей работы выявились две главные трудности; первая из них (подбор эквивалента) - субъективного характера, вторая (проблема полисемии) - объективного.

16 Toolobox представляет собой базу данных, приближенную по структуре к текстовому процессору; в частности, в пределах одной карточки может быть несколько полей с одинаковым названием. Эта особенность программы даёт большую свободу маневра лексикографу, но сильно затрудняет конвертацию словарного файла в формате Toolbox в форматы других баз данных, более строгих по структуре.

358

2.1.3.1. Подбор эквивалента. В словаре Байоля (как, впрочем, и в очень многих других) граница между толкованием значения и собственно эквивалентом на метаязыке (т. е., в идеале, - слова, которое можно использовать в тексте на языке перевода) оказывается нечёткой, а распределение информации по полям базы данных (которой является программа Toolbox) - довольно произвольным. Очень часто обнаруживается, что в первом по счёту поле \ge оказывается не один эквивалент, а два, например:

\lx no. ra.da \va non ada \va nwána \ps n

\ge cadet, puîné

Там же может оказаться, помимо эквивалента, также и толкование или его часть - при этом вторая часть толкования оказывается нередко перенесённой во второе поле \ge:

\lx npàana \va pàana \ps v

\ge écarter (les jambes \ge les bras ... )

Наконец, предлагаемый автором словаря эквивалент может быть просто слишком длинным и потому неудобным для глоссирования текста:

\lx npóko \va nfúku \ps n

\ge taon noir à la piqûre cuisante

Эти и некоторые другие особенности организации исходного словаря заставили думать о необходимости его тотального просмотра и доработки с точки зрения потребностей парсера. В результате интенсивной работы всей рабочей группы в июле-августе 2010 г. было проведено упорядочивание словаря по перечисленным выше параметрам, а именно: в первое по порядку следования поле \ge внесён один эквивалент, по возможности

359

„17

краткии и представляющий прототипическое значение лексемы, а все остальные данные из этого поля устранены; устранены отсылочные статьи.

2.1.3.2. Проблема полисемии. Если словарь показывает, что идентифицированное в бамана слово полисемично, то встаёт вопрос выбора между его значениями. Какое из значений должна отражать глосса? Всегда ли использовать в качестве глоссы данной лексемы один и тот же эквивалент или, в зависимости от контекста, использовать разные эквиваленты (отражающие разные значения)?

Технически несравненно проще считать одну глоссу «постоянным представителем» одной лексемы, в каком бы из своих значений эта лексема ни выступала в тексте. Исходя из потребностей глоссирования этого типа и проводилась адаптация электронной версии словаря Байоля. Иное решение потребовало бы разработки семантически чувствительного парсера, что практически эквивалентно созданию достаточно совершенной программы машинного перевода с бамана на французский. Конечно, о такой задаче можно и нужно думать, но вряд ли она стоит в ближайшей повестке дня.

Возможно и компромиссное решение (хорошо известное в компьютерно-интернетовской практике): лексема всегда представлена одной и той же глоссой, но пользователю предлагается опция «показать полисемию», при выборе которой во всплывающем окне показываются все зафиксированные в словаре значения лексемы (иначе говоря, содержимое всех полей \ge, имеющихся в словарной карточке). Так, для глагола dûn в качестве основной глоссы фигурирует manger, а при включении опции «показать полисемию» будут продемонстрированы также значения dépenser, rouler qn.

С точки зрения устройства парсера такое решение не представляет особых трудностей, но оно требует значительно более глубокой доработки словаря, чем та, которая была осуществлена

17 В тех случаях, когда подобрать односложные эквиваленты оказалось невозможным, части многосложного эквивалента даются без пробела и разделяются точками, например: \1х _)аМа!е

^е агЬге.Наппоа.ипёиМа.

360

на настоящем этапе, поскольку некоторые лексемы бамана имеют многие десятки значений, а их подача в словаре Байоля пока что очень далека от той, которая необходима для автоматизированного представления полисемии. Доработку словаря в этом направлении имеет смысл планировать на следующем этапе работы (предположительно, в 2011-2012 гг.).

2.1.3.3. Поморфемное членение. В словаре Байоля лексемы-дериваты и композиты обычно даются с указанием членения на морфемы, а в специальном поле, \lt, приводится покомпонентный перевод. Однако при более тщательном рассмотрении оказалось, что

1) морфемное членение приводится далеко не всегда - нередко в слове указывается только одна морфемная граница из двух или трёх (màakoro.ba 'vieillard' - ср. полное членение: màa.koro.ba), и достаточно систематически не приводится морфемное членение в фонетических вариантах лексемы (что, действительно, может считаться избыточным для «бумажной» версии словаря, но совершенно необходимо для парсинга) - например:

\lx màa.dolo

\va màg odolo

\ge Orion;

2) иногда вычленяемые автором словаря знаменательные морфемы не представлены в словаре - таким образом, они оказываются «отсылками в никуда»;

3) предлагаемый в поле \lt покомпонентный перевод плохо соотносится с эквивалентами вычленяемых знаменательных морфем (см. раздел 2.1.3.1.).

Таким образом, мы пришли к необходимости второй систематической переработки словаря, которая и была осуществлена силами нашей группы в сентябре 2010 года. В результате все лексемы в словаре (в каждом из своих фонетических вариантов) теперь представлены с полным морфемным членением, при этом каждая вычлененная корневая морфема снабжена стандартным переводным эквивалентом, совпадающим с тем её эквивалентом, который даётся в основной статье, посвящённой этой морфеме. В качестве эквивалентов деривационных морфем даны стандартные глоссы из списка, который приводится в Таблице 3 в Приложении.

3б1

2.2. Дополнительные словари

В словаре Ш. Байоля представлены, за единичными исключениями,18 только нарицательные существительные языка бамана. При этом очевидно, что в текстах имена собственные составляют достаточно большой процент всех словоупотреблений. На момент начала работы над Корпусом у меня имелись словари географических названий, личных имён и клановых имён бамана, в основном в рукописной форме. А. В. Давыдов осуществил компьютерный набор этих словарей (в формате Toolbox), а в ходе экспедиции в Мали в июне-июле 2010 года протонировал их.19 На данный момент эти словари ни в коей мере не претендуют на исчерпывающий характер (насколько вообще возможно говорить о достижении предела в расширении таких словарей), они будут пополняться в ходе работы по ручному снятию омонимии.

Только предстоит создать словарь аббревиатур (отметим, что большинство аббревиатур, встречающихся в баманских текстах, -французские, а не собственно баманские: SIDA - syndrome de l'immunodéficience acquise, CMDT - Compagnie malienne du développement des textiles, ODIPAC - Office de Développement Intégré pour les Productions Arachidières et Céréalières и т. д.)

Ещё одна категория словоупотреблений, которые являются источником трудностей для парсинга, - неадаптированные французские слова (при том что адаптированные заимствования, по-видимому, следует включать в основной словарь). Для их частичной идентификации предполагается использовать метод поиска нетипичных в языке бамана позиций и сочетаний графем (сочетание двух гласных; согласные в конце слова и т. п.).

2.3. Пополнение словарей в ходе ручной разметки Корпуса

Странно было бы ожидать, что все лексемы из текстов бамана,

включаемых в Корпус (даже если не учитывать неадаптированных иностранных слов), будут содержаться в уже имеющихся

18 Такими как традиционные «порядковые имена» детей у бамана (Nci, Ngàlo ~ Qàlo, Nsan и т. д.) и, окказионально, прозвища некоторых кланов (ndgo.ka appellation des « Tarawele »).

19 Нужно иметь в виду, что имена собственные у народов манден допускают повышенную тоновую вариативность. Впрочем, для автоматического анализа нетонированных текстов это обстоятельство дополнительных трудностей не создаёт.

362

словарях. Поэтому предполагается, что работа над Корпусом станет важнейшим источником пополнения словаря языка бамана. Это пополнение может осуществляться на этапе ручного снятия омонимии в текстах - т. е. на том этапе, который следует за мета-разметкой и автоматическим парсингом. Поскольку ручное снятие омонимии, по крайней мере на начальных этапах работы, предполагается проводить силами российских (или, шире - европейских) студентов и специалистов по языку бамана, т. е. теми, для кого бамана не является родным языком, можно предвидеть, что создание новых словарных статей в словаре может вызвать у них затруднение. По-видимому, имеет смысл предусмотреть такой алгоритм работы: 1) устанавливается, что слово, не опознанное парсером, не является скорее всего именем собственным, аббревиатурой, иностранным словом или результатом опечатки; 2) такое слово вносится в некий временный словарь; 3) слова из временного словаря (в контекстах, в которых они встретились в текстах Корпуса) проверяются с информантами, для которых язык бамана является родным, после чего принимается решение о внесении (или невнесении) их в основной словарь.

3. Структурирование анализируемого текста: Уровни представления текста и глоссирования

Обработанный и глоссированный текст - это то, с чем, в обычном случае, будет иметь дело пользователь Корпуса. Рассмотрим, каким образом предполагается организовать этот текст. Сразу оговоримся, что:

а) Корпус будет открытым для доступа любому пользователю Интернета;

б) пользователь не будет иметь доступа к полным текстам документов, включённым в Корпус (это ограничение связано с охраной авторских прав);

в) не планируется устанавливать ограничений на количество фразовых примеров, которые пользователь получает по запросу (ср. практику подобных ограничений, скажем, в Британском Национальном Корпусе). Доступ к полному списку примеров, обнаруженных в Корпусе, необходим для углублённых исследований.

Всякий текст в Корпусе будет представлен на нескольких уровнях анализа.

363

1) Исходный вид. Текст воспроизводится в том виде, в котором он представлен в источнике - с сохранением орфографии, пунктуации, опечаток и описок. Это необходимо для осуществления контроля: если программа-парсер или разметчик (человек, осуществляющий ручное снятие омонимии) допускает ошибку (например, принимает французское вкрапление за баманское слово, написанное с опечаткой), эта ошибка может быть обнаружена при обращении к исходной форме текста. Кроме того, особенности текста, в том числе опечатки и пунктуация, могут сами по себе являться предметом исследования лингвиста, и было бы неразумным закрыть эту возможность для пользователей Корпуса.

2) Запись в «нормализованной орфографии», с тоновой нотацией. При переходе на этот уровень осуществляется автоматическая конвертация старой орфографии в новую, ручное исправление орфографических ошибок, автоматическая идентификация словоформ, обозначение тонов в соответствии с принятыми принципами. Если в исходном тексте тоны указаны, то осуществляется автоматическое преобразование исходной тоновой нотации в ту, которая принята в Корпусе.

3) Представление текста с вычленением словоизменительных морфем.

4) Представление с полным поморфемным разбиением (отделение словообразовательных морфем, расчленение композитов на составляющие).

5) Представление текста с синтаксической разметкой: обозначение границ именных групп; связывание финитных глаголов с предикативными показателями; связывание глаголов (финитных и нефинитных форм) с управляемыми ими послелогами; обозначение границ клауз и т. д. Этот уровень представления предполагается обеспечить на более поздних этапах проекта.

6) Строка лемматизации: каждой лексеме и каждой словоизменительной морфеме бамана дан в соответствие французский эквивалент.

7) Строка глоссирования: каждой морфеме бамана (как словоизменительной, так и словообразовательной) дан в соответствие французский эквивалент.

8) Литературный перевод на французский.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Примечание: 1) В представлении пользователю уровни со 2 до 5 могут быть, по-видимому, объединены без ущерба для со-

364

держания. 2) Литературный перевод текста на французский может быть добавлен только вручную.

Корпус бамана планируется сделать неоднородным по степени анализа. Наименьшую его долю будут составлять тексты со снятой вручную омонимией и с проставленными тоновыми артиклями (как уже отмечалось, расстановка артиклей должна производиться теми, для кого язык бамана является родным, или, во всяком случае, с участием таких информантов). Небольшим будет также подкорпус с литературным переводом на французский. Следующий, более широкий круг, будет являть собой подкорпус со снятой вручную омонимией. Наконец, все остальные тексты в Корпусе будут только автоматически обработаны парсером; даже при сохранении неснятой омонимии такие тексты могут дать пользователю Корпуса много полезной информации.

Соответственно, пользователь сможет осуществлять поиск только по каким-то из этих подкорпусов или по всему корпусу в целом - в зависимости от того, нужно ли ему максимально возможное количество примеров (какое-то количество которых при этом может оказаться неправильным) или он предпочитает получить меньшее количество более надёжных примеров (без «шума»).

4. Некоторые перспективы проекта «Корпус текстов бамана»

В июне-июле 2010 мы с А. В. Давыдовым совершили поездку в Гвинею и Мали, главной целью которой был сбор материалов для Корпуса, а также налаживание контактов с лингвистами (и другими заинтересованными кругами) этих стран, которые могли бы быть полезными в ходе работы над проектом. Попытаюсь обобщить впечатления от этой поездки.

4.1. Мали

Реакция лингвистов была позитивной; идею создания Корпуса поддержали все наши собеседники. Особенно заинтересовала их перспектива использовать результаты корпусного проекта для упорядочивания орфографии языка бамана и, в перспективе, для создания программы автоматической проверки орфографии. Другое дело, что на нынешнем этапе участие малийцев в работе над проектом может быть лишь весьма ограниченным - в частности, требуется их помощь в получении электронных версий книг и

365

газет, публикуемых на бамана. В дальнейшем, когда удастся добиться некоего минимального уровня качества работы парсера и приступить к созданию полноценного корпуса текстов, они могут быть привлечены к снятию омонимии. Очень желательной была бы помощь малийцев в транскрибировании аудиозаписей - это позволило бы создать подкорпус устной речи бамана.

Очевидно, что для налаживания сотрудничества в этой области потребуются дополнительные финансовые ресурсы, превышающие рамки исследовательского гранта РФФИ.

4.2. Гвинея

В Конакри, столице страны, и в Канкане, административном центре населённой манинка области Верхняя Гвинея, мы провели серию встреч с гвинейскими лингвистами, а также с активистами культурно-образовательного движения н'ко. В частности, мы присутствовали на специальном заседании Йко4 ОйпЪи4 'Академии н'ко', по своим функциям сходной с Французской Академией. Члены Академии занимаются регламентацией орфографии н' ко, а также проводят большую лексикографическую работу: пополняют одноязычный словарь манинка (первое издание которого насчитывает около 32 500 словарных статей), готовят к изданию н' ко-французский словарь; они переводят на н' ко законодательные тексты Гвинейской Республики и т. д. - причём вся эта работа проводится без какого бы то ни было финансирования со стороны государственных органов или международных организаций.

Наш рассказ о проекте Корпуса вызвал у членов Академии большой энтузиазм; они выразили свою готовность к сотрудничеству. Но в данном случае речь идёт не просто о работе с текстами на другой графической основе, но и с другим языком: языки манинка и бамана, хотя и близки друг к другу, различаются всё же достаточно сильно для того, чтобы парсер и словарь бама-на можно было применять к текстам на манинка (тем более если говорить о работе с текстами на «литературном н'ко», который отличается от письменного «стандартного бамана» ещё больше, чем разговорные варианты манинка и бамана). При этом, несомненно, наработки по баманскому корпусу сильно облегчат процесс создания корпуса манинка.

366

Если всё же иметь в виду перспективу создания корпуса текстов на манинка, то необходимо иметь в виду препятствия, которые имеются на этом направлении. На настоящий момент можно, в частности, упомянуть (помимо, само собой разумеется, проблемы получения финансирования) следующие трудности:

- плохая обеспеченность Конакри (и, тем более, других гвинейских городов) электроэнергией, что существенно затрудняет работу с компьютером;

- отсутствие манинка-французского словаря (аналогичного бамана-французскому словарю Шарля Байоля); это означает, что такой словарь надо создавать заново.

5. Заключение

В целом можно отметить, что работа над электронным корпусом текстов бамана пока что идёт по оптимистическому сценарию:

- к моменту написания данной статьи практически готова первая рабочая версия парсера и необходимый для её функционирования словарь;

- ясны конкретные задачи по совершенствованию этих инструментов, стоящие перед рабочей группой;

- имеется достаточно большое количество текстов в электронном виде, готовых для введения в Корпус;

- работа над Корпусом встречает понимание и поддержку коллег из разных стран, что открывает хорошие перспективы для международного сотрудничества в данной области.

Литература

Выдрин В. Ф. На пути к электронному корпусу языка бамана: обозначение тонов // Труды международной конференции «Корпусная лингвистика - 2008». СПб., 2008а. С. 122-134. Выдрин В. Ф. Электронные корпуса африканских языков: завтра или послезавтра? // А. Ю. Желтов (ред.). Петербургская африканистика. Памяти Андрея Алексеевича Жукова. СПб., 2008б, C. 29-39. Давыдов А. В. Электронный корпус языка бамана: Комплектование и

принцип метатекстовой разметки // Настоящий сборник. Bailleul Ch. Cours pratique de bambara. Bamako, Editions Donniya, 2000. Bailleul Ch. Dictionnaire Bambara-Français. 3e édition corrigée. Bamako, 2007.

367

B. O. BHAPHH

Creissels D. Le malinké de Kita. Köln, 2009.

Davydov A. Towards The Manding Corpus: Texts Selection Principles and Metatext Markup. Eds. Guy De Pauw, H. J. Groenewald, and GillesMaurice de Schryver. Proceedings of the Second Workshop on African Language Technology (AfLaT 2010). Valletta, Malta: European Language Resources Association (ELRA), 2010, P. 59-62. http://www.lrec-conf.org/proceedings/lrec2010/workshops/W5.pdf

Dumestre G. Le bambara du Mali: Essai de description linguistique. Thèse de Doctorat d'Etat. INALCO. Paris, 1987. 2e édition : Paris : Les Documents de Linguistique Africaine, 1994, Tomes 1, 2.

Dumestre G. Grammaire fondamentale du bambara. Paris, 2003.

Guide de transcription et de lecture du Bambara. Bamako, 1979.

Guide de transcription et de lecture du Bambara. 2e édition, revisé par Demba Konare, Moussa Diaby, Soumana Kane. Bamako, 1993.

Vydrin V. Glossed electronic corpora of Mande languages: A perspective that we cannot avoid // Mande languages and linguistics. 2nd International Conference, St. Petersburg (Russia), September 15-17, 2008. Abstracts and Papers. V.Vydrin (ed.). St. Petersburg, 2008, P. 15-22.

368

Приложение. Стандартные глоссы для аффиксов и служебных слов бамана

Таблица 2. Словоизменение

Аффикс Алломорфия Глосса Частеречная сочетаемость Значение

-1а/-па -па после носового гласного, -1а в остальных случаях РЯОС V суффикс прогрессива (в сочетании с рт Ьё(утвердительная конструкция), Ы(отрицательная конструкция))

-га/ -1а/ -па -па если предшествующий слог содержит назальный звук; -1а если предшествующий слог неносовой и содержит г, 1; -га во всех остальных случаях яту-шта V (ул) показатель имперфектива для интранзи-тивных глаголов

-цг РЬ п, асу, сИт, ргп показатель множественного числа (присоединяется к последнему слову ИГ)

проявляется как даунстеп последующего высокотонового слова АИТ п, асу артикль (присоединяется к последнему слову ИГ)

Таблица 3. Словообразование

Аффикс Алломорфия Глосса Частеречная сочетаемость Часть речи деривата Значение

Суффиксы

-Ьа AUGM n, adj, ptcp = исходной аугментатив

-Ьаа/ -baga варианты -Ьаа и -baga в свободном варьировании AG.OCC V n, (adj) имя окказионального деятеля

-bali PTCP.PRIV V ptcp привативное причастие

-ka GENT n n суффикс имени жителя какого-л. места или выходца из этого места («ген-тильный»)

-1а/-па -па после носового гласного, -1а в остальных случаях AG.PRM V n суффикс имени деятеля

-1а/-па -па после носового гласного, -1а в остальных случаях LOC n n суффикс имени места

-1а/-па -па после носового гласного (факультативно - и после слога «носовой согласный + неносовой гласный»), -1а в остальных случаях PRICE num n суффикс имени стоимости («количество товара стоимостью в X»)

Аффикс Алломорфия Глосса Частеречная сочетаемость Часть речи деривата Значение

-1а/-па распределение между алломорфами отчасти факультативное, отчасти лексикализованное MNT1 V, п, рр п суффикс имени ментальной деятельности или её результата

-lata/ -nata распределение между алломорфами отчасти факультативное, отчасти лексикализованное; отличия от MNT1 минимальны MNT2 V, п, рр п суффикс имени ментальной деятельности или её результата

-lama/ -пата -пата после носового гласного, -lama в остальных случаях STAT п adj суффикс отыменных прилагательных со значением «под видом X», «в качестве X», «сделанный из X», «будучи X»

-1ап/ -пап -пап после носового гласного, -Inn в остальных случаях; -ran - редкий лексически распределённый вариант -Inn INSTR V п суффикс имени инструмента

-leo/ -пеп -пеп после носового гласного, -1еп в остальных случаях RES V ptcp суффикс результативного причастия

Аффикс Алломорфия Глосса Частеречная сочетаемость Часть речи деривата Значение

-1V-ni -ш после носового гласного, -Ив остальных случаях NMLZ V n суффикс отглагольного имени

-та СОМ п adj, (n) суффикс отыменного прилагательного с комитативным/орнативным значением

-та RECP.PRN п n суффикс взаимности отношений

-та DIR V V непродуктивный суффикс, сочетающийся главным образом с основами глаголов направленного действия, часто не меняя исходного значения

-man ADJ vq adj адьективизатор квалитативных глаголов

-пап ORD num adj суффикс порядковых числительных

-nin DIM n, adj, ptcp = исходной диминутив

-ntan PRIV n adj, (n) суффикс отыменного привативного прилагательного

-nci AG.EX n, adj, v n суффикс «имени неумеренного деятеля»

Аффикс Алломорфия Глосса Частеречная сочетаемость Часть речи деривата Значение

-Л^яоп/ -ршап/ -р \vaan варианты - разного диалектного происхождения ШЗСР V, п п суффиксоид «имени партнёра по деятельности»

-йэ РТСР.РОТ V р1ср суффикс причастия с потенциальным значением

РТСР.РЯОС V р1ср суффикс прогрессивно-проспективного причастия (прогрессив - от непредельных глаголов, проспектив -от предельных)

РТСР.БТ п п, а^ имя субъекта состояния (чаще - неблагоприятного)

-уа БЕОи УЯ П, V суффикс, образующий динамические глаголы и имена качеств от квалитативных глаголов

-уа АВЗТИ п, асу, (у) П, (V) суффикс имени статуса или состояния (от имён, обозначающих лиц и некоторых животных), имени качества (от производных прилагательных); (редк.) суффикс глаголов с инхоатив-ным значением

Аффикс Алломорфия Глосса Частеречная сочетаемость Часть речи деривата Значение

Глагольные префиксы

la-/na- па- факультативно после носового гласного, 1а- в остальных случаях CAUS V V каузативный префикс (часто - с лек-сикализованным нерегулярным значением)

тй- ~ алломорф man- только в SUPER V V префикс с затемнённой семантикой

тап- единичных глаголах (этимологически, очевидно, суперэс-сивной)

га-/г5- не в стандартном бамана; фонетические варианты -разного диалектного происхождения IN V V префикс с затемнённой семантикой (этимологически, очевидно, инэссив-ной)

sd- EN V V непродуктивный префикс (3 глагола перемещения), восходит к слову son 'сердце'

Комментарии:

В графе «Частеречная принадлежность деривата» в скобках указывается второстепенное образование по конверсии (более или менее лексикализованное).

Таблица 4. Служебные слова

Форма Глосса Часть речи Позиция Значение Алломорфия

а ЗБС регв любая ИГ неэмфатическое местоимение 3 лица ед. числа

а 2РЬ регв любая ИГ неэмфатическое местоимение 2 лица мн. числа

апк* 1РЬ.ЕМРН регв любая ИГ эмфатическое местоимение 1 лица мн. числа

ап 1РЬ регв любая ИГ неэмфатическое местоимение 1 лица мн. числа

аш 2РЬ.ЕМРН регв любая ИГ эмфатическое местоимение 2 лица ед. числа

Ье ВЕ сор после ИГ подлежащего копула неглагольного локативного предложения

Ье ~ Ы~ Ьё 1РЕУ.АЕЕ рт после ИГ подлежащего показатель утвердительного имперфектива диалектные варианты

Ьёка РШС.АЕЕ рт после ИГ подлежащего показатель утвердительного прогрессива

Ьека ~ bëga ~ PFV.TR.AFF рт после ИГ подлежащего показатель перфектива при переходном глаголе редкая диалектная форма, синоним уё

bйga

Форма Глосса Часть речи Позиция Значение Алломорфия

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Ьепа ~ Ыпа ~ Ьёпа ГОТ.АРР рт после ИГ подлежащего показатель утвердительного будущего

Ы1еп ~ Ы1е~ Ьё1еп СОЖ>.№:С рт после ИГ подлежащего; иногда сопровождается предикативным показателем уёшш та показатель отрицательного условного наклонения архаичный и редкий показатель

ёё БОС рй после фокализуемого слова показатель контрастив-ного фокуса

йдп РРЕБ сор после ИГ подлежащего копула неглагольного презентативного предложения

ййп ТОР-ОЧТЫ рй следует за ИГ субъекта или иной ИГ, вынесенной в крайне левую позицию показатель контрастив-ной топикализации подлежащего

е1 28С.ЕМРН регв любая ИГ эмфатическое местоимение 2 лица ед. числа

/ 2БС регв любая ИГ неэмфатическое местоимение 2 лица ед. числа

/ ЯЕ^Ь ргоп любая несубъектная ИГ; субъектная ИГ придаточного предложения рефлексивное местоимение

Форма Глосса Часть речи Позиция Значение Алломорфия

in DEF dtm стоит после ИГ «новый определённый артикль»

ká INF pm перед ИГ прямого дополнения; в её отсутствие - перед глаголом показатель инфинитива

ká ОРТ pm после ИГ подлежащего показатель оптатива

ká POSS conj после ИГ посессора посессивная связка

ká QUAL.AFF pm после ИГ подлежащего показатель утвердительного квалитативного предложения

káná ~ káná PROH pm после ИГ подлежащего показатель прохибитива

kdni ТОР prt после топикализуемой ИГ показатель контрастив-ного топика

та ~ máa DES pm после ИГ подлежащего, представленной словом Ala 'Бог'; глагол присоединяет суффикс -га/-1а/-па PFV.INTR предикативный показатель в предложении, обозначающем благопо-желание

má PFV.NEG pm после ИГ подлежащего показатель отрицательного перфектива

Форма Глосса Часть речи Позиция Значение Алломорфия

тап (ЗиАЬ.МЕС рт после ИГ подлежащего показатель отрицательного квалитативного предложения

тапа ~ таа СОЖ>.АРР рт после ИГ подлежащего показатель утвердительного кондиционалиса таа - форма в северных диалектах

тш ИБЬ сИт, ргоп после релятивизируемой ИГ в левосторонней придаточной клаузе; в позиции ИГ в правосторонней придаточной клаузе маркер релятивизации

па ~ па СБИТ рт после ИГ подлежащего показатель уверенного будущего

П1П БЕМ сИт, ргоп вместо, перед или после ИГ указательное местоимение

.рояоп РЕСР ргоп любая несубъектная ИГ взаимное местоимение

о1 БКТИ сощ между двумя ИГ показатель дистрибутивной связи

д ANAPH ргоп замещает ИГ анафорическое местоимение

дМ ANAPH.PL ргоп замещает ИГ плюральное анафорическое местоимение; эмфатическое местоимение 3 л. мн. ч.

Форма Глосса Часть речи Позиция Значение Алломорфия

и СОР.ОТХЗ сор после ИГ подлежащего копула неглагольного отрицательного локативного предложения

и ~ и ~ гё 1РР\'.ЫЕС рт после ИГ подлежащего показатель отрицательного имперфектива диалектные варианты

Ьека РШвМС рт после ИГ подлежащего показатель отрицательного прогрессива

Сека ~ t£ga PFV.TR.NEG рт после ИГ подлежащего показатель отрицательного перфектива при переходном глаголе редкая диалектная форма, синоним уё

¡¿па ~ Сёпа ~ С/па штжс рт после ИГ подлежащего показатель отрицательного будущего

1йп РБТ рй чаще всего перед рт или сор показатель ретроспективного сдвига

ша рй в конце предложения частица общего вопроса

уё PFV.TR рт после ИГ подлежащего показатель утвердительного переходного перфектива

уё ЕС) и сор после ИГ подлежащего копула в эквативном неглагольном предложении

Форма Глосса Часть речи Позиция Значение Алломорфия

уе 1МР рт следует за ИГ подлежащего, выраженного местоимением 2 мн. показатель императива при подлежащем во 2 мн.

уё ка рт после ИГ подлежащего показатель недавнего прошлого малоупотребительный

i Надоели баннеры? Вы всегда можете отключить рекламу.