Научная статья на тему 'Электронный корпус языка бамана: комплектование и принципы метатекстовой разметки'

Электронный корпус языка бамана: комплектование и принципы метатекстовой разметки Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
98
13
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЯЗЫКИ МАНДЕН / ЯЗЫК БАМАНА / КОРПУСНАЯ ЛИНГВИСТИКА / ТИПОЛОГИЯ ТЕКСТОВ / MANDING LANGUAGES / BAMANA LANGUAGE / LANGUAGE CORPUS / TYPOLOGY OF TEXTS

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Давыдов Артем Витальевич

В статье обсуждаются критерии, используемые для отбора текстов при создании электронного глоссированного корпуса языка бамана. При создании корпуса младописьменного языка критерии неизбежно отличаются от тех, которые используются при создании корпусов языков с долгой письменной традицией. Даётся описание структуры метатекстовой разметки в этом корпусе. Вся метаинформация в корпусе делится на два блока: данные об источниках текстов и данные о текстах. Для характеристики источников и текстов используются десятки параметров, имеющих разный иерархический статус. Особое внимание уделяется вопросам письменности и орфографии.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A Bamana electronic corpus and descriptive metadata

The paper describes the criteria used when selecting texts for an electronic corpus of Bamana. Criteria for building a corpus of a language that has only recently become a written language are necessarily different from those for languages with a long tradition of writing. The structure of the descriptive metadata is discussed. The descriptive metadata are subdivided into two blocks, one for text sources, and the other for the texts themselves. Dozens of parameters, arranged into hierarchies, are used to characterize each source and text. Special attention is paid to the issue of the orthography.

Текст научной работы на тему «Электронный корпус языка бамана: комплектование и принципы метатекстовой разметки»

ЭЛЕКТРОННЫЙ КОРПУС ЯЗЫКА БАМАНА: КОМПЛЕКТОВАНИЕ И ПРИНЦИПЫ МЕТАТЕКСТОВОЙ

РАЗМЕТКИ1

Введение

Настоящая статья является результатом обсуждений, которые в марте-апреле 2010 г. велись рабочей группой по созданию электронного корпуса языка бамана2. Некоторые предварительные результаты уже были опубликованы в [Davydov 2010].

1. Комлектование корпуса и критерии отбора текстов

Известно, что лингвистический корпус, будучи ограниченным по объёму, обязан адекватно отражать явления, характерные для языка в целом, т. е. быть представительным. Для того, чтобы быть представительным, корпус должен иметь не только достаточный объём, но и специфическую структуру, которая задаётся при помощи критериев отбора текстового материала. В настоящей статье рассматриваются критерии, используемые нашей рабочей группой для отбора текстов на языке бамана.

Дж. Синклер [Sinclair 2005] выделяет два теоретически возможных типа критериев отбора текстов для лингвистического корпуса. Внутренние (internal) критерии опираются непосредственно на материал языка, в то время как внешние (external) критерии учитывают коммуникативные функции текста. Синклер

1 Данное исследование выполнено в рамках проекта «Разработка модели электронного корпуса текстов языков манден (манинка, бамана)», поддержанного грантом РФФИ № 10-06-00219-а.

2 О составе группы см. сс.9-11 в статье В. Ф. Выдрина, опубликованной в настоящем сборнике.

подчёркивает, что при наполнении корпуса необходимо учитывать только внешние критерии - иными словами, тексты для корпуса следует отбирать, не обращая внимания на язык, который они содержат. Скажем, создавая корпус языка X, мы не вправе были бы отвергнуть какой-либо текст только на основании того, что в нём есть многочисленные грамматические ошибки, неадаптированные заимствования и т. п. С другой стороны, если нам известно, что этот же текст порождён человеком, для которого язык X не является родным, мы можем отказаться от него на основании внешнего критерия, согласно которому только тексты, созданные носителем, могут быть включены в корпус.

При всей рациональности этой методологической установки, на практике она едва ли полностью выполнима. Она предполагает, что лингвисты располагают исчерпывающей метаинфор-мацией о каждом из текстов, который они включают в корпус, что, конечно, далеко не всегда соответствует действительности. В реальности именно внутренние, собственно языковые, критерии зачастую и являются единственным средством выяснить внешние обстоятельства создания текста.

Кроме того, как будет показано ниже, на начальном этапе создания корпуса использование внутренних критериев отбора текстов оказывается весьма целесообразным.

Проиллюстрируем это на примере устных текстов. Малий-ское общество не одноязычно. Бамана-французское двуязычие чрезвычайно распространено среди горожан и, как следствие, неадаптированные заимствования из французского языка в ба-манской речи и переключение кодов отнюдь не являются редкостью. Для того, чтобы включить подобные тексты в корпус, нам понадобились бы инструменты для автоматической обработки не только баманского, но и французского языкового материала, что существенно усложнило бы задачу. В то же время, существует достаточное количество источников, которые отражают устную форму языка бамана в достаточно «чистой»

382

форме (например, полевые записи лингвистов и этнологов, собранные в деревнях). На наш взгляд, именно таким текстам и нужно отдавать предпочтение на первом этапе разработки корпуса.

Что касается письменных текстов, и особенно художественной литературы, то язык, который они содержат, зачастую крайне неестественен. Например, роман малийского писателя Самбы Ньаре Kanuya wale 'История любви' был сначала написан автором по-французски и лишь затем переведён им на бамана (см. об этом более подробно в [Derive 2006]). По словам самого автора, он поступил так по той причине, что не мог выразить свои мысли сразу на родном языке. Этим объясняется тот факт, что роман содержит синтаксические конструкции, словоупотребления и даже морфологические черты, нехарактерные для разговорного бамана. Отдельные его места практически невозможно понять, не имея под рукой исходного французского текста.

По-видимому, таким способом могли быть созданы бамана-язычные произведения и каких-то других малийских писателей, но вряд ли приходится надеяться на то, что все авторы выступят с публичными признаниями по этому поводу, подобно Самбе Ньаре. Поскольку достоверной информации о каждом произведении нет, создателям корпуса письменных текстов на бамана не остаётся ничего другого, как использовать внутриязыковые критерии, чтобы отсеять переводные тексты или снабдить их соответствующими пометами.

Из этой проблемы вытекает естественный вопрос: могут ли вообще быть включены в корпус тексты, переведённые с других языков? В крупные корпуса европейских языков переводные тексты, как правило, не включаются (например, их нет в Национальном корпусе русского языка). Однако, по нескольким причинам, мы приняли решение включать в наш корпус переводные тексты. Во-первых, они составляют существенный процент всех публикаций на языке бамана, причём качество некоторых переводов (например, Библии) очень высокое. Во-вторых, было бы

383

странно игнорировать тот факт, что по крайней мере часть ба-манаязычной литературы создаётся под сильнейшим влиянием французского языка. С другой стороны, разумеется, пользователю корпуса должно быть позволено исключить переводные тексты из результата поискового запроса. Для этой и многих других целей каждый текст в корпусе снабжается подробной метатек-стовой информацией, структура которой будет рассмотрена в следующем параграфе.

2. Метатекстовая разметка

Для того, чтобы отслеживать процесс наполнения корпуса новым текстовым материалом и оценивать его баланс, мы разработали систему метатекстовой разметки. Она во многом опирается на опыт предшественников, в первую очередь - на рекомендации по типологии текстов EAGLES [Sinclair 1996] и мета-текстовую разметку Национального корпуса русского языка (в том виде, как она описана С. О. Савчук [2005]). В то же время, наша система метатекстовой разметки учитывает специфику функционирования языка бамана.

Вся метаинформация в корпусе делится на два непересекающихся блока: данные об источниках текстов и данные о текстах. Несколько текстов могут восходить к одному и тому же источнику, а какой-либо источник может быть задействован в корпусе не в полном объёме.

2.1. Данные об источниках

Выделяются источники девяти типов. Для каждого из типов предлагается свой набор параметров, по которым должен быть охарактеризован источник. Эти параметры пользователь корпуса сможет использовать при создании поисковых запросов. Кроме того, для каждого типа источников предусмотрено поле, в которое в свободной (но структурированной) форме вносится прочая релевантная информация, не предназначенная, однако, для поиска.

384

Типы источников:

1) Отдельные издания художественной, научно-популярной и учебной литературы. Для них указывается стандартная библиографическая информация: название; место и год издания; издательство, в котором вышла книга; количество страниц.

2) Научные публикации текстов (чаще всего - фольклорных). Указывается: имя собирателя или редактора; название труда, в котором опубликован текст; место и год издания; издательство; количество страниц.

3) Газеты и журналы: название; номер; место и время издания; издательство; количество страниц.

4) Рукописи: название (если его нет, то условное); время и место создания (если они точно не известны, то предполагаемые); количество страниц. В свободной форме (не для поиска) указываются краткие сведения о палеографии: тип материала (бумага, дощечка для письма и т. д.), тип инструмента (шариковая ручка, карандаш, печатная машинка).

5) Полевые записи: имя человека, записавшего текст; время и место записи.

6) Плакаты, постеры: локализация; время и место создания.

7) Теле- и радиопередачи: название; канал вещания; дата трансляции; локализация студии.

8) Видео- и аудио-издания: название; издательство; время и место издания.

9) Электронные источники: ссылка; дата публикации; дата доступа.

2.2. Данные о текстах

Тексты характеризуются по двум десяткам параметров, которые делятся на несколько подгрупп. Одни параметры («основные») будут использоваться для поиска и балансировки корпуса, а другие («дополнительные») - нет, они предоставляют пользователю дополнительную информацию о тексте.

Можно возразить, что введение большого количества параметров для характеристики текстов - неоправданное решение:

385

если корпус мал по объёму или недостаточно сбалансирован, то при создании прицельного запроса, учитывающего сразу несколько параметров, пользователь может получить на выходе лишь очень скромный результат, а то и вовсе не найти никаких текстов, соответствующих всем заданным параметрам. Но, с другой стороны, едва ли какую-либо дополнительную информацию о текстах можно признать лишней. Поэтому само деление параметров на основные и дополнительные носит условный характер. По мере того как корпус будет расширяться, некоторые параметры из дополнительных смогут перейти в основные, и напротив, статус других параметров может быть понижен до уровня дополнительных, если в этом возникнет необходимость.

Кроме того, параметры делятся на закрытые и открытые. Закрытые параметры могут принимать лишь ограниченное количество значений; например, параметр «пол автора или исполнителя» может принимать три значения: «мужской», «женский», «неизвестен». Открытые параметры (например, «имя автора или исполнителя») могут принимать потенциально неограниченное количество значений. Есть также ряд параметров, которые можно назвать условно закрытыми, или расширяемыми; например, при заполнении параметра «родной язык автора или исполнителя» разметчику предлагается выбор из основных языков Республики Мали, но при необходимости этот список может быть пополнен и другими языками.

Всего для метаразметки текстов в корпусе используется пять групп параметров: 1) характеристика автора или исполнителя; 2) формальная характеристика текста; 3) жанровая характеристика текста; 4) тематическая классификация; 5) техническая информация. Рассмотрим все эти параметры более подробно (в скобках после названия параметра указывается его тип: основной / дополнительный, открытый / закрытый).

2.2.1. Характеристика автора или исполнителя:

Имя (основной, открытый). Указывается имя всех авторов текста. Если автор использует псевдоним, его настоящее имя

386

тоже указывается (если оно известно). Отметим, что имя автора косвенно указывает на его этническое и кастовое происхождение, что делает ценность данного параметра весьма высокой даже в том случае, если автор не относится к числу популярных писателей, известных телеведущих и т. п.

Пол (основной, закрытый): мужской, женский или неизвестен.

Год рождения (основной, открытый). Предполагается, что при поиске пользователь сможет задать интересующий его диапазон.

Главные места языковой социализации автора или исполнителя: где он родился, вырос, провёл значительную часть жизни и т. д. Для указания этой информации предполагается создать закрытый (но потенциально расширяемый) список основных диалектных зон манден, включая диаспоры.

Родной язык (основной; закрытый - расширяемый).

Дополнительно могут приводиться сведения из биографии автора, которые способны повлиять на его языковое поведение, а именно (неполный список): его этническое и кастовое происхождение, образовательный уровень, род занятий, с кем (в языковом отношении) состоит в браке, какими языками (помимо бамана) владеет и т. д.

2.2.2. Характеристика текста:

Название. Если название у текста отсутствует, то ему присваивается некое условное название (с соответствующей пометой).

Дата создания. Если точная дата неизвестна, то указывается приблизительная или предположительная (на основании косвенных признаков).

Размер. Указывается в количестве слов; подсчёт производится автоматически.

Оригинальный текст или перевод. Для переводов также указывается язык оригинала. В дальнейшей перспективе переводные тексты могут лечь в основу двуязычного параллельного корпуса (бамана-французского, бамана-арабского...).

387

Ссылка на характеристику источника.

Техническая информация: где текст расположен в источнике (страницы).

Канал передачи (основной, закрытый): устный, письменный, электронный.

Тип письменности (основной, закрытый). Для языка бамана используется несколько систем письма.

1) Письменность на основе латинской графики, используемая в качестве официальной для бамана в республике Мали. Существуют две орфографические нормы этой письменности. Старая существовала до 1987-1990, после чего она сменилась новой, которая действует по сей день (впрочем, старая орфография эпизодически используется и поныне). Графемам е, о, а и д в новой орфографии соответствуют е, д, пу и ng в старой.

Универсальная транскрипция, которая используется для представления всех текстов в корпусе, базируется на новой ма-лийской орфографии, но, в отличие от неё, имеет тоновую нотацию.

Автоматическая конвертация текстов из старой орфографии в новую возможна. При этом возникает затруднение, связанное с тем, что сочетание ng в старой орфографии может обозначать как носовой сонант /ц/, так и преназализованный велярный смычный /и§/ (в новой орфографии эти фонемы обозначаются графемами у и ng, соответственно), а сочетание пу - как палатальный носовой сонант а, так и сочетание носового гласного с последующим палатальным сонантом у. Возникающую из-за этого графическую омонимию (её случаи, впрочем, крайне немногочисленны) приходится снимать вручную.

Подавляющее большинство текстов в корпусе изначально записаны латинской графикой (в старой или новой орфографии).

2) Письменность на основе латинской графики, копирующая французскую орфографию («колониальная»). Часто используется людьми, умеющими читать и писать по-французски, но не знакомыми (или плохо знакомыми) с орфографической систе-

388

мой своего родного языка. В частности, такого рода надписи повсеместно встречаются в Мали на рекламных плакатах, вывесках и т. п. Естественно, ни о какой орфографической норме в таких случаях говорить не приходится. Однако подобные тексты имеют много общих черт, например, использование диграфов ou и gn для обозначения /и/ и /р/, соответственно. В «колониальной орфографии» зачастую игнорируются базовые фонологические противопоставления и используются неожиданные и громоздкие орфографические решения. Приведём в качестве примера рекламный слоган одного из малийских сотовых операторов, который гласит: «Sini yi ta ye». Вот как эту фразу следовало бы записать, пользуясь официальной орфографией:

(1) Sinin y' i ta ye

завтра EQ 2SG собственность pp 'Завтра принадлежит тебе'.

Как видно из примера, в слове sinin 'завтра' игнорируется наличие признака назализованности у второй гласной (в официальной орфографии он обозначается буквой n после гласной). Копула конструкции тождества ye, гласный которой подвергся элизии, и местоимение 2 л. ед. ч. i записаны слитно и не разделены апострофом, как это предписывает орфография. На гласной e послелога ye стоит французский диакритический знак accent aigu - очевидно, для того, чтобы буква e была прочитана как /е/ и не воспринималась как немая графема (в соответствии с правилами французской орфографии). Таким образом, из пяти слов, имеющихся в этой фразе, только запись слова ta 'собственность' соответствует орфографии языка бамана. Разумеется, автоматически конвертировать подобные тексты в официальную орфографию невозможно. С другой стороны, если говорить о выполненных в «колониальной орфографии» слоганах, то их объём вряд ли будет велик, так что конвертация может быть сделана вручную.

389

Существуют, однако, и весьма объёмные источники, использующие «колониальную» графику, - например, рукописи, которые легли в основу публикаций [Бише811ге, Тоиге 1998, 2007].

3) Письмо Нко. Было создано для языка манинка в 40-е годы XX века выдающимся гвинейским учёным-просветителем Су-лейманом Канте и получило широкое распространение в значительной части зоны расселения народов манден, особенно среди гвинейских манинка. Популярность письма Нко в Мали возрастает. Малийскими активистами Нко издаётся большое количество книг и несколько периодических изданий.

Для последователей письменной традиции Нко характерны пан-мандингские взгляды, которые выражаются, в частности, в том, что они признают все языки манден (манинка, бамана, ман-динка, дьюла и т. д.) диалектами одного языка, который они называют «Нко» (от п ко 'я говорю'). Наиболее радикальные сторонники идеологии Нко склонны полностью отрицать любые различия между языками манден, хотя это с очевидностью противоречит языковым фактам.

Как выяснилось в ходе поездки в Гвинею и в Мали в июне-июле 2010 г., малийские последователи Нко пользуются в своих публикациях исключительно литературной нормой, основанной на диалекте манинка г. Канкана (манинка-мори), несмотря на то, что сами являются по большей части носителями языка бамана. Никаких публикаций на языке бамана в графике Нко, по-видимому, пока что нет.

Тем не менее, проблема конвертации Нко в латинскую графику всё равно существует. Во-первых, публикации на бамана в графике Нко могут появиться. Во-вторых, предполагается, что на определённом этапе будет создан и корпус текстов манинка, а большая часть публикаций на этом языке создана именно в графике Нко. Скорее всего, серьёзных технических затруднений конвертация Нко в латинскую графику не вызовет, т. к. графика Нко очень регулярна и отражает все важнейшие фонологические

390

противопоставления языка манинка, включая лексические тоны и тоновый артикль.

4) Аджами - письменность на основе арабской графики. На языке бамана большого развития не получила, хотя широко используется для близкородственного языка мандинка. Однако отдельные баманские тексты на аджами существуют - и они, безусловно, должны быть включены в корпус. Как и «колониальная» графика, аджами существует во множестве локальных и индивидуальных вариантов.

2.2.3. Жанровая характеристика. Параметры «жанр», «тематика текста», «предметная область» и т. д. используются для метаразметки в большинстве крупных корпусов европейских языков. Для корпуса языка бамана мы разработали достаточно краткий список жанров по двум причинам: во-первых, разнообразие баманских текстов, по сравнению с европейскими языками, невелико; во-вторых, сравнительно небольшой корпус (несколько миллионов словоупотреблений), который мы разрабатываем, не потребует очень дробной классификации.

Предлагаемый ниже список не претендует на полноту и будет дополняться по мере необходимости. В то же время, он учитывает, какие тексты на языке бамана реально доступны на сегодняшний день.

Фольклор: сказки, анекдоты, эпос, пословицы и поговорки, загадки, тексты традиционных песен, традиционный театр.

Художественная литература: проза, киносценарии, пьесы, поэзия, тексты популярных песен, документальная литература, сакральные тексты, комиксы.

Образование: формальное образование, ликвидация неграмотности, научно-популярная литература.

Академическая литература: исследования, справочная литература.

Личная коммуникация: личные записи, переписка, диалоги.

Информация: реклама, новости, газетные и журнальные статьи, интервью, нарративы, публичные выступления.

391

Документация: инструкции, нормативные документы.

2.2.4. Тематическая классификация. Предлагаемый ниже список также не претендует на полноту и будет дополняться по мере необходимости. Он был составлен с учётом того, публикации на какие темы действительно имеются в наличии.

Список тем: история, языкознание, естественные науки, технологии, христианство, ислам, традиционные религии, право, философия, антропология, военное дело, политика, общество, экономика и финансы, сельское хозяйство, спорт, транспорт, путешествия, частная жизнь, здоровье и медицина.

2.2.5. Техническая информация.

Наконец, для того, чтобы отслеживать процесс наполнения корпуса, каждый текст снабжается следующими сведениями: имя участника проекта, который добавил текст в корпус; дата добавления текста в корпус.

Литература

Выдрин В. Ф. Электронный глоссированный корпус текстов

языка бамана: первый этап // Настоящий сборник. Савчук С. О. Метатекстовая разметка в Национальном корпусе русского языка: базовые принципы и основные функции // Национальный корпус русского языка: 2003-2005. Результаты и перспективы. М., 2005, C. 62-88. Davydov A. Towards the Manding corpus: Texts selection principles and metatext markup // Eds. Guy De Pauw, H. J. Groenewald, and G.-M. de Schryver. Proceedings of the Second Workshop on African Language Technology (AfLaT 2010). Valletta, Malta, 2010, P. 59-62.

Derive J. Le parcours sinueux d'un roman bambara: Kanuya Wale (un acte d'amour) de Samba Niaré // X. Garnier and A. Ricard, éds. L'Effet roman. Arrivée du roman dans les langues d'Afrique. Paris: CENEL/Harmattan, 2006, P. 265-285. Dumestre G., Touré S. Chroniques amoureuses au Mali. Paris: Karthala, 1998.

392

Dumestre G., Touré S. Maléfices et manigances. Chroniques maliennes. Paris, 2007. Sinclair J. Corpus and text - basic principles // M. Wynne (ed.). Developing linguistic corpora: a guide to good practice. Oxford: Oxbow Books, 2005, P. 1-16.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

http://ahds.ac.uk/linguistic-corpora/ [Accessed 26.07.2010]. Sinclair J. Preliminary recommendations on text typology. EAGLES Document EAG-TCWG-TTYP/P, 1996.

http://www.ilc.cnr.it/EAGLES96/texttyp/texttyp.html [Accessed 26.07.2010].

393

i Надоели баннеры? Вы всегда можете отключить рекламу.