УДК 81’33+821.584.6 ББК 83.3(0)9+81.23
В.В. Куканова, Е.В. Бембеев, Д.Н. Музраева
К ВОПРОСУ О КОДИРОВКЕ UNICODE ГРАФИЧЕСКОЙ СИСТЕМЫ «ТОДО БИЧИГ» И СОЗДАНИИ БАЗЫ ДАННЫХ ТЕКСТОВ НА СТАРОКАЛМЫЦКОМ ЯЗЫКЕ
* Исследование выполнено при финансовой поддержке гранта РГНФ «Национальный корпус калмыцкого языка» № 12-04-12047 (2012-2014).
Аннотация. В статье рассматриваются вопросы UNICODE-кодировки символов графической системы «тодо бичиг» («ясного письма»), описываются правила транслитерации письменных источников, база данных текстов на старокалмыцком языке.
Ключевые слова: «тодо бичиг» («ясное письмо»), ойратский язык, транслитерация, база данных, каталогизация, рукописи, печатные издания.
V.V. Kukanova, E.V. Bembeev, D. N. Muzraeva
ON THE QUESTION OF UNICODE ENCODING OF “TODO SCRIPT” GRAPHICS SYSTEM AND CREATING OF A DATABASE OF TEXTS ON OLD-KALMYK LANGUAGE
Abstract. The article examines the character of UNICODE encoding of the “Todo script” graphics system, describes the rules of transliteration of written sources, as well as the database of texts on the Old-Kalmyk language.
Keywords: “Todo script”, Oirat language, transliteration, database, cataloging, manuscripts, blockprints.
В последние десятилетия в филологической науке предпринимаются попытки создания синхронных и диахронных информационно-аналитических систем, на основе которых проводится описание и исследование духовного письменного наследия. Такие системы стали возможными только с применением компьютерных технологий. Представление, или публикация, созданных в Интернет ресурсов является необходимым шагом в демонстрации взаимосвязей той или иной культуры с мировым пространством. В результате письменные источники получают большую степень популяризации и ротации в научных кругах. Если говорить об оцифровке исторических документов, рукописей, памятников и сочинений религиозного характера, то возможности их использования выходят за пределы науки: они становятся доступными для более широкой аудитории.
«Ранние» тексты на старокалмыцком языке1 пока еще не были объектом специального комплексного изучения с привлечением компьютерных технологий. Традиционно письменные источники по старокалмыцкому языку, куда можно отнести религиозные сочинения, переводную литературу, литературные памятники, деловые документы и т. д., изучались с дескриптивной точки зрения. Однако на сегодняшний день число памятников на старокалмыцком языке, введенных в научный оборот, значительно превы-
шает количество тех, которые еще не известны научному сообществу и, следовательно, не изучены с лингвистической, текстологической и иной точек зрения. Следует заметить, что, во-первых, такие тексты настоятельно нуждаются в оцифровке, поскольку срок их хранения не большой, во-вторых, «значительный по объему и ценности пласт письменного наследия калмыков и их исторических предков - ойратов - безвозвратно утрачен в период войн, в условиях политики атеизации страны и борьбы с религиозными пережитками в ХХ в., в годы депортации калмыков» [3, с. 9], а это значит, что памятников на старокалмыцком языке немного и то, что сейчас мы можем обнаружить, это лишь крупицы из письменного наследия калмыцкого этноса. Это еще раз подчеркивает актуальность работы по оцифровке и создания базы данных письменного наследия калмыцкого этноса. Такая работа является непременным условием дальнейшего расширения и углубления наших знаний об истории калмыцкого языка.
Создание некоего Сводного каталога и базы данных письменных источников на «тодо бичиг» является важным шагом к их изучению. Работа по оцифровке безусловно ведется2, но следует признать, что в ней отсутствуют единые методики по сохранению оцифрованного материала, но каждый исследователь, каждый институт идут своим собственным путем в решении этого вопроса. К сожалению, отсутствие общих принципов в сохранении письменного наследия ведет к появлению разных типов каталогов, различных систем транслитерирования текстов на «тодо бичиг». Это в конечном итоге приводит к тому, что результаты этой трудоемкой работы иногда и невозможно объединить в одно целое, например, в одну универсальную базу данных, с которой могли бы работать не только ученые, но и все желающие.
Серьезным недостатком традиционного типа описаний ойратских текстов и документов является также неполное или ограниченное описание письменных источников, раскрытие содержания документа, что принципиально не изменяет способа доступа к информации. По-прежнему исследователь в поисках нужной информации должен просматривать значительное количество источников, последовательно «листая» их.
В связи с вышесказанным важнейшей задачей сегодня является решение проблемы поиска информации в созданных электронных хранилищах документов по их содержанию. Хранилища современных документов - это сами документы в текстовом формате, и их неотъемлемая часть - автоматически (автоматизированно) полученные поисковые образы. Такие информационно-поисковые возможности для хранилищ ранних рукописных и ксилографических текстов на ойратском (или старокалмыцком) письме в настоящее время отсутствуют. Реализация их представляет собой актуальную научно-практическую задачу.
Сама же графическая система, на которой писались эти тексты, - «тодо бичиг» (‘ясное письмо’) - не получила еще должной компьютерной обработки в силу ряда особенностей. Если символы монгольского письма («худам бичиг») уже получили кодировку UNICODE и уже создан пакет программ с использованием этого письма (Windows, Microsoft Office), то для «тодо бичиг» отсутствует кодировка ряда символов в соответствии с вышеупомянутыми стандартами (см. ниже таблицу соотношений графемы, глифа и кодировки Unicode, там, где отсутствует кодировка, стоит знак вопроса).
К тому же еще не разработан принцип вертикального письма как для «тодо бичиг», так и для «худам бичиг» (хотя Интернет-ресурсы предоставляют одну подобную программу, в которой соблюдается этот принцип (http://www.dusal.net/downloads/ vertNote.rar), но эта программа не интегрирована в систему Microsoft Office).
Изолированная позиция Unicode Название буквы Инициальная позиция Медиальная позиция Финальная позиция Комментарий
Начертание Unicode Начертание Unicode Начертание Unicode
< 1820 MONGOLIAN LETTER А 7 3L 7 7 В конце слова буква «А» имеет два начертания: 1) после согласной буквы «Б» «хвостик» смотрит влево; 2) после остальных согласных букв в конечной позиции «хвостик» смотрит вправо. Долгота обозначается специальным знаком долготы «‘ ».
- 1828 MONGOLIAN LETTER NA - 1828 - ? < 7 Употребляется во всех позициях. В абсолютном конце слова имеет такое же начертание, как и буква «А» («хвостик» смотрит вправо).
:а* 184D MONGOLIAN LETTER TODO QA 184D :а* 9 - - Употребляется в твердорядных словах в начале и середине слова.
°э* 184Е MONGOLIAN LETTER TODO GA °a“ 184E °э“ 7 - - Употребляется в твердорядных словах в начале и середине слова.
£ 1845 MONGOLIAN LETTER TODO I £ 7 £ 7 ? ? 7 Конечная буква «И» имеет свое начертание после согласных букв «Г» и «К».
- MONGOLIAN LETTER LA - 182F - ? - 7 Употребляется во всех позициях слова.
- 182Е MONGOLIAN LETTER TODOMA - 182E - 7 - 184F Употребляется во всех позициях слова.
а* 1846 MONGOLIAN LETTER TODO О a* 1846 a* 7 a1 9 Буква обозначает твердую гласную «О». Долгая «О» обознается знаком долготы«‘ ». Употребляется во всех позициях слова.
Л 1847 MONGOLIAN LETTER TODO U 1847 Л 7 9 Буква обозначает твердую гласную «У». Долгая «У» обознается удвоенным написанием буквы «УУ». Употребляется во всех позициях слова.
S 1849 MONGOLIAN LETTER TODO UE S 1849 S 7 A 9 Буква обозначает твердую гласную «У». Долгая «У» обознается удвоенным написанием буквы «УУ». Употребляется во всех позициях слова.
j- 1830 MONGOLIAN LETTER SA j- 1830 j- 1830 j. 1830 Употребляется во всех позициях слова.
1831 MONGOLIAN LETTER TODO SHA 1831 1830 1830 Употребляется во всех позициях слова.
- 1851 MONGOLIAN LETTER TODO DA - 1851 4 1851 - □ ? Употребляется во всех позициях слова.
<=■ 1850 MONGOLIAN LETTER TODO ТА <=■ 1850 <=■ 1850 - - Употребляется в начале и середине слов.
ft 1844 MONGOLIAN LETTER TODOE ft 1844 * 7 rt 9 Обозначает мягкий гласный «Е». Долгота обозначается знаком долготы«‘ »
- 1855 MONGOLIAN LETTER TODO YA - 1855 - 1855 - Употребляется в начале и середине слова.
- 1837 MONGOLIAN LETTER TODO RA - 1837 - 1837 7 Употребляется во всех позициях слова
ai 1848 MONGOLIAN LETTER TODO OE ai 1848 aí 7 £ 7 Буква обозначает мягкую гласную «0». Долгая «0» обознается знаком долготы «‘ ». Употребляется во всех позициях слова.
*э* я I? О- - ? 7 9 7 Буква обозначает согласную «Г» употребляемую в мягко-рядных словах. Употребляется во всех позициях слова.
■■ " 1858 MONGOLIAN LETTER TODO GAA •• 183А ? 7 - - Буква обозначает согласную «Ка» употребляемую в твердорядных словах. Употребляется в начале и середине слова.
~ 183В MONGOLIAN LETTER TODO KA - 183В 7 7 - - Буква обозначает согласную «Ке» употребляемую в мягкорядных словах. Употребляется в начале и середине слова
Ч) 182А MONGOLIA N LETTER TODO BA Ч) 182А Ч) 182А 184В Буква обозначает согласную «Б». Употребляется во всех позициях слова
184С MONGOLIAN LETTER TODO PA *5 184С *5 184С PS 184С Буква обозначает согласную «П» употребляемую в заимствованных словах.
- 1854 MONGOLIAN LETTER TODO TSA - 1854 - 1854 - - Буква обозначает согласную «Ц». Встречается в начале и середине слова. Если после этой буквы следует гласный «И», то он читается как «Ч».
л. 1853 MONGOLIAN LETTER TODO JA л. 1853 л. 1853 - - Буква обозначает согласную «ЗК^>. Позднее нововведение. Встречается в начале и середине слова.
■■ 1852 MONGOLIAN LETTER TODO CI1A ■■ 1852 - 1852 - - Буква обозначает согласную «Ч». Позднее нововведение. Встречается в начале и сере-Д1ше слова.
хв 185 А MONGOLIAN LETTER TODO JIA XJ> 185A 9 9 - - Буква обозначает согласную «Ж». Позднее нововведение. Встречается в начале и середине слова.
- 1856 MONGOLIAN LETTER TODO WA 1856 - 1856 - - Буква обозначает согласную «В». Употребляется в заимствованных словах. Встречается в начале и середине слова.
л 184 А MONGOLIAN LETTER TODO ANG - ? 184A Буква обозначает согласную «Ц». Встречается в середине и конце слова.
3 1859 MONGOLIAN LETTER TODO HAA Буква обозначает согласную «ХА». ’ Употребляется в заимствованных словах. Встречается в начале и середине слова.
hJ w h h
о| 185С MONGOLIAN LETTER TODO DZA Буква обозначает согласную «ДЗА». ’ Употребляется в заимствованных словах. Встречается в начале и середине слова.
Другой проблемой является фонетический принцип написания слов, т. е. слова фиксировались в ранних памятниках так, как произносились. С одной стороны, это отражает ту речь, которая бытовала в обществе (в особенности это важно для лингвистов), для программистов же этот аспект является проблемным в процессе разработки распознающей программы на словарной основе, поскольку порождает большое количество вариантов написания того или иного слова. Кроме того, отдельную проблему составляет нечеткое начертание отдельных графем, графических знаков и «диакритики». что затрудняет их интерпретацию, адекватную передачу графических особенностей памятника (например, необычной лигатуры), отсутствие унификации и др.
В русле данных исследований в Калмыцком институте гуманитарных исследований РАН ведется работа по созданию Национального корпуса калмыцкого языка, одним из направлений которого является разработка подкорпуса «ранних» текстов. В рамках проекта проводится анализ рукописных и печатных источников ХУП-ХГХ вв., выяв-
ляются их палеографические и лексические характеристики, среди которых можно перечислить особенности почерка переписчика или шрифта текста, формат рукописи, качество бумаги, чернил и т. п. следы времени. Предпринятая работа в дальнейшем существенно облегчит работу по вводу и обработке калмыцких и ойратских текстов и изображений, систем оптического распознавания, систем информационного поиска и автоматического индексирования документов.
В 2012 г. был проведен эксперимент в целях обнаружения тех или иных проблем при автоматической обработке текстов на материале фототипического издания текста, который опубликовал профессор Санкт-Петербургского университета А. М. Позднеев в 1897 г. под названием «Сказание о хождении в Тибетскую страну малодербетовского Бааза-бакши»3 [5]. В ходе пилотного анализа «раннего» текста был выявлен ряд проблем, касающихся транслитерации текста «тодо бичиг», орфографии текста, омонимии словоформ, разметки текста, использования диакритических знаков и т. д. [1]. Одной из таких проблем явилось то, что знак «:», обозначающий долготу гласного и по традиции используемый в латинской транслитерации текстов ойратских текстов, программы ошибочно распознавали как делиметр, т. е. разделитель (так же, как дефис или пробел),. В результате данный знак «:» в обрабатываемых текстах пришлось заменить на знак « ». Эти и ряд других проблем были учтены при дальнейшей обработке массива текстов на «тодо бичиг», и, как результат, был выработан алгоритм обработки текстов на «тодо бичиг». . Ниже приведен список правил транслитерации, при этом опирались на следующие работы: [6; 2].
ПРАВИЛА ТРАНСЛИТЕРАЦИИ
1. Буквы «тодо бичиг» традиционно транслитерируются латиницей, однако было решено ряд графем и глифов транслитерировать особыми символами для упрощения автоматического анализа текстов. Ниже приведена таблица графем.
№ Г рафема тодо бичиг Символ, используемый при транслитерации
1. У а а долгая а
2. ІС е е долгая ё
•*> О. И) і 1 долгая I
4. 1ч о о долгая о
5. 16 о о долгая 6
6. 1$ и и долгая й
7. 16і й й долгая й
8. 1 11
9. ъ X
10. ь У
11. Ь
12.
13. 4 §
14. а
15, 7 а
№ Г рафема то до бичиг Символ, используемый при транслитерации
16. 1
17. Л м
18, 7 с перед гласной і с 7 сГ
19. 1 Z перед гласной і j Z
20. т у
21. 0 g
22, с к
23. it к
24. >г q
25. 5Г г
26. * V
27. 11
28, VT ha
29. )Г 9 Р
30. f
2. Конец предложения (**) маркируется знаком (=). Запятая обозначается (,).
3. Конец абзаца (или текста •!•) маркируется (==).
4. Падежные окончания, которые были написаны отдельно от слова (через пробел), транслитерируются через дефис (-). - morin-du
5. Начало листа обозначается квадратными скобками, внутри которых помещают номер листа. Например: [1a] или [1b].
6. Номер строки обозначается в круглых скобках (). Строки пишутся через знак абзаца (через Enter), т. е. с новой строки.
7. Все собственные имена следует писать с заглавной буквы для облегчения дальнейшего компьютерного анализа текста.
8. Предложения не следует начинать с заглавной буквы.
9. Если границы строки проходят внутри слова, то мы маркируем этот факт косой чертой (/). При совпадении границы строки и написания аффикса отдельно от слова на другой строки, используется комбинация символов: (-/).
10. Если в тексте имеется вставка слога, слова или предложения и если она сделана тем же самым почерком, то мы обозначаем такие вставки в фигурных скобках {}.
11. Если в тексте имеется вставка слога, слова или предложения и если она сделана другим почерком, то мы обозначаем такие вставки в фигурных и угольных скобках {<>}.
12. Если в тексте имеется неразборчиво написанный отрезок текста, то такого рода отрывки мы помечаем <...>.
13. Неуверенность исследователя при транслитерации отмечается знаком вопроса в круглых скобках (?).
14. Комментарий исследователя помещается в квадратных скобках. Например, [текст утрачен].
15. Неязыковые компоненты обозначаются двойным знаком (*). например, *квадрат-ная печать на квадратной письменности, выполненная красной тушью*.
Приведем пример транслитерированного текста.
[4: (Из писем хана Аюки и Чагдаржапа. 1714 г.)]
[1a]
(1) Cagdor jab
(2) Ayidarxani bayartu
(3) oqbo= xaburki xasayasa
(4) oryoji iregsen
(5) zuryan ktin uyisuqtti
(6) bayinai genei= touni
(7) acaroulji oguyita=
(8) elci Baqdor==
*квадратная печать на квадратной письменности, выполненная красной тушью*
Кроме правил транслитерации, был разработан электронный ресурс по каталогизации и транслитерации текстов на старокалмыцком языке (прогр. А.Ю. Каджиев). Портал находится по адресу http://kalmcorpora.ru/todo. На данный момент он открыт только для исполнителей проекта. База данных по метаописанию спроектирована в mySQL, создан web-ориентированный программный интерфейс для транслитерации оцифрованных текстов на старокалмыцком языке. Пользователь дает библиографическое описание документа, который загружается на сервер по следующим атрибутам:
1) заголовок;
2) название, данное исследователем;
3) заголовок по титульному листу;
4) заголовок по первой строке документа;
5) заголовок по колофону;
5) маргинальное название;
6) автор (если имеется);
7) переводчик (если имеется);
8) переписчик (если имеется);
9) тема (указать кратко);
10) описание;
11) источник;
12) формат листа;
13) формат рамки (если имеется);
14) цвет чернил;
15) печать (если имеется);
16) тип письма (уставной, скоропись);
17) оценка почерка (разборчиво, неразборчиво, частично разборчиво);
18) оценка качества («5» - отличное качество; «4» - хорошее качество; «3» - удовлетворительное качество; «2» - плохое качество).
На данном этапе разработки проекта на указанный сайт загружено 100 архивных документов, из них транслитерировано 88 листов (около 5 000 токенов).
Таким образом, задача сохранения духовного наследия наших предков для будущих поколений, которая стоит перед исследователями современности, носит ретроспективный характер и охватывает самый широкий круг вопросов - от текстологии и диалектологии до сравнительно-исторического изучения словоформ, словосочетаний и т. д. Эта работа может привести в дальнейшем к реконструкции ойратских и общемонгольских древностей на вербальном уровне.
Примечания
1 Здесь имеется в виду тексты, написанные на «тодо бичиг» (‘ясном письме’). Даннаяграфическая система, напомним, была создана Зая-пандитой в 1648 г. Ойрат-ское письмо, как и старомонгольское, имеет вертикальное направление, буквы в слове и слова пишутся сверху вниз. Слова в столбцах разделяются пробелами, столбцы располагаются слева направо. Большинство букв имеет три различных написания -в начале, середине и конце. Более того, для обозначения звуков, отсутствующих в ойратском (старокалмыцком) языке, используются дополнительные буквы-«галики». Они встречаются в основном в религиозных текстах для обозначения заимствований из тибетского или русского языка, санскрита. Орфография «тодо бичиг» в основном фонетическая, т. е. каждая буква отражает один звук, что является главным отличием от полифонного старомонгольского письма.
2 На современном этапе исследователями основное внимание уделяется задачам поиска, создания каталогов и сохранения исторических памятников. Основным методом переноса на новые носители является оцифровка данных, подразумевающая факсимильное копирование источников и сопровождение их библиографическими и археографическими данными. К примеру, такая работа проводится Общественной организацией «Тод номын гэрэл» (Монголия), которая совместно с Американским центром монголоведения (The American Center for Mongolian Studies - ACMS) разместили на сайте 140 рукописных текстов на «ясном письме» (http://www.dlir.org/ archive/orc-exhibit/ items/browse/collection/7).
3 Рукопись была приобретена у автора Бааза Менкеджуева профессором А.М. Позд-неевым, который позднее опубликовал ее с переводом и комментариями. Оригинал рукописи до сих пор не обнаружен. Издание было посвящено XI международному съезду ориенталистов в Париже. Сочинение состоит из 278 страниц: предисловие - 18 страниц (пагинация римскими цифрами, постраничная); перевод занимает 130 страниц (пагинация арабскими цифрами, общая, постраничная); текст на «Тодо бичиг» -120 страниц (пагинация арабскими цифрами, общая, постраничная. На странице 12 строк, сверху вниз, слева направо). Материалом для нашего исследования послужило данное фототипическое издание текста на старокалмыцкой письменности «Тодо бичиг».
Список литературы
1. Бембеев Е.В. Опыт квантитативной обработки текста на старокалмыцком языке: количественные характеристики // Вестник Калмыцкого института гуманитарных исследований РАН. 2012. № 2. С. 163-168.
2. Музраева Д.Н. Опыт археографического описания и текстологического анализа рукописного перевода Тугмюд-гавджи (на материале VI главы Ои^гап dalai «Моря притч») // Вестник Калмыцкого интститута гуманитарных исследований РАН. 2012. № 3. С. 167-185.
3. Музраева Д.Н. Буддийские письменные источники на тибетском и ойратском языках в коллекциях Калмыкии. Элиста: ЗАОр «НПП „Джангар"», 2012. 224 с.
4. Национальный архив Республики Калмыкия (НА РК). Ф. 36. Оп. 1. Д. 2. Л. 56.
5. Сказание о хождении в тибетскую страну малодербетовского Бааза-бакши / пер. и коммент. А.М. Позднеева. СПб., 1897. 18+130+120 с.
6. Яхонтова Н.С. Ойратский литературный язык XVII в. М.: Вост лит., 1996. 152 с.