Научная статья на тему 'Проблемы и задачи корпусного изучения славянской письменности'

Проблемы и задачи корпусного изучения славянской письменности Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
273
63
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОРПУСНАЯ ЛИНГВИСТИКА / CORPUS LINGUISTICS / СЛАВЯНСКАЯ ПИСЬМЕННОСТЬ / SLAVIC SCRIPT / ЦЕРКОВНОСЛАВЯНСКИЙ ЯЗЫК / OLD-SLAVIC LANGUAGE

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Молдован Александр Михайлович

В статье рассматриваются различные типы компьютерного представления славянских рукописных памятников в связи с задачами их научного изучения.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Молдован Александр Михайлович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Problems and Tasks of the Corpus Linguistics Studies of the Slavic-script Heritage

The article considers different types of digitalised presentations of Slavic written monuments in the context of their further scholarly exploration.

Текст научной работы на тему «Проблемы и задачи корпусного изучения славянской письменности»

А. М. Молдован (Москва)

Проблемы и задачи корпусного изучения славянской письменности

В статье рассматриваются различные типы компьютерного представления славянских рукописных памятников в связи с задачами их научного изучения.

Ключевые слова: корпусная лингвистика, славянская письменность, церковнославянский язык.

Изучение славянских языков и истории взаимодействия культурных традиций южных, восточных и западных славян опирается на лингвистическую документацию памятников древнерусской и южнославянской письменности. Чем детальнее изучен язык текстов, тем подробней их документация, описывающая региональные и хронологические различия памятников, представленные в них различные комбинации генетически разнородных лингвистических черт.

Предпосылки для корпусного представления славянских текстов создаются источниковедческой обработкой рукописей, в ходе которой памятник письменности должен быть датирован, прочтен и переведен, в нем должны быть выявлены разнообразные искажения, описки, пропуски и вставки, определены его взаимоотношения с родственными текстами, объяснены непонятные слова и выражения и т. д. Все это - чрезвычайно трудоемкое дело, поэтому, хотя древние славянские памятники изучаются давно, объем неизученного все еще весьма велик.

С появлением компьютеров в работе с древними текстами началась новая эпоха. Способность компьютера передавать любые буквенные и иные символы и изображения, имеющиеся у текстовых программ широкие возможности корректирования текста сделали его желанным участником эдиционной деятельности. Многие поначалу воспринимали компьютер именно как удобную пишущую машинку, и после создания оригинал-макета издания считали задачу выполненной. Издание - это, конечно, тоже немало. Благодаря компьютерам работа по подготовке изданий ускорилась, и за два десятилетия увидело свет множество новых публикаций памятников. К сожалению, из-за технического невежества авторов и равнодушия издателей многое из того, что было издано в 1990-е гг.,

не сохранилось в электронном виде. Это особенно досадно потому, что уже тогда, в начале 90-х гг., палеослависты в разных странах понимали, что главное, в чем может быть полезен компьютер, - это сведение материала письменных памятников в единый корпус, организованный таким образом, чтобы с его помощью можно было получать любую информацию по максимально широкому кругу источников. В 1995 г. мы впервые собрались в Благоевграде для обсуждения этих вопросов, потом на краковском съезде славистов (1998) с этой целью была образована Международная комиссия по компьютерному изучению славянских памятников при Международном комитете славистов1.

Тогда это была задача со многими неизвестными, потому что, помимо технических проблем, обнаружилась неготовность лингвистов дать четкие ответы на вопросы, которые ставили программисты. Эти вопросы были связаны с проблемами кодировки символов (какие буквенные знаки являются самостоятельным знаком, а какие являются лишь графическими вариантами, так сказать, аллографами), с необходимостью выбора четких параметров филологического описания и разметки текстов, с принципами выбора и группировки источников, их хронологической «стратификацией», соответствующей этапам развития тех или иных разновидностей языка, и т. д. Принимавшиеся по этим проблемам решения, отражавшие состояние наших знаний о предмете, не всегда были вполне обоснованны2. Важно было остановиться на таких параметрах, которые сохранят свое значение в обозримом будущем, чтобы не пришлось переделывать всю работу.

Члены комиссии взяли на себя нелегкую задачу взаимодействия с создателями Unicode - универсальной системы шрифтовой кодировки. Благодаря их усилиям последние версии Unicode включают почти все необходимые символы старой кириллицы.

Создание Международной комиссии предполагало также, что она будет координировать и объединять работы в разных странах -поскольку мы имеем дело с огромным массивом источников, и эту работу невозможно осилить в одиночку. С тех пор прошло двадцать лет, в течение которых в разных славянских и неславянских странах осуществлялась разрозненная деятельность в этом направлении. Но координации достичь не удается - прежде всего, по организационно-финансовым причинам: работы выполняются по грантам, налагающим на исполнителей различные ограничения и предполагающим короткие сроки выполнения.

В славистических центрах России, Болгарии, Македонии, США, Германии, Финляндии, Норвегии и некоторых других стран появилось множество разнообразных изданий и программ компьютерной обработки славянских рукописных памятников. Рассмотрим эти проекты, ранжируя их по степени информативности результатов.

Первую ступень занимают электронные копии рукописей - сканированные изображения, выставленные в интернете или распространяемые в копиях. Их уже довольно много - и в интернете, и в частном обращении. Наиболее крупная коллекция такого рода - оцифрованные собрания Троице-Сергиевой лавры, Московской духовной академии и некоторые другие. Эта работа выполняется совместно Российской Государственной Библиотекой и Свято-Троицкой Сергиевой Лаврой. Благодаря ей мы располагаем доступом к первоклассным рукописям и ценным документам общим числом более пяти тысяч единиц (http:// old.stsl.ru/manuscripts/). К сожалению, подобная систематическая работа в других хранилищах рукописей почти не ведется.

Другой тип электронных источников - это сканированные изображения печатных изданий памятников в форматах PDF, DjVu и т.п. Это наиболее многочисленная категория, включающая целые библиотеки (например, многотомное издание «Русской исторической библиотеки»). Работа по оцифровке книг поддерживается библиотеками, в ней заинтересованы все, поэтому можно полагать, что со временем все издания будут оцифрованы и доступны.

Третий тип представляют наборные цифровые издания текста отдельных памятников. В отличие от предыдущих двух, этот тип изданий обычно позволяет осуществлять примитивный поиск по словам и буквосочетаниям (стрингам).

Одним из первых опытов такого типа были цифровые издания, выполненные в рамках Хельсинкского проекта Corpus СугШо-Methodianum Helsingiense: http://www.helsinki.fi/slaavilaiset/ccmh/), включившего пять источников из старославянского «канона» (евангелия - Ассеманиево, Зографское, Мариинское и Саввина книга, а также Супрасльская рукопись) и жития Кирилла и Мефодия.

Простой набор представляет и болгарско-норвежский проект ^rpus of Old Slavic Texts from the XIth Century (http://www.hf.ntnu.no/ SofiaTrondheimCorpus/), включающий значительную часть славянских памятников XI-XII вв. Но, в отличие от хельсинкского, на этом сайте поиск невозможен, видимые на экране тексты можно только читать и копировать, если на вашем компьютере есть соответствующий (ныне устаревший) шрифт.

Сейчас такие работы, не обеспеченные возможностями поиска, считаются предварительными и, как правило, не выставляются в интернете.

Существуют разнообразные электронные издания памятников, соединяющие традицию бумажных изданий с некоторыми возможностями цифрового (в частности, они позволяют копировать фрагменты). Таково, например, издание Повести временных лет по нескольким спискам, подготовленное Д. Бирнбаумом (http://clover. slavic.pitt.edu/pvl/ost1.html), в котором, наведя курсор на ту или иную строчку, можно получить все ее варианты, представленные в пяти списках и в трех основных изданиях ПВЛ. Полезно перенесенное в цифровой вид Д. Бирнбаумом двухтомное издание Супрасльской рукописи (http://suprasliensis.obdurodon.org/) и Бдинского сборника (http://bdinski.obdurodon.org/). Удобство таких изданий в том, что здесь можно проверить сомнительные написания по фотокопии. Но по информативному потенциалу они остаются на уровне бумажного издания, отличаясь от него только тем, что кусочки славянского или греческого текста можно скопировать.

Совсем иначе подходят к представлению текстов создатели сайта «Манускрипт» в Ижевске (http://mns.udsu.ru/). На сайте представлена большая коллекция древнейших и средневековых славянских и русских текстов, подготовленных авторами или полученных от русских и болгарских коллег. Каждый текст на этом сайте представляет собой самостоятельную базу данных, допускающую некоторое преобразование исходного текста: можно выбрать опцию «текст оригинальный» и получить наборный текст без разделения на слова; можно выбрать «текст преобразованный» и получить текст с разделением на слова; можно по выбранному отрезку заказать выдачу индекса словоформ - прямого, обратного и частотного. Удобно, что, наведя курсор на адрес, можно выйти на соответствующее место в тексте. Возможен поиск по буквосочетаниям.

Стремясь расширить информационные возможности системы, создатели сайта приняли участие в разработке совместно с Институтом русского языка им. В. В. Виноградова РАН автоматической системы морфологического анализа древнерусских словоформ (морфологического анализатора). Замысел состоял в том, чтобы, используя имеющийся в Институте русского языка фонд грамматически размеченных словоформ ряда древнейших памятников, написать программу-парсер, которая автоматически определяла бы морфологические характеристики слов по их написанию (http://mns.udsu.ru/

mns/slov.prost_poisk). Результат оказался предсказуемым. Во-первых, программа может работать только с теми словами, которые есть в заложенных в нее грамматических словарях. А этот сводный словарь словоформ еще очень далек от полноты. Если мы дадим запрос, например, на слово дослщи, которое содержится в Пандектах Антиоха (оно входит в ижевский корпус, но не входит в корпус размеченных текстов ИРЯ РАН), программа выдаст отказ. Во-вторых, она не умеет отождествлять разные орфограммы, поэтому она не узнает слово, если оно написано не в «канонической» орфографии - т. е. не в той нормализованной орфографии, в которой эти словоформы записаны в программе. Нечленная форма слова гръдъ в южнославянском написании получает правильный разбор. Но если мы напишем это слово иначе, например, гърдъ, или зададим членную форму гръдъи, программа эти написания не опознает. В-третьих, язык славянской письменности отличается большим количеством омонимичных словоизменительных форм. Вследствие этого программа выдает слишком много альтернативных грамматических определений, чтобы этот результат можно было считать удовлетворительным. Например, словоформа бързости имеет десять вариантов определений (ед.род, ед. дат, ед. мести., ед. зват, мн. им, мн. зват, мн. вин, дв. им, дв. вин, дв. зват ).

Подобные результаты получены и в других работах над автоматическим морфологическим анализатором - в Регенсбургском диахроническом корпусе (http://rhssl1.uni-regensburg.de/SlavKo/korpus/ rrudi-new/) и в работе над проектом PROEL в Осло (https://nestor.uit. no/). Степень точности таких программ повышается для данного типа текстов при внесении в них дополнительной (в том числе синтаксической) информации. Однако пока объем необходимых для этого усилий вполне сопоставим с тем, который требуется для «ручной» разметки словоформ - заведомо более точной.

На протяжении многих лет в Институте русского языка им. В. В. Виноградова РАН создавался и на сегодня в значительной степени создан корпус древнерусских текстов домонгольской поры, включающий почти все восточнославянские переводы с греческого («История Иудейской войны», «Житие Андрея Юродивого», «Пчела», «Александрия», Изборник 1076 г. и другие памятники). Указатели к ним делались «вручную». С самого начала в корпус были заложены такие важные для исследователя параметры, как собственно тексты рукописей, грамматическая информация о каждом слове, начальная форма слова, греческие соответствия, текстологические

варианты. Система построена так, что позволяет получить словарный индекс и церковнославянско-греческий словарь для одного или нескольких текстов. Наличие такой системы теперь обеспечивает создание в полуавтоматическом режиме грамматических указателей к другим текстам - исследователю остается только выбирать из тех подсказок, которые предлагает ему программа.

Сначала этот корпус (точнее, отдельные базы данных) строился на основе Microsoft Access 2.0. Со временем эти базы были конвертированы в новый формат и помещены в интернет. Базы устроены так, что можно, наведя курсор на любое слово в тексте, получить грамматическую информацию об этом слове. Перейдя на страницу поиска, можно получить выборку по искомой словоформе. При печатании запроса появляется подсказка с перечнем подходящих слов. Выбрав любое слово в выборке, можно перейти к его контексту. Кроме того -и это самое ценное, - система позволяет вести поиск не только по словам и словоформам, но и по грамматическим категориям.

В этот формат переведены и действуют в интернете Повесть временных лет, Киевская, Галицкая и Волынская летописи по Ипатьевскому списку и Суздальская летопись по Лаврентьевскому списку (http://www.lrc-Hb.m/index.php%3fid=5). Единственным недостатком такого представления до недавнего времени было то, что нельзя было вести поиск сразу по всем памятникам.

Это препятствие удалось снять при включении этих баз в Национальный корпус русского языка (НКРЯ), поскольку корпус, претендующий на полноту представления языка, не может обойтись без документации всей письменной истории русского языка, начиная с первых памятников XI в.

Сейчас в составе Национального корпуса есть четыре подкорпу-са, представляющих источники XI-XVII вв.: древнерусский, корпус берестяных грамот, среднерусский корпус и церковнославянский. Эти условные названия корпусов присвоены им временно и связаны с качественными характеристиками корпусов (см. ниже). Разумеется, материал берестяных грамот хронологически относится к древнерусскому языку, в свою очередь и «среднерусский» корпус включает списки текстов древнерусского периода. Церковнославянский корпус включает в основном современную богослужебную литературу на новоцерковнославянском языке.

Древнерусский подкорпус (http://ruscorpora.ru/search-old_rus. html) включает три типа памятников: оригинальные древнерусские произведения, выполненные на Руси переводы с греческого и памят-

ники южнославянского происхождения, переписанные на Руси. Из оригинальных произведений в подкорпус входят все летописи, созданные в древнерусский период: Повесть временных лет, Киевская, Галицкая, Волынская летописи (все по Ипатьевскому списку), Новгородская I летопись (по Синодальному списку) и Суздальская летопись (по Лаврентьевскому списку). Кроме того, представлены некоторые сочинения Кирилла Туровского: «Сказание о черноризском чине», «Притча о душе и теле», «Повесть о беспечном царе и мудром советнике».

Из переведенных в Древней Руси памятников в подкорпусе сейчас доступны «История Иудейской войны» Иосифа Флавия, «Пчела», «Александрия» и цикл из восьми «Чудес» Николая Мирликийского, шесть из которых переведены на Руси или представляют собой переработку перевода, а два возникли у южных славян.

Из русских списков древнеболгарских переводов в подкорпусе представлен Изборник 1076 г.

Поиск здесь возможен по грамматическим признакам, перечисленным в таблице грамматических параметров НКРЯ. Когда вы получаете результат запроса (список примеров с указанием памятника), можно нажать курсором на название памятника и во всплывающем окне появляются краткие сведения о памятнике и указание на издание или рукопись, по которым выполнена разметка. Например, если набрать в поисковой строке слово комонь 'конь' (кстати, при наборе появляются автоматические подсказки), мы получим все случаи употребления этого слова в названных источниках: в Повести временных лет и в Киевской летописи. Это точный результат: известно, что слово комонь есть еще только в Слове о полку Игореве, в других памятниках оно не встречается3. При выборе курсором любой словоформы появляется всплывающее окно с грамматической характеристикой этой словоформы, а в строке «Доп. признаки» указан адрес - страница издания памятника или лист рукописи и номер строки. У переводных памятников в этом окне приводится греческое соответствие данной словоформы. Например, к слову безъславие из «Пчелы», имеющему форму винительного падежа, указана греческая параллель а&о^Са^ в форме аблятива.

Леммы в словаре имеют древнерусскую форму, то есть отражают состояние языка до падения и прояснения редуцированных.

Общий объем словоформ этого корпуса составляет 443 тысячи словоупотреблений. Это немного в сравнении с другими корпусами, особенно с основным корпусом. Но необходимо подчеркнуть, что,

в отличие от большинства других, этот корпус получен не путем автоматической разметки, а в результате кропотливого филологического труда. Поэтому в нем нет неснятой омонимии - все омонимы разведены грамматическими определениями. Поэтому при поиске словоформ, которые могут быть омонимичны другим словоформам, достаточно указать частеречную характеристику леммы, а у существительных также род.

Аналогичным образом устроен подкорпус берестяных грамот, в котором грамматическая разметка является результатом выполненного А. А. Зализняком тщательного палеографического и филологического анализа.

Основу церковнославянского корпуса составляют современные богослужебные тексты (Х1Х-ХХ вв.) - около 60% объема корпуса. Кроме того, в корпусе представлены более ранние тексты, относящиеся к XVП-XVШ вв. и представляющие другие жанры: Писание, святоотеческие сочинения и др. Общий объем корпуса - около пяти млн словоупотреблений. Поскольку новоцерковнославянский язык обладает известной грамматической и орфографической упорядоченностью, для этого корпуса была создана программа грамматического разбора словоформ. Это позволило сделать автоматическую разметку церковнославянского корпуса, которая позволяет искать слова по лемме и грамматическим признакам, причем можно искать и по сочетанию слов и признаков. Например, можно задать запрос такого вида: «найти сочетания прилагательных в родительном падеже со словом слава с расстоянием между ними до пяти4 слов». Результатом будут не только сочетания славы временныя, славы небесныя, славы бж^я, славЬ вашей и т. п., но и более сложные определительные конструкции: радуйся, славо цркве вселенск1я, славою украшаются бжественнато причаспя, славЬ бжственнато зрака и т. п.

Это дает очень широкие возможности для поиска лингвистического материала. Необходимо только учитывать, что автоматическая разметка оставляет нераспознанными грамматические омонимы, и при запросе информации о той или иной словоформе система выдает все варианты характеристик. Например, для действительного причастия прошедшего времени, множественного числа царствовавшихъ будут предложены два варианта определений падежа: родительный и местный. Снимать эту омонимию нужно вручную.

Корпус среднерусских текстов фактически охватывает период с XI до XVII в., и предполагается, что он включит все источники это-

го периода. В настоящее время корпус включает около двух тысяч документов общим объемом более трех миллионов словоупотреблений. Разумеется, это только начало. На первом этапе работы в него были включены доступные в цифровом виде научные публикации текстов разных жанров (летописи, памятники бытовой и деловой письменности, религиозная литература и др.); этот корпус постоянно увеличивается. Разметка в этом корпусе пока только метатекстовая (название текста, дата создания, дата списка, автор, жанр и т. п.), поэтому лингвистический поиск возможен только по словам или частям слов. Однако метатекстовая разметка позволяет формировать подкорпус по определенным параметрам (автор, жанр, дата создания и др.). Например, в таблице жанров можно выбрать разные виды грамот и вести поиск только в пределах этого жанра.

Похожим образом сделан поиск в санкт-петербургском корпусе агиографических текстов (СКАТ: http://project.phil.spbu.ru/scat/page. php?page=project). Корпус включает 15 памятников житийной литературы XV-XVII вв. Поиск осуществляется по словам и буквосочетаниям. Поэтому, например, на запрос быти можно получить все адреса этой словоформы в имеющихся в программе житиях, а также адреса слов бытие, пребыти, избыти и т. п., но сведения о есмь, еси, соуть и т. п. нужно искать отдельно. По адресу словоформы можно выйти на соответствующий, довольно большой, фрагмент текста (в котором искомые словоформы, к сожалению, не выделены).

Аналогично устроен поиск в программе, созданной во Фрайбурге по тексту Апостола в Великих Минеях Четьих (http://www.vmc. uni-freiburg.de/Mens/).

Очевидно, что имеющиеся сейчас в НКРЯ исторические корпусы нужно будет переструктурировать. Центральным должен стать корпус источников Х1-ХУ11 вв. Древнерусский корпус и корпус берестяных грамот приобретут в нем статус корпусов со снятой омонимией. Ближайшей задачей для корпуса Х1-ХУП вв. должна стать лемматизация словоформ. В дальнейшем можно будет создавать для однородных фрагментов этого корпуса (например, для деловых памятников или вестей-курантов XVII в.) специальные парсеры и осуществлять их морфологическую разметку.

ПРИМЕЧАНИЯ

1 См.: http://www.obshtezhitie.net/

2 См.: Молдован А. М. Компьютерное воспроизведение славянских рукописных памятников и его задачи // Мовознавство. 2006. № 2-3. С. 26-30.

3 Одинцов Г. Ф. Из истории гиппологической лексики в русском языке. М., 1980. С. 25-30.

4 Программа позволяет увеличить это расстояние до десяти слов.

Moldovan A. M. Problems and Tasks of the Corpus Linguistics Studies of the Slavic-script Heritage

The article considers different types of digitalised presentations of Slavic written monuments in the context of their further scholarly exploration.

Keywords: corpus linguistics, Slavic script, Old-Slavic language.

i Надоели баннеры? Вы всегда можете отключить рекламу.