Научная статья на тему 'Электронное представление текста с помощью стандарта разметки tei'

Электронное представление текста с помощью стандарта разметки tei Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
1947
276
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЭЛЕКТРОННОЕ АРХИВИРОВАНИЕ / ЦИФРОВЫЕ ИЗДАНИЯ / ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В ТЕКСТОЛОГИИ И ЛИТЕРАТУРОВЕДЕНИИ / TEI / DIGITAL HUMANITIES / TEXTUAL SCHOLARSHIP / XML / TEXT ENCODING

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Скоринкин Даниил Андреевич

Статья рассказывает о хранении и представлении текстовых источников в электронном виде с использованием стандарта TEI (Text Encoding Initiative) специализированного языка разметки на основе XML. Стандарт TEI разработан как средство формального кодирования наиболее значимых текстологических свойств документа: физических параметров рукописи, критического аппарата, лингвистической информации, выходных данных, сведений об авторе, обстоятельствах публикации и первоисточнике. В статье описываются принципы использования, основные возможности и сферы применения TEI, а также представлен обзор проектов из разных гуманитарных областей, осуществленных с опорой на TEI-разметку.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Electronic Archives in Textology and Literary Criticism (TEI Encoding Standard)

This paper describes the use of TEI (Text Encoding Initiative) standard for digital preservation and representation of textual heritage. TEI is and XML-based encoding format specifically developed to meet the demands of scholars in the humanities. It provides ready-made solutions for encoding critical apparatus, various textological data and metadata, physical features of a manuscript, morphological and syntactic information, named entities and more. In this paper we describe the basic principles and best practices of TEI encoding and provide a survey of TEI-based projects from different fields.

Текст научной работы на тему «Электронное представление текста с помощью стандарта разметки tei»

МАТЕРИАЛЫ И СООБЩЕНИЯ

Д.А. Скоринкин

Электронное представление текста

с помощью стандарта разметки tei

Статья рассказывает о хранении и представлении текстовых источников в электронном виде с использованием стандарта TEI (Text Encoding Initiative) -специализированного языка разметки на основе XML. Стандарт TEI разработан как средство формального кодирования наиболее значимых текстологических свойств документа: физических параметров рукописи, критического аппарата, лингвистической информации, выходных данных, сведений об авторе, обстоятельствах публикации и первоисточнике. В статье описываются принципы использования, основные возможности и сферы применения TEI, а также представлен обзор проектов из разных гуманитарных областей, осуществленных с опорой на TEI-разметку.

Ключевые слова: электронное архивирование, цифровые издания, информационные технологии в текстологии и литературоведении.

This paper describes the use of TEI (Text Encoding Initiative) standard for digital preservation and representation of textual heritage. TEI is and XML-based encoding format specifically developed to meet the demands of scholars in the humanities. It provides ready-made solutions for encoding critical apparatus, various textological data and metadata, physical features of a manuscript, morphological and syntactic information, named entities and more. In this paper we describe the basic principles and best practices of TEI encoding and provide a survey of TEI-based projects from different fields.

Key words: TEI, digital humanities, textual scholarship, XML, text encoding.

1. Введение

Развитие информационных технологий меняет ландшафт во всех отраслях знания, в том числе и сугубо гуманитарных. Сама возможность существования текста в электронной форме открывает новые горизонты и одновременно ставит новые вопросы. Эти вопросы, как правило, междисциплинарны - ответы на них приходится давать представителям всех наук, объектом исследования которых может стать текст на естественном языке: историкам, лингвистам, социологам, литературоведам.

Новые возможности, которые дает электронное представление текста, - это в первую очередь его «машиночитаемость», высокая скорость поиска информации, легкость правки, а также наличие гипертекста, возможность параллельного редактирования и параллельного хранения версий, встраивания мультимедиа. С их появлением встает вопрос о выработке

общего формата (стандарта) электронного машиночитаемого представления текста, который позволил бы в полной мере использовать новый технологический потенциал в исследовательской работе. Представляется, что такой формат должен

1. позволять сохранить любой текст без потери значимой информации;

2. иметь средства для хранения сопутствующей метаинформации о тексте и его носителях;

3. иметь средства для кодирования и хранения иной метаинформации разных уровней - структуры текста, лингвистической разметки, критического аппарата и др.;

4. быть интернациональным, независимым от каких-либо конкретных естественных языков или программного обеспечения;

5. быть достаточно гибким, подходить для разных типов текстов и исследовательских задач;

6. быть «открытым», т. е. допускать доработку, расширение и адаптацию под новые задачи;

7. быть максимально структурированным и машиночитаемым, оптимизированным для автоматической обработки.

С таким стандартом у исследовательского сообщества фактически появляется универсальный метаязык, на котором его представители могут обмениваться - в том числе и в автоматическом режиме - самой разной текстологической информацией. Публикуя в таком формате документ, мы сразу же встраиваем его в мировую «коллекцию», делаем его машиночитаемым, к нему становятся применимы разработанные сообществом средства автоматической обработки, анализа и сопоставления текстов. Стандартизация позволяет избежать «изобретения велосипеда» и тратить время только на действительно новые исследования.

2. Стандарт TEI: предназначение, принципы, применение

Сегодня на звание универсального языка разметки текста для различных областей гуманитарного знания претендует язык TEI (Text Encoding Initiative)1. TEI появился в 1987 г. и в наши дни стал де-факто стандартом для создания цифровых гуманитарных ресурсов за рубежом. Вокруг него сформировалось сообщество пользователей и разработчиков, проводится ежегодная конференция. Как следствие, теперь стандарт TEI включает в себя не только сами инструменты кодирования, но и концептуальные

1 TEI (Text Encoding Initiative). http://www.tei-c.org.

решения, рекомендации для многих нетривиальных случаев, с которыми сталкиваются исследователи-гуманитарии при работе с источниками.

2.1. Предназначение стандарта ТЕ1

Основная задача структурированной разметки - формальное эксплицитное представление некоторых свойств документа, заложенных в нем имплицитно. Допустим, перед нами документ, в котором содержится текст романа «Война и мир» Л.Н. Толстого из 90-томного полного собрания сочинений писателя (далее ПСС). Нам как читателям едва ли придет в голову задуматься о том, насколько много в этом документе текста, не принадлежащего Толстому (вступления и редакционные пояснения в начале, редакторские примечания внутри текста, комментарии, история создания в конце тома), для нас не составит труда понять, где кончается одна часть произведения и начинается другая, какие герои упоминаются в той или иной главе, какие реплики кем произнесены. Однако для машины ничего из этого не является «очевидным» - электронный текст без разметки остается не более чем цепочкой символов, что сильно ограничивает возможности работы с ним. Например, не закодировав вышеупомянутые знания о структуре текста и авторстве отдельных частей, трудно произвести корректный подсчет частотности слов и словосочетаний, употреблявшихся Толстым, быстро составить словарь языка писателя, изучить динамику тех или иных признаков по главам, частям и томам, да и вообще осуществить любое количественное исследование текста.

Рассмотрим другой пример (пример 1) - короткое письмо из 60-го тома ПСС Л.Н. Толстого2:

1)

Н. А. Некрасову.

1856 г. Марта 29-30. Петербург.

Не можете ли вы дать мне деньги за Метель теперь, а чтоб долг 400р. оставался до следующего писанья. - Вы бы меня очень обязали. До свиданья. Ваш Толстой.

Человеку уже при беглом просмотре становится понятно, кем, кому, когда и откуда отправлено письмо. Однако для машины это пока что всего лишь цепочка символов, требующая сложного дополнительного анализа или явной маркировки элементов типа «адресат», «отправитель» и т. п. ТЕ1 предоставляет готовые формальные средства для кодирования любой подобной информации. Расставив соответствующие теги (метки,

2 Толстой Л.Н. Полн. собр. соч. Т. 60. Письма 1856-1862. М., 1949.

о которых см. ниже), мы сделаем такое разделение «понятным» для машины, никак не изменив и не потревожив при этом исходную структуру тома.

2.2. Язык XML как технологическая основа для TEI

В основе TEI лежит язык XML (extensible Markup Language, расширяемый язык разметки). Он представляет собой расширяемый метаязык, то есть язык для описания других языков, в данном случае - языков разметки. XML намеренно очищен от какой-либо семантики, в нем нет элементов, которые были бы изначально связаны с понятиями или объектами из реального мира; его назначение - задать стандартный синтаксис и обеспечить общую технологическую основу для различных языков разметки. Подробный рассказ об XML выходит за рамки данной статьи, поэтому ниже мы опишем лишь некоторые его базовые свойства, понимание которых необходимо для рассказа о TEI.

XML позволяет задавать структуру любого документа с помощью набора вложенных друг в друга элементов (дерева XML). Элементы выражаются с использованием открывающих и закрывающих тегов, имеющих вид <имя элемента> и </имя элемента>. Приведем простой пример XML разметки художественного текста (пример 2):

2)

<text>

<1>Вы хотите быть игрушечной</1> <1>Но испорчен Ваш завод,</1> <1>К Вам никто на выстрел пушечный</1> <1>Без стихов не подойдет. </l>

</text>

В этом примере использованы принятые в TEI элементы <text> (любой цельный текст) и <l> (строка как ритмическая единица поэзии). При этом text в данном случае является корневым элементом, в который вложены все четыре строки <l>.

Часто бывает необходимо хранить некую информацию о конкретном элементе. Например, мы хотим указать, что данный конкретный текст (но не любой элемент <text>) является четверостишием, а для каждой строки желаем закодировать метрическую структуру. В этом случае мы можем добавить к элементам соответствующие атрибуты. Воспользуемся атрибутами, которые предлагает нам TEI: атрибутом @type для типа текста, и специальным атрибутом @met для метрической структуры:

3)

<text type = "quatrain">

<l met = "+-|+-|+-|+-">Дар напрасный, дар случайный, </l> <l met = "+-|+-|+-|+">Жизнь, зачем ты мне дана? </l> <l met = "+-|+-|+-|+-">Иль зачем судьбою тайной</1> <1 met = "+-|+-|--|+">Ты на казнь осуждена? </1> </text>

2.3. Документ TEI

Основной единицей хранения является документ TEI, который технически представляет собой документ XML. Корневой элемент такого документа также называется <TEI>. Внутри него располагаются элементы <teiHeader> (содержит всю метаинформацию о документе) и <text> (содержит текст документа с элементами, определяющими его структурное членение, а также любыми другими элементами, выделяющими какую-либо область или точку непосредственно в тексте). Самая общая структура может быть представлена таким образом:

4) ' <TEI>

<teiHeader></teiHeader>

<text>текст</text>

</TEI>

2.4. Хранение метаинформации о документе в TEI

Рассмотрим подробнее элемент <teiHeader>. В нем хранится информация о первоисточнике, из которого был получен электронный документ (например, библиографическое описание бумажного издания), о самом электронном документе (имена ответственных за подготовку, история изменений) и о конкретном тексте или текстах (жанр, перечень действующих лиц). У <teiHeader> есть четыре главных дочерних элемента: <fileDesc> (описание документа), <encodingDesc> (описание способа кодирования первоисточника), <profileDesc> («досье» на текст) и <revisionDesc> (история изменений документа). Мы подробнее остановимся на <fileDesc> и <profileDesc>.

Элемент <fileDesc> должен содержать полную библиографическую информацию о первоисточнике (если таковой существует). В идеале информация должна быть достаточной для того, чтобы сформировать библиографическое описание. Предположим, мы приняли решение создать

TEI-документ для повести Л.Н. Толстого «Детство». За основу возьмем электронную версию повести, полученную при оцифровке ПСС. Вероятно, в мы <1е1Неаёег>захотим указать такие параметры, как название произведения, его автора, редакторов, дату создания и дату публикации, источник (т.е. в нашем случае - первый том ПСС3). В таком документе <teiHeader> с заполненным <fileDesc> может выглядеть как показано в примере 5 (для удобства чтения добавлены комментарии вида <!--комментарий-->):

5)

<teiHeader>

<fileDesc> <!-- начало элемента <fileDesc> --> <titleStmt>

<Ш1е>Повесть «Детство». Электронное издание. </title> <!-- название нашего нового электронного документа -- >

<аиШог>Толстой Л.Н.</аиШог> <!-- автор текста--> <editor>Иванов H.H.</editor> <!--здесь может быть указан редактор документа или составитель коллекции-- >

<respStmt> <!-- элемент responsibility statemement (декларация ответственности) предназначен для указания всех причастных к подготовке документа с указанием роли каждого участника-- >

<1гар>Подготовка и разметка метаинформации для электронного издания</1^р> <!--задача -->

<пате>Иванов И.И.</пате> <!--ответственный -->

</respStmt>

</titleStmt>

<publicationStmt>

<publisher>Школа лингвистики <orgName>НИУ ВШЭ</ orgName></publisher> <!--издательство, организация или иной коллектив, публикующий документ -- >

<availability> <!--сведения о лицензии и авторских правах -->

<р>Распространяется свободно</р>

</availability>

</publicationStmt>

<sourceDesc> <!--описание первоисточника --> <ЫЬШтй><!--элемент для структурированного библиографического описания-->

<author>Толстой Л.Н.</аиШог>

<title 1еуе1="а">Детство</Ш1е> <!--название произведения -->

3 Толстой Л.Н. Полн. собр. соч. Т. 1. Детство. Юношеские опыты. М., 1935.

<monogr> <!--элемент для части библиографического описания, которая относится к отдельной книге, тому и т.д.-->

<Ш1е 1еуе1="т">Полное собрание сочинений. Том 1</Ш1е> ^—название тома-->

<imprint> <!--элемент для выходных данных --> <риЬР1асе>Москва</риЬР1асе> <!--место выпуска издания --> <publisher>Государственное издательство "Художественная лите-ратура"</puЫisher>

<date when="1935"/> <!--дата издания -->

<Лтрп^>

</monogr>

<series> <!--элемент для части библиографического описания, которая относится к серии томов, собранию сочинений и т.д. -->

<Ш1е 1еуе1='У>Л.Н. Толстой. Полное собрание сочинений</Ш1е> <ЫЬ^соре unit="vol"> 1 </biblScope> </series> </biblStruct> </sourceDesc> </fileDesc> <teiHeader>

Элемент <profileDesc> содержит метаданные, относящиеся непосредственно к тексту или текстам ТЕ1-документа, - обстоятельства создания, жанр, используемые языки, в случае с письмами - информация об отправителе, адресате и адресах. Например, для повести «Детство» мы можем указать, что она была создана в 1852 г., писалась в Москве и нескольких населенных пунктах Кавказа; основной язык текста - русский, однако есть вкрапления немецкого и французского; кроме того, мы можем ввести некоторую классификацию текста по жанру и указать, что перед нами именно повесть. 6)

<profileDesc>

<сгеайоп> <!--информация об обстоятельствах создания текста --> <date when="1852" >1852</date> <!--дата создания текста --> <placeName>Москва</placeName> <!--места создания текста --> <р1асе^те>станица Старогаадковская</р1асе^те><!--места создания текста -- >

<placeName>Старый Юрт</placeName><!--места создания текста

-- >

<р1асе^те>Тифлис</р1асе^те><!--места создания текста --> </creation>

<langUsage> <!--языки написания -->

<language ident="rus" usage="99">Русский</language> <!--в атрибуте @ident указан код языка в соответствии с ISO 639-3, в атрибуте @ usage - примерная доля языка в тексте в процентах -->

<language ident="fra" usage="0,5">Французский</language> <language ident="deu" usage="0,5">Немецкий</language> </langUsage>

<textClass> <!--элемент для указания принадлежности текста к тому или иному жанру, типу, классу в рамках некоторой классификации-- >

<catRef type="type" target="#short novel"/> <! — клас-

сификация по жанру текста; в атрибуте target дана ссылка на элемент таксономии short novel (повесть); описание или ссылка на таксономию вводится в другой части <teiHeader> --> </textClass> </profileDesc>

Эти ппримеры содержат далеко не все элементы, которые допустимы внутри <teiHeader> - их полное перечисление было бы слишком громоздким, к тому же некоторые из них исключают друг друга. Полный перечень см. в «Руководстве TEI»4, раздел «TEI Header».

2.5. Хранение критического аппарата в TEI

Для отображения критического аппарата принципиальной является возможность параллельного представления в одном документе множественных вариантов (авторских, редакторских, корректорских и т. п.) и прочтений. Наличие такой разметки в дальнейшем позволяет выборочно отображать желаемые варианты, что уже не реализуемо на бумаге.

Основным средством параллельного представления является элемент <choice>, внутри которого могут быть помещены несколько вариантов текста, например авторский с опечаткой и редакторский исправленный или авторский в старой орфографии и редакторский в новой. В первом случае ошибочный вариант будет помещен внутри элемента <sic> («так у автора»), а исправленный - внутри элемента <corr> («исправленное написание»); во втором для исходного ненормализованного варианта предназначен элемент <orig> («оригинальное написание»), а для нормализованного - <reg> («нормализованное написание»). Возьмем для примера

4 TEI P5 Guidelines. http://www.tei-c.org/Guidelines/P5/.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

вторую редакцию повести «Детство», которая приводится в первом томе ПСС5 наряду с другими черновыми вариантами (окончательной считается четвертая редакция). Там есть, в частности, такой фрагмент (рис. 1).

ауется ложей.) А рябая родственница оказала: «верхомъ бы въ Smcirii еще тепленьтй довезли. Вотъ Княгиня И. В. всегда посылаетъ верхомъ2 да еще къ Сухаревой башн^». Bei обратили внимаше на рябую родственницу. — «Полноте, М. И.»,

Рис. 1. Фрагмент страницы первого тома ПСС Л.Н. Толстого

Слово «верхомъ» снабжено сноской, которая выглядит так (рис. 2): 2 Написано: вихремъ. Рис. 2. Фрагмент страницы первого тома ПСС Л.Н. Толстого

Таким образом, здесь мы имеем дело с вариантом текста, который уже исправлен редактором, а оригинальное авторское написание дано нам в сноске. При помощи TEI эту ситуацию можно закодировать так:

7;

А рябая родственница сказала: «верхомъ бы въ мискЬ еще тепленький довезли. Вотъ Княгиня И. В. всегда посылаетъ <^оке>^с>вихремъ</ sic><corr resp ="#ейког1">верхомъ</согг></^оке> да еще къ Сухаревой башнЬ

Атрибут @resp элемента <corr> содержит ссылку на идентификатор редактора. Список редакторов в таком случае должен храниться выше внутри <teiHeader>.

Текст первых трех редакций повести приведен в ПСС в старой дореформенной орфографии. Мы могли бы дополнить его современным написанием, тем более что процесс перевода несложно автоматизировать. При помощи TEI исходный и нормализованный варианты могут быть представлены так:

8)

<choice><reg>Вот</reg><orig>Вотъ</orig></choice> Княгиня И. В. всегда <choice><reg>посылает</reg><orig>посылаетъ</orig></ choice> <choice><reg>верхом</reg><orig>верхомъ</orig></choice> да еще <choice><reg>к</reg><orig>къ</orig></choice> Сухаревой <choice><reg>башне</reg><orig>башнЬ</orig></choice>».

5 Толстой Л.Н. Полн. собр. соч. Т. 1. Детство. Юношеские опыты. М., 1935.

При необходимости исправление и нормализацию орфографии можно совместить, поместив один <сЬогсе> внутрь другого:

9)

<с^ке> <sic> <choice>

<1^>вихрем<Л^>

<orig>вихремъ</orig>

</choice>

</sic>

<согг resp="#editor1"> <choice>

<reg>верхом</reg> <orig>верхомъ</orig> </choice> </согг> </choice>

Схожим образом в ТЕ1 обрабатываются различные прочтения неоднозначного текста. Они группируются внутри элемента <арр> (элемент критического аппарата). Каждому отдельному прочтению соответствует элемент (прочтение), основной вариант (при наличии) помещается в элемент <1етта> (главное прочтение). В качестве примера используем известный эпизод «Повести временных лет» о дани, которую платили хазарам и варягам славянские племена (рис. 3):

:Ч1 « ЛА-ПЯГ Г11Ы с 11 « .П^ИНАТПУТГ^ ' д-кпик'Е л^пв^тя 4{п д-м ^Г

Рис. 3. Фрагмент текста Лаврентьевской летописи1

Для последней строки этого текста существуют различные прочтения - «по беле и веверице от дыма» (что можно трактоваться как «по одной серебряной монете и беличьей шкурке») и «по беле(и) веверице от дыма» (по одной белой, т.е. зимней беличьей шкурке). Как правило, второе прочтение считается предпочтительным. В ТЕ1 это разночтение можно представить таким образом:

1 Лаврентьевскя летопись: Электронное представление рукописного памятника. http://expositions.nlr.ru/LaurentianCodex/.

11) по

<app> <!--одна запись критического аппарата-->

<lemma wit="#w1 #w2">бiлiи</lemma> <rdg wit="#w3">бiлi и</rdg> <!--прочтение-->

</app>

вЪверицЪ йдыма

С помощью значений атрибута @wit варианты написания <lemma> и <rdg> ссылаются на соответствующие им источники. Список источников с идентификаторами, благодаря которым и возможна ссылка, приводится в <teiHeader> (<sourceDesc>) внутри элемента <listWit>: 12)

<listWit>

<witness xml:id="w1">Прочтение А.А. Шахматова<ЫЫ>Шахматов А.А. Разыскания о русских летописях. М., 2001. С. 387.</bibl> </witness> <witness xml:id="w2">Прочтение современного редакгора<bibl> Лав-рентьевская летопись // Полное собрание русских летописей. 2е изд. М.: Языки русской культуры, 2001. Т. I. 496 с. <.bibl> </witness> <witness xml:id="w3"> Прочтение Д.С. Лихачева <bibl> Повесть временных лет / Подгот. текста, перевод, статьи и комм. Д.С. Лихачева; под ред. В.П. Адриановой Перетц. 2-е изд., испр. и доп. СПб.: Наука, 1996. 468 с.</bibl></witness> </listWit>

Возможны случаи, когда редактор восстанавливает нечетко написанное слово, дополняет пропуск, дописывает утраченный фрагмент текста. Для этих целей в TEI существует набор элементов, сгруппированных в модуле «Отображение первоисточника». Там же собраны элементы для описания физических свойств носителя текста - состояния и материала рукописи, повреждений и связанных с ними потерь и восстановлений текста. Введены отдельные теги для разметки поврежденных участков рукописей, авторских помет и добавлений на полях, текста, написанного другой рукой, в другое время, с помощью других инструментов и т. д.

К сожалению, объем статьи не позволяет описать многие другие аспекты применения TEI - разметку именованных сущностей и темпоральных указателей, работу с географическими координатами, лингвистическую разметку, кодирование физических свойств рукописи, встраивание изображений, специфику применения TEI для разметки поэзии, драмы, писем. Детальное описание каждого аспекта см. в «Руководстве TEI».

3. Применение TEI: обзор проектов

На официальной странице TEI указаны адреса 169 проектов и электронных ресурсов, использующих стандарт. Представители консорциума подчеркивают, что это число едва ли полное и точное количество исследователей и коллективов, применяющих TEI, неизвестно.

Значительная часть ресурсов, которые используют TEI, связана с цифровым представлением классического литературного наследия. Среди них стоит отметить проекты «Мир Данте» («World of Dante»)2, посвященный «Божественной комедии», и «Электронный архив Петра-пахаря»3, построенный вокруг разных версий «Видения о Петре-пахаре» Уильяма Ленгленда.

Проект «Мир Данте» позволяет осуществлять поиск отдельно по персонажам, локациям животным, мифическим существам и «божественным сущностям», упоминающимся в «Божественной комедии». В режиме просмотра пользователь видит оригинальный текст на итальянском, выравненный с ним английский перевод и меню, в котором отображаются присутствующие в данной песне именованные сущности. При выборе любой из них упоминание подсвечивается в тексте. Кроме того, здесь представлены различные визуальные хронологии, карты, иллюстрации к поэме, сопровожденные подробными аннотациями и комментариями.

«Электронный архив Петра-пахаря» хранит все имеющиеся варианты поэмы «Видение о Петре-пахаре» - памятника английского позднего средневековья. Создатели ресурса при разметке делали акцент на документировании критического аппарата и отражении физических свойств манускриптов. В отличие от предыдущего проекта, в «Электронном архиве Петра-пахаря» разметка в формате TEI доступна для просмотра и изучения.

Часто с использованием TEI создаются литературные и литературно-публицистические архивы, представляющие наследие определенной эпохи, художественного направления или социальной группы. Таковы проекты «The Yellow Nineties Online»4 (посвящен эпохе fin de siècle и знаковому для нее журналу «Желтая книга»), «Victorian Women Writers' Project»5 (произведения женщин-литераторов Викторианской эпохи),

2 The World of Dante. http://www.worldofdante.org/.

3 Piers Plowman Electronic Archive. http://piers.iath.virginia.edu/index.html.

4 The Yellow Nineties Online. http://www.1890s.ca/.

5 Victorian Women Writers' Project. http://webappl.dlib.indiana.edu/vwwp/wel-come.do.

«Wright American Fiction 1851-1875»6 (тексты американской литературы третьей четверти XIX в.), «African American Women Writers of the 19th Century»7 (проект Нью-йоркской публичной библиотеки, посвященный творчеству женщин афроамериканского происхождения), корпус греческой поэзии Ave^OGKO&a8. В большинстве случаев TEI используется для разметки метаинформации, стихотворных строф и строк, критического аппарата. Пример 15 демонстрирует использование элемента <choice> в проекте «Victorian Women Writers' Project» для исправления опечатки в исходном издании 1877 г.: 15)

Miss <choice>

<sic>Bronti</sic>

<согг>Вгайё</согг>

</choice>'s was exceedingly small, nervous and poor, but quite legible. В режиме для чтения на сайте проекта фрагмент отображается так: Miss Bronfr-Brorts's.

Отдельно стоит отметить российский проект «Фольклорный архив Башкирского государственного университета»9. Он представляет собой пополняемую коллекцию фольклорных записей, собранных в Республике Башкортостан студентами и сотрудниками БашГУ Коллекция снабжена формой поиска по текстам, включая лингвистический поиск по словоформам, и дополнена лингвогеографической информацией в виде интерактивных карт с местами записи конкретного текста.

Еще один большой класс проектов составляют электронные архивы выдающихся людей - не только писателей и поэтов, но также ученых, художников, философов, общественных деятелей. С использованием TEI созданы архивы Эмили Дикинсон10 и Перси Шелли11, Эдварда Мунка12 и

6 Wright American Fiction 1851-1875. http://webappl.dlib.indiana.edu/TEIgeneral/ welcome.do?brand=wright.

7 African American Women Writers of the 19th Century. http://digital.nypl.org/ schomburg/writers_aal9/.

8 Avs^oaraXa. http://www.greek-language.gr/digitalResources/literature/tools/ concordance/index.html.

9 Фольклорный архив Башкирского государственного университета. http:// lcph.bashedu.ru/index.php?go=editions.

10 Emily Dickinson Archive. http://www.edickinson.org/.

11 The Shelley-Godwin Archive. http://shelleygodwinarchive.org/.

12 eMunch: Edvard Munch's Written Materials. http://www.emunch.no/.

Генрика Ибсена13, Ван Гога14 и Джереми Бентама15. Такие ресурсы сконцентрированы на сборе всего письменного наследия одного человека -литературных произведений, научных работ, публицистических текстов, переписки, дневников.

Один из проектов этого типа - электронный архив Чарльза Брокде-на Брауна16, выдающегося американского романиста, литературного критика и редактора. В архиве представлены романы, эссе, памфлеты, критические статьи и личная переписка. Пользователь ресурса может одновременно читать текст Брауна, просматривать факсимиле и непосредственно изучать TEI-разметку. В ней помимо метаданных о времени, месте и обстоятельствах издания содержится критический аппарат, информация об исправлениях и вставках в рукописи. На примере этого проекта видно, как может взаимодействовать фотокопия и электронный текст, связь между которыми устанавливается с помощью разметки в TEI. Ниже на рисунке (4) представлен пример зачеркивания в одном из манускриптов, где Браун сначала написал my tongue («мой язык»), а затем исправил на my lips («мои губы»):

Рис. 4. Фрагмент письма Чарльза Брокдена Брауна

На рисунке (5) показано, как это же место отображается в режиме для чтения:

Рис. 5. Отображение фрагмент письма Чарльза Брокдена Брауна в режиме для чтения

13 Henrik Ibsen's Writings. http://www.ibsen.uio.no/.

14 Vincent van Gogh - The Letters. http://vangoghletters.org.

15 Transcribe Bentham. http://www.transcribe-bentham.da.ulcc.ac.uk/.

16 The Charles Brockden Brown Electronic Archive and Scholarly Edition. http:// www.brockdenbrown.cah.ucf.edu.

tongue *lips?

Пример 16 показывает, как выглядит исходная разметка в TEI:

16)

my

<del rendition="#overstrike">tongue</del>

<add place="above">lips</add>

Также у архива есть расширенный поисковый интерфейс, позволяющий искать по метаданным, фильтровать тексты по жанру и времени создания, использовать в запросе логические операторы.

Еще один примечательный проект такого рода - электронный архив Марка Твена17. Здесь также предоставляется возможность одновременного просмотра текста и факсимиле, реализован поиск по атрибутам документа: тексту, примечаниям, критическому аппарату, датам; для корреспонденции - по адресату. Большая коллекция писем, отправленных и полученных писателем, представляется наиболее интересной частью архива.

Отдельный крупный кластер TEI-ресурсов формируют коллекции исторических памятников. Среди них можно выделить две основные подгруппы - ресурсы, посвященные работе с древними и средневековыми манускриптами, и проекты по оцифровке свидетельств более поздних, но имеющих явную общественную значимость. Из первой категории можно упомянуть Integrating Digital Papyrology18 (оцифровка, изучение и коллаборативное описание папирусов), Europeana Regia19 (оцифровка европейских рукописей средних веков и Возрождения), Early Irish Glossaries Database20, (оцифровка средневековых ирландских словарей; разметка в TEI применяется для хранения как критического аппарата, так и лингвистической информации), Medieval Nordic Text Archive21, группу схожих эпиграфических ресурсов по расшифровке письменных памятников античности - Inscriptions of Roman Tripolitania22, Inscriptions of Roman Cyrenaica23, Inscriptions of Aphrodisias24, Inscriptiones antiquae Orae Septentrionalis Ponti Euxini25 (посвящен греческим и латинским памятни-

17 Mark Twain Online. http://www.marktwainproject.org/.

18 Integrating Digital Papyrology. http://papyri.info/.

19 Europeana Regia. http://www.europeanaregia.eu/.

20 Early Irish Glossaries Database. http://www.asnc.cam.ac.uk/irishglossaries/.

21 Medieval Nordic Text Archive. http://www.menota.org/.

22 Inscriptions of Roman Tripolitania. http://irt.kcl.ac.uk/.

23 Inscriptions of Roman Cyrenaica. http://ircyr.kcl.ac.uk/.

24 Inscriptions of Aphrodisias. http://insaph.kcl.ac.uk/iaph2007.

25 Inscriptiones antiquae Orae Septentrionalis Ponti Euxini. http://iospe.kcl.ac.uk/.

кам, найденным на северном побережье Черного моря, осуществляется при участии РАН).

Существует и российский проект «Манускрипт»26, посвященным древним славянским письменным памятникам и использующий TEI27. Его создатели подготовили электронное издание глаголических и кириллических рукописей с возможностью чтения как в оригинальном, так и в адаптированном виде, а также разработали информационно-поисковую систему для исследования текстов, которая позволяет задавать сложные запросы и работать с выборками.

Вторую подгруппу представляют, например, проекты Voices of the Holocaust28 (расшифровки интервью с людьми, пережившими Холокост), Early Canada Online29 (архив письменных памятников истории Канады), A Family at War: The Diary of Mary Martin30 (дневник матери пропавшего без вести солдата Первой мировой, написанный в форме писем к сыну). Промежуточное положение занимает ресурс Colonial Despatches31, на котором хранится оцифрованная переписка между британским Министерством по делам колоний и администрацией Британской Колумбии.

Наконец, следует сказать и об использовании TEI для создания лингвистических корпусов, то есть коллекций текстов, снабженных лингвистической разметкой. Поскольку стандарт изначально создавался как средство хранения текстов, он органично вписывается в архитектуру корпусов. В TEI с момента его создания заложены решения для многих насущных проблем ресурсов корпусного типа - таких, например, как необходимость хранения метаинформация для поиска или потребность в унификации разметки больших разнородных коллекций. Обзорный характер данного текста не позволил нам подробно рассмотреть корпусный модуль TEI, однако некоторые возможности, позволяющие использовать стандарт для таких целей, были обозначены выше. Сегодня TEI

26 Манускрипт: Славянское пиьсменное наследие. http://manuscripts.ru/.

27 Вотинцев П. Использование формата TEI для обмена данными с полнотекстовой информационно-поисковой системой «Манускрипт» // Материалы международной науч. конф. «Современные информационные технологии и письменное наследие: от древних рукописей к электронным текстам». Ижевск, 2006.

28 Voices of the Holocaust. http://voices.iit.edu/.

29 Early Canada Online. http://www.canadiana.ca/.

30 A Family at War: The Diary of Mary Martin. http://dh.tcd.ie/martindiary/.

31 Colonial Despatches: The colonial despatches of Vancouver Island and British Columbia 1846-1871. http://bcgenesis.uvic.ca/.

применяется в Британском национальном корпусе32, Национальном корпусе польского языка33, ирландском корпус CELT34, корпусе венгерского языка Университета Сегеда35, словенском корпусе JOS36.

4. Заключение

Стандарт TEI является старейшим и наиболее распространенным специализированным инструментом разметки текста на естественном языке. Он предоставляет богатые возможности для представления самой разной текстологической информации в электронной форме, сочетая богатство готовых решений и гибкость адаптации к новым задачам. Стандарт применяется различных областях гуманитарного знания, облегчая сотрудничество исследователей и повышая взаимопроникновение между смежными дисциплинами.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Используя TEI, исследователь, с одной стороны, опирается на проработанную систему разметки и имеет под рукой множество готовых примеров, инструментов и реализованных проектов, может обращаться за консультации к обширному сообществу, а с другой - в ходе работы сам дополняет практику применения TEI собственными опытом, экспертизой и примерами. Тем самым он обогащает стандарт и приближает все научное сообщество к выработке оптимального международного и междисциплинарного языка описания текстов.

Список литературы

Воссоединенный виртуальный архив Осипа Мандельштама. http://

mandelstam-world.info/. Вотинцев П. Использование формата TEI для обмена данными с полнотекстовой информационно-поисковой системой «Манускрипт» // Материалы международной науч. конф. «Современные информационные технологии и письменное наследие: от древних рукописей к электронным текстам». Ижевск, 2006. С. 30-31. Манускрипт: Славянское пиьсменное наследие. http://manuscripts.ru/. Толстой Л.Н. Полн. собр. соч. Т. 1. Детство. Юношеские опыты. М., 1935.

32 British National Corpus. http://www.natcorp.ox.ac.uk.

33 Narodowy Korpus J^zyka Polskiego. http://nkjp.pl/.

34 CELT, the Corpus of Electronic Texts. http://www.ucc.ie/celt/.

35 The Human Language Technology Group, University of Szeged. http://www. inf.u-szeged.hu/projectdirs/hlt/index_en.html.

36 Project JOS: Linguistic Annotation of Slovene. http://nl.ijs.si/jos.

Толстой Л.Н. Полн. собр. соч. Т. 60. Письма 1856-1862. М., 1949. Фольклорный архив Башкирского государственного университета. http://

lcph.bashedu.ru/index.php?go=editions. The Yellow Nineties Online. http://www.1890s.ca/ A Family at War: The Diary of Mary Martin. http://dh.tcd.ie/martindiary/. African American Women Writers of the 19th Century. http://digital.nypl.org/

schomburg/writers_aal9/. Ave^ocKo&a. http://www.greek-language.gr/digitalResources/literature/tools/

concordance/index.html. British National Corpus. http://www.natcorp.ox.ac.uk CELT, the Corpus of Electronic Texts. http://www.ucc.ie/celt/. Colonial Despatches: The colonial despatches of Vancouver Island and British

Columbia 1846-1871. http://bcgenesis.uvic.ca/. Decameron Web. http://www.brown.edu/Departments/Italian_Studies/dweb/ index.php

Early Canada Online. http://www.canadiana.ca/.

Early Irish Glossaries Database. http://www.asnc.cam.ac.uk/irishglossaries/ Emily Dickinson Archive. http://www.edickinson.org/. eMunch: Edvard Munch's Written Materials. http://www.emunch.no/. Europeana Regia. http://www.europeanaregia.eu/. Henrik Ibsen's Writings. http://www.ibsen.uio.no/.

Inscriptiones antiquae Orae Septentrionalis Ponti Euxini. http://iospe.kcl.ac. uk/.

Inscriptions of Aphrodisias. http://insaph.kcl.ac.uk/iaph2007.

Inscriptions of Roman Cyrenaica. http://ircyr.kcl.ac.uk/.

Inscriptions of Roman Tripolitania. http://irt.kcl.ac.uk/.

Integrating Digital Papyrology . http://papyri.info/.

Mark Twain Online. http://www.marktwainproject.org/.

Medieval Nordic Text Archive. http://www.menota.org/.

Narodowy Korpus J^zyka Polskiego. http://nkjp.pl/.

Piers Plowman Electronic Archive. http://piers.iath.virginia.edu/index.html.

Project JOS: Linguistic Annotation of Slovene. http://nl.ijs.si/jos.

TEI (Text Encoding Initiative). http://www.tei-c.org.

TEI P5 Guidelines. http://www.tei-c.org/Guidelines/P5/.

The Charles Brockden Brown Electronic Archive and Scholarly Edition. http://

www.brockdenbrown.cah.ucf.edu. The Human Language Technology Group, University of Szeged. http://www. inf.u-szeged.hu/projectdirs/hlt/index_en.html.

The Poetess Archive. http://www.poetessarchive.org. The Shelley-Godwin Archive. http://shelleygodwinarchive.org/. Transcribe Bentham. http://www.transcribe-bentham.da.ulcc.ac.uk/. Victorian Women Writers' Project. http://webappl.dlib.indiana.edu/vwwp/ welcome.do.

Vincent van Gogh - The Letters. http://vangoghletters.org. Voices of the Holocaust. http://voices.iit.edu/. World of Dante. http://www.worldofdante.org/.

Wright American Fiction 1851-1875. http://webappl.dlib.indiana.edu/TEIgen-eral/welcome.do?brand=wright.

Сведения об авторе: Скоринкин Даниил Андреевич, аспирант Факультета гуманитарных наук НИУ ВШЭ (Аспирантская школа по филологическим наукам), преподаватель Школы лингвистики НИУ ВШЭ. E-mail: daskorinkin@edu.hse.ru.

i Надоели баннеры? Вы всегда можете отключить рекламу.