Научная статья на тему 'Создание системы разметки французского текста дневников О. И. Давыдовой для автоматической обработки текста'

Создание системы разметки французского текста дневников О. И. Давыдовой для автоматической обработки текста Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
193
23
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАЗМЕТКА ТЕКСТА / КОРПУС / ДНЕВНИК / ТХМ / TAGGING TEXTOMETRY / CORPUS / DIARY / TXM

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Дебренн Мишель

Изложена система обработки франкоязычного текста дневников О. И. Давыдовой в рамках проекта их электронного издания: определены необходимые тэги, система разметки временных отрезков, переключения кодов, ошибок и исправлений.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Дебренн Мишель

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A SET OF TAGS TO MARK THE FRENCH TEXT OF O. I. DAVYDOFF’S DIARY FOR THE COMPUTER RETRIEVAL OF DATA

In this paper a set of tags is presented, which is used to mark the French text of O. I. Davydoff’s diary. In the context of electronic publishing we have to tag dates, code switching, errors and corrections.

Текст научной работы на тему «Создание системы разметки французского текста дневников О. И. Давыдовой для автоматической обработки текста»

КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА

УДК 81'32, 81'33

М. Дебренн

Новосибирский государственный университет ул. Пирогова, 1, Новосибирск, 630090, Россия

micheledebrenne@gmail. com

СОЗДАНИЕ СИСТЕМЫ РАЗМЕТКИ ФРАНЦУЗСКОГО ТЕКСТА ДНЕВНИКОВ О. И. ДАВЫДОВОЙ ДЛЯ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТА *

Изложена система обработки франкоязычного текста дневников О. И. Давыдовой в рамках проекта их электронного издания: определены необходимые тэги, система разметки временных отрезков, переключения кодов, ошибок и исправлений.

Ключевые слова: разметка текста, корпус, дневник, ТХМ.

Данная работа продолжает цикл исследований, посвященных обработке дневниковых тетрадей Ольги Ивановны Орловой-Давыдовой (1814-1876, урожденная княжна Барятинская), хранящихся в ГПНТБ и озаглавленных «Journal d'Olga Davidoff». Речь идет о пяти общих тетрадях на французском языке, содержащих записи за 1834-1845 годы, с небольшими более поздними вставками 1847, 1849 и 1869 годов. Оригиналы этих дневников хранятся в РГБ. Целью нашего исследования является полное аннотированное издание франкоязычного текста с переводом на русский. Французский и русский тексты, а также отсканированный оригинал будут преобразованы в стандарт электронной разметки текстов в формате XML для их последующего размещения на платформе ТХМ 1.

Для этого необходимо подготовить текст, набранный в обычном текстовом редакторе таким образом, чтобы его потом можно было автоматически преобразовать в файл в соответствующем формате. В данной статье излагается система тэгов, разработанная для разметки дневников и позволяющая в дальнейшем решать различные исследовательские задачи изучения языка О. И. Давыдовой и лингвокультурологического содержания ее дневников.

Общие принципы разметки

В конечном итоге текст будет оформлен согласно стандартам электронной разметки текстов в формате XML в соответствии с рекомендациями международной Инициативы

* Работа проведена при финансовой поддержке РГНФ (проект № 16-24-08001).

1 http://textometrie.ens-lyon.fr/spip.php?rabrique96&lang=en.

Дебренн М. Создание системы разметки французского текста дневников О. И. Давыдовой для автоматической обработки текста // Вестн. Новосиб. гос. ун-та. Серия: Лингвистика и межкультурная коммуникация. 2017. Т. 15, № 1. С. 34-40.

ISSN 1818-7935

Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 2017. Том 15, № 1 © М. Дебренн, 2017

по Кодированию Текстов (TEI, Text Encoding Initiative). Данный стандарт опирается на тщательно разработанную теорию структуры текста и документа, легко адаптируется к особенностям каждого отдельного документа за счет модульной организации и специального механизма спецификации. TXM представляет собой модульную платформу с открытым исходным кодом, сочетающую функции различных ранее разработанных программ текстометрического анализа (подробнее см.: [Лаврентьев, 2012]).

Разработанная нами система тэгов состоит из трех блоков, некоторые из которых могут сочетаться между собой:

- тэги, позволяющие структурировать текст: заголовки, разметка даты и номеров страниц;

- тэги, размечающие отдельные элементы текста согласно их значению («семантические» тэги), например, антропонимы, топонимы;

- тэги, позволяющие помечать особенности оформления текста - ошибки, описки, исправления, язык.

Первым этапом работы было переписывание французского оригинала дневников в текстовом редакторе. Для этого использовались как прямое переписывание, так и система автоматической диктовки Dragon с последующей правкой текста.

Для последующей автоматической обработки текста необходимо, чтобы его форматирование было произведено исключительно с использованием стилей, как для абзацев, так и для отдельных знаков (слов). Как известно, использование стилей форматирования в текстовом редакторе позволяет не только одноразово менять внешнее оформление помеченных одним стилем параграфов или знаков (что для нас, в данном случае, не столь существенно), но и осуществлять контекстный поиск всех элементов текста, помеченных именно данным стилем. Стандартные текстовые редакторы предлагают определенное количество стандартных стилей (например, для заголовков), но также позволяют создавать новые. Их названия, а также внешнее оформление могут быть изменены в любое время - важно, чтобы соответствующие фрагменты текста всегда были помечены одним и тем же стилем.

В распоряжении исследователей имеется три параллельных текста: отсканированная рукопись, французская транскрипция текста, русский перевод. Ниже излагается система разметки французского текста. В тексте русского перевода размечаются только разделы (с соответствующими стилями, см. ниже) и номера страниц оригинала, а также вносятся сноски, касающиеся содержания текста, например, краткая биографическая справка об упомянутых персоналиях:

1 - Амалия Луиза Сайн-Витгенштейн (Келлер, 1771-1859).

Впоследствии, для печатного издания, вся информация о персоналиях будет собрана в виде справочника для удобства читателя. Предполагается, что такой справочник будет содержать до 300 имен, это аналогично тому, что можно увидеть в научном издании дневников В. А. Жуковского (т. 14, 2004).

Структура электронного текста

Текст структурируется следующим образом: каждая единица хранения ГПНТБ (от 601-1 до 601-5) оформляется в виде отдельного файла. Внутри документа выделяются три уровня разделов:

1. Заголовок первого уровня - тетрадь или год. Документ, с которым мы имеем дело, является компиляцией, авторизированной и отредактированной копией оригинальных дневниковых тетрадей О. И. Давыдовой. В тех случаях, когда переписчик указал номер отдельной оригинальной тетради, она помечается в нашем электронном документе данным стилем.

2. Заголовок второго уровня - глава или титульный лист. Дело в том, что некоторые части дневника имеют заголовки, например: «Journal de mon voyage a Kamenka en 1830» («Дневник моей поездки в Каменку в 1830 г.»). Если дневник не содержит глав, стиль Заголовок 2 не используется.

3. Заголовок третьего уровня - дневниковая запись. Для последующей работы с текстом крайне важно установить четкую систему датировки дневниковых записей, причем независимо от того, как эти записи были датированы в оригинальных дневниках. Дело в том, что О. И. Давыдова много путешествовала, и ее записи датированы то

согласно старому стилю, то согласно новому, то в сочетании одного с другим, например, старый и новый через дробь, или, наоборот, новый и старый через дробь. В некоторых случаях диаристка чередует эти способы без видимой причины. В более поздних дневниках она также указывает святого данного дня, причем на русском языке. Кроме того, в дневниках встречаются ошибочные даты, когда неверно указан день недели или месяц.

Было принято решение вносить в электронный документ (как во французский оригинал, так и в его перевод на русский) дату согласно старому стилю, преобладающему по всему дневнику и наиболее логичному, поскольку диаристка и ее окружение в основном соблюдали именно этот календарь и его праздники, даже когда жили за границей. Таким образом, каждая датированная дневниковая запись предваряется заголовком третьего уровня, имеющим следующий вид: {1834-11-09}.

В тех случаях, когда дневниковая запись относится к событиям, имевшим место в течение нескольких дней (рассказ задним числом о прошедших событиях), запись оформляется следующим образом:

{1847-04-01+}

Mardi 1 Avril. Jusqu'à aujourd'hui Samedi le 5 agitations continuelles et chagrin poignant pour les affaires d'Anatole 2. (Знак «+» означает «несколько дней».)

Словесное обозначение даты в том виде, в котором она фигурирует в тексте дневников (как Mardi 1 Avril в предыдущем примере), оформляется специальным стилем (условно названный «data»), если дата ошибочна -другим, «data-error».

Имеющийся в нашем распоряжении документ также содержит номера страниц. На данном этапе работы сложно сказать, являются ли эти номера авторскими или архивными (библиотечными, появившимися в последующее время в той или иной библиотеке в процессе их подготовки к хранению). В электронном документе они оформляются косыми скобками: <10>. Если слово переносится с одной страницы на другую, то окончание слова записывается без пробела после

2 Вторник, 1 апреля. Вплоть до сегодняшнего 5 числа, субботы, бесконечная суматоха и острые переживания, связанные с делами Анатолия.

номера страницы, например: Wla-<41>dimir. Знак переноса ставится только в том случае, если он фигурирует в источнике. Таким образом, при работе с размеченным текстом указание на номер страницы не воспрепятствует осуществлению автоматического поиска - в данном случае, например, количества упоминаний имени мужа в дневнике в данной транскрипции.

Имена собственные

Разметка текста и его обработка в виде корпуса даст в дальнейшем возможность подробно исследовать как языковые, так и лингвокультурные аспекты данных дневников. Поэтому мы уделяем большое внимание именам собственным, антропонимам и топонимам, которых очень много в данных текстах. Впоследствии, возможно, будут размечены и другие культурологические феномены, такие как названия произведений искусства, туристических достопримечательностей и пр. Выделяются следующие категории, которые оформляются соответствующими, специально для этого созданными, стилями.

1) Антропоним, написанный латиницей. Если антропоним состоит из нескольких слов, например, Alexandrine Czernichef, данная последовательность символов вся, включая пробел, размечается соответствующим стилем.

На данной стадии исследования обращение или титулатура (г-н, г-жа, граф, князь и пр.) в разметку не включается.

2) Антропоним, написанный кириллицей, размечается отдельным стилем, условно названным «persName-lang-ru».

В тех случаях, когда при написании антропонима вкралась орфографическая ошибка, он размечается специальным стилем «persName-sic-ortho» и «persName-lang-ru-sic-ortho». Следует, однако, различать ошибки и «варианты написания». Так, среди вариантов транскрипции фамилии Чернышев (Czernichef, Tchernicheff, Czernichof), невозможно определить, какая транскрипция правильная, а какая - нет. Наоборот, запись Lissima для имени золовки О. И. Давыдовой Елизаветы, прозванной в семье «Лизинькой» следует считать ошибочной.

Аналогичная система действует для топонимов (названия городов, географических объектов, стран и некоторых крупных достопримечательных мест, например, озер или горных массивов), написанных латиницей или кириллицей, с ошибками или без.

Разметка билингвального

характера дневника

Несмотря на то, что имеющиеся в нашем распоряжении дневники О. И. Давыдовой написаны главным образом на французском языке, в них содержатся как отдельные слова, так и целые предложения на русском языке. Некоторые антропонимы и топонимы, как мы отмечали выше, также написаны кириллицей. Наконец, единица хранения 601-2 содержит целый текст, полностью написанный на русском языке (рассказ о поездке в Сенги-слен, с. 139-147). Все фрагменты на русском (или церковнославянском) языке отмечены стилем lang-ru.

В некоторых - редких - случаях О. И. Давыдова вносит в текст транскрибированные на латинице русские слова (blini, telega, dro-shki, gorelki и др.), которые оформляются соответствующим стилем. Все это позволит тщательно отслеживать маркеры транскодирования для определения функционирования билингвальной речи О. И. Давыдовой с целью создания ее языкового портрета.

Девиатологическая разметка текста

Одним из главных направлений исследования текста дневников О. И. Давыдовой является составление портрета данной би-лингвальной, вернее, плюрилингвальной, личности. Платформа ТХМ позволит в том числе определить объем словарного запаса диаристки, частотность употребления ею тех или иных слов, сочетаемость лексем. Но важной составляющей языкового портрета является уровень владения языком - не все представители русской аристократии владели языком на том уровне, которого достигли члены семьи О. И. Давыдовой (ср. выдержки дневников, опубликованные в [Gretchanaia, Violet, 2008 или Rjeoutsky, 2016]). Изучение девиатологического материала тем более

важно для нас, что оно позволит определить роли автора, переписчика, проверяющего и исправляющего в работе над теми переписанными дневниками, которые хранятся в ГПНТБ. Для этого была разработана следующая система филологических тэгов, указывающих на отступления от языковой нормы.

Для ошибок

Лексема, содержащая ошибку, помечается целиком стилем sic-ortho (для орфографических), sic-lex (для лексических) и sic-gram (для грамматических ошибок). В остальных случаях, или если сложно определить тип ошибки, она помечается простым тэгом «sic». Поскольку возможны ошибки и в русском тексте, предусмотрены тэги lang-ru-sic-ortho и т. д. Как мы видели выше, эти же тэги могут сочетаться с пометкой «топоним» или «антропоним». Любая ошибка может быть прокомментирована в сноске, например, после неправильно (в данном контексте) использованного глагола rapprocherais ставится знак сноски, в сноске пишется:

1- [tr] Нужно reprocherai.

Сноски, относящиеся к оформлению дневниковых записей (и не затрагивающие их содержания), предваряются пометкой [tr].

Для исправлений

С чисто формальной точки зрения, любое исправление - комбинация зачеркивания и добавления букв. В связи с этим были разработаны следующие принципы разметки исправлений.

- Слово, содержащее исправление, оставляется в том стиле, в котором оно есть (обычный, persName, persName-lang-ru и т. д.).

- Если слово содержит зачеркнутые буквы, но исправление не предлагается, то зачеркнутые буквы помещаются в квадратные скобки, после них ставится косая черта. Таким образом, запись prenai[en/]t означает, что было prenaient, стало prenait.

- Если слово или несколько букв добавлены между строк или на полях, а в первоначальном тексте ничего не зачеркнуто, то добавленные буквы помещаются в квадратные скобки и перед первой буквой ставится косая черта. Таким образом, запись prenai[/en]t означает, что было prenait, стало prenaient.

- Если слово или несколько букв добавлены между строк или на полях, и при этом в

первоначальном тексте одна или несколько букв зачеркнуты, то зачеркнутые и добавленные буквы помещаются в квадратные скобки и разделяются косой чертой. Таким образом, запись pren[aie/a]nt означает, что было prenaient, а стало prenant. То же самое предлагается, когда исправленное слово или буквы написаны поверх первоначальных.

- Особые случаи. Если зачеркнутые буквы не читаются, то вместо них ставится дефис, например pren[-/a]nt.

В нашем материале исправления могут быть двух типов: с одной стороны, это исправления, внесенные переписчиком в ходе переписывания; их можно различать благодаря тому, что они исполнены теми же чернилами, что и основной текст. Часто это слова, взятые в скобки, после которых следует правильное слово. Другие исправления внесены в ходе редакторской работы над текстом. Напомним, что хранящиеся в ГПНТБ тетради представляют собой некое целое, объединенное явным «издательским» проектом - все тетради одинаковы, оформлены одинаково, почерк переписчика один и тот же. К тому же первая и вторая тетрадь имеют компиляцион-ный характер, а оригинальные тетради, которые переписаны в них, не всегда следуют в хронологическом порядке. Все это объясняет роль «проверяющего» - сделавшего помарки карандашом, иногда просто поставившего вопросительные знаки на полях, и «исправляющего» - зачеркнувшего неправильное и добавившего нужные буквы и слова. Все комментарии относительно транскрипции оформляются в виде сносок с пометой [tr], например запись rec[ue/onc]ill[i/e]r сопровождается комментарием в сноске.

1- [tr] было recueillir, стало reconcillier. Исправление не полное, так как нужно ré-concillier.

В тех случаях, когда текст рукописи не читается, неразборчивый фрагмент помечается стилем unclear. Если текст восстановить невозможно, в квадратных скобках делается пометка [gap]. После неразборчивого фрагмента ставится сноска с описанием фрагмента (приблизительное количество пропущенных слов или строк, причина неразборчивости и т. д.). В начале текста сноски ставится пометка [tr].

Сочетания тэгов

Как видно из приведенных примеров, система разметки (тэгов) позволяет сочетать их для описания сложных случаев. Например, такой тэг, как р1асе-пате-1а^-ги^ю-огйо обозначает топоним, написанный кириллицей и содержащий орфографическую ошибку, как в топониме Давыдова Пустынь (должно быть Давидова). Имена комбинирующихся стилей разделяются дефисом, в начале идет «семантический» стиль (топоним, антропоним...), затем лингвистический (иноязычное вкрапление), затем транскрипционный (ошибка и ее тип). Таким образом, в готовом документе можно будет сделать запрос, например, о всех орфографических ошибках во французском тексте, независимо от того, в лексемах каких категорий они было допущены.

Выводы

Хотя данная система была разработана нами для решения исследовательских задач в конкретном тексте, для разметки многоязычного документа, она может быть адаптирована и усовершенствована для других типов документов. При необходимости можно, например, вносить систему двойного обозначения страниц (авторских vs архивных), помечать текст, написанный на других языках, выделять элементы, по которым впоследствии будет производиться контекстный поиск. Такая предварительная кропотливая работа над текстом позволит в дальнейшем делать ценные наблюдения над формой и содержанием анализируемых рукописей.

Список литературы

Жуковский В. А. Полное собрание сочинений и писем: В 20 т. Т. 14. Дневники. Письма-дневники. Записные книжки. 1834-1847 гг. / Сост. и ред. О. Б. Лебедева, А. С. Янушкевич. М.: Яз. рус. культуры. 2004. С. 7-328.

Дебренн М. Французский язык дневников Ольги Давыдовой как пример русско-французского аристократического билингвизма // Сибирско-французский диалог ХУИ-ХХ веков и литературное освоение Сибири. Мате-

риалы международного научного семинара, Томск, 11-15 июня 2015. М.: ИМЛИ РАН, 2016. С. 181-201.

Лаврентьев А. М. Проблемы лингвистической разметки и анализа электронных критических изданий текстов письменного наследия в стандарте XML-TEI // 4th International conference on information technologies and textual heritage "El'Manuscript-2012" / Ed. by V. B. A. Varfolomeev. Petrozavodsk, 2012. P. 150-153.

Gretchanaia Е., Viollet C. et al. «Si tu lis jamais ce journal...» : Diaristes russes francophones, 1780-1854. Paris: CNRS-Editions, 2008.

Heiden S. The TXM Platform: Building Open-Source Textual Analysis Software Compatible with the TEI Encoding Scheme // Ed. Ryo Otoguro K. I. 24th Pacific Asia Conference

on Language, Information and Computation -PACLIC24. P. 389-398. Institute for Digital Enhancement of Cognitive Development, Waseda University, Sendai, Japan.

Heiden S., Magué J-P., Pincemin B. TXM : Une plateforme logicielle open-source pour la textométrie - conception et développement. // Ed. Sergio Bolasco I. C. Proc. of 10th International Conference on the Statistical Analysis of Textual Data - JADT 2010. Vol. 2. P. 10211032). Edizioni Universitarie di Lettere Economia Diritto, Roma, Italy.

Rjeoutsky V. Quand le français gouvernait la Russie, l'éducation de la noblesse russe 17501880. Paris: L'Harmattan, 2016.

Материал поступил в редколлегию 22.01.2017

Michèle Debrenne

Novosibirsk State University 1 Pirogov Street, Novosibirsk, Russian Federation

micheledebrenne@gmail.com

A SET OF TAGS TO MARK THE FRENCH TEXT OF O. I. DAVYDOFF'S DIARY FOR THE COMPUTER RETRIEVAL OF DATA

In this paper a set of tags is presented, which is used to mark the French text of O. I. Davydoff's diary. In the context of electronic publishing we have to tag dates, code switching, errors and corrections.

Keywords: tagging textometry, corpus, diary, TXM.

References

Debrenne M. Frantsuzskiy yazyk dnevnikov Ol'gi Davydovoy kak primer russko-frantsuzskogo aristokraticheskogo bilingvizma [The French Language in the Diaries of Olga Davydova as an Example of Russian-French Aristocratic Bilingualism] // Sibirsko-frantsuzskiy dialog XVII-XX vekov i literaturnoe osvoenie Sibiri [Siberian-French dialogue XVII-XIX centuries and the literary conquest of Siberia]. Moskva: IMLI RAN Publ., 2016. P. 181-201. (In Russ.)

Gretchanaia Е., Viollet C. et al. « Si tu lis jamais ce journal... » : Diaristes russes francophones, 1780-1854. Paris: CNRS-Editions, 2008.

Heiden, S. The TXM Platform: Building Open-Source Textual Analysis Software Compatible with the TEI Encoding Scheme // Ed. Ryo Otoguro K. I. 24th Pacific Asia Conference on Language,

Information and Computation - PACLIC24. P. 389-398. Institute for Digital Enhancement of Cognitive Development, Waseda University, Sendai, Japan.

Heiden S., Magué J-P., Pincemin B. TXM : Une plateforme logicielle open-source pour la tex-tométrie - conception et développement. // Ed. Sergio Bolasco I. C. // Proc. of 10th International Conference on the Statistical Analysis of Textual Data - JADT 2010. Vol. 2. P. 1021-1032). Edizioni Universitarie di Lettere Economia Diritto, Roma, Italy.

Lavrentiev A. M. Problemy lingvistichekoy razmetki i analyza electronnykh kriticheskikh izdanij tekstov pismennogo nasledija v standarte XML-TEI [Linguistic tagging and analysis of electronic critic edition of textual heritage according to standart XML-TEI]// 4th International conference on information technologies and textual heritage "El'Manuscript-2012" / Ed. Varfolomeev V. B. A. Petrozavodsk, 2012. P. 150-153.

Rjeoutsky V. Quand le français gouvernait la Russie, l'éducation de la noblesse russe 1750-1880, Paris, L'Harmattan, 2016.

Zhukovski V. A. Polnoe sobranie sochinenij i pisem v 20 tomakh, tom 14< Dnevniki. Pisma dne-vinki. Zapisnnye knizhki. 1834-1847 rr. / Ed. O. B. Lebedeva, A. Ya. Yanukhkevitch. Moscow: Yazyki russkoy kultury, 2004. P. 7-328.

i Надоели баннеры? Вы всегда можете отключить рекламу.