Научная статья на тему 'Полнотекстовая коллекция славянских Евангелий проекта «Манускрипт» и специализированные инструменты разметки: модуль фрагментирования'

Полнотекстовая коллекция славянских Евангелий проекта «Манускрипт» и специализированные инструменты разметки: модуль фрагментирования Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
203
49
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНТЕРНЕТ / ПОЛНОТЕКСТОВЫЙ КОРПУС / ДРЕВНЕРУССКИЕ РУКОПИСИ / ЕВАНГЕЛИЕ / INTERNET / FULL TEXT CORPUS / MANUSCRIPTS / GOSPEL

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Баранов В. А.

Рассматриваются вопросы разработки и использования специализированных программных средств для аналитической разметки корпуса средневековых славянских рукописей. Разметка является основой создания параллельного корпуса и электронного критического издания разновременных древнерусских списков Евангелий в Интернете.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Баранов В. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The article discusses the issues of creation and use of the specialized software for the analytical markup of the text corpus of the medieval Slavic manuscripts. The markup is a basis for the parallel corpus and electronic critical edition of the ancient manuscripts of the Gospels in the Internet.

Текст научной работы на тему «Полнотекстовая коллекция славянских Евангелий проекта «Манускрипт» и специализированные инструменты разметки: модуль фрагментирования»

ВЕСТНИК ПЕРМСКОГО УНИВЕРСИТЕТА

2011 История Выпуск 2 (16)

УДК 930:94”04/14”+004.78

ПОЛНОТЕКСТОВАЯ КОЛЛЕКЦИЯ СЛАВЯНСКИХ ЕВАНГЕЛИЙ ПРОЕКТА «МАНУСКРИПТ» И СПЕЦИАЛИЗИРОВАННЫЕ ИНСТРУМЕНТЫ РАЗМЕТКИ: МОДУЛЬ ФРАГМЕНТИРОВАНИЯ*

В. А. Баранов

Рассматриваются вопросы разработки и использования специализированных программных средств для аналитической разметки корпуса средневековых славянских рукописей. Разметка является основой создания параллельного корпуса и электронного критического издания разновременных древнерусских списков Евангелий в Интернете.

Ключевые слова: Интернет, полнотекстовый корпус, древнерусские рукописи, Евангелие.

0. Проект «Манускрипт»

В рамках проекта «Манускрипт» создаются полнотекстовые размеченные коллекции (корпус) славянских средневековых рукописей, отличающиеся от других подобных по тематике лингвистических ресурсов в Интернете тем, что позволяют не только познакомиться с текстами, переданными максимально близко к оригиналу, но и построить перечни словоформ и слов как одной, так и нескольких рукописей, просмотреть параллельный корпус разновременных списков одного произведения, использовать для анализа текста электронное критическое издание, осуществить другие виды работ с данными корпуса [Baranov, 2007, р. 199-207; Баранов, 2008а, с. 64-68; Баранов, 20086, с. 47-64, 422; Баранов, 2008в, с. 32-36; Баранов, 2008г, с. 37-44; Baranov, 2010, p. 63-89; Баранов, Дубовцев, 2010, с. 280-287].

1. Полнотекстовые коллекции проекта

1.1. Особенности коллекций

Доступ к коллекциям ИАС «Манускрипт» обеспечивается через портал «Манускрипт: славянское письменное наследие» (URL: http://manuscripts.ru). Электронные коллекции средневековых текстов, представленные на портале, имеют следующие особенности:

- электронный транскрибированный текст максимально точно отражает графикоорфографические особенности рукописи;

- специализированные модули дают возможность пользователю осуществить поиск необходимой информации на основе нескольких параметров, выбрать или сформировать самостоятельно состав и структуру визуализируемой выборки;

- разнообразные формы визуализации выборки позволяют получить справочные материалы для лингвистического, текстологического и иных видов анализа текста;

- электронная публикация рукописи является частью единой электронной коллекции рукописей (корпуса), что дает возможность, используя различные веб-модули, сопоставлять тексты и их текстологические и лингвистические составляющие.

1.2. Перечень коллекций

Портал содержит полнотекстовые коллекции славянских рукописей XI-XIV вв., несколько рукописей более позднего периода, а также тексты М. В. Ломоносова (страница коллекций - URL: http ://manuscripts.m/mns/portal.main?p 1=1 &p_lid= 1).

В настоящее время на портале размещены

- коллекция славянских рукописей XI в.,

- коллекция славянских Евангелий XI-XIV вв.,

- коллекция славянских миней XI-XIV вв.,

- коллекция славянских служебных миней на май XI-XIII вв.,

- коллекция славянских триодей XI-XIV вв.,

- коллекция славянских стихирарей XII-XIV вв.,

© В. А. Баранов, 2011

* Работа выполняется в рамках проекта «Лингвистическое обеспечение аннотированного корпуса древнерусских Евангелий Х1-ХШ вв.» (контракт № 14.740.11.0568) федеральной целевой программы «Научные и научно-педагогические кадры инновационной России» (2009-2013 гг.).

- коллекция славянских учительных произведений,

- коллекция русских летописей,

- коллекция произведений М. В. Ломоносова и некоторые другие [Рукописи].

2. Разметка коллекций

Любой корпус имеет разметку - текстологическую, аналитическую и лингвистическую. Разметка электронных копий рукописей в базе данных «Манускрипт» осуществляется с помощью специализированных веб-модулей, обеспечивающих введение и редактирование мета- и аналитической информации о текстах, рукописях и их фрагментах [Редактор..., 2009], лемматизацию текстов [Баранов, 2007; Baranov, 2008, р. 137-145], автоматический поиск параллельных фрагментов разных списков одного произведения и подготовку критического издания [Баранов, Дубовцев, 2010, с. 280-287], т. е. наиболее трудоемкие операции при создании корпуса.

Результаты разметки используются для поиска текстов, рукописей и их фрагментов, для построения словоуказателей разного типа, для создания параллельных корпусов и критических изданий рукописей одного произведения и для других видов поиска, упорядочивания и визуализации данных на портале.

3. Параллельный корпус Евангелий

В рамках корпуса в настоящее время создается параллельный корпус древнейших славянских Евангелий XI-XIII вв. [ПКССЕ].

Создание параллельного корпуса предусматривает наличие в базе данных словаря текстологических фрагментов (для Евангелий - это словарь евангельских стихов, единицы которого являются инвариантами стихов конкретных рукописей), разметку рукописей на стихи и установление связи между соответствующими друг другу единицей словаря и текстовым фрагментом. Наличие связи соответствующих друг другу фрагментов разных рукописей с одной единицей словаря позволяет выполнять поиск параллельных стихов и визуализировать на сайте проекта параллельный корпус.

Несмотря на то что в целом нахождение стиха в рукописи de visu и установление его связи с единицей словаря с помощью специализированного редактора OldEd не вызывает сложности, этот этап работы занимает много времени из-за очень большого количества стихов. Для ускорения и упрощения работы был создан специальный модуль фрагментирования, обеспечивающий автоматическое нахождение фрагмента в целевой рукописи на основе указанного фрагмента уже размеченной рукописи, редактирование границ найденного фрагмента и установление связи между единицей словаря фрагментов и найденным фрагментом.

4. Автоматический фрагментатор

4.1. Назначение фрагментатора

Веб-модуль автоматического анализа и фрагментирования списков одного произведения (фрагментатор) предназначен для поиска в электронных копиях рукописей фрагментов, соответствующих фрагментам основной, уже размеченной рукописи [МАФ].

Другой функцией модуля является предоставление пользователю возможности установления связей между соответствующими друг другу словоформами фрагментов. Инвариантами словоформ являются единицы так называемого прототекста конкретного произведения - словаря, содержащего нормализованные словоформы, а также соответствующие отдельным словоформам словосочетания, сочетания словоформ или синтаксические фрагменты.

4.2. Основные технологические решения

Фрагментатор реализован как ряд веб-интерфейсов для выборки, корректировки и сохранения данных, доступных через Интернет (требуется регистрация на портале «Манускрипт: славянское письменное наследие»). За основу интерфейса модуля была взята поисковая форма модуля электронного критического издания [ЭКИ], в которую были внесены изменения, касающиеся способа выделения из найденного набора данных единиц для обработки.

Анализатор может работать с одной из коллекций полнотекстовой базы данных (в настоящее время - с коллекцией славянских списков Евангелий и коллекцией славянских списков майской служебной минеи). База данных, реализованная на СУБД Oracle, позволяет осуществлять необходимую обработку данных с последующим выводом HTML-отчета в виде веб-страницы.

Алгоритм поиска соответствующих друг другу фрагментов сравниваемых текстов основан на выявлении как взаимного расположения соответствующих словоформ, так и частоты их вхождения

в заданный диапазон. Для определения соответствующих друг другу словоформ используются также результаты лемматизации списков текста.

Результатом автоматического поиска в модуле является некоторый диапазон целевой рукописи, содержащий часть текста, соответствующую фрагменту основной рукописи. Фрагмент находится с некоторой долей вероятности, поэтому требуется корректировка его границ и подтверждение со стороны пользователя. Результатом подтверждения является создание в базе данных фрагмента целевого текста, связывание его с единицей словаря фрагментов и сохранение всех результатов операции в базе данных.

4.3. Поисковая форма

Форма запроса модуля, указанная в верхнем фрейме поисковой страницы, позволяет выбрать рукописи для анализа, установить их приоритет, определить основную рукопись, указать в ней искомые фрагменты, а также диапазоны целевых рукописей, в которых ожидаются эти фрагменты (см. рис. 1).

Основным отличием от поисковой формы электронного критического издания (ЭКИ) [Баранов, 2008г, с. 37-44; Баранов, Дубовцев, 2010] является возможность выбирать диапазон листов отдельно для каждой целевой рукописи (поисковая форма ЭКИ, напротив, позволяет определить диапазон листов или фрагменты только основной рукописи).

4.4. Создание параллельного корпуса на уровне лингвистических единиц

Наличие параллельного корпуса на уровне фрагментов позволяет решать другую задачу -выравнивание корпуса на уровне лингвистических единиц. Модуль фрагментирования дает возможность установить связи между соответствующими друг другу словоформами стихов и сохранить связи в базе данных. Интерфейс модуля позволяет выбрать основную рукопись, словоформы которой будут использоваться в качестве единиц словаря инвариантов (прототекста), и рукописи, которые будут выравниваться по основной (см. рис. 2).

Результатом работы является добавление к прототексту произведения (словарю инвариантных лингвистических единиц) словоформ фрагмента, упорядоченных в соответствии с порядком их следования в основной рукописи, и установление связей текстовых словоформ со словоформами прототекста.

4.5. Редактирование параллельного корпуса

Дальнейшая работа по выравниванию корпуса осуществляется с помощью специализированного редактора OldEd, который позволяет изменить порядок следования словоформ прототекста, отредактировать их графико-орфографическую форму.

Понятно, что между лингвистическими единицами разных списков одного текста существуют более сложные соответствия, чем словоформа - словоформа, поэтому в модели базы данных предусмотрено создание сложных словоформ (сочетаний словоформ) и синтаксических фрагментов, которые могут быть связаны или со словоформой, или с синтаксической единицей прототекста соответственно. Приведем пример связей сложных словоформ с одной словоформой:

ПТ

ССФ_ПТ яви ся ССФ_ПТ

ССФ_Р1 ави ся ССФ_Р2 яви си СФ_Р3 виденъ ССФ_ПТ

КССФ1_ПТ яви

КССФ_Р1 ави КССФ_Р2 яви КССФ2_ПТ ся

КССФ_Р1 ся КССФ_Р2 си,

где:

ПТ - прототекст,

СФ_ПТ - словоформа прототекста,

ССФ_ПТ - сложная словоформа прототекста,

ССФ_Р1, ССФ_Р2 - сложные словоформы рукописей,

КССФ1_ПТ, КССФ2_ПТ - компоненты сложных словоформ прототекста,

КССФ_Р1, КССФ_Р2 - компоненты сложных словоформ рукописей (более подробно см. [Баранов, Дубовцев, 2010]).

По сути, с помощью специализированных модулей системы «Манускрипт» может быть создан электронный аналог критического издания нескольких списков одного произведения.

4.6. Демонстрация параллельного корпуса и критического издания в Интернете

Гибкая система настройки параметров запроса и вывода результатов на сайт позволяет чита-телю-пользователю получить различные виды визуализации параллельного корпуса:

- перечень заголовков фрагментов или инципитов фрагментов в соответствии с местом расположения фрагментов в рукописях,

- перечень фрагментов в соответствии с порядком расположения фрагментов в основной рукописи,

- «вертикальный текст» в соответствии с порядком следования словоформ в каждой из рукописей (см. рис. 3),

- фрагмент основного текста с вариантами разночтения других рукописей (см. рис. 4) и другие виды (более подробно см. [Баранов, Дубовцев, 2010]).

4.7. Текстовый материал параллельных корпусов и критических изданий

В настоящее время на портале «Манускрипт: славянское письменное наследие» демонстрируется первая версия системы автоматизированного фрагментирования рукописей [МАФ], работающая с двумя создаваемыми коллекциями - коллекцией рукописей Х1-Х1У вв. служебной минеи на май и коллекцией Евангелий по русским спискам Х1-ХШ вв.

5. Выводы

Одним из основных итогов работы по совершенствованию системы «Манускрипт» стало создание модуля фрагментирования, позволяющего в полуавтоматическом режиме осуществлять разметку документа на фрагменты на основе размеченного текста и устанавливать связи между лингвистическими единицами (словоформами) в соответствующих друг другу фрагментах разных списков одного текста. Поиск фрагментов в целевом документе происходит с помощью специальных процедур сравнения контекстов, разработанных с использованием алгоритмов неточного поиска, результатов лемматизации списков.

Простота и удобство интерфейсов модуля фрагментирования дает возможность существенно изменить принципы разметки списков одного произведения по сравнению с теми, на основе которых она производилась вручную в специализированном редакторе OldEd. Создание модуля автоматизированной разметки текстов ИАС «Манускрипт» позволило значительно ускорить работы по фрагментированию славянских списков Евангелий, существенно снизив трудозатраты на создание основы для лингвотекстологического исследования этой коллекции.

Результаты разметки используются для демонстрации на портале проекта лингвистических соответствий и разночтений в списках одного произведения в электронном критическом издании и текстологической структуры и состава рукописей, содержащих один текст, в параллельном корпусе.

Иллюстрации

Рис. 1. Выбор основной и целевых рукописей и фрагментов для поиска

Рис. 2. Установление связей между словоформами соответствующих друг другу фрагментов

разных списков одного произведения

1 і О Соединение.,. | + 1

^ & | http://manuscripts.ru/mns/crsd,сге(1?коІІ=61092969&Муре=12014 ж |^£І| | ж Соодіє | | "А~ Е'

РНБ, Кр.1.5. (ЕО.) | РГАДА, Син. 1 (ЕТ) | РНБ, Рум. 104 (ЕР) | РГБ, Рум. 105 (ЕС)

Зесиїкіит Тояппрт-01.01

Нсконн Н с к о нн Н С К 0 нн Н С К 0 НН

Е-Ё Е-ЕДШІ Б -Б Е 1і

СЛЇЕО СЛ0Е0 С Л ОБО СЛО БО

Н "і н Н

с лака С Л0Е.0 С ЛОБ 0 С ЛЄ БО

Е-Б Е Е -Б Е -К

(ТЪ и> Ш Ш

ЕЛ ЕЛ ЕА ЕЛ

Н Н Н Н

Ё\ ЕЪ Е1 Е1

Е'Б Е ’Б Е -Б Е-Е

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(ЛОБО СЛ0Е0 СЛФЕО С ЛО БО

2.1.2.1-2.1.2.4 137.1.2.21-137.1.2.23 1.1.1.7-1.1.1.9 2.1.1.5-2.1.1.6

Єесипііит ІоаппЄт-01.02

С £ се с є се

Б 15 Е 'Б Е -Б Е -К

НС К сын НС КОНН НС К 0 Н Н НС К ОНН

оу и/ оу оу

Б А Е А Б А Б Л

2.1.2.4-2.1.2.6 137.2.1.1-137.2.1.1 1.3.1.10-1.1.1.13 2.1.3.6-2.1.1.7

Бесшкіиш 1оашгет-01.03

н - - н

Т-ЕЫЬ Б‘с ГА Б С А БС А

ЕС А Т-Б».1Ь т-ьиь т-ьмь

ЕЪШД ЕТ.ІШЛ Е 7.1 III Л Е 7.1 Ш А

Н Н Н Н

ЕС ^ ЕЕ^ ЕС^ БЕЖ

нег» НКГО него него

НН¥ЬТ0ЖЕ ННУТОЖЕ N 6 не

не не ' Е -Ы е‘ -ы

ЕЪП ТГЬ ЕЪКТЬ ННV Б С 0 Ж 6 Н Н V Б Т 0 Ж Є

| Ожидание ответа от manuscripts.ru.., КЖЄ К Ж Є к ж е

Рис. 3. «Вертикальный текст» критического издания славянских Евангелий

Рис. 4. Фрагменты Остромирова Евангелия XI в. с подведенными разночтениями

Библиографический список

Baranov V. A., Mironov A. N., Lapin A. N., Melnikova I. S. et al. Development of the Processing and Visualization Technologies for the Linguistic Information in the Manuscript System: Lemmatization // JADT 2008: actes des 9es Journees intern. d’Analyse statistique des Donnees Textuelles, Lyon, 12-14 mars 2008: proc. of 9th Intern. Conf. on Textual Data statistical Analysis. Lyon (March 12-14, 2008) / Sci. ed.: S. Heiden, B. Pincemin. Lyon, 2008. Vol. 2.

Baranov V. A. Machine-Readable Linguistic Internet Resources as a Basis for Historical-Philological Studies // J. of Applied Mathematics, Statistics and Informatics. 2010. Vol. 6, № 2, Dec.

Baranov V. A. The ideology and technology of creating online full-text digital collections of ancient and medieval slavonic manuscripts // Intern. Conf. on Applied Natural Sciences. Trnava, 2007. Nov. 7-9. Архангельское Евангелие 1092 г. (РГБ, М., 1666) [Электронный ресурс] // Манускрипт: слав. письм. наследие [сайт]. URL: http://manuscripts.ru/mns/main?p_text=15843750 (дата обращения: 03.06.2011). Баранов В. А., Миронов А. Н., Лапин А. Н., Мельникова И. С. и др. Автоматический морфологический анализатор древнерусского языка: лингвистические и технологические решения // 10-я юбил. междунар. конф. «EVA 2007 Москва». М., 2007 [Электронный ресурс]. URL: http://conf.cpic.ru/ eva2007/rus/reports/report_1130.html (дата обращения: 03.06.2011).

Баранов В. А., Вотинцев А. А., Вотинцев П. А., Соломенников И. С. Интернет-средства поиска и визуализации данных для лингвистического анализа информационно-аналитической системы «Манускрипт» // Совр. информ. технологии и письм. наследие: от древних текстов к электронным библиотекам: матер. междунар. науч. конф. (Казань, 26-30 августа 2008 г.) / отв. ред. В. А. Баранов, В. Д. Соловьев. Казань, 2008а.

Баранов В. А. Полнотекстовые базы данных как основа для электронных изданий средневековых рукописей в Интернете: требования, реализация, перспективы // Scripta & e-Scripta: The Journal of Interdisciplinary Mediaeval Studies. Sofia, 2008б. Vol. 6.

Баранов В. А. Проект «Манускрипт»: предварительные итоги // Соврем. информ. технологии и письм. наследие: от древних текстов к электронным библиотекам: матер. междунар. науч. конф. (Казань, 26-30 августа 2008 г.) / отв. ред. В. А. Баранов, В. Д. Соловьев. Казань, 2008в.

Баранов В. А., Дубовцев С. В. Электронное критическое издание средневекового славянского текста: модель данных и визуализация лингвистических единиц // Интеллект. системы в производстве. 2010. № 1.

Баранов В. А., Гнутиков Р. М. Электронное критическое издание средневекового текста: постановка задачи, основные требования и инструментальная подготовка // Соврем. информ. технологии и письм. наследие: от древних текстов к электронным библиотекам: матер. междунар. науч. конф. (Казань, 26-30 августа 2008 г.) / отв. ред. В. А. Баранов, В. Д. Соловьев. Казань, 2008г.

Манускрипт: славянское письменное наследие / кол. авт.; рук. В. А. Баранов [Электронный ресурс]. URL: http://manuscrips.ru (дата обращения: 03.06.2011).

Модуль автоматизированного фрагментирования // Манускрипт: слав. письм. наследие /

В. А. Баранов, С. В. Дубовцев [Электронный ресурс]. URL: http://manuscripts.ru/mns/cred.analyzer (дата обращения: 03.06.2011).

Музейное Евангелие XII - нач. XIII (?) в. (РГБ, Рум. 104) [Электронный ресурс] // Манускрипт: слав. письм. наследие [сайт]. URL: http://manuscripts.ru/mns/main?p_text=42096819 (дата обращения:

03.06.2011).

Остромирово Евангелие 1056-1057 г. (РНБ, Еп. 1.5.) [Электронный ресурс] // Манускрипт: слав. письм. наследие [сайт]. URL: http://manuscripts.ru/mns/main?p_text=40921436 (дата обращения:

03.06.2011).

Пантелеймоново Евангелие XII-XIII вв. (РНБ, Соф. 1.) [Электронный ресурс] // Манускрипт: слав. письм. наследие [сайт]. URL: http://manuscripts.ru/mns/portal.main?p1=21&p_lid=1 (дата обращения:

03.06.2011).

Параллельный корпус славянских списков Евангелий // Манускрипт: слав. письм. наследие / О. В. Зуга; рук. В. А. Баранов [Электронный ресурс]. URL: http://manuscripts.ru/ mns/cred.cred?koll =61092969&f_type=12014 (дата обращения: 03.06.2011).

Редактор OldEd: руководство пользователя / Р. М. Гнутиков, В. А. Баранов. 2-е изд., перераб. и доп. Ижевск, 2009.

Рукописи и тексты // Манускрипт: слав. письм. наследие / кол. авт.; рук. В. А. Баранов [Электрон-

ный ресурс]. ШЬ: http://manuscripts.m/mns/portal.mam?p1=1&p_Hd=1 (дата обращения: 03.06.2011). Саввина книга. Евангелие апракос краткий, XI, ХІ-ХІІ, XIII вв. (РГАДА. Ф. 381 (Син. тип.). № 14). 166 л. [Электронный ресурс] // Манускрипт: слав. письм. наследие [сайт]. ШЬ: http://manuscripts.ru/ тш/тат?р_;еХ=53086106 (дата обращения: 03.06.2011).

Симоновское Евангелие 1270 г. (РГБ, Рум. 105) [Электронный ресурс] // Манускрипт: слав. письм. наследие [сайт]. ШЬ: http://manuscripts.m/mns/mam?p_text=43532484 (дата обращения: 03.06.2011). Типографское Евангелие тетр, XII в. (РГАДА. Ф. 381 (Син. тип.). № 1) [Электронный ресурс] // Манускрипт: слав. письм. наследие [сайт]. ШЬ: http://manuscripts.m/mns/mam?p_text=54366871 (дата обращения: 03.06.2011).

Фолио-13. Евангелие апракос краткий, XIII в. (РНБ, F.п. 1.13) [Электронный ресурс] // Манускрипт: слав. письм. наследие [сайт]. ШЬ: http://manuscripts.m/mns/mam?p_text=61885979 (дата обращения:

03.06.2011).

Электронное критическое издание // Манускрипт: слав. письм. наследие / В. А. Баранов,

С. В. Дубовцев [Электронный ресурс]. ШЬ: http://manuscripts.ru/mns/cred.cred (дата обращения:

03.06.2011).

Дата поступления рукописи в редакцию: 16.06.2011

i Надоели баннеры? Вы всегда можете отключить рекламу.