Новый филологический вестник. 2019. №1(48). --
А.А. Чевтаев (Санкт-Петербург) ORCID ID: 0000-0002-8903-8368
ФОРМИРОВАНИЕ ЦИФРОВЫХ БАЗ ДАННЫХ РУКОПИСЕЙ:
проблемы и текстологические перспективы Статья 1
Работа выполнена при финансовой поддержке Российского научного фонда, проект № 18-18-00263 «Комплексная автоматизированная база данных "Объединенный цифровой архив рукописей Ф.М. Достоевского"»
Аннотация. Данная статья является первой частью двухчастного исследования ключевых проблем и возможных перспектив формирования цифровых архивов рукописного наследия писателей. В предлагаемой работе аналитически рассматриваются существующие подходы к созданию электронных баз данных и выделяется ряд проблемных зон оцифровки рукописных текстов и их представления в электронном виде. Трудности формирования цифровых архивов связаны, во-первых, с выбором оборудования и программного обеспечения для получения электронных копий рукописей, во-вторых, с поиском оптимальных методов распознавания изображения и его конечного цифрового представления, в-третьих, с необходимостью размещения цифрового архива писателя в информационно-аналитической системе, предоставляющей широкий спектр возможностей его использования. Современная практика показывает, что большинство проектов комплектования электронных баз данных литературных источников направлены на расширение потенциала поисковой и аналитической работы с цифровыми документами. При этом особое значение приобретает вопрос о принципах конструирования форм ввода и редактирования объектов описания рукописных материалов. Делается вывод о необходимости такого построения цифровой базы данных рукописного наследия писателей, которое будет не только обеспечивать пользователя-филолога оцифрованным текстовым материалом, но и способствовать решению специфических исследовательских задач в области источниковедения, текстологии и литературоведения.
Ключевые слова: информационные технологии в области филологии; оцифровка рукописи; цифровая текстология; цифровой архив писателя; электронные базы данных.
A.A. Chevtaev (Saint-Petersburg) ORCID ID: 0000-0002-8903-8368
Formation of Digital Databases of Manuscripts: Problems and Textological Perspectives Article 1
This work was done with the financial support of the Russian Science Foundation, project No. 18-18-00263 "Integrated automated database The United Digital Archive of Manuscripts of F.M. Dostoevsky"
Abstract. This article is the first part of a two-part study of the key problems and
possible prospects for the formation of digital archives of the manuscript heritage of writers. The work analyzes the existing approaches to the creation of electronic databases and highlights a number of problem areas of digitization of handwritten texts and their presentation in electronic form. Difficulties in forming digital archives are connected, firstly, with the choice of equipment and software for obtaining electronic copies of manuscripts, secondly, with the search for optimal methods of image recognition and its final digital representation, and thirdly, with the need to place the digital archive of the writer in the information-analytical system that provides a wide range of possibilities of its use. Modern practice shows that most of the projects of collection of electronic databases of literary sources are aimed at expanding the potential of search and analytical work with digital documents. In this case, the question of the principles of designing input forms and editing objects describing handwritten materials becomes of particular importance. It is concluded that it is necessary to build a digital database of handwritten heritage of writers, which will not only provide the user-philologist with digitized text material, but also contribute to the solution of specific research problems in the field of source studies, textology and literary criticism.
Key words: information technologies in the field of philology; digitization of the manuscript; digital textology; digital archive of the writer; electronic databases.
Необходимость применения информационных технологий в области филологии на современном этапе развития науки и социума не вызывает сомнений у большинства представителей научного гуманитарного сообщества. Результативность формирования электронной среды как инструмента литературоведческих исследований сегодня становится очевидной. При этом принципиально важными оказываются выяснение тех теоретических и практических возможностей, которые открывает использование цифровых ресурсов в процессе научного изучения литературы, и уяснение принципов работы с филологическим материалом в контексте электронного информационного пространства. В этом отношении первостепенное значение получает проблема формирования электронных баз данных литературного наследия доцифровой эпохи.
Переход к цифровому бытию текста, трансформирующему принципы его восприятия и исследовательской работы с языковым и литературным материалом, порождает ряд проблемных зон информатизации филологической деятельности. К таким проблемным зонам следует отнести, во-первых, разработку специального технического оборудования и компьютерных программ, нацеленных на формирование электронной филологической среды, во-вторых, процедуру комплектования электронных баз данных в области филологии, в-третьих, осмысление вопросов трансформации содержательного плана текста при переводе его в цифровой вид. Существенность последней проблемной области демонстрирует «влияние на структуру и содержание документа гипертекстовых связей и активного инкорпорирование в них невербальной информации» [Вигурский, Пильщиков 2003].
По мысли В. Третьякова, высказанной в рецензии на посвященные
проблемам применения цифровых технологий в области филологического знания монографию Дж. Макганна «Новая республика словесности: память и гуманитарное образование в эпоху цифровой воспроизводимости» [McGann 2014] и сборник статей «Сравнительное изучение текстуальных медиа: Трансформация гуманитарных наук в постпечатную эпоху» [Comparative Textual Media 2013], «одним из главных направлений в сфере цифровых гуманитарных наук» становится именно «анализ крупных, не поддающихся обработке "вручную" массивов информации ("больших данных"), таких как исторические документы и литературные произведения» [Третьяков 2014]. При этом цифровое существование текста продуцирует необходимость осмысления феномена текстуальности в целом, сопряженного с рецепцией, как ее носителя, так и ее социокультурной, антропологической сути.
Распространение информационных технологий в современном мире, оказывая серьезное влияние на формы существования и восприятия текстов и принципы исследовательской работы с ними, ставит перед филологическим сообществом ряд вопросов, поиск ответов на которые становится одной из первостепенных задач научной деятельности. Е.А. Горный, описывая направления информатизации филологии в начале XXI в., очерчивает спектр наиболее важных проблем, связанных с переводом текста и текстуальности в цифровой формат. К таким проблемам ученый относит:
«оцифровку национального и всемирного культурного наследия (стратегии, финансирование, коллаборация, принципы отбора и структурирования, форматы представления); точное воспроизведение существующих печатных изданий и подготовка новых электронных изданий, не имеющих печатного аналога; структурную и семантическую разметку электронных текстов; обеспечение всеобщего доступа к оцифрованным материалам (технологические, правовые, финансовые аспекты); конвергенцию издательств, библиотек и книжных магазинов, предоставляющих тексты как в печатных, так и электронных форматах; разработку средств автоматизации работы с текстом; использование возможностей электронной среды для филологической и междисциплинарной коллаборации» [Горный].
Как видно, круг проблемных зон взаимодействия филологического знания и электронной социокультурной среды чрезвычайно широк.
В настоящем двухчастном цикле статей предлагается аналитическое рассмотрение ключевых технологических и текстологических проблем формирования цифровых баз данных рукописного наследия писателей. На основе сложившихся подходов к формированию электронных архивов рукописей мы постараемся очертить круг базовых задач комплектования цифровых собраний рукописных источников как инструмента исследовательской работы современного филолога.
Первостепенной задачей создания электронного архива рукописей является процедура перевода источника в цифровой формат, требующая сохранения максимальной аутентичности электронной копии относительно
«бумажного» оригинала. Соответственно, качество оцифровки зависит от оборудования, используемого в процессе создания электронного изображения рукописи, и технологий обработки полученной копии.
Н.Ф. Богданова, рассматривая специфику существования старинных письменных источников в Интернете, предлагает обзор сетевых проектов и сайтов, представляющих собой электронные собрания древнерусских рукописей. Такие порталы, как «Древнерусские берестяные грамоты» (http://gramoty.ru), «Рукописные памятники Древней Руси» (http ://lrc-lib. ru), сайт Свято-Троицкой Сергиевой Лавры, раздел «Рукописные собрания» (http://old.stsl.ru/manuscripts/index.php), «Древнерусская литература. Антология» (http://old-rus.narod.ru), содержат большое количество текстов книжных памятников Древней Руси и Московского государства. Как отмечает исследователь, в настоящее время используется самые разные форматы представления электронного текста. В случае цифровой визуализации рукописи обычно применяются графические форматы JPEG, DJVU, TIFF, PNG, а также - PDF, HTML, CHM. Несмотря на многообразие сетевых ресурсов и форматов представления рукописного текста, как подчеркивает Н.Ф. Богданова, «не всегда рукописи в Интернете соответствуют требуемому качеству, поэтому не всегда можно разобрать их текст (в том случае, например, когда часть текста сливается с фоном) и использовать ее в качестве источника» [Богданова 2008, 50].
Очевидно, что принципиальное влияние на расширение или сужение спектра действий с конечным электронным контентом оказывают возможности технических устройств, используемых для создания цифровых копий. Поэтому для повышения качества оцифровки предлагаются различные варианты получения электронных изображений. Так, Д. Пеев, освещая практическую сторону дигитализации рукописей, указывает, что использование для оцифровки фотоаппарата Canon 30D c 50-миллиметровым жестким объективом позволяет добиться максимально высокого результата [Пеев 2008, 226-227]. Исследовательская группа из Новосибирска, работающая над формированием электронной библиотеки древнерусских книжных памятников Сибири, предлагает использовать в целях оцифровки рукописных источников проекционный сканер PlanScan и фотокамеру Canon. Однако, ориентируясь только на создание «базы графических файлов, составленной из изображений (разного уровня качества) каждого разворота книги» [Алексеев и др. 2008, 10], авторы технологий оставляют в стороне вопрос об эффективности распознавания составляющих рукописный документ элементов, что также ведет к снижению качества получаемой электронной копии источника.
Большинство разработчиков существующих технологий нацелены на корреляцию сканирующего оборудования и программного обеспечения, позволяющего осуществлять распознавание и обработку цифровых материалов. В этом отношении существующий опыт создания электронных изображений рукописных источников и старопечатных книг свидетельствует об эффективности применения в процессе оцифровки планетарных
сканеров. Так, А.М. Семенова, описывая практику формирования электронных собраний рукописного фонда в Псковской областной универсальной научной библиотеке, отмечает, что оборудование, подобное сканеру Элар PlanScanB, основанное на бесконтактном сканировании, «исключает механическое воздействие на оригинал, гарантируя его сохранность», а «книжная колыбель с изменяемым углом наклона 120 или 180 градусов позволяет качественно оцифровывать толстые книги и сброшюрованные документы, имеющие жесткий корешок или плотную сшивку без нанесения ущерба оригиналу» [Семенова].
Иной способ получения изображений предлагают С. Бреннер и Р. Са-блатник. Исследователи считают, что для повышения качества распознавания рукописных текстов необходимо использовать мультиспектральную съемку источника, которая позволяет максимально точно передать все параметры рукописи и, соответственно, автоматизировать процедуру распознавания посредством специальных программ [Brenner, Sablatnig 2017]. Кроме того, авторы подхода указывают, что получившееся фотоизображение позволяет сократить его размер и тем самым ускорить процесс обработки и перевода в электронный вид рукописного текста.
Проблема распознавания рукописи является одной из важнейших в процессе создания цифровых архивов рукописей и потому вызывает интенсивный поиск ее решения. Так, Дж. Эдвардс указывает на отсутствие технических ресурсов, позволяющих источнику адекватно перевести в электронный формат рукописный текст, что затрудняет процесс формирования сетевых баз данных, содержащих электронный вариант рукописей и старопечатных изданий. Исследователь констатирует, что, во-первых, отсутствуют универсальные алгоритмы оцифровки рукописных текстов, а во-вторых, затруднена процедура как распознавания существенных элементов сканируемой страницы, так и освобождения ее от технических помех и дефектов износа материального (бумажного) носителя рукописи [Edwards 2007]. Соответственно, процедура превращения рукописного текста в электронной, в силу своей трудоемкости и затраты большего времени, препятствует созданию многофункциональных электронных хранилищ рукописного культурного наследия.
Сложность применения стандартных программ для распознавания текста в процессе оцифровки рукописных источников, как отмечают в обзорном описании современных исследований проблемы перевода рукописи в электронный формат Е. Бучкина и С. Соловьев, инспирировала «создание специальных текстовых редакторов для ручного набора с клавиатуры», что, в свою очередь, порождает новые трудности, так как «такая технология <...> достаточно трудоемка» и «требует от пользователя овладения специальными навыками» [Бучкина, Соловьев]. Решение данных проблем осуществляется различными путями. Так, по мнению исследовательской группы, сложившейся в Петрозаводском государственном университете, в целях повышения скорости и эффективности электронного распознавания рукописи необходимо создание автоматизированной системы, которая
сможет упростить расшифровку текста за счет использования откорректированных «SVG-шрифтов и виртуальной клавиатуры», а также возможности «введения и отображения символов таких шрифтов поверх исходного изображения текста» [Варфоломеев, Рогов, Талбонен 2010, 474]. Предложенная система позволяет учитывать орфографические и пунктуационные особенности рукописных текстов прошлого, идентифицировать стенографические знаки и проводить аналитическую работу с оцифрованным текстом в рамках текстологических и литературоведческих и лингвистических исследований. Иным способом эффективного распознавания рукописного текста является технология бессегментационной дешифровки элементов рукописи, основанная на выявлении наиболее частотных знаков и лигатур. В этом случае отдельные символы не сегментируются, а распознаются целиком: система первоначально фиксирует незаполненное фоновое пространство, затем - контуры знака, а потом идентифицирует сам знак, который может представать и отдельной буквой, и лексической единицей, и синтаксической конструкцию, и фрагментом текста [Gatos and etc. 2004].
В большинстве исследований вопроса обработки полученных изображений в результате сканирования или фотосъемки рукописных источников в качестве программного обеспечения указывается Photoshop как наиболее доступное и эффективное средство корректировки цифровой копии документа. Так, А.Ю. Филиппович, излагая опыт представления электронного издания Словаря Академии Российской 1789-1794 гг., отмечает, что отсканированные изображения страниц печатного издания, как правило, содержат изъяны, к которым относятся «слишком высокая или низкая контрастность, искажения (перекосы), наличие загрязнений и дефектов» [Филиппович 2006, 177]. Технология их устранения основывается на использовании возможностей графического редактора Photoshop, посредством которого можно автоматически усилить или уменьшить контраст изображения и устранить помехи и загрязнения, а также удалить искажения и дефекты, тем самым максимально сблизив цифровое отображение страницы с оригиналом.
Очевидно, что технический потенциал Photoshop необходимо использовать при оцифровке рукописных страниц, однако в этом случае повышается доля ручной, а не автоматической работы с полученным в результате сканирования изображением, т.к. необходимо максимально точно воспроизвести значимые (авторские) элементы рукописи и удалить следы воздействия времени и внешней среды, искажающие и разрушающие носитель информации (рукопись). Так, описывая недостатки работы по устранению дефектов (разного рода помех, пятен, цветовой неоднородности бумаги, просвечивающих надписей) изначального изображения рукописи в графическом редакторе Adobe Photoshop, В.С. Южиков предлагает использовать модуль Old-Print Publisher, позволяющей повысить скорость и качество работы с изображением [Южиков 2006, 185].
А.В. Шабанов заостряет внимание на ключевых факторах, определяю-
щих результативность перевода рукописи в электронный вид: «функциях системы, составе коллекции, аппаратуре, прикладном программном обеспечении, формате данных, системе резервирования первичного архива, связи с научным описанием источника, учете возможности развития как по функциям, так и по объемам» [Шабанов 2008, 46]. Прежде всего, процедура оцифровки зависит от характера формирующейся базы данных и назначения создаваемого электронной копии рукописи. В зависимости от сферы применения изображения, к которым относятся общее представление рукописи, культурно-просветительская, научно-исследовательская, палеографическая деятельность и создание точной (страховой) копии источника, меняются требования к параметрам оцифровки: «разрешению, адекватности цветопередачи, необходимости хранения архива первичных изображений, полноте оцифровки источника, форматам данных, коррекции геометрических искажений страниц, степени воздействия на источник» [Шабанов 2008, 46]. Чем значительнее необходимость сохранения аутентичности рукописи, тем выше контроль над данными параметрами. Аппаратура, необходимая для создания электронной копии рукописи, состоит из компьютерного оборудования, включающего в себя «хранилище данных, компьютер для обработки первичных изображений, систему цветокалибровки» [Шабанов 2010, 30], и установки для оцифровки рукописи, выбор которой ученый рекомендует осуществлять в два этапа: сначала создать «систему оцифровки на базе цифрового фотоаппарата с обязательной "постановкой" освещения первоисточника» и только затем, в случае необходимости, переходить к использованию «узкоспециализированного оборудования и помещения» [Шабанов 2010, 30]. Коррекция первичного изображения, в свою очередь, осуществляется посредством программы Adobe Photoshop, хотя в некоторых случаях оказывается достаточным использование более простого средства обработки изображения, например, программ компании FastStone. При этом форматы данных цифрового изображения разделяются на обязательные, к которым относятся JPEG и TIFF, и перспективные - RAW, DNG и JPEG 2000 [Шабанов 2008, 47]. А.В. Шабанов также отмечает, что при обработке рукописи, содержащей серьезные дефекты (прожигание бумаги, загрязнения, стершиеся элементы), требуется поэтапно провести при помощи графического редактора, поддерживающего работу с каналами и слоями (например, Adobe Photoshop CS3), «корректировку цвета и яркости, удаление шума и корректировку резкости, отделение букв от фона» [Шабанов 2013, 214]. В результате оцифровки каждая рукопись предстает в двух электронных копиях - в форматах PDF и HTML с JPEG. Первый формат размером от 10 Мб до 1 Гб позволяет «работать с цифровой копией на мониторе как с почти полным аналогом печатного источника», а в случае «необходимости можно напечатать отдельные страницы до формата A4 высокого качества» [Шабанов 2014, 74]. Копия, созданная в формате HTML с JPEG, «содержит все варианты изображений, полученных при обработке первичного архива форматов TIFF или RAW», при этом «размеры JPEG файлов <...> меняются
от 100 Кб до 10 Мб» [Шабанов 2014, 74], в результате чего получаются электронные варианты рукописи, «пригодные для самых разных категорий пользователей в рамках их полномочий в системе доступа» [Шабанов 2014, 75] к базе данных. Представляется, что предложенный А.В. Шабановым подход к оцифровке рукописей является достаточно эффективной технологией комплектования электронных баз данных рукописных текстов, т.к. учитывает различные аспекты технической процедуры создания электронных изображений оцифровываемого источника.
Как видно, сложность решения проблемы распознавания рукописи в целом определяется невозможностью на данном этапе развития информационных технологий предусмотреть все многообразие входящих в ее состав элементов и их графического представления (вариативность начертания символов, особенности почерка, пересечения элементов текста, исправления, помарки, пятна, изъяны бумаги и т.д.). Вместе с тем, существующие подходы к оцифровке рукописных источников, сосредоточенные на выборе оборудования, процедуре распознавания и обработки получаемых электронных изображений, свидетельствуют об интенсивном поиске способов повышения качества оцифровки рукописей. Предлагаемые технологии, с одной стороны, учитывают специфику документа (разнообразие почерка, различия в начертании графических элементов, нелинейный характер записей и рассредоточенность их расположения на листе, наличие загрязнений, механических повреждений и т.д.), затрудняющую его формализацию, а с другой - ориентированы на выработку механизмов автоматизации обработки электронной копии рукописи, призванных ускорить процесс оцифровки при достижении максимальной степени соответствия цифровой копии рукописному оригиналу.
Очевидно, что перевод рукописи в электронный формат является исходной задачей построения цифрового архива рукописного наследия конкретного писателя или определенной исторической эпохи, достижение которой порождает вопросы о функционировании такого архива и возможностях его использования в исследовательской практике. В связи с этим встает проблема построения базы данных рукописей как многомерного ресурса научно-исследовательской работы с источниками в различных областях историко-филологического знания. Решение данной проблемы неразрывно связано с сущностью таких сложившихся в современной практике digital humanities явлений, как «электронное издание» и «электронная библиотека» - взаимосвязанных, но неидентичных друг другу форм бытования оцифрованных текстов.
А.Б. Антопольский и К.В. Вигурский раскрывают базовые принципы формирования электронных библиотек на основе процедуры подготовки электронных изданий. Исследователи отмечают, что электронное издание представляет собой «самостоятельный законченный продукт, содержащий информацию, представленную в электронной форме и предназначенный для длительного хранения и многократного использования неопределенным кругом пользователей, все копии (экземпляры) которого соответству-
ют оригиналу» [Антопольский, Вигурский 1999]. Электронная библиотека, напротив, мыслится не простым хранилищем оцифрованных материалов, но информационной системой, которая способствует и сохранению, и многомерному использованию собранных электронных документов. Поэтому одной из ключевых задач в процессе подготовки электронных библиотек становится разработка возможностей навигации в формируемом информационном пространстве - «наглядного представления пользователю логической структуры» библиотеки и «средств работы с ней» [Антопольский, Вигурский 1999]. Функциональными возможностями здесь должны быть: лексический поиск (по лексическим единицам русского и / или других языков; символьный поиск (по определенной последовательности символов - датировок, индексов, шифров); атрибутивный поиск по значениям характеристик текстов (автор, заглавие, место и дата написания или издания); наличие гипертекстовых и гипермедийных связей (переход от одного объекта к другому взаимосвязанному с ним объекту); возможность настройки системы пользователем. Исследователи подчеркивают, что электронное издание и электронная библиотека отличаются друг от друга тем, что первое является законченным продуктом, а вторая - предполагает возможность изменения (дополнения, коррекции, удаления объектов), представая динамичной системой, развитие которой обусловлено конкретными целями и задачами функционирования библиотеки.
В свою очередь, создание электронной библиотечной среды сопряжено с таким техническими сложностями, как: «разработка технологии формирования информационного фонда (что, в каком виде и каким способом представлять); проблемы идентификации и описания информации - рациональный выбор информационных объектов, создание эффективной системы метаинформации; проблемы хранения и распространение информации (скорость передачи информации, контроль и учет формирования и использования информационных фондов, эффективная организация распределенного информационного фонда, обеспечение единого интерфейса к гетерогенной информации и т.п.)» [Вигурский, Горный 2002, 182].
Принципиально значимым видится требование к электронным библиотекам «подчиняться ясно сформулированной концепции, в которой отражаются цели и задачи системы, круг ее потенциальных потребителей и способ распространения информации» [Вигурский, Пильщиков 2003]. При этом необходимо точно воспроизводить информацию: «адекватно отражать структуру и пагинацию оригинального издания, правописание и пунктуацию источника, расположение текста на странице, шрифтовое оформление и ряд других особенностей)» [Вигурский, Пильщиков 2003]. Отметим, что в случае воспроизведения рукописного текста точность передачи изображения и его перевода в цифровой формат оказывается сопряженной с необходимостью сохранить все палеографические характеристики рукописи и представить ее дипломатическую транскрипцию.
Ю.В. Грум-Гржимайло и И.В. Сабенникова отмечают, что необходимо различать электронные аналоги печатных публикаций архивных матери-
алов и самостоятельные электронные публикации архивов, не имеющих печатных аналогов. Исследователи обосновывают необходимость представления в электронной публикации рукописных источников и графического, и символьного вариантов воспроизведения документа, указывая, что «в электронной публикации символьное воспроизведение играет вспомогательную роль», т.к. ее «главная научная и практическая задача <...> - доведение до исследователей полноценного графического образа документа с необходимым археографическим и источниковедческим описанием» [Грум-Гржимайло, Сабенникова 2006, 310]. Такой подход к формированию электронного издания рукописных архивов видится продуктивным и учитывающим потенциальную множественность научной работы с цифровыми архивными собраниями. Также авторы статьи про-блематизируют отсутствие отчетливых правил подготовки и презентации электронных изданий и предлагают «набор нормативных требований к научной электронной публикации архивных материалов», среди которых выделяют такие нормы, как: 1) обязательное наличие полной информации об источнике, исключающее любое вмешательство в его содержание; 2) «включение в электронную публикацию оцифрованных образов источников»; 3) реализация возможностей поисковых действий с документом; 4) формирование гиперссылок, связывающих как документы одной публикации, так и разные публикации; 5) «значительное увеличение объема дополнительной и справочной информации, включаемой в электронную публикацию исторических источников» [Грум-Гржимайло, Сабенникова 2006, 315]. Очевидно, что последнее требование необходимо распространить и на электронную публикацию различных писательских архивов, а также цифровые мультимедийные издания литературного наследия писателей и поэтов.
Укажем, что следование данным правилам представления литературных материалов в электронном формате позволяет готовить многофункциональные издания, рассчитанные на принципиально широкий круг читателей и исследователей. Примером успешного электронного издания, учитывающего базовые требования к такого рода публикациям, можно считать проект «Pushkin Digital - цифровое академическое издание сочинений А.С. Пушкина» (https://pushkin-digital.ru). Подготовленное сотрудниками ИРЛИ (Пушкинский Дом) РАН издание включает в себя тексты «Маленьких трагедий», снабженные масштабным историко-литературным комментарием, мультимедийной энциклопедией произведения, гиперссылками на внешние источники, научными работами о пушкинских произведениях и, что особенно значимо, оцифрованными рукописями поэта, их расшифровкой и результатами источниковедческих и текстологических изысканий.
Большинство современных проектов комплектования цифровых баз данных литературных источников направлены на расширение возможностей поисковой и аналитической работы с электронными документами. При этом особое значение приобретает вопрос о принципах конструиро-
вания форм ввода и редактирования объектов описания рукописных материалов. Как констатирует Е.В. Шутько, большинство информационных систем, обладающих возможностью аналитической обработки текстовой информации, дают возможность пользователю «задавать только те поисковые параметры, которые предусмотрены создателями записи заранее», тогда как предпочтительной будет «работа в каталогах с открытыми поисковыми словарями» [Шутько 2003, 65], основанными на выделении ключевых слов. Поэтому центральной задачей построения модуля выборок и запросов, применяемого в электронной базе данных рукописных и печатных текстов, становится формирование поисковых словарей с максимально адекватными формальными и содержательными характеристиками электронного издания ключевых слов и четкая проработка полей запросов.
Таким образом, возможности электронных баз данных рукописей и способы их построения и функционирования неизбежно ставят вопросы о спецификации их применения в филологических научных исследованиях. Цифровое бытие рукописного текста, очевидно отличное от «бумажного» бытия оригинала, при сохранении аутентичности первого по отношению ко второму, раскрывает широкие возможности аналитической работы с электронным источником в палеографическом, источниковедческом, текстологическом и литературоведческом аспектах. Это, в свою очередь, порождает ряд технических и методологических проблем, которые будут подробно рассмотрены во второй статье данного двухчастного цикла.
ЛИТЕРАТУРА
1. Алексеев В.Н., Бородихин А.Ю., Шабанов А.В., Дергачева-Скоп Е.И. Цифровая библиотека древнерусских книжных памятников Сибири в ГПНТБ СО РАН // Современные информационные технологии и письменное наследие: от древних текстов к электронным библиотекам. Казань, 2008. С. 10-12.
2. Антопольский А.Б., Вигурский К.В. Концепция электронных библиотек // Электронные библиотеки. 1999. Т. 2. Вып. 2. Электронный ресурс. URL: http:// www.elbib.ru/index.phtml?%20page=elbib/rus/journal/1999/part2/antopol (дата обращения 21.09.2018).
3. Богданова Н.Ф. Старинные книги и рукописи в Интернете // Современные информационные технологии и письменное наследие: от древних текстов к электронным библиотекам. Казань, 2008. С. 49-51.
4. Бучкина Е., Соловьев С. Обзор исследований по проблемам распознавания рукописных текстов // Электронный текстолог. URL: http://www.textolog-rgali.ru/ index.php?view=articles&t=article1 (дата обращения 23.08.2018).
5. Варфоломеев А.Г., Рогов А.А., Талбонен А.Н. Автоматизированная система распознавания рукописных исторических документов // Электронные библиотеки: перспективные методы и технологии, электронные коллекции. Казань, 2010. С. 469-475.
6. Вигурский К.В., Горный Е.А. Развитие электронных библиотек: мировой и российский опыт, проблемы, перспективы // Интернет и российское общество.
М., 2002. С. 158-188.
7. Вигурский К.В., Пильщиков И.А. Информатика и филология (Проблемы и перспективы взаимодействия) // Электронные библиотеки. 2003. Т. 6. № 3. URL: http://www.elbib.ru/content/journal/2003/200303/VP/VP.ru.html (дата обращения 23.09.2018).
8. Горный Е. Проблемы сохранения культурного наследия в эпоху цифрового текста // Сетевая словесность. Электронный портал. URL: https://www.netslova.ru/ gorny/digtext.html (дата обращения 27.08.2018).
9. Грум-Гржимайло Ю.В., Сабенникова И.В. Некоторые проблемы публикации архивных документов в электронных изданиях // Вестник архивиста. 2003. № 2-3. С. 306-318.
10. Пеев Д. Практические аспекты дигитализации рукописей // Современные информационные технологии и письменное наследие: от древних текстов к электронным библиотекам. Казань, 2008. С. 226-228.
11. Семенова А.М. Формирование электронной базы данных редких и ценных документов: проблемы автоматизации // Псковская областная универсальная научная библиотека. URL: http://pskovlib.ru/about/reports/texts/19078 (дата обращения 28.08.2018).
12. Третьяков В. От текста на странице - к тексту на экране // Новое литературное обозрение. 2014. № 128. С. 304-309. URL: https://www.nlobooks.ru/maga-zines/novoe_literaturnoe_obozrenie/128_nlo_4_2014/article/11038/ (дата обращения 25.08.2018).
13. Филиппович А.Ю. Информационная технология создания электронного издания Словаря Академии Российской 1789-1794 гг. // Современные информационные технологии и письменное наследие. Ижевск, 2006. С. 174-178.
14. Шабанов А.В. Обработка изображений при создании цифровых копий рукописей с угасающим текстом // Труды ГПНТБ СО РАН. Вып. 5: Вклад ГПНТБ СО РАН в развитие отечественного библиотековедения, библиографоведения, книговедения и информатики. Новосибирск, 2013. С. 213-218.
15. Шабанов А.В. Сравнение установок для оцифровки русских старопечатных и рукописных книг и методы обработки изображений // Библиосфера. 2010. № 2. С. 30-32.
16. Шабанов А.В. Технология создания полнотекстовой базы данных «Рукописи из собрания академика М.Н. Тихомирова» // Библиосфера. 2014. № 3. С. 7376.
17. Шабанов А.В. Факторы, влияющие на выбор технологии оцифровки русских старопечатных и рукописных книг // Библиосфера. 2008. № 4. С. 46-48.
18. Шутько Е.В. Аналитическая обработка текстовой информации и смысловой поиск в электронных базах данных: проблемы противоречий // Университетская библиотека: проблемы и решения. Екатеринбург, 2003. С. 62-68.
19. Южиков В.С. Компьютерная система для создания и поддержки электронных коллекций старинных книг // Современные информационные технологии и письменное наследие. Ижевск, 2006. С. 179-186.
20. Brenner S., Sablatnig R. Reading between the lines - multispectral imaging of ancient manuscripts // Цифровая гуманитаристика: ресурсы, методы, исследова-
ния: в 2 ч. Ч. 1. Пермь, 2017. С. 166-168.
21. Comparative Textual Media: Transforming the Humanities in the Postprint Era / Eds. N.K. Hayles, J. Pressman. Minneapolis, 2013.
22. Edwards J.A. Easily Adaptable Handwriting Recognition in Historical Manuscripts. PhD Thesis in Electrical Engineering and Computer Sciences, University of California at Berkeley. Berkeley, 2007.
23. Gatos B., Ntzios K., Pratikakis I., Petridis S., Konidaris T., Stavros J. Peran-tonis. A Segmentation-Free Recognition Technique to Assist Old Greek Handwritten Manuscript OCR // 6th International Workshop, DAS 2004. Florence, 2004. P. 63-74.
24. McGann J. A New Pepublic of Letters: Memory and Scholarship in the Age of Digital Reproduction. Cambridge (MA); London, 2014.
REFERENCES (Articles from Scientific Journals)
1. Antopol'skiy A.B., Vigurskiy K.V. Kontseptsiya elektronnykh bibliotek [The Concept of Digital Libraries]. Elektronnyye biblioteki, 1999, vol. 2, issue 2. Available at: http://www.elbib.ru/index.phtml?%20page=elbib/rus/journal/1999/part2/antopol (accessed 21.09.2018). (In Russian).
2. Grum-Grzhimailo Y.V., Sabennikova I.V. Nekotoryye problemy publikatsii arkh-ivnykh dokumentov v elektronnykh izdaniyakh [Some Problems of Publication of Archival Documents in Electronic Editions]. Vestnik arkhivista, 2003, no. 2-3, pp. 306318. (In Russian).
3. Shabanov A.V. Sravneniye ustanovok dlya otsifrovki russkikh staropechatnykh i rukopisnykh knig i metody obrabotki izobrazheniy [Comparison of Installations for Digitization of Russian Old Printed and Handwritten Books and Methods of Image Processing]. Bibliosfera, 2010, Issue 2, pp. 30-32. (In Russian).
4. Shabanov A.V Tekhnologiya sozdaniya polnotekstovoy bazy dannykh "Ruko-pisi iz sobraniya akademika M.N. Tikhomirova" [Technology of Creating of A Full-text Database "Manuscripts from Academician M.N. Tikhomirov's Collection"]. Bibliosfera, 2014, Issue 3, pp. 73-76. (In Russian).
5. Shabanov A.V Faktory, vliyayushchiye na vybor tekhnologii otsifrovki russkikh staropechatnykh i rukopisnykh knig [Factors Influencing the Choice of Digitization Technology of Russian Old Printed and Handwritten Books]. Bibliosfera, 2008, Issue 4, pp. 46-48. (In Russian).
6. Tretyakov V. Ot teksta na stranitse - k tekstu na ekrane [From Text on The Page -To Text on The Screen]. Novoye literaturnoye obozreniye, 2014, Issue 128, pp. 304-309 Available at: https://www.nlobooks.ru/magazines/novoe_literaturnoe_obozrenie/128_ nlo_4_2014/article/11038/ (accessed 25.08.2018). (In Russia).
7. Vigurskiy K.V., Pilshikov I.A. Informatika i filologiya (Problemy i perspektivy vzaimodeystviya) [Informatics and Philology (Problems and Prospects of Interaction)]. Elektronnyye biblioteki, 2003, vol. 6, no. 3. Available at: http://www.elbib.ru/content/ journal/2003/200303/VP/VP.ru.html (accessed 23.09.2018). (In Russian).
(Articles from Proceedings and Collections of Research Papers)
8. Alekseyev V.N., Borodikhin A.Y., Shabanov AV., Dergacheva-Skop E.I. Tsi-frovaya biblioteka drevnerusskikh knizhnykh pamyatnikov Sibiri v GPNTB SO RAN [Digital Library of Old Russian Book Monuments of Siberia in SPLST of SD RAS]. Sovremennyye informatsionnyye tekhnologii i pis'mennoye naslediye: ot drevnikh tek-stov k elektronnym bibliotekam [Modern Information Technologies and Written Heritage: From AncientT to Electronic Libraries]. Kazan, 2008, pp. 10-12. (In Russian).
9. Bogdanova N.F. Starinnyye knigi i rukopisi v Internete [Old Books and Manuscripts on The Internet]. Sovremennyye informatsionnyye tekhnologii i pis'mennoye naslediye: ot drevnikh tekstov k elektronnym bibliotekam [Modern Information Technologies and Written Heritage: From AncientT to Electronic Libraries]. Kazan, 2008, pp. 49-51. (In Russian).
10. Brenner S., Sablatnig R. Reading between the lines - multispectral imaging of ancient manuscripts. Tsifrovaya gumanitaristika: resursy, metody, issledovaniya [Digital Humanities: Resources, Methods, Research]. In 2 Parts. Part 1. Perm, 2017, pp. 166-168. (In English).
11. Gatos B., Ntzios K., Pratikakis I., Petridis S., Konidaris T., Stavros J. Peran-tonis. A Segmentation-Free Recognition Technique to Assist Old Greek Handwritten Manuscript OCR. 6th International Workshop, DAS 2004. Florence, 2004, pp. 63-74. (In English).
12. Peyev D. Prakticheskiye aspekty digitalizatsii rukopisey [Practical Aspects of Digitization of Manuscripts]. Sovremennyye informatsionnyye tekhnologii i pis'mennoye naslediye: ot drevnikh tekstov k elektronnym bibliotekam [Modern Information Technologies and Written Heritage: From Ancient to Electronic Libraries]. Kazan, 2008, pp. 226-228. (In Russian).
13. Philippovich A.U. Informatsionnaya tekhnologiya sozdaniya elektronnogo izdaniya Slovarya Akademii Rossiyskoy 1789-1794 gg. [Information Technology of Creation of The Electronic Edition of The Dictionary of Academy Russian 1789-1794]. Sovremennyye informatsionnyye tekhnologii i pis'mennoye naslediye [Modern Information Technologies and Written Heritage]. Izhevsk, 2006, pp. 174-178. (In Russian).
14. Shabanov A.V. Obrabotka izobrazheniy pri sozdanii tsifrovykh kopiy rukopisey s ugasayushchim tekstom [Image Processing at Creating Digital Copies of Manuscripts With Fading Text]. Trudy GPNTB SO RAN. Vklad GPNTB SO RAN v razvitiye otechest-vennogo bibliotekovedeniya, bibliografovedeniya, knigovedeniya i informatiki [Writings of SPLST of SD RAS. The Contribution of SPLST SD RAS in the Development of Russian Library Science, Bibliography Science and Computer Science]. Issue 5. Novosibirsk, 2013, pp. 213-218. (In Russian).
15. Shutko E.V. Analiticheskaya obrabotka tekstovoy informatsii i smyslovoy poisk v elektronnykh bazakh dannykh: problemy protivorechiy [Analytical Processing of Textual Information and Semantic Search in Electronic Databases: Problems of Contradiction]. Universitetskaya biblioteka: problemy i resheniya [University Library: Problems and Solutions]. Yekaterinburg, 2003, pp. 62-68. (In Russian).
16. Varfolomeev A.G., Rogov A.A., Talonen A.N. Avtomatizirovannaya sistema ra-spoznavaniya rukopisnykh istoricheskikh dokumentov [Automated System of Recog-
nition of Handwritten Historical Documents]. Elektronnyye biblioteki: perspektivnyye metody i tekhnologii, elektronnyye kollektsii [Electronic Libraries: Promising Methods and Technologies, Electronic Collections]. Kazan, 2010, pp. 469-475. (In Russian).
17. Vigurskiy K.V., Gornyy E.A. Razvitiye elektronnykh bibliotek: mirovoy i ros-siyskiy opyt, problemy, perspektivy [Development of Electronic Libraries: World and Russian Experience, Problems, Prospects]. Internet i rossiyskoye obshchestvo [Internet and Russian Society]. Moscow, 2002, pp. 158-188. (In Russian).
18. Yuzhikov V.S. Komp'yuternaya sistema dlya sozdaniya i podderzhki elek-tronnykh kollektsiy starinnykh knig [Computer System for Creation and Support of Electronic Collections of Ancient Books]. Sovremennyye informatsionnyye tekhnologii ipis'mennoye naslediye [Modern Information Technologies and Written Heritage]. Izhevsk, 2006, pp. 179-186. (In Russian).
(Monographs)
19. Hayles N.K. , Pressman J. (eds.). Comparative Textual Media: Transforming the Humanities in the Postprint Era. Minneapolis, 2013. (In English).
20. McGann J. A New Pepublic of Letters: Memory and Scholarship in the Age of Digital Reproduction. Cambridge (MA); London, 2014. (In English).
(Thesis and Thesis Abstracts)
21. Edwards J.A. Easily Adaptable Handwriting Recognition in Historical Manuscripts. PhD Thesis in Electrical Engineering and Computer Sciences, University of California at Berkeley. Berkeley, 2007. (In English).
(Electronic resources)
22. Buchkina E., Soloviev S. Obzor issledovaniy po problemam raspoznavaniya rukopisnykh tekstov [Review of Research on The Problems of Handwriting Texts Recognition]. Elektronnyy tekstolog [Electronic Textologist]. Available at: http://www.tex-tolog-rgali.ru/index.php?view=articles&t=article1 (accessed 23.08.2018). (In Russian).
23. Gornyy E.A. Problemy sokhraneniya kul'turnogo naslediya v epokhu tsifro-vogo teksta [Problems of Preservation of Cultural Heritage In The Era of Digital Text]. Setevayaslovesnost' [Network Literature]. Available at: https://www.netslova.ru/gorny/ digtext.html (accessed 27.08.2018). (In Russian).
24. Semenova A.M. Formirovaniye elektronnoy bazy dannykh redkikh i tsen-nykh dokumentov: problemy avtomatizatsii [Formation of An Electronic Database of Rare and Valuable Documents: Problems of Automation]. Pskovskaya oblastnaya universal'naya nauchnaya biblioteka [Pskov Regional Universal Scientific Library]. Available at: http://pskovlib.ru/about/reports/texts/19078 (accessed 28.08.2018). (In Russian).
Чевтаев Аркадий Александрович, Российский государственный гидрометеорологический университет.
Кандидат филологических наук, доцент кафедры русского языка и литературы. Область научных интересов: теория лирики, нарратология, поэтика постсимволизма, субъектные формы и нарративные структуры в поэтическом творчестве Н. Гумилева, А. Ахматова, О. Мандельштама, Б. Пастернака, И. Бродского, цифровая текстология.
E-mail: [email protected]
Arkady A. Chevtaev, Russian State Hydrometeorological University.
Associate professor of Department of Russian Language and Literature. Research interests: theory of lyrics, narratology, poetics of postsymbolism, subject forms and narrative structure in poetic work of N. Gumilev, A. Akhmatova, O. Mandelstam, B. Pasternak, J. Brodsky, digital textology.
E-mail: [email protected]