УДК 004.738.5:[02:930.25]
А. А. Смирнов
Методологические подходы к созданию веб-архивов в региональных библиотеках России
Архивирование сетевых документов рассматривается библиотеками как продолжение миссии по сохранению культурного наследия. Зарубежные библиотеки активно реализуют две стратегии веб-архивирования: харвестинг национального домена и выборочное веб-архивирование. В отечественных библиотеках веб-архивирование находится на начальном этапе развития. Опыт отечественных и зарубежных специалистов, а также анализ правового поля РФ позволил сформулировать методические рекомендации для глубокого харвестинга. Предложены методические подходы и критерии для формирования тематических веб-архивов в библиотеках, учитывающие процессы выбора тематики для создаваемых коллекций, пути выявления и критерии отбора документов, запроса правообладателей, архивирования сетевого документа с помощью программного обеспечения, библиографирования локальных сетевых документов в фонде библиотеки. Разработанная методика вполне пригодна для использования библиотеками разных типов и видов.
Ключевые слова: веб-архивирование, веб-архив, глубокий харвестинг, цифровое культурное наследие, электронные ресурсы библиотек
Artem A. Smirnov
Methodological approaches to formating web archives in regional
libraries of Russia
Archiving of web documents is considered by libraries as an extension of the mission of preserving cultural heritage. Foreign libraries are actively implementing two web archiving strategies: harvesting of the national domain and selective web archiving. In domestic libraries, web archiving is at the initial stage of development: archiving of web documents is most developed in the B. N. Yeltsin Presidential Library and the National Library of the Republic of Sakha (Yakutia). Specialists from the central libraries of the constituent entities of the Russian Federation presented reports on their developments in the field of archiving web documents at the first local history seminar on web archiving at the Russian National Library. The experience of domestic and foreign colleagues, as well as an analysis of the legal framework of the Russian Federation, made it possible to formulate methodological recommendations for deep harvesting. Methodological approaches and criteria for the formation of thematic web archives in libraries are proposed, including the processes of selecting topics for created collections, requesting copyright holders, archiving a network document using software, and bibliographizing local web documents in the library collection.
Keywords: web archiving, web archive, deep harvesting, digital cultural heritage, electronic library resources
DOI 10.30725/2619-0303-2024-3-156-161
Веб-архивирование как область деятельности библиотеки по сохранению цифрового культурного наследия представляет собой актуальное направление для комплектования фонда библиотеки электронными ресурсами и создания коллекций нового типа веб-документов. Проблема сохранения электронной информации в разных ее формах является фундаментальной для разработки соответствующих программ, среди которых «Память Мира» Юнеско.
Учреждения, занимающиеся веб-архивированием, рассматривают его как продолжение миссии по сохранению национального культурного наследия. Веб-
архивирование - это постоянно развивающаяся деятельность, которая требует новых подходов и инструментов, чтобы оставаться синхронизированной с быстро развивающимися веб-технологиями.
В практической плоскости под веб-архивированием понимают процесс сбора и сохранения веб-страниц и целых сайтов с целью сохранения информации и доступа к ней в будущем, если источник будет изменен или окажется недоступен.
Веб-архивирование в библиотеках является развивающейся деятельностью по сбору и сохранению сетевого контента в виде коллекций локальных сетевых доку-
ментов в фонде библиотеки и последующего предоставления архивов для доступа и использования [1]. Библиотеки, занимающиеся веб-архивированием, рассматривают его как продолжение миссии по сохранению национального культурного наследия.
Результатом процесса веб-архивирования является веб-архив, состоящий из архивированных сетевых коллекций, под которым понимается совокупность локальных сетевых документов библиотеки, объединенных общими признаками и включенными в электронный каталог библиотеки с фиксацией метаданных и библиографическим описанием каждого документа.
Существуют два основных подхода к созданию веб-архивов: харвестинг (систематический сплошной автоматический сбор и архивирование) и глубокий харвестинг (избирательное архивирование). Глубокий харвестинг используется для создания тематических веб-архивов.
В работе рассматриваются основные методические подходы к процессам селективного веб-архивирования, т. е. к созданию тематических веб-архивов.
В отечественной науке веб-архивирование в библиотеках изучается преимущественно с краеведческой и политической точек зрения. Практически веб-архивирование как формализованный и технологически обоснованный вид библиотечной деятельности по формированию фондов реализуется только в Президентской библиотеке им. Б. Н. Ельцина. Будучи библиотекой, фонд которой состоит из электронных документов, Президентская библиотека стала первым государственным учреждением, осуществляющем веб-архивирование сетевых документов по проблемам развития русского языка и российской государственности.
Специалисты центральных библиотек субъектов Российской Федерации заинтересованы в создании тематических архивов и делают некоторые шаги в этом направлении [2]. В частности, интернет-портал «Цифровая библиотека чувашского наследия „Наследие Чувашии"» содержит полный массив цифровых краеведческих ресурсов, создаваемых не только национальной библиотекой, но и муниципальными библиотеками республики, архивами, музеями и другими учреждениями. Информационная система портала будет работать как единая сеть, обеспечивая доступ ко всем базам данных и документам [3]. Национальная библиотека Республики
Саха (Якутия) не только осуществляет издание неопубликованных документов на условиях лицензионного договора с авторами, но и развивает краеведческий проект «Yakutia.online», направленный на сохранение краеведческих сетевых документов [4; 5].
Среди корпоративных проектов библиотек, которые включают элементы веб-архивирования, можно назвать «Дайджест Петербургской прессы», в котором задействованы все 17 центральных библиотечных систем (ЦБС) Санкт-Петербурга. Электронные документы архивируются в формате pdf и сохраняются в соответствующей базе данных. В качестве критериев отбора документов используются наличие в них аналитического подхода, конкретных фактов, статистических данных, а также связь с определенной территорией (местом) [6].
Из приведенных примеров видно, что каждая библиотека (или объединение библиотек) ищет собственные подходы к созданию веб-архивов [7]. Отсутствие единых подходов к осуществлению процесса веб-архивирования не позволяет говорить об объединении веб-архивов, созданных в различных регионах, формирующих «портрет» страны, т. к. они создаются с использованием различных критериев отбора документов, разнообразного программного обеспечения и т. д. Разработка единого методического подхода к созданию тематических веб-архивов (процессу селективного веб-архивирования)позволит ускорить интеграцию веб-архивирования в процессы комплектования фондов отечественных библиотек и сохранить тем самым цифровое культурное наследие от уничтожения.
Представляется, что методика формирования тематического веб-архива документов может включать следующие этапы:
1. Выбор тематики и определение ключевых слов для создания веб-архива. Выбор тематики осуществляется с использованием социологических опросов читателей, относящихся к различным профессиональным группам. Важность ориентации на конкретную группу пользователей при формировании электронных ресурсов библиотеки, и, в частности, выборочном архивировании сетевых документов, обусловлена перенасыщенностью сети информационными продуктами и ресурсами.
Информирование пользователей о создании информационного продукта и их интеграция в процесс его формирования по-
зволяет выявить и сформировать интерес у конкретных потребителей.
Ключевые слова могут быть сформулированы на основе анализа документов, относящихся к выбранной тематике, а также путем экспертного опроса специалистов в этой области.
Выбор темы для коллекции осуществляется на основе:
- формирования экспертного списка тем на основании предложений ведущих специалистов в данной области;
- информационных потребностей различных групп пользователей библиотеки, которые могут выявляться путем выявления и анализа профессионального состава читателей и далее анализа их читательских формуляров.
Выбор тематики осуществляется с учетом:
- социального интереса (в качестве показателей выступают частота упоминаний данного явления или события в Сети, статистика поисковых запросов);
- культурной ценности (в качестве показателей фигурируют наличие упоминаний данной темы на электронных площадках крупных научных, образовательных, политических и культурных организаций, упоминание в рамках крупных конференций и мероприятий);
- социальной значимости, под которой подразумевается влияние события или явления, которое определяет ту или иную тему, на общественную жизнь (в качестве показателей фигурируют наличие упоминаний данной темы на электронных площадках крупных научных, образовательных, политических и культурных организаций, упоминание в рамках крупных конференций и мероприятий);
- целевого назначения (определение сообществ и групп читателей, заинтересованных в использовании данной коллекции, а также выполняемых ею функциях).
В результате экспертного обсуждения по перечисленным выше критериям отбирается список тем, которые ранжируются по степени соответствия параметрам. Поскольку эти критерии, за исключением сетевой статистики, не могут оцениваться по конкретным объективным показателям, для отбора тем предлагается экспертный опрос специалистов по комплектованию.
Следующим шагом является проведение опроса пользователей на электронных ресурсах библиотеки на предмет выявления
пользовательского интереса к той или иной тематике веб-архивирования. Для создания собственного веб-архива библиотеки, относящейся к определенному муниципальному образованию, требуется предпроектное исследование интересов пользователей к ресурсам данной тематики.
В целях формирования пользовательского запроса на создание и ведение коллекций сетевых веб-документов возможно проведение опросов с целью выявления их готовности к созданию веб-архивов и определения существующих проблем в данной области. В качестве респондентов, с одной стороны, должны выступать сотрудники библиотек, а с другой - их пользователи. В последнем случае в анкету включается краткая информация о веб-архивировании, а также список тематических областей, среди которых пользователи могут выбрать наиболее релевантные своим интересам. В результате библиотека получает сформулированный запрос на создание веб-архивов с приоритетными направлениями, а также списки ресурсов, предложенных пользователями.
Такое предпроектное исследование позволит реализовать следующие цели:
- провести диагностическую работу по выявлению проблем в сохранениях электронных документов электронного происхождения;
- проинформировать читателей библиотек о возможности сохранения электронных сетевых документов и наличии библиотечной практики в этой области;
- выявить приоритетные направления создания коллекций электронных документов среди читателей библиотек.
2. Разработка стратегии поиска документа, которая предполагает поиск не только источников, имеющих прямое отношение к выбранной тематике, но и косвенно содержащих информацию, относящуюся к ней (закон рассеяния информации и документов, сформулированный С. Бредфордом).
3. Выявление документов, включающее:
- выбор программного обеспечения и алгоритма захвата веб-документа с помощью поискового робота (краулера);
- выбор формата файла веб-архива;
- выбор места хранения архивированных документов.
Для выявления документов применятся в том числе технология поиска по ключевым словам. Обнаружение релевантной информации на страницах сайтов, не относящихся
к данной тематической области, позволяет включить данную страницу в предварительный список при соблюдении следующих условий:
- отсутствие в документе информации, хранение и распространение которой противоречит законам РФ;
- соответствие установленным критериям отбора документов;
- наличие согласия правообладателя в форме письменного подтверждения по запросу или размещения по лицензии СС0 1.0, СС В^С^А 4.0.
4 Отбор документов, т. е. разработка критериев отнесения веб-документа к релевантным для веб-архивирования:
1) Релевантность или соответствие тематике коллекции;
2) Соответствие законодательству РФ (отсутствие запрещенной информации, упоминания нежелательных организаций и сообществ и т. д.);
3) Понятие «артефактная ценность» как критерий для сохранения веб-документа не является формализованным в такой степени, чтобы иметь конкретную дефиницию, что подразумевает почву для дискуссии. Специалистами из публичных библиотек США было сформулировано примерное определение артефактной, или институци-альной, ценности электронного документа: «очевидная (документация функционирования и/или взаимодействия организации или личности) или исследовательская ценность; веб-сайт должен, насколько возможно, содержать полную и точную репрезентацию оригинального контента» [8].
Таким образом, «артефактная ценность» включает понятия «оригинальность» и «репрезентативность». В контексте нашего исследования более актуален последний. Репрезентация взглядов поколения на тот или иной общественный вопрос представляет собой концептуальную основу фиксации культурной айдентики различных слоев общества.
Россия, как многонациональное государство, с этой точки зрения представляет большой интерес. В национальных библиотеках республик Российской Федерации могут быть представлены веб-коллекции, посвященные конкретным народам в культурном пространстве России;
4) Эфемерность документа как критерий подразумевает наличие факторов, увеличивающих риск его исчезновения. Пока-
зателем для этого критерия предлагается считать статус оплаты домена владельцем, т. к. при истечении срока или близости к его окончанию возрастает риск исчезновения сетевого документа. Для проверки этого показателя предлагается использовать сервис «Whois History»;
5) Уникальность сетевого документа как критерий его архивирования в рамках тематической коллекции, по нашему мнению, означает наличие информации, которая не может быть обнаружена в других документах соответствующей тематики. Этот критерий актуален не только в рамках формирования коллекции, отражающей дифференциацию восприятия данного культурного явления или события, но и для дедупликации данных внутри коллекции;
6) Наличие в документе ссылок на авторитетные источники информации, к которым относятся отечественные и зарубежные организации, обладающие безупречной репутацией, или авторитетные персоналии, эксперты и специалисты в близкой к тематике области знаний или профессиональной деятельности;
7) Соответствие национальному культурному коду определяет наличие в сетевом документе текстовой, изографической или аудиальной информации, которая отображает российскую культурную айдентику.
Н. М. Балацкая в научном отчете, посвященном краеведческому веб-архивированию, рассматривает термин «культурная айден-тика» как свойство объекта в структуре краеведческого веб-архива библиотеки, включающего цифровые свидетельства культурной жизни региона. Немаловажным является то, что автор подчеркивает в качестве основы фиксации культурной айденти-ки сбор данных от лиц, связанных с этим регионом своим происхождением и какой-либо деятельностью. Веб-архивирование краеведческих ресурсов (краеведческое веб-архивирование) рассматривается ею как новое направление краеведческой деятельности библиотек и как необходимая информационная основа формирования образа края (региона/территории/населенного места) [9];
5. Согласование с правообладателем, т. е. информирование и направление запроса правообладателю о возможности сохранения и обеспечения доступа к документу в веб-архиве. Интеллектуальный капитал личности, рассматриваемый в аспекте по-
стиндустриальной экономики, представляет собой ценный актив для повышения социальной эффективности библиотеки для местного сообщества при создании краеведческого веб-архива. Фиксация материалов, оставляемых конкретным субъектом региона в Сети, обеспеченная согласованием сторон об использовании этой информации с правовой точки зрения и не противоречащая действующему законодательству Российской Федерации, позволяет сформировать цифровой портрет населенного пункта с возможностью последующей интеграции внутри региональных и национального веб-архивов. Объединение фактической информации и субъективного восприятия конкретных представителей населения позволяет взглянуть на конкретное событие глазами людей, которые были его непосредственными свидетелями, и представить объемный материал для культурологического исследования.
Последнее является актуальным в контексте возрастающего интереса к национальной идентичности и определению цифрового кода российского культурного сообщества.
6. Следующим шагом является архивирование документов посредством программного обеспечения c открытым исходным, выбор которого предлагается оставить за подразделением библиотеки, отвечающим за развитие материально-технической базы. Анализ существующего программного обеспечения на рынке позволил предложить несколько опций:
- подписка на сервис Archive it (осуществляется на платной основе);
- архивирование при помощи интернет-архива (сетевой документ архивируется программным обеспечением Wayback Machine бесплатно);
- использование бразузерных расширений для сохранения веб-страниц (бесплатное приложение Webrecorder, файл сохраняется в формате WARC и может быть воспроизведен с помощью этого расширения);
- использование краулера HeritriK (используется большинством библиотек-участниц Консорциума сохранения Интернета, требует специфических знаний работы с языком программирования).
После архивирования документов для формирования коллекции как информационного продукта необходимо разработать рубрикатор коллекции, если количество собранных документов и их содержание по-
зволяет выделить внутри коллекции подразделы. Если коллекция веб-документов небольшая (около 10 документов) и их содержание не позволяет выделить конкретный набор рубрик, то предлагается представить коллекцию в виде списка названий электронных документов с возможностью воспроизведения документа при переходе по гиперссылке в названии.
Для отражения в электронном каталоге библиотеки и на ее сайте электронных документов внутри коллекции предлагается учитывать архивированную единицу контента как локальный сетевой документ в фонде библиотеки и описывать документ согласно ГОСТ 7.0.100-2018 и 7.0.108-2022. Для монографического описания части электронного сетевого документа (например, статьи в блоге или веб-страницы) в методике предлагается использовать в качестве условно-обязательных элементов URN и DOI (если это научная статья), даты публикации/обновления и последней редакции и называть в качестве источника сайт, используя две косые черты. Кроме этого, предлагается указывать дату архивирования вместо даты обращения [8]. В целях облегчения процессов составления библиографического описания на сетевой архивированный документ и для его доступности предлагается трактовать сайт как место размещения сетевых документов (поле 856 библиографического формата Местонахождение электронных ресурсов и доступ к ним).
В качестве инструментов аудита востребованности и, следовательно, социальной эффективности информационного продукта предлагается использовать статистику просмотров и обращений к сетевым документам из тематических коллекций, количество цитирований их в других публикациях, обратную связь от пользователей.
Предлагаемая методика опирается на международный опыт развития сохранения электронного наследия и веб-архивирования в зарубежных и российских национальных библиотеках, современные технологии процессов отбора и сохранения сетевых данных, особенности формирования и продвижения информационных продуктов в фондах библиотек. Методика позволяет включиться в процесс сохранения локального и национального культурного наследия библиотекам разных уровней. Выборочное веб-архивирование как процесс формирования тематических коллекций архивированных веб-документов дает
возможность включить в фонд локальные сетевые документы выбранной тематики, предложить пользователю не только новый информационный продукт, но и возможности участия в его формировании.
Список литературы
1. Смирнов А. А. Проблемы отечественного и зарубежного веб-архивирования в библиотеках. Веб-архивирование как область деятельности // Научные и технические библиотеки. 2022. № 12. С. 104-123.
2. Балацкая Н. М. Модель краеведческого архива в библиотеке: путь к внедрению // Краеведческие ресурсы Сети как объект веб-архивирования и исследования: Всерос. науч.-практ. семинар: видеотрансляция, 08.11.2023 г. URL: https://www.youtube.com/ watch?v=5va-DB-Z2k8 (дата обращения: 12.09.2024).
3. Проект Национальной библиотеки - победитель конкурса грантов Президента Российской Федерации // Портал органов власти Чувашской республики. URL: https://culture.cap.ru/news/2022/06/21/ proekt-nadonaljnoj-biblioteki-pobeditelj-konkursa (дата обращения: 12.09.2024).
4. Ершова В. В. Краеведческие ресурсы Сети как объект веб-архивирования и исследования: опыт реализации проекта «Yakutia.Online» в Национальной библиотеке Республики Саха (Якутия) // Краеведческие ресурсы Сети как объект веб-архивирования и исследования: Всерос. науч.-практ. семинар: видеотрансляция, 08.11.2023 г. URL: https://www.youtube.com/ watch?v=5va-DB-Z2k8 (дата обращения: 12.09.2024).
5. Архивные документы: семьи Якутии // Национальная библиотека Республики Саха: офиц. сайт. URL: https://new.nlrs.ru/collections/639 (дата обращения: 12.09.2024).
6. Евдокимова И. Н. Задача веб-архивирования местных СМИ в условиях мегаполиса (на примере корпоративного проекта «Дайджест петербургской прессы») // Краеведческие ресурсы Сети как объект веб-архивирования и исследования: Всерос. науч.-практ. семинар: видеотрансляция, 09.11.2023 г. URL: https:// youtu.be/97XoCrbSlTU (дата обращения: 12.02.2024).
7. Смирнов А. А. Концептуальные основы веб-архивирования в библиотеках // Вестник Санкт-Петербургского государственного института культуры. 2024. № 2 (59). С. 158-163.
8. Балацкая Н. М., Мартиросова М. Б. Краеведческий веб-архив в структуре информационных ресурсов библиотеки: модель и возможности реа-
лизации / Рос. нац. б-ка. Санкт-Петербург, 2023. 208 с.
9. Веб-архивирование краеведческих ресурсов в формировании культурной айдентики: методология и организация: науч. отчет / Н. М. Балацкая и др. Рос. нац. б-ка. Санкт-Петербург, 2023. 33 с.
References
1. Smirnov A. A. The problems of national and foreign web-archiving in libraries. Web-archiving as a functional area. Scientific and technical libraries. 2022. 12, 104-123 (in Russ.).
2. Balatskaya N. M. Model of a local history archive in a library: the path to implementation. Local history resources of the Network as an object of web archiving and research: All-Russ. sci. and practical seminar: video, Nov.08.2023. URL: https://www.youtube.com/ watch?v=5va-DB-Z2k8 (accessed: Sept.12.2024) (in Russ.).
3. The National Library project is the winner of the grant competition of the President of the Russian Federation. Portal of the authorities of the Chuvash Republic. URL: https://cu ltu re. cap.ru/news/2022/06/21/proekt-nacionaljnoj-biblioteki-pobeditelj-konkursa (accessed: Sept.12.2024) (in Russ.).
4. Ershova V. V. Local history resources of the Network as an object of web archiving and research: experience of implementing the project "Yakutia.Online" in the National Library of the Republic of Sakha (Yakutia). Local history resources of the Network as an object of web archiving and research: All-Russ. sci. and practical seminar: video, Nov.08.2023. URL: https://www.youtube.com/ watch?v=5va-DB-Z2k8 (accessed: Sept.12.2024) (in Russ.).
5. Archival documents: families of Yakutia. National Library of the Republic of Sakha: offic. website. URL: https:// new.nlrs.ru/collections/639 (accessed: Sept.12.2024) (in Russ.).
6 Evdokimova I. N. The task of web archiving of local media in a megalopolis (on the example ofthe corporate project "Digest ofthe St. Petersburg Press"). Local history resources ofthe Network as an object of web archiving and research: All-Russ. sci. and practical seminar: video, Nov.09.2023. URL: https://youtu. be/97XoCrbSlTU (accessed: Sept.12.2024) (in Russ.).
7. Smirnov A. A. Conceptual foundations of web archiving in libraries. Bulletin ofthe Saint-Petersburg State University of Culture. 2024. 2 (59), 158-163 (in Russ.).
8. Balatskaya N. M., Martirosova M. B. Local history web archive in the structure of library information resources: model and implementation possibilities / Nat. libr. of Russia. Saint-Petersburg, 2023. 208 (in Russ.).
9. Balatskaya N. M., et al. Web archiving of local history resources in the formation of cultural identity: methodology and organization: sci. report / Nat. libr. of Russia. Saint-Petersburg, 2023. 33 (in Russ.).