Научная статья на тему 'О способе обработки неоцифрованных источников для повышения эффективности использования книжно-журнального фонда'

О способе обработки неоцифрованных источников для повышения эффективности использования книжно-журнального фонда Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
406
47
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АВТОРСКОЕ ПРАВО / БИБЛИОТЕКА / БУМАЖНЫЙ НОСИТЕЛЬ ИНФОРМАЦИИ / КНИЖНО-ЖУРНАЛЬНЫЙ ФОНД / МЕТАДАННЫЕ / НЕОЦИФРОВАННЫЕ ИСТОЧНИКИ / ОЧЕРЕДНОСТЬ ОЦИФРОВКИ / ОЦИФРОВКА КНИГ / СЕРВЕР / ТЕГ / ЦИТАТА / ЭЛЕКТРОННЫЙ НОСИТЕЛЬ ИНФОРМАЦИИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Никифоров Владимир Викторович, Кривич Наталья Алексеевна

Предлагается двухуровневый метод оцифровки библиотечного книжно-журнального фонда научно-образовательной направленности, не представленного в кибер-пространстве. На первом этапе формируется метаданные-теги (библиографическое описание издания, ключевые фрагменты и цитаты, дающие представление о содержании источника), с помощью которых источник отображается в кибер-пространстве. На втором этапе делается полный комплекс работ по оцифровке источника, представляющий собой полноценный редакционно-издательский цикл подготовки источника к электронному опубликованию. Предложенный метод обеспечит значительно меньшие затраты времени и материальных ресурсов для информирования научной общественности с помощью современных информационных технологий об источниках, не представленных пока в электронном виде. Контроль количества запросов к первично оцифрованным источникам позволит оптимизировать очередность их дальнейшей полной оцифровки. Также предложенный метод позволяет избежать юридических коллизий, касающихся авторских прав.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Никифоров Владимир Викторович, Кривич Наталья Алексеевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «О способе обработки неоцифрованных источников для повышения эффективности использования книжно-журнального фонда»

УДК 02:004 + 025 ББК 78.3

В.В. Никифоров, Н.А. Кривич

о способе обработки неоцифрованных источников для повышения эффективности использования книжно-журнАльного фонда

Предлагается двухуровневый метод оцифровки библиотечного книжно-журнального фонда научно-образовательной направленности, не представленного в кибер-про-странстве. На первом этапе формируется метаданные-теги (библиографическое описание издания, ключевые фрагменты и цитаты, дающие представление о содержании источника), с помощью которых источник отображается в кибер-пространстве. На втором этапе делается полный комплекс работ по оцифровке источника, представляющий собой полноценный редакционно-издательский цикл подготовки источника к электронному опубликованию. Предложенный метод обеспечит значительно меньшие затраты времени и материальных ресурсов для информирования научной общественности с помощью современных информационных технологий об источниках, не представленных пока в электронном виде. Контроль количества запросов к первично оцифрованным источникам позволит оптимизировать очередность их дальнейшей полной оцифровки. Также предложенный метод позволяет избежать юридических коллизий, касающихся авторских прав.

Ключевые слова:

авторское право, библиотека, бумажный носитель информации, книжно-журнальный фонд, метаданные, неоцифрованные источники, очередность оцифровки, оцифровка книг, сервер, тег, цитата, электронный носитель информации.

До появления сети Интернет ответ на любой вопрос - от приготовления борща до прокладывания маршрута байдарочного похода - можно было получить, либо задав вопрос человеку, которому вы доверяете (особенно по первому пункту), либо найти на страницах энциклопедий и справочников. Книги и журналы, копившиеся из поколения в поколение в домашних и общественных библиотеках, создавали базис знаний, который мог выручить практически в любой ситуации.

Сегодня нужную информацию можно получить проще - в Интернете. В связи с этим даже появляется беспокойство, что библиотекари и библиографы постепенно окажутся вытеснены поисковыми системами. Но еще очень и очень долго (а скорее всегда) без специалистов в области классификации и обработки информации обойтись будет невозможно. Правда, роль библиотек изменится, из хранилища знаний они трансформируются в центры обработки информации. Именно в этом направлении развиваются и взгляды на современную справочно-библио-течную систему, в частности переход к новому формату электронной библиотеки - Библиотека 2.0. Базовыми принципами работы данной системы являются [1]:

- ориентация на пользователя;

- использование всех доступных технологических новшеств;

- вовлечение пользователей в совершенствование библиотечных сервисов;

- охват как можно большего количества посетителей (том числе товары и услуги, которые требуются нечасто и не являются высоко конкурентными);

- модульное (разбитое на компоненты) программное обеспечение;

- постоянное развитие;

- широкое использование сервисов Web 2.0;

- открытые стандарты.

При всех несомненных плюсах инновационных библиотечных и поисковых технологий пока остается нерешенной проблема, связанная с тем, что огромное число научных работ еще не оцифровано, а значит, в соответствии с современными реалиями, выпадает из активного научного оборота. Возможный способ частичного решения этой проблемы мы и хотели бы рассмотреть.

Человечеством давно осознана необходимость каким-то образом аккумулировать и сохранять накопленный опыт - от проблем физического выживания до сосуществования отдельных индивидов и сообществ. Когда-то важную информацию фиксировали в людской памяти с помощью бесконечных повторений, знания передавались из поколения в поколение изустно - так сохранялись строки Гомера, русские былины, индейские легенды и многое другое.

Объем знаний рос, и требовались новые формы хранения. С появлением письмен-

ности человек стал накапливать знания, запечатлевая их на материальных носителях - камне, глине, папирусе, бересте, бумаге. Появление печатного станка кардинально изменило масштабы распространения письменной культуры.

Следующим шагом стали электронные вычислительные машины, давшие человечеству новые возможности для хранения и обработки информации [11]. Одновременно люди задумались о хрупкости подобных способов хранения. Бумага может потерять часть своих свойств под воздействием огня или влаги, но информация, пусть с лакунами, сохранится. Информация в электронных приборах подвергается риску сразу по трём направлениям:

1) механическая поломка материального носителя (так называемого «железа»);

2) повреждение или уничтожение информации в результате программных сбоев либо воздействия вредоносных компьютерных программ;

3) утрата в силу каких-либо причин системы записи (собственно информационной составляющей).

Во всех перечисленных случаях с большой долей вероятности информация будет безвозвратно потеряна.

Одним из способов борьбы с первой и второй угрозами стало создание резервных копий.

Противостоять третьей сложнее. Чтобы десятилетиям и даже столетиями поддерживать в актуальном состоянии электронные архивы, необходима мощная и методичная работа. Мы помним, что на заре компьютеризации для хранения информации использовались перфоленты и перфокарты. Где теперь эти архивы? Как считать информацию с этих носителей, не имея соответствующих устройств? Только очень предусмотрительные пользователи сделали копии на CD. Но какой период, в свою очередь, прослужат эти CD, когда уже на смену DVD приходят диски с технологией Blue Ray?

Появление компьютерных технологий обработки данных и особенно распространение Интернета привели к тому, что информация в электронном виде стала не только храниться, воспроизводиться и распространяться, но и создаваться. Информация же, созданная в докомпьютерную эпоху либо без применения компьютера (книги, статьи, изображения, аудио- и видеоматериалы), в настоящее время интенсивно «оцифровывается», то есть ее цифровая копия помещается в ки-бер-пространство. В [7, с. 8] оцифровка определяется как процесс трансформации оригинального (аналогового) материала в

цифровую форму. Авторы классифицируют такую обработку по поставленной цели:

- репродукция - оцифровка с целью воспроизведения исходного материала в цифровой форме с наибольшей точностью. Эта категория включает в себя оцифровку изображений, звука и видео;

- поиск - оцифровка с целью облегчения поиска и извлечения оригинального материала. Целью является не точное воспроизведение, но увеличение возможностей поиска и использования материала;

- миграция - оцифровка с целью захвата информации из аналоговой (бумажной) системы каталогизации и использования ее в системе автоматизированного управления коллекциями.

Неоспоримое удобство получения информации и оперирования ею в электронном виде привело к формированию двух сценариев обработки информации:

1. Вновь формируемая информация теперь может сразу фиксироваться на электронных носителях (с возможным дублированием на бумажных носителях);

2. Накопленная ранее информация, содержащаяся в корпусе библиотечных коллекций, с высокой интенсивностью оцифровывается, т.е. копируется на электронные носители, в т.ч. в «облачные« системы хранения.

Первый сценарий дает создателям новой информации (писателям, ученым, художникам, журналистам и пр.) многочисленные новые способы представления и комбинирования видов информации: не только текст, но и видео- и аудиоматери-алы, изображения, в т.ч. анимационные, могут предъявляться читателю (зрителю) в едином электронном документе.

Второй процесс является сегодня предметом дискуссий. Какие способы наиболее оптимальны? В каком виде должны фиксироваться изданные ранее печатные и прочие источники?

Сегодня весь комплекс знаний, накопленных человечеством хранится тремя способами:

- устная традиция (например, у шаманов и т.п.),

- письменные источники (рукописи, печатные издания),

- в электронном виде (в памяти электронных устройств - персонального компьютера, облачного сервера, айпада и т.п.).

Не останавливаясь на содержательной стороне информации, будем всю совокупность накопленных знаний именовать ресурсами. Ресурсы в электронном виде являются данными. В качестве ресурса выступают:

3 ю О

- тексты;

- физические объекты (статуи, здания и пр.);

- события (спектакли, демонстрации, полеты на Луну и т.п.);

- мультимедиа (изображение, звук, видео и пр.) и любые другие результаты/факты человеческие деятельности.

Логический (смысловой) характер ресурсов не зависит от способа их хранения, т.е. от того, что служит носителем информации - мозг человека, книга или компьютерный файл (рис. 1). Любые ресурсы могут быть описаны с помощью метаданных (и сами метаданные могут быть описаны с помощью метаданных), под которыми понимается «структурированная информация о ресурсе любого типа, которая используется для идентификации ресурса, для описания ресурса, для управления ресурсом и для предоставления доступа к нему« [7, с. 14].

данные

Рис. 1. Способы хранения информации.

Сегодня пропорция распределения информации между тремя видами носителей (человек, книга, компьютер) стремительно изменяется в пользу электронного носителя. Этот факт, однако, никак не меняет способа использования хранящейся информации. Только человек может ее прочитать, получить, увидеть, услышать, понять, интерпретировать и т.д. (Мы не можем рассматривать так называемых «ботов» как полноценных потребителей данных. Они, по сути, перераспределяют, «перетаскивают» уже имеющуюся информацию, копируя ее на другие серверы. Так же как и развитие технологий «искусственного ин-теллекта« не является альтернативой, т.к. это лишь орудие интеллекта человека).

В данной статье мы сосредоточимся на печатных ресурсах. Разумеется, оптимальным было бы отображение на экране монитора оцифрованной книги, максимально подобной физическому оригиналу (оттенок бумаги, цвет краски, блики,

возможные особенности и дефекты и т.п.). Современные программные средства позволяют имитировать многие свойства моделируемых объектов, в т.ч. и книг. Можно отобразить перелистывание, сгибание листов, наблюдение их в разных ракурсах и т.д. (в идеале - и запах, и звук шуршания бумаги и др. физические эффекты).

В такой идеальной цифровой копии также должен корректно отображаться текст исходного документа (ресурса), включая различные нестандартные символы, значки и обозначения (рис. 2).

Г ■

1

щ 1

а)

Рис. 2. Представление книги в оцифрованном виде: а) книга; б) книга на экране монитора.

Попутно встает проблема воспроизведения различных дефектов и недочетов, допущенных при выпуске оригинала. Это могут быть:

- опечатки,

- орфографические и синтаксические ошибки;

- фактологические ошибки;

- полиграфический брак;

- плагиат.

Один из вариантов решения - «подсвечивание» таких «проблемных» фрагментов, сопровождение их гипертекстовыми ссылками на комментарии и т.п. современные технологические приемы.

Однако названные «идеальные» свойства цифровой копии бумажного документа достижимы при слишком высоких затратах материальных ресурсов и времени на подготовку. Так, если из 1,5 млн наименований изданий, хранящихся в Фундаментальной библиотеке Санкт-Петербургского государственного политехнического университета по условиям соблюдения авторских прав оцифровке подлежат 500 или даже 100 тысяч источников объемом в среднем 10 печ. листов, то распознаванию и сложной редакторской и дизайнерской обработке подлежит 16 миллионов страниц формата А5.

Значение доступа к необходимой информации усиливается тем, что сегодня человечество живет в эпоху информационного общества. Этот этап характеризуется «высокой скоростью коммуникационных процессов, которая обеспечивается наукоемкими, высокотехнологичными средствами (микропроцессорными технологиями и компьютерной сетью Интернет), в котором информация и знания приобретают новое качество, становясь основными продуктами жизнедеятельности индивидов и социальных групп« [4]. В этих условиях информация приобрела статус ценности и стала, по сути, новой формой капитала, определяющего уровень развития и благосостояния страны.

Как отмечают многие исследователи, сегодня именно операции с информацией (получение, обработка, хранение, преобразование и использование) оказываются приоритетными на рынке услуг. Например, к началу 2000 г. доля занятых преимущественно умственным трудом достигла в США почти 60% квалифицированной рабочей силы (а по некоторым данным, в сфере информационных технологий - до 80%) [5; 9]. С течением времени процент людей, так или иначе связанных с информационными услугами и технологиями, продолжает увеличиваться.

Сами по себе данные не представляют никакой ценности, они обретают вес и значимость только тогда, когда становятся доступны и используются человеком. А для того, чтобы они вошли в обращение, их нужно описать, т.е. сделать «видимыми« (visible).

К настоящему времени разработано большое количество стандартов по описанию различных типов ресурсов: книг, архивных документов, музейных предметов, изображений, людей и т.п. Наиболее известным стандартом описания является Дублинское ядро (простое и расширенное), содержащее элементы, с помощью которых

характеризуется ресурс. Основные европейские стандарты были изложены в 2009 г. (на русском языке опубликованы в 2010 г. [7]). Нас в рамках данной статьи интересовали, прежде всего, стандарты описания и кодировки архивных документов и прочих текстовых ресурсов.

Еще в середине ХХ в. началась разработка унифицированных стандартов описания библиотечных ресурсов, итогом которой стало появление проектов на основе MARC (Machine-Readable Cataloging) - UNIMARC, MARC21* и различных национальных модификаций. Например, RUSMARC37 разработан Российской библиотечной ассоциацией и утвержден приказом министра культуры РФ № 45 от 27.01.98 г. в качестве обязательного формата при обмене библиографическими записями среди библиотек сети Министерства культуры. Метаданные включают библиографическое описание, авторитетные/нормативные данные, классификационные данные [10].

К сожалению, большинство существующих стандартов, включающих более или менее достаточное количество полей для описания различных видов ресурсов (монографий, диссертаций, старопечатных изданий, сериальные изданий, нотных документов, графических материалов и пр.), предполагает значительные временные и финансовые затраты на свою реализацию, особенно, когда дело касается оцифровки всего книжно-журнального массива библиотеки или коллекции.

Например, во Владимирской областной научной библиотеке в 2008 г. «специалисты отдела автоматизации начали сканирование документов отдела краеведческой библиографии и редких и краеведческих изданий из фондов муниципальных библиотек Владимирской области. За 2 года было оцифровано 1765 изданий, из них 1036 из фондов библиотек области» [6]. С книгами выполнялись только следующие операции:

«- экспертиза и отбор документов, подлежащих оцифровке;

- подготовка документов к оцифровке;

- оцифровка и обработка электронных документов;

- каталогизация электронных документов и обеспечение инструментами эффективного поиска» [6].

Распознавание и обработка текстов не проводилась. То есть, для обработки 10 тыс. книг потребуется 5, а 100 тыс. - 50 лет!

Разумеется, необходимо делать поправку на то, что в мире одновременно оциф-

* Числовой индекс в названии обычно обозначает количество параметров, которые могут быть задействованы в описании ресурса.

3 ю О

ровкой (всеми способами) занимаются не один человек и не одна организация. Тем не менее, в целом процесс растягивается на трудно вычислимое время, а это значит, что значительный пласт литературы и источников выпадает из исследовательского поля зрения ученых.

Для научной литературы одной из главных целей видится отбор источника из общего набора ресурсов. Чем большее количество релевантных источников будет отыскано исследователем при изучении публикаций на данную тему, тем больше вероятность для него выполнить свое исследование качественно и результативно.

Возможно, стоило бы задуматься о своеобразной «послойной», двухуровневой оцифровке накопленного человечеством культурного фонда. Это подразумевает два этапа (уровня) работ по получению цифровой копии исходных ресурсов:

1. Предварительная оцифровка, не нарушающая авторских прав, не требующая значительных расходов.

2. Получение полномерной цифровой копии, отвечающей всем требованиям к представлению ресурса и к правовым аспектам его использования.

Речь идет о том, что сначала, на 1-м этапе, можно не стремиться оцифровать книгу или иной ресурс весь целиком и с использованием всех технологических приемов, о которых говорилось выше, а только сформировать метаданные, которые, пусть на условном (т.е. не полноформатном) уровне, введут данный ресурс в информационное поле современного кибер-пространства.

Перспективными в этом смысле представляются стандарты кодирования документов EAD (Encoded Archivai Description) и TEI (Guidelines for Electronic Text Encoding and Interchange - «руководство по кодированию и обмену электронными текстами»). TEI разработан Lou Burnard и Syd Bauman в 2007 г. В данном формате определяется набор тэгов (маркеров), которые вставляются в электронную форму документа (текст) для того, чтобы описать структуру и другие характеристики документа. Тэги используются при обработке текста компьютером. Данный стандарт совместим с XML и имеет открытую форму. Аналогичную форму и открытость имеет стандарт EAD, предназначенный для описания архивных и, прежде всего, рукописных материалов [10; 12].

Такая «усеченная» технология оцифровки с отложенным окончательным формированием полномерной цифровой копии позволяет разрешить значимую проблему - возможное нарушение авторских или имущественных прав. Авторское право

действует в течение всей жизни автора и 70 лет после его смерти, если автор не укажет лицо, на которое он возлагает охрану права авторства, права на имя и права на защиту своей репутации после своей смерти. Это лицо осуществляет свои полномочия пожизненно [2].

Ситуация с имущественными правами может быть еще более запутанной. По российскому законодательству имущественные права - это субъективные права участников правоотношений, связанные с владением, пользованием и распоряжением имуществом, а также с теми материальными (имущественными) требованиями, которые возникают между участниками экономического оборота по поводу распределения этого имущества и обмена (товарами, услугами, выполняемыми работами, деньгами, ценными бумагами и др.) [3]. Что касается имущественных прав на книги, то они имеют конечный срок давности. Чаще всего 70 лет после смерти автора и 75 лет (в США - 95 лет) со времени публикации книги. Поскольку Советский Союз вступил в международную конвенцию по авторским правам лишь в 1971 г., то в России сложилась особая ситуация с книгами вышедшими до этого. Эти книги, как правило (есть и исключения), не являются больше объектами имущественного права, также как и книги, изданные в США до 1924 года включительно, или в Европе до 1932 года включительно [8].

Методика, о которой мы говорим, позволяет провести «тегирование» без полной обработки исходного ресурса - сплошного сканирования, распознавания, редакцион-но-корректорской и дизайнерской обработки (рис. 3). В данном случае речь идет только об информировании общественности о том, что такой ресурс имеется, а все дальнейшие действия, в частности, более подробное знакомство с ресурсом будет выстраиваться на соответствующей правовой базе и в непосредственном контакте с лицом или организацией, в настоящее время считающей себя или являющейся владельцем ресурса (прежде всего, речь, конечно, о книгах).

С точки зрения техники осуществления подобной работы можно предложить использование современных ручных сканеров, имеющих небольшой вес и хорошее качество сканирования. Указать (выделить) маркером короткий фрагмент текста (слово, выражение), который должен стать тегом, и дать команду на помещение тега в индекс - гораздо более экономная процедура по сравнению с полномерной оцифровкой ресурса. При этом описание каждого источника должно быть максимально информативно. Очевидно, оцифровке с

Рис. 3. Книга, из текста которой оцифрованы ключевые фрагменты.

распознаванием должны подлежать титул, оборот титула, содержание и указатели (если таковые есть). На основе этой информации и будут сформированы метаданные. Трудоемкость такой операции может быть максимально снижена за счет применения программных средств, позволяющих эксперту автоматизировать большинство операций по формированию метаданных.

Эксперт должен оцифровать только те фрагменты текста, которые станут тегами. Зато для дальнейшего использования источник, пусть и не подвергшийся процедуре полной оцифровки, станет гораздо более доступен.

Полноформатная оцифровка («второй слой») должна сопровождаться более сложной структурной обработкой ресурса, в том числе разметкой выявленных дефектов (опечаток; фактических, логических и иных ошибок; не обозначенного заимствования чужого текста - плагиата и т.п.), а также создания дополнительных сопутствующих вновь создаваемой копии данных (комментариев, ссылок и пр.).

Полученный усеченный набор цифровых данных делает ресурс доступным с помощью цифровых технологий значительно большему кругу заинтересованных читателей, чем при традиционном библиотечном предоставлении доступа. Причем количество запросов на ту или иную книгу может служить ориентиром при выстраивании очередности полной оцифровки ресурсов.

Подводя итог, можно сказать, что процесс оцифровки накопленных научных ресурсов еще очень далек от своего завершения. В условиях растущей конкуренции, а также глобализационных процессов в области науки, необходимо изыскивать способы информирования исследователей об имеющихся в отечественных библиотеках (прежде всего вузовских) результатах проделанных научных изысканий. Это позволит избежать дублирования в исследованиях, а также повысит уровень конкурентоспособности отечественной науки в мировом научном пространстве.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Список литературы:

[1] Библиотека 2.0 (по материалам Лигун Т.А. с семинара «Вузовская библиотека в электронной среде управления знаниями») // Электронная библиотека - от проекта до реализации. - Интернет-ресурс. Режим доступа: http://www.elibconsult.ru/page.jsp?pk=node_1273 0 44288930

[2] ЗонаЗакона^и / Юридический портал. - Интернет-ресурс. Режим доступа: http://www.zonazakona. ru/law/comments/art/616/

[3] Имущественные и неимущественные права // Обществознание. - Интернет-ресурс. Режим доступа: http://humanitar.ru/page/ch6_8

[4] Информационное общество. - Интернет-ресурс. Режим доступа: http://almpos.su/wiki/Информаци-онное_общество

[5] Коновалов В.Н. Политология. Словарь. - М.: РГУ, 2010. - 367 с.; Интернет-ресурс. Режим доступа: http://mirslovarei.com/content_pol/informationnoe-obshhestvo-1l73.html

[6] Начало оцифровки // Владимирская областная научная библиотека. - Интернет-ресурс. Режим доступа: http://library.vladimir.ru/nachalo-ocifrovki.htm

[7] Оцифровка: ландшафт стандартов для европейских музеев, архивов, библиотек, 2010, - М.: Центр ПИК, 2010. - 52 с.

[8] Оцифровка печатных текстов. - Интернет-ресурс. Режим доступа: http://ru.wikibooks.org/wiki/Оциф-ровка_печатных_текстов

[9] Супян В. Сфера труда в США: новые тенденции и вызовы XXI в. // Проблемы теории и практики управления. - 2001, № 3. - С. 96-101.

[10] Федоров А. Наиболее известные системы метаданных и проблемы их выбора // Идеи простых решений. - 2010, 27 мая. - Интернет-ресурс. Режим доступа: http://ideafor.info/?p=994

[11] Шестакова И.Г. Проблемы стратегического планирования общественного развития в условиях ускоряющегося обновления технологий информационного обмена // Общество. Среда. Развитие. - 2013, № 1. - С. 81-85.

[12] TEI P5: Guidelines for Electronic Text Encoding and Interchange, Charlottesville / Burnard L., Bauman S. g eds. // TEI: Text Encoding Initiative. - Virginia, USA: TEI Consortium, 2007. - Интернет-ресурс. Режим £ доступа: http://www.tei-c.org/Guidelines/P5/ ^

■ю О

i Надоели баннеры? Вы всегда можете отключить рекламу.