Научная статья на тему 'Архивирование постоянно обновляющихся образовательных онлайн ресурсов для библиотек вуза'

Архивирование постоянно обновляющихся образовательных онлайн ресурсов для библиотек вуза Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
156
33
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНТЕРНЕТ ХАРВЕСТИНГ / СКАЧИВАНИЕ / ОНЛАЙНОВЫЕ РЕСУРСЫ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Шварцман М. Е.

В статье описано бесплатное распространяемое программное обеспечение для каталогизации ресурсов Интернет и автоматического скачивания описанных ресурсов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

In this article we describe software we are developing for catalog and harvesting online journals.

Текст научной работы на тему «Архивирование постоянно обновляющихся образовательных онлайн ресурсов для библиотек вуза»

Educational Technology & Society 9(3) 2006 ISSN 1436-4522

Архивирование постоянно обновляющихся образовательных онлайн ресурсов для библиотек ВУЗа

М.Е. Шварцман отдел исследований компьютерных систем ФГУ Российская государственная библиотека Москва, Россия shvar@rsl.ru

АННОТАЦИЯ

В статье описано бесплатное распространяемое программное обеспечение для каталогизации ресурсов Интернет и автоматического скачивания описанных ресурсов.

In this article we describe software we are developing for catalog and harvesting online journals.

Ключевые слова

Интернет харвестинг скачивание онлайновые ресурсы.

Введение

В настоящее время не нужно никого убеждать в том, что онлайновые ресурсы часто содержат весьма ценную информацию, которую с успехом можно применить в образовательном процессе.

Это могут быть сайты, созданные группой учёных единомышленников, преподавателями университетов, размещающими материалы для студентов в Интернет, онлайновые версии журналов и многое другое. У всех этих материалов есть один большой недостаток - отсутствуют гарантии их постоянного размещения в Интернет. Может распасться научный коллектив, сменить работу преподаватель, разориться журнал,- в результате ценный ресурс исчезнет.

Методология и/или теоретическая часть

В Российской государственной библиотеке при поддержке РФФИ грант 04-07-90056-в с 2004 года идет работа по созданию инструмента способного сохранить необходимый библиотеке ресурс, путем его автоматического скачивания и предоставить возможность поиска по скачанным ресурсам.

В настоящее время работа близится к завершению, и нам удалось создать работоспособное и, что немаловажно, переносимое решение, которое, как нам кажется, может быть использовано в любой заинтересованной организации или любым исследователем для формирования своей собственной электронной библиотеки путем скачивания из Интернета необходимых ресурсов.

Мы поставили перед собой задачу сделать программное обеспечение достаточно универсальное, настраиваемое, несложное в установке, распространяемое бесплатно, с исходными кодами, с помощью которого можно создать архив ресурсов Интернет.

Что же в итоге у нас получилось.

Наша система состоит их трех модулей: каталог ресурсов, архив ресурсов, полнотекстовый поиск в архиве.

Все модули могут функционировать самостоятельно, могут быть установлены на отдельные компьютеры и взаимодействовать между собой по сети.

Каталог ресурсов - это база данных, реализованная на PostgreSQL (выбор СУБД во многом определялся требованием свободного распространения). Обращение к БД производится двумя путями. Для ввода библиографического

описания (БО) и редактирования его, а также для поиска по элементам БО разработан WEB интерфейс, позволяющий вести работу с любого компьютера в Интернет.

WEB интерфейс может быть использован для работы студентов, собирающих в Интерне материал по заданной преподавателем темы.

В соответствии с определенной администратором роли, вводящий может только вводить или и редактировать чужие записи. Такая роль может быть отведена, например, руководителю студенческого коллектива. В систему встроена проверка на дублирование, поэтому один и тот же ресурс не будет описан дважды. Форматом описания ресурсов выбран Dublin Core Metadata Element Set (DC MES). Это формат уже стал стандартом de facto в практике описания ресурсов Интернет. Использование этого формата поможет в случае обмена между архивами различных университетов. Стандарт с одной стороны достаточно подробен для описания ресурса, а с другой стороны достаточно прост для освоения не только опытными библиографами, но и обычными студентами.

Для проведения административных операций типа переиндексирования базы, ввода новых пользователей и экспорта-импорта записей была разработана специальная клиентская программа, работающая под Windows и выполняющая все эти функции. Кроме БО в базе данных содержится информация о параметрах для скачивания полных текстов статей в нашем случае или просто отдельных страниц сайтов в общем случае. Администратор задает время, через которое нужно проверить сайт на обновление и количество копий, которые нужно хранить. Модуль скачивания основан на свободно распространяемой программе WGET, работающей под всеми версиями UNIX или под Windows. Эта программа была доработана, и к ней был дописан отдельный модуль на РНР

Архитектура хранилища Каталог Архив Текстовый поиск

Рис.1. Архитектура хранилища.

В настоящий момент в файловой системе одновременно хранится три копии сайтов. В начальный момент работы программа скачивает полную версию сайта в соответствии с заданным И^ (если журнал распределен по двум или более серверам, то указываются несколько И^). Эта копия будет храниться в файловой системе для сравнения при последующем скачивании. Для полнотекстового поиска эта копия проходит обработку для удаления рекламных блоков и прочей непрофильной информации. Администратор задает список регулярных выражений, в соответствии с которыми удаляется ненужная информация. Через заданный для этого сайта интервал времени происходит повторное скачивание. При этом происходит сравнение скачиваемых страниц с копией, оставленной для сравнения. Если различия (в байтах) больше 0, но меньше 20%, от скачиваемого объема, то происходит обычная операция замены старой копии новой, результат прошлого скачивания становится второй копией. Если отличия больше чем 20%, то информация об этом доставляется администратору для принятия решения о допустимости замены копии. Возможны случаи, изменения содержимого сайта без изменения И^ малоценной информацией, и при этом необходимо избежать затирания содержимого сохраненного сайта.

На приведенном рисунке (рис. 2) показано как выглядит для пользователя наш архив. Кроме списка журналов приводятся даты закачки и объем скачанной информации.

Search for: I

• Powered by HmoGoSeaich • fret wtb at a cb

Search! | Extended eiigiut software

Please enter one or more words and press Search.

Letter.M СЬР^АБВГДЖЗИКЛМНОПРСТУФХ Ч Э Ю Я

Page: 12? 4 56 78 9 10 И 12 DU

1(1 название дата последней закачки объём

105 Компания: деловой еженедельник |L] 10.03.2006 09:45:53 1.118.283.133

100 Кодеке- ш1о 14 10.03.2006 04:58:31 1.104.410.320

260 Учительская газета И I 24.03.2006 14:33:59 1.103.566.681

Вестник Европы. Журнал европейской “ культуры 1LI 27.03.2006 00:35:28 1.098,970.885

269 Урал |Ь] 27.03.2006 13:44:18 1.098.921.486

193 Звезда П-1 19.03.2006 10:45:59 1.098,900.304

190 Октябрь [L] 18.03.2006 01:06:04 1.098.800.765

189 Дружба народов 14 17.03.2006 23:07:44 1.098.765.981

188 Иностранная литература [L1 17.03.2006 21:29:23 1.098.721.686

192 В опросы ли тературы Д-1 18.03.2006 05:21:30 1.098.697.081

187 Новая юность [L1 15.03.2006 20:00:19 1.098.631.211

Рис.2. Архив пользователя

Предлагаемое программное обеспечение было испытано в РГБ для создания архива онлайновых научных журналов.

Журналы шаблоны управление 1 2 3 4 5 6 7 8 9 10 И 12 13 14 15 16 17 18 19 20 21 21 28 29 30 31 32 33 34 35 36 37 38 39

.. ЧИСЛО ДЭТа м

id название -частота последней резуль

кипи и

закачки

^ Гуманитарные науки в Сибири [L] 2 30 30.12.2005 12:53:02 в проце<

2 Credo [L] 2 30 30.12.2005 12:53:08 в проце»

3 Русский журнал [L] 2 30 09.03.2006 13:56:03 +

4 Топос [L] 2 30 30.12.2005 12:53:12 в процеї

Web Journal of

Рис.3. Журналы, шаблоны, управление.

Опыт показал, что скачивание происходит корректно, многие ошибки в ИТМЬ разметке скачиваемых страниц отображаются правильно. Наличие шаблонов, несмотря на некоторые дополнительные трудозатраты по их созданию, уменьшает необходимое дисковое пространство и количество информационного шума при поиске Для контроля скачивания был разработан ЖБВ интерфейс, позволяющий задавать параметры скачивания и проводить мониторинг процесса.

Сейчас в нашем архиве около 800 журналов, общий объем архива составляет

300 гб.

При архивировании онлайновых ресурсов необходимо учитывать некоторые юридические аспекты. Во первых нужно помнить, что в Интернете у всего есть хозяин. На скачиваемые материалы, как правило, у кого то есть имущественные права. Если с неимущественными правами проще, главное не забывать указывать автора используемого материала, то с имущественными - сложнее. Если Вы хотите опубликовать скачанный материал в Интернет, то есть открыть к нему доступ всем желающим, то Вы должны заключить договор с правообладателем на использование его материала или с РОМС, который сам будет разбираться с автором и перечислять ему деньги за каждое скачивание. В РГБ разработаны типовые договора для организаций создающих ресурсы и для отдельных авторов.

Для полнотекстового поиска в скачанных массивах мы используем бесплатное программное обеспечение mnogosearch (http://www.mnogosearch.org/). увязанное в общий пользовательский web интерфейс.

Заключение

Описанное программное обеспечение по плану работ по гранту РФФИ 04-07-90056-в будет готово для распространения в конце 2006 года. Первый модуль -каталог уже готов и может быть выслан всем желающим, обратившимся к автору статьи.

Литература

[Шварцман М.Е 2005] Шварцман М.Е. Архив российских научных онлайновых журналов.//Электронные библиотеки: перспективные методы и технологии,

электронные коллекции. Труды Седьмой Всероссийской научной конференции (RCDL'2005). Ярославль, 4-6 октября 2005 г.

[Шварцман М.Е 2005] Шварцман М.Е. Как скачать и сохранить онлайновый журнал//Информационное обеспечение науки: новые технологии. Сборник научных трудов. Материалы 11-го семинара "Информационное обеспечение науки: новые технологии" (г. Таруса 22-27 августа 2005 года).

[Нудель С.А. 2004] Нудель С. А. К вопросу об архивировании электронных ресурсов [электронный документ] //EVA 2004 Москва.

i Надоели баннеры? Вы всегда можете отключить рекламу.