Educational Technology & Society 9(3) 2006 ISSN 1436-4522
Архивирование постоянно обновляющихся образовательных онлайн ресурсов для библиотек ВУЗа
М.Е. Шварцман отдел исследований компьютерных систем ФГУ Российская государственная библиотека Москва, Россия shvar@rsl.ru
АННОТАЦИЯ
В статье описано бесплатное распространяемое программное обеспечение для каталогизации ресурсов Интернет и автоматического скачивания описанных ресурсов.
In this article we describe software we are developing for catalog and harvesting online journals.
Ключевые слова
Интернет харвестинг скачивание онлайновые ресурсы.
Введение
В настоящее время не нужно никого убеждать в том, что онлайновые ресурсы часто содержат весьма ценную информацию, которую с успехом можно применить в образовательном процессе.
Это могут быть сайты, созданные группой учёных единомышленников, преподавателями университетов, размещающими материалы для студентов в Интернет, онлайновые версии журналов и многое другое. У всех этих материалов есть один большой недостаток - отсутствуют гарантии их постоянного размещения в Интернет. Может распасться научный коллектив, сменить работу преподаватель, разориться журнал,- в результате ценный ресурс исчезнет.
Методология и/или теоретическая часть
В Российской государственной библиотеке при поддержке РФФИ грант 04-07-90056-в с 2004 года идет работа по созданию инструмента способного сохранить необходимый библиотеке ресурс, путем его автоматического скачивания и предоставить возможность поиска по скачанным ресурсам.
В настоящее время работа близится к завершению, и нам удалось создать работоспособное и, что немаловажно, переносимое решение, которое, как нам кажется, может быть использовано в любой заинтересованной организации или любым исследователем для формирования своей собственной электронной библиотеки путем скачивания из Интернета необходимых ресурсов.
Мы поставили перед собой задачу сделать программное обеспечение достаточно универсальное, настраиваемое, несложное в установке, распространяемое бесплатно, с исходными кодами, с помощью которого можно создать архив ресурсов Интернет.
Что же в итоге у нас получилось.
Наша система состоит их трех модулей: каталог ресурсов, архив ресурсов, полнотекстовый поиск в архиве.
Все модули могут функционировать самостоятельно, могут быть установлены на отдельные компьютеры и взаимодействовать между собой по сети.
Каталог ресурсов - это база данных, реализованная на PostgreSQL (выбор СУБД во многом определялся требованием свободного распространения). Обращение к БД производится двумя путями. Для ввода библиографического
описания (БО) и редактирования его, а также для поиска по элементам БО разработан WEB интерфейс, позволяющий вести работу с любого компьютера в Интернет.
WEB интерфейс может быть использован для работы студентов, собирающих в Интерне материал по заданной преподавателем темы.
В соответствии с определенной администратором роли, вводящий может только вводить или и редактировать чужие записи. Такая роль может быть отведена, например, руководителю студенческого коллектива. В систему встроена проверка на дублирование, поэтому один и тот же ресурс не будет описан дважды. Форматом описания ресурсов выбран Dublin Core Metadata Element Set (DC MES). Это формат уже стал стандартом de facto в практике описания ресурсов Интернет. Использование этого формата поможет в случае обмена между архивами различных университетов. Стандарт с одной стороны достаточно подробен для описания ресурса, а с другой стороны достаточно прост для освоения не только опытными библиографами, но и обычными студентами.
Для проведения административных операций типа переиндексирования базы, ввода новых пользователей и экспорта-импорта записей была разработана специальная клиентская программа, работающая под Windows и выполняющая все эти функции. Кроме БО в базе данных содержится информация о параметрах для скачивания полных текстов статей в нашем случае или просто отдельных страниц сайтов в общем случае. Администратор задает время, через которое нужно проверить сайт на обновление и количество копий, которые нужно хранить. Модуль скачивания основан на свободно распространяемой программе WGET, работающей под всеми версиями UNIX или под Windows. Эта программа была доработана, и к ней был дописан отдельный модуль на РНР
Архитектура хранилища Каталог Архив Текстовый поиск
Рис.1. Архитектура хранилища.
В настоящий момент в файловой системе одновременно хранится три копии сайтов. В начальный момент работы программа скачивает полную версию сайта в соответствии с заданным И^ (если журнал распределен по двум или более серверам, то указываются несколько И^). Эта копия будет храниться в файловой системе для сравнения при последующем скачивании. Для полнотекстового поиска эта копия проходит обработку для удаления рекламных блоков и прочей непрофильной информации. Администратор задает список регулярных выражений, в соответствии с которыми удаляется ненужная информация. Через заданный для этого сайта интервал времени происходит повторное скачивание. При этом происходит сравнение скачиваемых страниц с копией, оставленной для сравнения. Если различия (в байтах) больше 0, но меньше 20%, от скачиваемого объема, то происходит обычная операция замены старой копии новой, результат прошлого скачивания становится второй копией. Если отличия больше чем 20%, то информация об этом доставляется администратору для принятия решения о допустимости замены копии. Возможны случаи, изменения содержимого сайта без изменения И^ малоценной информацией, и при этом необходимо избежать затирания содержимого сохраненного сайта.
На приведенном рисунке (рис. 2) показано как выглядит для пользователя наш архив. Кроме списка журналов приводятся даты закачки и объем скачанной информации.
Search for: I
• Powered by HmoGoSeaich • fret wtb at a cb
Search! | Extended eiigiut software
Please enter one or more words and press Search.
Letter.M СЬР^АБВГДЖЗИКЛМНОПРСТУФХ Ч Э Ю Я
Page: 12? 4 56 78 9 10 И 12 DU
1(1 название дата последней закачки объём
105 Компания: деловой еженедельник |L] 10.03.2006 09:45:53 1.118.283.133
100 Кодеке- ш1о 14 10.03.2006 04:58:31 1.104.410.320
260 Учительская газета И I 24.03.2006 14:33:59 1.103.566.681
Вестник Европы. Журнал европейской “ культуры 1LI 27.03.2006 00:35:28 1.098,970.885
269 Урал |Ь] 27.03.2006 13:44:18 1.098.921.486
193 Звезда П-1 19.03.2006 10:45:59 1.098,900.304
190 Октябрь [L] 18.03.2006 01:06:04 1.098.800.765
189 Дружба народов 14 17.03.2006 23:07:44 1.098.765.981
188 Иностранная литература [L1 17.03.2006 21:29:23 1.098.721.686
192 В опросы ли тературы Д-1 18.03.2006 05:21:30 1.098.697.081
187 Новая юность [L1 15.03.2006 20:00:19 1.098.631.211
Рис.2. Архив пользователя
Предлагаемое программное обеспечение было испытано в РГБ для создания архива онлайновых научных журналов.
Журналы шаблоны управление 1 2 3 4 5 6 7 8 9 10 И 12 13 14 15 16 17 18 19 20 21 21 28 29 30 31 32 33 34 35 36 37 38 39
.. ЧИСЛО ДЭТа м
id название -частота последней резуль
кипи и
закачки
^ Гуманитарные науки в Сибири [L] 2 30 30.12.2005 12:53:02 в проце<
2 Credo [L] 2 30 30.12.2005 12:53:08 в проце»
3 Русский журнал [L] 2 30 09.03.2006 13:56:03 +
4 Топос [L] 2 30 30.12.2005 12:53:12 в процеї
Web Journal of
Рис.3. Журналы, шаблоны, управление.
Опыт показал, что скачивание происходит корректно, многие ошибки в ИТМЬ разметке скачиваемых страниц отображаются правильно. Наличие шаблонов, несмотря на некоторые дополнительные трудозатраты по их созданию, уменьшает необходимое дисковое пространство и количество информационного шума при поиске Для контроля скачивания был разработан ЖБВ интерфейс, позволяющий задавать параметры скачивания и проводить мониторинг процесса.
Сейчас в нашем архиве около 800 журналов, общий объем архива составляет
300 гб.
При архивировании онлайновых ресурсов необходимо учитывать некоторые юридические аспекты. Во первых нужно помнить, что в Интернете у всего есть хозяин. На скачиваемые материалы, как правило, у кого то есть имущественные права. Если с неимущественными правами проще, главное не забывать указывать автора используемого материала, то с имущественными - сложнее. Если Вы хотите опубликовать скачанный материал в Интернет, то есть открыть к нему доступ всем желающим, то Вы должны заключить договор с правообладателем на использование его материала или с РОМС, который сам будет разбираться с автором и перечислять ему деньги за каждое скачивание. В РГБ разработаны типовые договора для организаций создающих ресурсы и для отдельных авторов.
Для полнотекстового поиска в скачанных массивах мы используем бесплатное программное обеспечение mnogosearch (http://www.mnogosearch.org/). увязанное в общий пользовательский web интерфейс.
Заключение
Описанное программное обеспечение по плану работ по гранту РФФИ 04-07-90056-в будет готово для распространения в конце 2006 года. Первый модуль -каталог уже готов и может быть выслан всем желающим, обратившимся к автору статьи.
Литература
[Шварцман М.Е 2005] Шварцман М.Е. Архив российских научных онлайновых журналов.//Электронные библиотеки: перспективные методы и технологии,
электронные коллекции. Труды Седьмой Всероссийской научной конференции (RCDL'2005). Ярославль, 4-6 октября 2005 г.
[Шварцман М.Е 2005] Шварцман М.Е. Как скачать и сохранить онлайновый журнал//Информационное обеспечение науки: новые технологии. Сборник научных трудов. Материалы 11-го семинара "Информационное обеспечение науки: новые технологии" (г. Таруса 22-27 августа 2005 года).
[Нудель С.А. 2004] Нудель С. А. К вопросу об архивировании электронных ресурсов [электронный документ] //EVA 2004 Москва.