Результаты прогонов программы на МВС-100К
Подытоживая, отметим, что в статье предложен метод выбора схемы параллельной программы на основе автоматического предсказания времени выполнения программных фрагментов. Данный метод реализован в системе автоматизированного распараллеливания Ratio, проведена оценка его эффективности.
Литература
1. Melnikov V., Shabanov B., Telegin P. and Chernjaev A. Automatic Parallelization of Programs for MIMD Computers.
Springer-Verlag, Tokyo, 1992.
2. Telegin P. and Eadline D. An Easier Way. Clusteworld, 2004, Vol. 2, November, pp. 42-45.
3. Telegin P. Scheduling Paralel Programs. Clusterworld, 2004, September, pp. 40-43.
4. Шабанов Б.М., Телегин П.Н., Телегина Е.В. Влияние архитектуры на модели программирования параллельных вычислительных систем // Изв. вузов: Электроника. 2011. № 2 (88). С. 60-65.
5. Суперкомпьютер МВС-100К. URL: http://www.jscc.ru/ hard/mvs100k.shtml (дата обращения: 24.08.2012).
References
1. Melnikov V., Shabanov B., Telegin P. and Chernjaev A., Automatic Parallelization of Programs for MIMD Computers, Springer-Verlag, Tokyo, 1992.
2. Telegin P. and Eadline D., An Easier Way. Clusteworld, 2004, Vol. 2, November, pp. 42-45.
3. Telegin P., Scheduling Paralel Programs, Clusterworld, September 2004, pp. 40-43.
4. Shabanov B.M., Telegin P.N., Telegina E.V., Izvestiya vuzov: Elektronika, 2011, Vol. 2 (88), pp. 60-65.
5. Supercomputer MVS-100K, Available at: http://www.jscc. ru/hard/mvs 100k.shtml (accessed 24 August 2012).
Количест- Предсказанное Реальное Ошибка пред-
во ядер ускорение ускорение сказания, %
16 14,89 14,79 0,65
32 30.87 29,37 5,08
64 56,73 47,73 18,86
128 88,64 65,26 35,82
256 94,27 91,926 2,55
512 101,04 102,27 -1,21
1024 59,7 69,486 -14,08
УДК 025:65.011
ПРИНЦИПЫ ПОСТРОЕНИЯ И ФОРМИРОВАНИЯ ЭЛЕКТРОННОЙ БИБЛИОТЕКИ «НАУЧНОЕ НАСЛЕДИЕ РОССИИ»
Н.Е. Калёнов, д.т.н., профессор, директор библиотеки по естественным наукам РАН; Г.И. Савин, академик РАН, д.ф.-м.н., профессор, директор МСЦ РАН; В.А. Серебряков, д.ф.-м.н., профессор, зав. отделом; А.Н. Сотников, д.ф.-м.н., профессор, зам. директора (Межведомственный суперкомпьютерный центр РАН, Ленинский просп., 32а, г. Москва, 119991, Россия, [email protected])
Рассматривается подход к формированию цифровых информационных ресурсов средствами электронных библиотек. Представлена реализация проекта по созданию электронной библиотеки «Научное наследие России». Определены ее место и роль среди аналогичных проектов российского и мирового цифрового научно-образовательного пространства. Сформулированы основные архитектурные принципы построения электронной библиотеки и формирования ее информационных фондов. Определены источники, структура и типы цифровых информационных объектов. Предложена концепция интеграции информационных объектов различной природы в единое информационное пространство. Обсуждаются возможности формирования межведомственной кооперации по созданию интегрированного информационного ресурса.
Ключевые слова: электронные библиотеки, цифровые информационные ресурсы, интеграция данных.
SCIENTIFIC HERITAGE OF RUSSIA DIGITAL LIBRARY: CONSTRUCTION AND SOURCES AGGREGATION PHILOSOPHY
Kalenov N.E., Ph.D., Professor, Director о/ the Library of Natural Sciences ofRAS;
Savin G.I., Academician of RAS, Ph.D., Professor, Director JSC of RAS;
Serebryakov V.A., Ph.D., Professor, Head of Department JSC of RAS;
Sotnikov AN., Ph.D., Professor, Deputy Director JSC of RAS (Joint Supercomputer Center of RAS, 32a, Leninsky Av., Moscow, 119991, Russia, [email protected]) Abstract. A construction philosophy for digital information resources by digital libraries tools is considered. Russian Scientific Heritage Digital Library Project is under consideration. Place and role of the Russian Scientific Heritage Digital Library among similar local and international projects where defined. Basic architecture statements and data aggregation tools for digital library construction were presented. Sources, types and structure of the digital objects were discussed. Data integration and federation concept as a main stone for the common education and scientific space is presented. Collaboration across national boundaries and information sources defined as imperative. Keywords: digital libraries, digital information resources, data integration.
Постоянно увеличивающийся поток информации требует новых подходов к ее сохранению, распределению и обработке. Информация, способы ее применения и обработки становятся важнейшими факторами, определяющими уровень развития общества. Одним из новых решений в этой области, получившим в последнее время широкое распространение, является организация электронных библиотек (ЭБ).
Программы развития ЭБ достаточно активно начали разрабатываться в 90-х годах прошлого века. В настоящий момент в мире реализуется большое количество международных и национальных проектов по созданию ЭБ. Активно ведутся работы по выработке, принятию и поддержке международных стандартов в области формирования электронных информационных фондов и процедур доступа к ним. Достаточно полный системный анализ развития и текущего состояния электронных информационных ресурсов дается в работе [1].
Значительный интерес представляет проект создания Всемирной библиотеки, участниками которого являются национальные библиотеки ряда стран Европы, а также США, Канады и Японии. В основе проекта лежат национальные программы оцифровки, на базе которых создается огромный распределенный информационный ресурс, который должен быть доступен конечным пользователям через глобальную электронную библиотечную систему.
Европейский союз финансирует проект создания Европейской электронной библиотеки (Euro-peana), в котором принимают участие национальные библиотеки и музеи 19 стран-членов ЕС. Отбор произведений для включения в нее осуществляется с учетом предложений каждого из участников проекта, тем самым удается избежать проблем «насильственного обезличивания культур».
В большинстве развитых стран реализуются корпоративные или финансируемые государственными организациями проекты по созданию ЭБ. Наибольшего успеха в оцифровке печатных изданий добились США благодаря программе Библиотеки Конгресса по построению Национальной электронной библиотеки. Серьезные программы по созданию ЭБ реализованы в Германии, Франции, Японии. В последние годы и в России стали обращать пристальное внимание на необходимость создания ЭБ для образования, обеспечения гражданам равных возможностей доступа к информации, сохранения культурных ценностей.
Одним из важнейших шагов, направленных на формирование российских ЭБ, стало создание Президентской библиотеки им. Б.Н. Ельцина, основной целью которой является доведение до широкого круга пользователей материалов, отражающих различные аспекты российской государственности. Эта цель достигается путем создания
общедоступных сетевых ресурсов в библиотеке (г. Санкт-Петербург) и в ее филиалах, находящихся во многих регионах страны.
Министерство культуры РФ приняло программу создания национальной ЭБ, участниками которой являются РГБ (г. Москва), РНБ (г. Санкт-Петербург), ГПНТБ России. В рамках программы оцифровываются диссертации, авторефераты, отдельные редкие издания. Серьезные ЭБ создаются в сфере образования как отдельными университетами, так и ведомственными информационными центрами.
Важным событием в развитии ЭБ явилось анонсирование в 2010 году проекта Национального библиотечного информационного ресурса России, одним из первых шагов которого является создание Единого электронного каталога для обеспечения доступа к электронным копиям произведений и урегулирование прав собственности на них. Учитывая важность формирования ЭБ, Российская академия наук приняла в 2006 году целевую научную программу «Создание ЭБ научного наследия России». Результатам работ по данной программе и посвящена настоящая статья.
Основная цель создания ЭБ «Научное наследие России» (ННР) - предоставление через Интернет всем желающим информации о выдающихся российских и зарубежных ученых, работавших на территории России, внесших вклад в развитие фундаментальных естественных и гуманитарных наук, с возможностью ознакомления с полными текстами опубликованных ими работ.
Исходя из этой цели, было решено включать в ЭБ не только электронные версии книг, но и развернутые сведения о российских ученых - биографические данные, основные этапы их научной деятельности, разнородную архивную и музейную информацию, отсканированные фотографии, аудио- и видеозаписи, относящиеся к теме научного наследия.
Вторая цель создания ЭБ - обеспечение сохранности оригиналов изданий, являющихся исторической ценностью, поскольку возможность работы с цифровыми копиями существенно снижает потребность в работе с печатными материалами, ведь каждая книговыдача на руки раритетных изданий сокращает срок их жизни.
Третьей целью создания ЭБ является включение сведений об ученых и основных результатах их научной деятельности в Единое научное информационное пространство (ЕНИП) РАН [2, 3]. Информационный ресурс ЭБ ННР представляет собой часть общего электронного информационного пространства, формируемого совместно с другими держателями информационных фондов (Президентская библиотека им. Б.Н. Ельцина, Российская государственная библиотека, Российская национальная библиотека, Государственная историческая библиотека и др.).
С подключением к проекту в 2010 году других государственных академий (РАО, РАМН, РАСХН, РАХ) ему был придан межотраслевой характер, что открывает новые возможности по согласованному формированию интегрированного информационного ресурса в области научного наследия на основе информационных фондов государственных академий. В рамках данной кооперации РАН отведена роль координатора проекта как в части наполнения библиотеки, так и в разработке основных технических и технологических решений.
На начальном этапе создания ЭБ ННР главными задачами были разработка основных принципов формирования ЭБ, технологии сканирования, обработки и предоставления пользователям материалов, включаемых в библиотеку, а также создание программного обеспечения, сопровождающего все этапы формирования ЭБ.
В основу технологии формирования ЭБ ННР положен принцип распределенного наполнения и централизованной поддержки. Руководство программой осуществляет Межведомственный суперкомпьютерный центр РАН, ведущий вместе с ВЦ РАН и БЕН РАН разработку технологии и программного обеспечения наполнения и поддержки ЭБ. Основными поставщиками информации для загрузки в ЭБ в настоящее время являются центральные академические библиотеки (БАН и БЕН РАН с их отделами в институтах и научных центрах РАН), ИНИОН РАН, Центральная научная библиотека УрО РАН, Центральный архив РАН с его санкт-петербургским филиалом, Геологический музей РАН им. В.И. Вернадского, Институт этнологии и антропологии РАН, Институт русской литературы РАН (Пушкинский дом), научные библиотеки государственных академий (РАО, РАМН, РАСХН, РАХ) и др.
Наполнение ЭБ в настоящее время осуществляется электронными копиями изданий и материалов, не подпадающих под действие закона о защите авторских прав. Охраняемые произведения могут размещаться в библиотеке при наличии лицензионного договора с правообладателем в соответствии с положениями 4-й главы ГК РФ.
Функциональность ЭБ
Под ЭБ в данном контексте понимается технологический комплекс, обеспечивающий формирование, поддержку и предоставление пользователям в сетевом режиме интересующей их информации. Представляемая в ЭБ информация включает две составляющие - метаданные, описывающие характеристики ресурсов, и собственно ресурсы. Под ресурсами понимаются полнотекстовые, аудио- и видеоматериалы, включаемые в ЭБ. Метаданные представляют собой совокупность формальных признаков, по которым осуществляется поиск ресурсов (например, для публикации - ав-
тор, заглавие, ключевые слова, год издания, тематика и т.п.). Чтобы различные ЭБ были совместимы между собой с точки зрения поисковых возможностей, разрабатываются отраслевые и международные стандарты, определяющие состав и форму представления метаданных. Наиболее распространенными в настоящее время международными стандартами в области ЭБ являются два основных предложения по архитектуре ЭБ -DELOS DLRM и OAIS.
ЭБ представляет собой довольно сложную систему управления и включает следующие блоки.
1. Блок управления ресурсами, поддерживающий технологии
- отбора материалов для включения в ЭБ;
- создания нового ресурса;
- создания метаданных, описывающих ресурс;
- загрузки в ЭБ ресурсов и метаданных, их корректировку и удаление.
2. Блок управления участниками, поддерживающий
- ввод и сохранение персональных данных о пользователях (участниках формирования ЭБ и читателях);
- регистрацию пользователей с различными правами доступа к ЭБ;
- корректировку, удаление данных о пользователях.
3. Блок управления лингвистическими средствами (поддержка словарей, систем классификации, тезаурусов и т.п.).
4. Блок доступа к ЭБ, обеспечивающий
- поддержку пользовательского интерфейса формирования запроса;
- обработку запроса;
- выдачу информации;
- поддержку пользовательского интерфейса работы с найденной информацией.
5. Блок системного администрирования, обеспечивающий
- установку, конфигурирование, поддержку аппаратно-программных средств для обеспечения формирования и функционирования ЭБ;
- архивирование информации и восстановление ЭБ после сбоев;
- мониторинг ЭБ (анализ востребованности ее составляющих).
6. Блок управления ЭБ, решающий административные вопросы текущего функционирования и определяющий основные направления развития ЭБ.
Структура информации
Метаданные электронной библиотеки. С точки зрения потребностей научных сотрудников существенным недостатком многих схем метаданных ЭБ является то, что они работают лишь с так
называемыми документоподобными объектами (ДПО), определяют метаданные, описывающие только такие ресурсы, не выделяют другие виды важных объектов, например персоналии, организации, конференции и т.п. В итоге, например, встретив упоминание персоны в одном месте, невозможно точно установить соответствие с ее упоминанием в другом месте. Даже идентифицировав каким-то образом персону, зачастую невозможно получить документы, связанные только с ней. Это обусловлено тем, что метаданные рассматриваются как нечто, связанное только с документом, как качественные данные для полнотекстовой индексации значений атрибутов. Они не выделяют типы ресурсов, используют средства идентификации ресурсов только для извлечения документов.
В связи с этим в профиле метаданных ЕНИП для ЭБ активно используются такие ресурсы, как Организации, Персоны, Мероприятия и т.д. Тем не менее центральным остается библиографическое описание публикации, отвечающее за представление метаданных об официально зарегистрированных печатных изданиях.
В целях обеспечения поддержки различных уровней детализации информации о публикациях, необходимых различным приложениям, библиографическая информация структурирована в соответствии с библиографическими уровнями для каждой публикации. Например, для описания ряда статей в журнале необходимо описать сам журнал как издание сводного уровня, затем интересующие выпуски этого журнала как издания монографического уровня и, наконец, сами статьи как издания аналитического уровня. И статья, и выпуск, и журнал как таковой являются полноценными структурированными ресурсами, описываемыми лишь единожды и связываемыми с помощью ЦШ-ссылок.
Такой структурированный подход требует некоторого усилия со стороны систем с планарным описанием публикаций. Однако структуризация информации обо всех библиографических уровнях необходима и крайне важна при построении ЭБ. Она позволяет избежать дублирования информации, минимизировать количество опечаток в метаданных, представить пользователю информацию в целостном и непротиворечивом виде.
Музейные предметы и медиаобъекты. Сближение задач ЭБ, архивов и музеев в представлении научного наследия выдвигает требование стандартизации метаданных физических музейных предметов и мультимедийных (фото-, видео-, аудио-) ресурсов. В связи с этим в ЭБ ННР разработан дополнительный прикладной профиль поддержки музейной деятельности, в котором для новой сущности Музейный предмет определены такие свойства и связи, как Состояние (сохранность), Год сбора, Дата поступления, Принадлеж-
ность коллекции и др. (такие свойства, как Название, Описание, Ключевые слова, Источник и т.д., наследуются от класса, общего для музейных предметов и публикаций). Соответствующие дополнения и изменения внесены в представления участвующих ресурсов основного профиля, такие как Персоны, Результат деятельности, Коллекции.
В отличие от публикаций описания объектов в различных музеях могут иметь свои особенности, и здесь невозможно обеспечить всеобъемлющий набор необходимых свойств. В связи с этим для данных объектов реализуется возможность определения дополнительных свойств. Соответственно, в интерфейсе администратора системы предоставляется возможность определять дополнительные свойства предмета, при этом в интерфейсах ввода и вывода данных создаются представления соответствующих полей. Введенные значения дополнительных полей выдаются в полных сведениях о предмете, но поиск по ним не делается. Таким образом, администратор может добавить такие свойства, как Количество предметов, Автор описания, Автор сбора, География, Размеры, Возраст, Способ поступления, Препараты и т.п.
Музейные предметы намного чаще публикаций объединяются в коллекции. В связи с этим предлагается поддержка вложенных объектов типа Коллекция с атрибутами (метаданными): Идентификатор, Название, Тип коллекции, Ключевые слова, Описание, Администратор, Количество элементов в коллекции, Место хранения, Примечание, Элементы коллекции. Операции над коллекциями выполняются через формы системы: ввод и модификация сведений о коллекции, поиск и выдача сведений о коллекции, выдача списка объектов коллекции, включение и исключение объектов коллекции, удаление коллекций, указание коллекции при вводе сведений об объекте через промежуточную БД.
Для обеспечения цифровых представлений ресурсов и абстрагирования от конкретных методов хранения данных в ЭБ ННР разработан дополнительный прикладной профиль расширенной поддержки хранения данных, в который вводится ряд новых сущностей. Основные из них - класс Ме-диаобъект, предназначенный для описания медиа-объекта как единого целого, состоящего из частей данных с различной функциональной нагрузкой, и класс Часть медиаобъекта, позволяющий в пределах одного целого медиаобъекта, например музейного предмета, иметь несколько частей с различной функциональной нагрузкой, такие как фотографии с разных сторон, видеоролик, сопроводительные информационные документы и т.п.
Общая архитектура системы
ЭБ ННР представляет собой техническое решение и методологию для обеспечения эффектив-
ного процесса предоставления в сети Интернет электронных изданий трудов ученых, а также связанной с ними разнородной информации. Система изначально ориентирована на распределенную архитектуру, в которой источники данных (хранилища электронных книг и метаданных) могут быть распределены территориально.
На рисунке 1 приведена общая архитектура распределенной системы ЭБ.
Основные архитектурные составляющие системы представлены серверами, обеспечивающими хранение оцифрованных данных, центральным Web-порталом ЭБ ННР, центрами оцифровки данных.
ЭБ строится как распределенная информационная система с выделенным центральным узлом. Узлы системы, с одной стороны, являются точками входа в ЭБ организаций-участников проекта, с другой - поставщиками информации для всей распределенной системы. Следовательно, ключевой принцип архитектуры - независимое развитие ЭБ организаций-участников с одновременной интеграций данных в единое информационное пространство. Это достигается стандартизацией предоставления метаданных, форматов предоставления данных, интерфейсов поиска и словарей. Таким образом, каждая из цифровых библиотек организаций-участников может хранить данные в собственных форматах и предоставлять собственные сервисы, но в то же время должна обеспечивать единые для всех интерфейсы, упомянутые выше.
Центральный узел системы должен обеспечить навигацию, поиск и предоставление данных по всем цифровым библиотекам в соответствии с унифицированными форматами и сервисами.
Серверы хранения оцифрованных данных обеспечивают надежное хранение и резервирование оцифрованных данных библиотеки, а также подмножества метаданных, отражающих структуру информации (например оглавления книг). Кро-
ме того, они предоставляют доступ конечным пользователям к данным, перенаправленным с центрального портала ЭБ. Серверами хранения данных для центров оцифровки предоставляются также средства автоматизации размещения и поддержания актуальности данных.
Центральный Web-портал ЭБ ННР осуществляет консолидацию метаданных, полученных из центров оцифровки, в рамках централизованного хранилища, обеспечивая таким образом централизованный доступ к ним пользователей. Взаимодействуя с серверами хранения оцифрованных данных, он является также единой точкой доступа к электронным версиям научных трудов. Второй задачей, решаемой центральным порталом, является обеспечение интеграции библиотеки в ЕНИП РАН путем предоставления на центральный сервер ЕНИП метаданных, по которым возможен распределенный поиск.
На рисунке 2 представлена структура распределенной библиотеки с выделением базовых компонент.
Центр оцифровки
Рис. 1
Рис. 2
Процесс подготовки информации разбивается на следующие этапы (при этом некоторые из них могут идти параллельно) (рис. 3).
1. Оформление библиотекой заявки на оцифровку электронной книги с использованием интерфейсов, предоставляемых центральным диспетчерским сервером (БЕН РАН). Данный сервер координирует работу по оцифровке и подготовке метаданных.
2. Подготовка и размещение библиотекой метаданных по ученым и научным трудам на сервере метаданных (БЕН РАН).
3. Оцифровка электронных книг на технических средствах библиотеки.
4. Загрузка оцифрованных книг на сервер подготовки книг к публикации (МСЦ РАН) с установленным на нем программным обеспечением МИАН РАН, создание оглавлений книг с помощью клиентского приложения.
5. Возможная предварительная чистка оцифрованных изданий.
6. Размещение подготовленных оцифрованных книг с оглавлениями на сервере центрального портала ЭБ (МСЦ РАН).
7. Автоматизированная загрузка метаданных с сервера метаданных (БЕН РАН) в центральный портал (МСЦ РАН).
8. Индексация данных центрального портала ЭБ на центральном узле ЕНИП.
Организация работы
Управление работами по созданию ЭБ осуществляет совет, в который входят представители организаций-основных участников программы. Совет определяет критерии отбора материалов для включения в ЭБ, решает принципиальные вопросы построения системы и организации ее функционирования. Наряду с советом имеются административная и редакторская группы, а также группа технического сопровождения ЭБ.
Технологически работа системы строится следующим образом. Каждый участник отбирает издания, соответствующие согласованным критериям (время издания, тематика, авторы), подлежащие, с его точки зрения, сканированию, и предлагает их административной группе, которая может утвердить (зарегистрировать) или отклонить пред-
Рис. 3
ложение. Зарегистрированные издания сканирует предложивший их участник, дополняет оцифрованный (без распознавания текста) материал необходимыми библиографическими данными, вводя их в базу данных, поддерживаемую на специальном диспетчерском сервере; формирует в текстовом виде оглавление, связывает его при помощи специальных программных средств с оцифрованными страницами и передает электронное издание в редакторскую группу. Редакторская группа проверяет качество подготовленного материала и, используя специальные программные средства, загружает на сервер ЭБ отсканированное издание и его оглавление, а также перегружает с диспетчерского сервера соответствующее библиографическое описание и данные об авторе.
В системе предусмотрена достаточно четкая диспетчеризация этапов работы с изданиями. Вся метаинформация, циркулирующая в системе, вводится в базу данных, поддерживаемую на диспетчерском сервере БЕН РАН. Каждый авторизованный пользователь, подключенный к диспетчерской системе, имеет свои права на выполнение тех или иных операций, устанавливаемые администратором. Все участники системы имеют право
на поиск и просмотр всей информации, введенной в систему; участник, обеспечивающий ввод информации, имеет право редактировать только введенные им же данные; члены административной группы - редактировать только ряд служебных полей; члены редакторской группы обладают полными правами на работу со всей информацией.
В процессе прохождения технологического цикла в диспетчерской системе фиксируется текущее состояние работы с каждым вводимым изданием (выделены следующие этапы: «предложено к сканированию», «зарегистрировано», «в работе», «отсканировано», «сдано»), что позволяет контролировать ход ее выполнения.
Диспетчерская система дает возможность получать различного рода справки об информации, подготавливаемой ЭБ (как по ученым, так и по публикациям), справки о текущем состоянии процессов обработки конкретного издания, количественные данные о работе, выполненной тем или иным участником, и т.п.
Каждое издание, отраженное в ЭБ, перед сканированием индексируется с помощью рубрикатора ГРНТИ.
Сервер (http://e-heritage.ru). обеспечивающий функционирование ЭБ, поддерживается в МСЦ РАН. Прикладные программные средства для загрузки, поиска и просмотра данных на демонстрационном сервере разработаны специалистами ВЦ РАН и библиотеки (отдела БЕН РАН) Математического института им. В.А. Стеклова. Система позволяет искать информацию об ученых и их публикациях по ряду элементов данных, в том числе по индексам подключенного к системе ГРНТИ, просматривать найденную информацию, в том числе читать полные тексты книг, включенных в ЭБ, с возможностью перехода от оглавления книги на нужный раздел, а затем на выбранную страницу раздела. Интерфейс системы позволяет увеличивать/уменьшать изображение, поворачивать его на 90 градусов, выгружать всю книгу или ее отдельные главы в формате pdf.
В настоящее время для загрузки в ЭБ подготовлена разнородная информация о более чем 1 000 российских ученых преимущественно 18-19 веков и оцифровано более 9 000 их книг.
Технология подготовки информации. Руководствуясь согласованным списком ученых, каждая организация-участник создания ЭБ определяет издания из своих фондов, которые она считает целесообразным включить в ЭБ. Зарегистрированный представитель этой организации входит в систему диспетчеризации и проверяет, не зарегистрирована ли уже в ней данная публикация. Если публикация отсутствует в системе, он ее вводит, выбирая из предлагаемого списка значений поля «Текущий статус», «Предложено к оцифровке». Если публикация уже введена в систему, она пропускается и обрабатывается следующая.
Администратор ЭБ (сотрудник МСЦ РАН) периодически входит в систему диспетчеризации, отбирает все документы со статусом «Предложено к оцифровке» и по каждой из них принимает решение о целесообразности ввода в ЭБ. Если документ подлежит оцифровке, в поле «Рабочий номер» вводится номер данного документа, под которым он будет введен в ЭБ, и значение поля «Текущий статус» меняется на «Зарегистрировано». Если по какой-либо причине документ оцифровывать нецелесообразно, значение поля «Текущий статус» меняется на «Оцифровке не подлежит».
Представитель организации, предложившей издания для включения в ЭБ, входит в систему диспетчеризации и выбирает свои записи, имеющие текущий статус «Зарегистрировано». После подбора изданий и отправки на оцифровку их текущий статус меняется - в это поле вводится значение «В работе». После завершения процесса оцифровки статус записей меняется на «Оцифровано», после передачи в МСЦ - на «Сдано».
Таким образом, в каждый момент времени административная группа ЭБ может получить све-
дения, сколько и каких изданий находится в работе, сколько и кем оцифровано и т.п.
Загрузка данных о научном наследии в ЕНИП РАН осуществляется в специальном формате, базирующемся на XML и RDFS. Выходные данные в этом формате автоматически формируются в рамках системы диспетчеризации с помощью опции «Экспорт в формате ВЦ РАН» для отмеченных записей и отправляются по электронной почте в ВЦ РАН.
Оцифровка изданий для ЭБ осуществляется с разрешением 600 dpi в формате tiff. После собственно сканирования операторы осуществляют дополнительное форматирование и очистку изображения. Каждое отсканированное и обработанное издание проходит дополнительную стадию редактирования - проверку наличия и качества всех страниц.
При обсуждении формы представления и хранения оцифрованных изданий было решено отказаться от распознавания отсканированного текста и держать отдельные страницы в виде файлов изображений. Это обусловлено значительной трудоемкостью процесса преобразования отсканированной информации в текстовую, особенно с учетом специфики создаваемой ЭБ - многоязыч-ности, наличия в тексте различных формул и пометок на полях, которые в ряде случаев сами по себе представляют историческую ценность.
Для обеспечения навигационного сервиса, достаточного для решения задач, стоящих перед ЭБ на данном этапе, было решено обрабатывать оглавления изданий и предоставлять пользователю возможность автоматического перехода на страницы выбранного раздела. Это потребовало не только работы с оглавлениями (распознавание текста, а в ряде случаев ручной ввод), но и специальной обработки всего массива отсканированных страниц, целью которой является установление взаимно-однозначного соответствия между номерами страниц издания и порядковыми номерами их цифровых копий (во многих случаях порядковые номера файлов отсканированных страниц не совпадают с нумерацией, принятой в книге).
Подготовка ресурсов к публикации в ЭБ. В большинстве случаев, когда ЭБ не предназначена для размещения так называемых «изначально цифровых» (born-digital) ресурсов, подготовка ресурсов к публикации является достаточно сложным и трудоемким процессом, вовлекающим многих участников. За простотой пользовательского интерфейса скрывается целая подсистема подготовки ресурсов, включающая в себя следующие компоненты.
• Службы оцифровки - службы, создаваемые при библиотеках, музеях и других поставщиках данных, там, где возможен непосредственный доступ к оцифровываемым материалам.
• Служба контроля качества оцифровки -единая служба контроля качества оцифровываемых данных, в которой задействованы специалисты по оцифровываемым предметам. Несмотря на то, что первичный контроль качества выполняется при самой оцифровке, зачастую происходит утеря какой-либо части оцифровываемых данных либо с точки зрения специалиста по оцифровываемым данным оцифровка выполнена в неполном объеме.
• Служба подготовки метаданных - иногда может быть объединена со службой оцифровки, однако следует учесть, что ввод метаданных должен осуществлять специалист не по оцифровке, а в предметной области.
• Служба окончательной подготовки ресурсов и контроля качества - выполняет объединение данных и метаданных, следит за обновлением данных и метаданных и осуществляет общий контроль качества подготавливаемых ресурсов.
Перечисленные службы должны обладать своими информационными системами, обеспечивающими выполнение их задач и предоставляющими друг другу данные, необходимые для работы. В результате работы подсистемы подготовки ресурсов получаются готовые к публикации в ЭБ ресурсы, которые по каналам связи автоматически представляются к публикации.
Данные, формируемые участниками проекта, в настоящее время направляются в два адреса - в МСЦ для помещения в хранилище ЭБ и в ВЦ РАН для загрузки в демонстрационную систему. Информация об ученых и списки их публикаций, подготовленные участниками проекта и введенные в технологическую систему, выгружаются из нее по запросу в формате МСЦ (таблица EXCEL) и в формате ЕНИП (XML/RDF). При этом возможны два варианта технологии: выгрузку осуществляет редакторская группа (представители МСЦ РАН и ВЦ РАН), сохраняя экспортные файлы на своих компьютерах, или экспортные файлы формируют создатели и отправляют адресатам по электронной почте или загружают на ftp-сервер, откуда их забирает редакторская группа. В настоящее время в системе реализован второй вариант, который оказался предпочтительнее с точки зрения контроля за отправкой материалов (исполнители сами заботятся о передаче информации и изменяют статус отправленных записей).
Отсканированные страницы (tiff-файлы, содержащие в имени рабочий номер документа и порядковый номер страницы, а также размеченные файлы оглавлений изданий) загружаются на ftp-серверы исполнителей и забираются оттуда по паролю представителями МСЦ РАН и ВЦ РАН.
В настоящее время разработана версия ЭБ, доступная по адресу http://e-heritage.ru.
Администрирование ЭБ. Основные принципы, заложенные в технологию администрирования ЭБ, были изложены выше по ходу рассмотрения
различных технологических аспектов наполнения и поддержки библиотеки. Серьезный вопрос, требующий решения, связан с принципами отбора информации и определения очередности ее ввода в ЭБ. На начальном этапе создания ЭБ, когда основной задачей являлась отработка технологических решений, выбор круга персоналий и работ был в значительной мере волюнтаристским. В дальнейшем должны быть отработаны методика и критерии для отбора данных, подлежащих загрузке в ЭБ. Это могут быть либо экспертные оценки, полученные от специально выделенных экспертов по каждому научному направлению, либо результаты массового анкетирования ученых, либо данные, основанные на обработке общепризнанных энциклопедий. Вопросом является и степень полноты отражения работ ученых в ЭБ. Здесь также возможны альтернативные варианты - вводить все изданные работы данного ученого, вводить только монографии, вводить наиболее значимые (по мнению экспертов) работы и т.п.
Структура центра оцифровки. Центры оцифровки обычно являются структурными подразделениями хранилищ оригиналов и занимаются их оцифровкой и вводом метаданных. Оцифрованная информация из центров оцифровки передается в хранилища информации, а метаданные поступают на центральный портал.
Один из реализованных центров оцифровки построен на основе специализированного программного обеспечения SCIRUS (http://stirus.ben-ran.ru/scirus), созданного разработчиками БЕН РАН в рамках продолжения проекта «Наука России» при поддержке РФФИ.
Основными компонентами центра оцифровки являются (рис. 4) рабочие станции оцифровки с соответствующим оцифровывающим оборудованием, сервер метаданных, диспетчерский сервер, рабочая станция выпускающего редактора.
Рабочие станции оцифровки
Центральный портал Хранилище
ЭБ оцифрованной
информации
Рис. 4
Рабочие станции оцифровки предназначены непосредственно для перевода оригиналов в цифровую форму и первичной обработки оцифрованных образов, для чего они оборудуются соответствующим программным обеспечением и периферийными устройствами. Такие устройства также могут быть в общем пользовании и подключаться напрямую к ЛВС центра оцифровки. В процессе оцифровки выполняется и ввод метаданных.
Диспетчерский сервер поддерживается с целью временного хранения подготовленных оцифрованных образов и исключения дублирования работ при оцифровке, а также контроля состояния выполнения оцифровки. Кроме того, в его задачи входит предоставление по запросу справок об этапах обработки конкретного издания. После передачи оцифрованных образов в центральное хранилище они могут быть удалены с диспетчерского сервера в целях экономии дискового пространства.
Сервер метаданных обеспечивает их ввод и хранение. В его задачи входят своевременное оповещение центрального портала электронной библиотеки об изменении метаданных и выдача метаданных в определенном формате центральному порталу по его запросу.
Выпускающий редактор отвечает за соблюдение технологического процесса оцифровки оригиналов и ввода метаданных. В его задачи входит проверка правильности выполнения оцифровки и качества ввода метаданных. Также он помечает оцифрованные материалы как проверенные и готовые к загрузке на центральный портал электронной библиотеки, после чего они становятся доступными.
Основные возможности пользовательского интерфейса
Материалы ЭБ ННР, прошедшие редакторский контроль, размещаются на общедоступном сайте (http://e-heritage.ru). Для его пользователей доступны следующие элементы навигационного меню: О библиотеке, Последние поступления, Новости, Атрибутный поиск (в частности, тематический, научных трудов, ученых, музейных экспонатов и др.).
Администраторам системы доступны также элементы для управления новостями, структурой портала, ручного ввода информации о публикациях и ученых и разнообразные сервисные функции.
На странице последних поступлений отображаются десять последних размещенных на портале публикаций. С этой страницы можно перейти к просмотру информации об авторе и просмотру информации о публикации.
Поиск ученых возможен по фамилии, имени, отчеству (или их фрагментам), году, месту рождения, направлению деятельности (основные облас-
ти науки, такие как химия, физика и т.д.) (рис. 2).
В каждом поле может использоваться символ усечения *, заменяющий любое количество любых символов. В поле Год рождения символ * может быть только в конце и заменяет последние цифры года, например, 18* означает 1800-1899 годы.
В результате выполнения поиска по заданным критериям отображается страница результатов. Выбор ученого в списке приводит к переходу на страницу общих сведений об ученом.
В электронной карточке ученого отображается информация об ученом, разбитая по следующим разделам: общие сведения, направления деятельности, биографическая справка, архивная информация, музейная информация, публикации, ссылка на внешние электронные информационные ресурсы. Из раздела публикаций можно осуществить переход к библиографическим данным публикации и просмотру ее полного текста.
Поиск публикаций возможен по следующим критериям.
• Название - название публикации или сборника, в котором она опубликована.
• Тип публикации. Выбор типа осуществляется из списка (диссертация, доклад на конференции, монография т.д.).
• Год издания. Если годы по старому и новому стилю отличаются, следует использовать новый стиль.
• Автор - фамилия автора публикации в именительном падеже, единственном числе.
• Язык. Язык публикации выбирается из списка языков.
В любом текстовом поле может использоваться символ подстановки *, заменяющий любое количество любых символов. В поле Год издания * может быть только в конце и заменяет последние цифры года, например, 18* означает 1800-1899 годы.
В результате выполнения поиска по заданным критериям отображается страница результатов. Из списка возможен переход к просмотру библиографических данных публикации и ее полного текста.
На странице электронная карточка публикации отображаются библиографические сведения о публикации. Нажатием на фамилию автора можно осуществить переход на страницу автора. Внизу страницы отображается ссылка на полный текст публикации.
В левой части страницы просмотра полного текста публикации отображается ее оглавление, в правой - образ просматриваемой в данный момент страницы. В верхней части есть панель инструментов, при помощи которой имеется возможность поворачивать страницы, переходить к странице по ее номеру, распечатывать страницы. При работе с полным текстом публикации реализована
навигация по элементам оглавления - нажатие на ту или иную его часть приводит к переходу на соответствующую страницу.
Таким образом, в процессе создания ЭБ ННР разработан программно-аппаратный комплекс портала ЭБ и служб подготовки ее ресурсов. При реализации программных средств учтен мировой опыт создания ЭБ, использованы и реализованы ведущие мировые стандарты, такие как CIDOC CRM, OAIS, FRBR, Dublin Core и другие. Программное обеспечение построено с использованием открытых технологий.
В настоящее время существуют участки сканирования в библиотеках ИНИОН, БЕН, БАН и других. На базе БЕН развернут сервер подготовки электронных публикаций, обеспечивающий средствами автоматизации службы подготовки метаданных и контроля качества.
В рамках работ по созданию портала ЭБ ННР разработаны дополнительные профили метаданных ЕНИП, обеспечивающие взаимодействие портала ЭБ с другими библиотеками и компонентами ЕНИП, а также служащие схемами обмена данными внутри ЭБ ННР. Созданы средства поддержки ввода музейных объектов и их связи с другими ресурсами, хранимыми в ЭБ.
В настоящее время продолжаются работы как по развитию технической составляющей проекта (поддержка новых способов ввода данных и метаданных, улучшение интерфейса пользователя), так и по наполнению ЭБ ресурсами. По состоянию на октябрь 2012 года ЭБ содержит более 12 000 электронных публикаций (969 Гб) и более 3 000 записей об ученых.
Ресурсы ЭБ ННР ориентированы прежде всего на ученых и специалистов научных и культурно-просветительских учреждений Российской Федерации, преподавателей, аспирантов и студентов вузов. Однако, как показала практика, к ЭБ обращаются многие зарубежные специалисты в области истории науки, а также представители средств массовой информации, административных учреждений и отдельные лица, интересующиеся проблемами развития науки.
В будущем планируется улучшить поддержку музейных данных, расширить возможности подсистемы мультимедийных представлений в части предоставления пользователям доступа к мультимедийному содержимому библиотеки.
Литература
1. Антопольский А.Б. Зарубежные и российские ресурсы в сфере научного наследия и основные принципы создания электронной библиотеки «Научное наследие России» // Новые технологии в информационном обеспечении науки: сб. науч. тр. М.: Научный мир, 2007. С. 21-39.
2. Бездушный А.Н., Бездушный А.А., Серебряков В.А., Филиппов В.И. Интеграция метаданных Единого Научного Информационного Пространства РАН. М.: ВЦ РАН, 2006.
3. Бездушный А.Н., Бездушный А.А., Нестеренко А.К., Серебряков В.А., Сысоев Т.М., Теймуразов К.Б., Филиппов В.И. Информационная Web-система «Научный институт на платформе ЕНИП». М.: ВЦ РАН, 2007.
4. Бездушный А.А., Бездушный А.Н., Жижченко А.Б., Каленов Н.Е., Кулагин М.В., Серебряков В.А. Предложения по наборам метаданных для научных информационных ресурсов ЕНИП РАН // Электронные библиотеки: перспективные методы и технологии, электронные коллекции (RCDL'2004): сб. докл. 6-й Всерос. конф. Пущино, 2004. С. 277-284.
5. Каленов Н.Е., Савин Г.И., Сотников А.Н. Электронная библиотека «Научное наследие России»: технология наполнения // Новые технологии в информационном обеспечении науки: сб. науч. тр. М.: Научный мир, 2007. С. 40-48.
6. Каленов Н.Е., Савин Г.И., Сотников А.Н. Технология создания электронной библиотеки «Научное наследие России» // Научная книга на постсоветском пространстве: матер. II Ме-ждунар. конф. (19-21 сентября 2007 г., Москва). М.: Наука, 2007. С. 11-16.
7. Сенько А.М. Информационная система SciRus: принципы построения и перспективы развития // Научный сервис в сети ИНТЕРНЕТ: технологии параллельного программирования: Всерос. науч. конф. (18-23 сентября, 2006 г., Новороссийск). М., 2006. С. 58-59.
8. Якшин М.М. WEB-интерфейс системы «Наука России» // Современные технологии в информационном обеспечении науки: сб. науч. тр. М., 2003. С. 47-52.
9. Васильев А.В., Власова С.А., Глушановский А.В., Ка-ленов Н.Е. Система «Наука России» и ее использование в информационно-библиотечной технологии // Информационное обеспечение науки: новые технологии: сб. науч. тр. М.: БЕН РАН, 1997. С. 86-88.
References
1. Antopolsky A.B., Sbornik nauchnykh trudov «Novye tekhnologii v inform. obespechenii nauki» [Proc. «New Technologies in the Information Support of Science»], Moscow, Nauchny mir, 2007, pp. 21-39.
2. Bezdushny A.N., Bezdushny A.A., Serebryakov V.A., Filippov V.I., Integratsiya metadannykh Edinogo Nauchnogo Infor-matsionnogo Prostranstva RAN [The integration of metadata Common Scientific Informational Space of the RAS], Moscow, Comp. Center of RAS, 2006.
3. Bezdushny A.N., Bezdushny A.A., Nesterenko A.K., Serebryakov V.A., Sysoev T.M., Teimurazow K.B., Filippov V.I., Informatsionnaya Web-sistema ««Nauchny institut na platforme ENIP» [Web-based information system «Science Institute on the platform ofthe USIS»], Moscow, Comp. Center of RAS, 2007.
4. Bezdushny A.A., Bezdushny A.N., Zhizhchenko A.B., Kalenov N.E., Kulagin M.V., Serebryakov V.A., Sbornik dokladov 6 Vseross. Konf. «RSDL'2004» [Proc. 6-th All-Russian Conf. «RSDL'2004»], Pushchino, 2004, pp. 277-284.
5. Kalenov N.E., Savin G.I., Sotnikov A.N., Sbornik nauchnykh trudov ««Novye tekhnologii v inform. obespechenii nauki» [Coll. of Proc. «New Technologies in the Information Support of Science»], Moscow, Nauchny mir, 2007, pp. 40-48.
6. Kalenov N.E., Savin G.I., Sotnikov A.N., Materialy 2 Mezhdunar. Konf. «Nauchnaya kniga na postsovetskom prostrans-tve» [Proc. 2-nd Intern. Conf.«Scientific book in post-Soviet space»], Moscow, Nauka, 2007, pp. 11-16.
7. Senko A.M., Vseross. konf. ««Nauchny servis v seti INTERNET: technologii parallelnogo programmirovaniya» [Proc. All-Russian Conf. «Scientific Service in Network INTERNET: Technologies of Parallel Programming»], Moscow, 2006, pp. 58-59.
8. Yakshin M.M., Sbornik nauchnykh trudov «Sovremennye tekhnologii v inform. obespechenii nauki» [Proc. «Modern Technologies in the Information Support of Science»], Moscow, 2003, pp. 47-52.
9. Vasilev A.V., Vlasova S.A, Glushanovsky A.V., Kalenov N.E., Sbornik nauchnykh trudov «Inform. obespechenie nauki: novye tekhnologii» [Proc. «Information Support of Science: New Technologies»], Moscow, 1997, pp. 86-88.