Е. Б. Кудашев, В. А. Серебряков, А. М. Федотов
Новосибирский государственный университет ул. Пирогова, 2, Новосибирск, 630090, Россия
E-mail: [email protected]
ТРЕТИЙ ВСЕРОССИЙСКИЙ СИМПОЗИУМ «ИНФРАСТРУКТУРА НАУЧНЫХ ИНФОРМАЦИОННЫХ РЕСУРСОВ И СИСТЕМ»
Симпозиум проводится по Плану конференций РАН по отделению математических наук РАН. В 2013 г. в Абхазии, г. Сухум, при поддержке Академии наук Абхазии с 5 по 9 октября состоялся Третий Всероссийский симпозиум «Инфраструктура научных информационных ресурсов и систем». Первый и Второй Всероссийские симпозиумы «Инфраструктура научных информационных ресурсов и систем» показали, что в учреждениях РАН и ведущих университетах России накоплен большой опыт использования геоинформационных технологий, реализованы многочисленные геоинформационные проекты, созданы распределенные информационные системы научных ресурсов.
В связи с формированием e-Science Infrastructures, основанных на современных ICT-технологиях, на симпозиуме традиционно обсуждаются исследования e-Infrastructures с целью формирования распределенных научных информационных ресурсов, развития взаимосвязанных каталогов и создания сети интегрированных интероперабельных баз данных. Развитие e-Science Infrastructures должно стать базой формирующихся систем коллективной работы исследователей на основе виртуального объединения информационных и вычислительных ресурсов.
Одним из основных результатов созидательной, социальной и интеллектуальной человеческой деятельности является создание и накопление информационных ресурсов с целью их дальнейшего использования и недопущения утраты опыта предыдущих поколений. Не будет преувеличением сказать, что уровень развития технологий накопления информации и эффективности использования накопленной ранее информации на протяжении всей истории человечества значительно влиял на уровень развития производительных сил. Утеря информации приводила к отбрасыванию цивилизации на века назад. Однако, чтобы эффективно пользоваться накопленной ранее информацией, необходима разработка специальных технологий, при помощи которых может быть реализована работа с информацией.
На симпозиуме были представлены доклады из различных регионов России - это Тихоокеанский институт географии ДВО РАН, Вычислительный центр им. А. А. Дородницина РАН, Институт космических исследований РАН, Объединенный институт высоких температур РАН, Институт вычислительных технологий СО РАН, Государственная публичная научно-техническая библиотека (ГПНТБ) СО РАН, Институт вычислительного моделирования СО РАН, Мировой центр данных - Всероссийский НИИ гидрометеорологической информации, Институт оптики атмосферы СО РАН, Институт мониторинга климатических и эколо-
Кудашев Е. Б., Серебряков В. А., Федотов А. М. Третий Всероссийский Симпозиум «Инфраструктура научных информационных ресурсов и систем» // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2014. Т. 12, вып. 1. С. 102-107.
ISSN 1818-7900. Вестник НГУ. Серия: Информационные технологии. 2014. Том 12, выпуск 1 © Е. Б. Кудашев, В. А. Серебряков, А. М. Федотов, 2014
гических систем СО РАН, Институт астрономии РАН, Специальная астрофизическая обсерватория РАН (Архыз), ГАИШ МГУ, географический факультет МГУ и другие ведущие научные центры России.
Основным направлением работы Третьего симпозиума были вопросы применения современных подходов в технологии развития информационных систем к задачам информационной поддержки научных исследований.
Обзор основных проблем, возникающих в этой связи, и направлений в их решении был сделан в докладе О. С. Бартунова (ГАИШ МГУ) «Научные вызовы технологиям БД». Автор отметил, что в науке происходит процесс лавинного поступления информации, в первую очередь связанный с успехами в технологии создания приемных устройств. В современных крупных экспериментах (включая и численное моделирование) анализ терабайтов и даже петабайтов научных данных становится повседневной задачей. Из-за недостатков существующих СУБД множество научных проектов, в которых встает задача анализа больших объемов данных, осуществляют обработку и анализ исходных данных вне системы управления базами данных, что затрудняет решение вышеобозначенных задач. Современные суперкомпьютеры-вычислители не рассчитаны на работу с большими данными в режиме реального времени, они более ориентированы на пакетный режим выполнения задач, требующих в основном вычислительных мощностей.
Новые СУБД для науки должны использовать возможности архитектуры масштабируемых хранилищ и распределенных вычислителей для обеспечения полноценной поддержки полного цикла работы с данными - хранение, обработка, анализ и обмен данными. Обмен данными подразумевает не только физический доступ, но и доступность программного обеспечения.
Примером применения подходов к решению задач, требующих больших данных, является работа, представленная в докладе П. В. Кайгородова, Д. А. Ковалевой, О. Б. Длужневской, О. Ю. Малкова «Архитектура Базы данных двойных звезд BDB». Представлено описание архитектуры базы данных двойных звезд (Binary star DataBase, BDB), разрабатываемой в Институте астрономии РАН. Целью создания BDB является объединение информации из множества разнородных каталогов двойных и кратных звезд, а также разработка удобного инструмента для работы с данными каталогов. Рассматриваются основные проблемы, возникшие в процессе реализации BDB, методики извлечения информации из исходных каталогов, а также методы кроссидентификации объектов. BDB реализована на базе фреймворка Nagare (stackless Python/SQLAlchemy/Elixir) и СУБД Postgresql, ее beta-версия доступна по адресу http://bdb.inasan.ru.
Важнейшей задачей, связанной с технологией работы с информацией, является исследование способов интеграции распределенных источников данных и создание научного задела в области распределенных информационных систем и баз данных в целях разработки инструментальной платформы (далее - «платформа массовой интеграции»), поддерживающей создание и функционирование широкомасштабных информационных инфраструктур на основе подхода виртуальной интеграции баз данных. Проблемам создания и эксплуатации «платформы массовой интеграции» был посвящен доклад О. Л. Жижимова, А. М. Федотова, Ю. И. Шокина «Технология интеграции разнородных информационных ресурсов». Платформа массовой интеграции позволит создавать глобальные инфраструктуры из десятков и сотен гетерогенных баз данных и предназначена для решения стратегических задач в области автоматизации различных форм распределенной деятельности. Более узкой целью работы является разработка принципов и программных средств виртуальной интеграции распределенных источников данных на основе международных стандартов и рекомендаций для создания масштабных информационных инфраструктур, предназначенных для виртуализации доступа к данным различных СУБД с использованием единых правил и политик.
Под интеграцией информационных ресурсов понимается их объединение с целью использования (с помощью удобных и унифицированных пользовательских интерфейсов) разнородной информации с сохранением ее свойств, особенностей представления и пользовательских возможностей манипулирования с ней. При этом объединение ресурсов необязательно должно осуществляться физически, оно может быть виртуальным, главное - оно должно обеспечивать пользователю восприятие доступной информации как единого информацион-
ного пространства. В частности, такие системы обеспечивают работу с гетерогенными наборами и базами данных или системами баз данных, обеспечивая пользователю эффективность информационных поисков независимо от особенностей конкретных систем хранения ресурсов, к которым осуществляется доступ. В основе интеграции распределенных информационных систем лежит интеграция метаданных, которая основана на стандартах на формат для представления метаданных, одновременно с унификацией нормативно-справочной информации (профиля информационных систем).
Исходя из общей и частной целей, с учетом анализа литературных источников и многолетней практики авторов в области создания программных комплексов для организации доступа к гетерогенным информационным ресурсам и базам данных, наиболее оптимальной архитектурой платформы массовой интеграции баз данных представляется архитектура слабосвязанных самодостаточных узлов некой распределенной информационной системы. Эта система получила кодовое название ZooSPACE. Этимология этого названия основана на двух элементах. Элемент «SPACE» подчеркивает распределенность системы, которая создает некое пространство, в котором могут функционировать информационные узлы и сервисы, обеспечивая самосогласованный доступ к информационным ресурсам и базам данных. Элемент «Zoo» подчеркивает некоторую преемственность предлагаемых решений по отношению к разработанным коллективом исполнителей ранее программных комплексов в области обеспечения унифицированного доступа к гетерогенным базам данных. В первую очередь имеется в виду программный комплекс ZooPARK, разные версии которого успешно эксплуатируются в России и в ближнем зарубежье на протяжении последних 13 лет.
Следует заметить, что проблема интеграции данных, как реальной, так и виртуальной, находящихся под управлением различных СУБД, изучается в мире уже давно. В этом направлении разработаны и успешно реализованы многие модели и технологии. Еще в 80-х гг. прошлого века был разработан и документирован стандарт ANSI Z39.50 (Information Retrieval (Z39.50): Application Service Définition and Protocol Spécification), последняя ревизия которого вышла в 2003 г. Позднее ANSI стандарт был утвержден как стандарт ISO-23950. Спецификации этого стандарта включают описание механизмов, структур и процедур доступа к базам данных безотносительно к их физической и логической реализации. Позднее идеология Z39.50 была перенесена на идеологию WEB-сервисов и архитектуру SOA. Это привело к созданию протокола SOAP/SRW и SRU, которые упрощали разработку конечных приложений, так как использовали технологии HTTP/XML (вместо ASN.1/BER), сохраняя общие принципы Z39.50 по абстрагированию от структур конечных СУБД, и предоставляли универсальный способ доступа к данным для поиска и извлечения информации. Именно эти технологии сегодня используются во всем мире для интеграции данных из различных СУБД при построении действительно универсальных систем. На сегодняшний день в мире не существует технологии отличной от технологии Z39.50 и SRW/SRU, которые бы, с одной стороны, обладали требуемым потенциалом для интеграции данных различных СУБД и, с другой стороны, имели бы серьезную базу промышленной эксплуатации реальных информационных систем.
Еще одним важным и интенсивно развивающимся направлением информационной поддержки научных исследований являются электронные библиотеки, о чем говорилось в докладе А. М. Федотова, О. Л. Жижимова, И. А. Пестунова, О. А. Федотовой «Электронная библиотека - путь к интеграции разнородных данных». Исходя из целей ЭБ и анализа существующих систем, направленных на поддержку научных исследований, сформулированы следующие функциональные требования к модели ЭБ по научному наследию: надежное долговременное и защищенное от исчезновения хранение информации; актуальность, полнота, достоверность происхождения документов; историчность информации; географическая привязка информации; наличие большого числа словарей-классификаторов (справочников), для обеспечения идентификации и классификации ресурсов; поддержка неоднородных и слабо структурированных информационных ресурсов; поддержка взаимосвязей информационных ресурсов; предоставление информации пользователю в виде, выбранном пользователем; наличие интеллектуальных служб обслуживания запросов пользователя; наличие программных интерфейсов для поддержки аналитической работы пользователя с помощью
программных приложений; поддержка требований интероперабельности как на программном, так и на семантическом уровне; поддержка работы с внешними источниками.
Рассмотренная модель информационной системы, работающей с материалами научного наследия, реализована на примерах: научная школа А. А. Ляпунова - основателя теоретического программирования и российской кибернетики, ЭБ по моделям динамики биосферы, Сервис-ориентированная информационная система, обеспечивающая доступ к каталогам спутниковых данных, а также учебные пособия по курсам «Современные проблемы информатики и вычислительной техники», «Вычислительные системы», «Информатика» и «Экология».
Важным направлением развития современных подходов к информационным системам в науке является разработка онтологий различных предметных областей научных исследований и создание на их основе информационных систем. Пример такого рода приведен в докладе О. М. Атаевой, А. О. Еркимбаева, В. Ю. Зицермана, Г. А. Кобзева, В. А. Серебрякова, К. Б. Теймуразова «Представление данных по теплофизическим свойствам веществ с использованием концепций и методов Semantic WEB». Понятийный багаж таких наук, как физика, химия, материаловедение и др., исходно достаточно формализован, чтобы лечь в основу онтологического описания. Тем самым открывается принципиальная возможность интеграции научных данных за счет спецификации содержимого разнородных источников. Среди других возможностей Semantic WEB - автоматизация обработки текстов, высокоточный информационный поиск, средства логического вывода и проч. Несмотря на множество примеров успешного применения этой концепции, вся технология и практика интеграции данных в ее рамках находятся еще в стадии становления. В этих условиях представляется особенно полезным отладить ее применение в относительно узкой предметной области, для которой характерны определенные типы данных и сложившиеся стандарты их представления в БД и печатных источниках. С учетом собственного опыта и круга интересов в данном исследовании авторы выбрали в качестве конкретной области теплофизические свойства веществ и материалов.
Доклад А. М. Елизарова, Е. К. Липачёва был посвящен вопросам разработки сервисов структурирования математического контента и интеграции электронных математических коллекций в научное информационное пространство. В докладе обсуждаются вопросы интеграции в научное информационное пространство данных из научных электронных коллекций, имеющих различные организационную структуру и форматы представления. Предложены модель интеграции и комплекс методов, обеспечивающих автоматическое преобразование контента с применением систем конвертации данных, объединения схем данных, стилевого приведения данных из разных коллекций в единое представление. Описаны методы автоматического выделения метаданных из научного контента и система генерации служебных метаданных.
Охарактеризованы методы структурирования математического контента и способы организации хранения и автоматизации процессов управления естественнонаучными коллекциями на основе технологий семантического веба. Акцент сделан на особенностях обработки математических текстов. С помощью сервисов, созданных по предложенной методике, выполнено структурирование достаточно большого по объему электронного хранилища, содержащего выпуски периодического журнала по математике и многотомных трудов конференций.
Представлены также современные информационные системы, предназначенные для автоматизации полного цикла подготовки и издания электронных научных журналов. Показаны преимущества использования журнальных систем открытого доступа. Обоснован выбор системы Open Journal System (OJS) в качестве платформы построения электронного хранилища научных журналов Казанского федерального университета (КФУ). Представлен опыт реализации пилотных проектов КФУ, выполненных на базе OJS.
Важное место в работе симпозиума было отведено пространственным данным. Вопросу эффективной работы с пространственными данными в PostgreSQL был посвящен доклад О. С. Бартунова, С. В. Карпова, А. Е. Короткова. Рассматриваются вопросы использования СУБД PostgreSQL в решении астрономических задач. Астрономия оперирует огромными объемами данных, поток которых непрерывно увеличивается вследствие успехов технологии
производства высокочувствительных в разных диапазонах электромагнитого спектра и доступных сенсоров большого размера. Спецификой астрономических данных является их привязка к координатам на небесной сфере, что усложняет поисковые алгоритмы. Следует отметить, что с математической точки зрения астрономические данные не отличаются от данных, с которыми работают геоинформационные системы. Выбор СУБД для работы с астрономическими данными, таким образом, определяется (помимо стандартных требований) способностью эффективной работы с пространственными данными. В рамках проекта Виртуальной обсерватории в ГАИШ МГУ были проведены исследования по применимости свободной СУБД PostgreSQL для хранилища астрономических каталогов и обеспечения основных сервисов. В процессе работы была серьезно улучшена производительность существующих реализаций алгоритмов и получены рекомендации по их наиболее эффективному использованию в зависимости от вида нагрузки. Проведенные результаты показали применимость PostgreSQL для хранения пространственных данных и работы с ними.
Серия докладов посвящена вопросам развертывания геопорталов организаций.
Разработке веб-приложений на основе технологий, ресурсов и сервисов геопортала ИВМ СО РАН был посвящен доклад О. Э. Якубайлика, А. А. Кадочникова, А. В. Токарева. Исследования в области проектирования и разработки комплекса программно-технологических решений для построения прикладных геоинформационных веб-систем и сервисов (геопорталов) ведутся в ИВМ СО РАН уже около 10 лет. В настоящее время системообразующим инфраструктурным элементом проводимых исследований является геопортал ИВМ СО РАН, создание которого началось около трех лет назад при выполнении работ по междисциплинарным интеграционным проектам и программам фундаментальных исследований СО РАН. Геопортал ИВМ СО РАН постоянно развивается, «обрастает» новыми функциональными возможностями, являясь своего рода «экспериментальной установкой», на которой создаются и тестируются новые технологические решения, программные модули, веб-сервисы. После опытной эксплуатации на портале новые разработанные элементы могут быть внедрены в прикладные системы, находящиеся в промышленной эксплуатации. Одной из основных подобных систем является «Банк пространственных данных Красноярского края», который сегодня рассматривается Министерством информатизации и связи Красноярского края как основа при формировании региональной инфраструктуры пространственных данных.
В докладе О. Э. Якубайлика (Институт вычислительного моделирования СО РАН) «Геосервисы веб-системы "экологический атлас Красноярска"», приводятся данные о состоянии разработки атласа. В настоящее время атлас состоит из 39 тематических слоев, которые можно условно разделить на две части. В первой из них показаны параметры климата, плотность и фитопатологическое состояние растительного покрова в городе, ареалы загрязнений некоторыми, в том числе и канцерогенными, веществами почв, снежного покрова и атмосферы. В других слоях находится информация о населении города. Это плотность жилищно-промышленной застройки, динамика показателя заболеваемости злокачественными новообразованиями жителей Красноярска. В этих слоях обозначены области различной заболеваемости по районам города. Карты позволяют сопоставить динамику заболеваемости для различных возрастных групп и некоторых форм злокачественных новообразований, выделить особенности расположения таких областей. Рассматриваемая информационная система «Экологический атлас Красноярска» основана на технологиях, ресурсах и сервисах геопортала ИВМ СО РАН.
В докладе С. М. Краснопеева, С. С. Пашинского, Е. В. Шулькина (Тихоокеанский институт географии ДВО РАН) рассматривается реализация аналитических сервисов ИПД ТИГ. Пять лет назад в ТИГ ДВО РАН начались работы по развертыванию ключевых элементов ИПД. На настоящий момент реализуется функционал, обеспечивающий решение круга задач, которые можно отнести уже к категории «бизнес для бизнеса» (B2B):
• запущена в тестовую эксплуатацию транзакционная Служба публикации пространственных объектов (WFS-T, Web Feature Service Transactional);
• расширен функционал клиентского приложения веб-службы доступа и визуализации, обеспечивающего поддержку доступа и визуализации векторных классов объектов, а также возможность удаленного создания / удаления / редактирования пространственных объектов;
• развернута и запущена в тестовую эксплуатацию веб-служба обработки пространственных данных (OGC WPS), предоставляющая доступ к процедурам GRASS GIS (218), библиотеки Sextante и др.;
• разработано клиентское веб-приложение, предоставляющее пользователю интерфейс формирования сценария и выполнения удаленной обработки ПД;
• продолжается формирование корпоративного ресурса базовых пространственных данных, данных дистанционного зондирования Земли высокого разрешения.
Создание подобной инфраструктуры позволит обеспечить доступ к возможностям ГИС через Интернет, работу с актуальным динамическим контентом, реализовывать проекты с элементами «краудсорсинга», существенно расширить круг потребителей геопространственной информации и геопространственных услуг.
В докладе О. Л. Жижимова, Д. М. Скачкова (Институт вычислительных технологий СО РАН) «Реализация географического поиска информации в "негеографических" информационных системах на платформе ZooSPACE» обсуждаются алгоритмы географического поиска в «негеографических» информационных ресурсах и их реализация для платформы интеграции гетерогенных данных ZooSPACE.