Научная статья на тему 'Управление данными экспериментов с использованием современных web-технологий'

Управление данными экспериментов с использованием современных web-технологий Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
125
22
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНФОРМАЦИОННО-ВЫЧИСЛИТЕЛЬНАЯ СИСТЕМА / DATA-PROCESSING SYSTEM / ВИБРОСЕЙСМИЧЕСКИЙ МОНИТОРИНГ / VIBROSEISMIC MONITORING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ковалевский Валерий Викторович, Брагинская Людмила Петровна, Григорюк Андрей Павлович

В статье рассматриваются концептуальные основы, архитектура и программное обеспечение web-ориентированной информационновычислительной системы для управления структурированными и неструктурированными данными натурных и вычислительных экспериментов. Система обеспечивает пользователей поисковым, вычислительноаналитическим и ГИС-сервисами для эффективной работы с данными. В качестве примера практической реализации предложенной архитектуры представлена разработанная авторами доклада информационновычислительная система «Вибросейсмическое просвечивание Земли» для управления данными, полученными в ходе экспериментов по активному вибросейсмическому мониторингу.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ковалевский Валерий Викторович, Брагинская Людмила Петровна, Григорюк Андрей Павлович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

EXPERIMENTAL DATA MANAGEMENT USING MODERN WEB TECHNOLOGIES

Conceptual bases, architecture and software of web-oriented data-processing system for managing structured and unstructured data of natural and computational experiments are considered. The system provides search, computational analytical and GIS services for effective work with the data. As an example of the practical implementation of proposed architecture the data-processing system "Vibroseismic Earth Sounding" developed by the authors of the report is presented for management the data obtained during the experiments on active vibroseismic monitoring.

Текст научной работы на тему «Управление данными экспериментов с использованием современных web-технологий»

УДК 004.65

О В.В. Ковалевский, Л.П. Брагинская, А.П. Григорюк

УПРАВЛЕНИЕ ДАННЫМИ ЭКСПЕРИМЕНТОВ

С ИСПОЛЬЗОВАНИЕМ СОВРЕМЕННЫХ WEB-ТЕХНОЛОГИЙ1

В статье рассматриваются концептуальные основы, архитектура и программное обеспечение web-ориентированной информационно-вычислительной системы для управления структурированными и неструктурированными данными натурных и вычислительных экспериментов. Система обеспечивает пользователей поисковым, вычислительно-аналитическим и ГИС-сервисами для эффективной работы с данными.

В качестве примера практической реализации предложенной архитектуры представлена разработанная авторами доклада информационно-вычислительная система «Вибросейсмическое просвечивание Земли» для управления данными, полученными в ходе экспериментов по активному вибросейсмическому мониторингу.

Ключевые слова: информационно-вычислительная система, вибросейсмический мониторинг.

О К К Kovalevsky, L.P. Braginskaya, А.Р. Grigoryuk

EXPERIMENTAL DATA MANAGEMENT USING MODERN WEB TECHNOLOGIES

Conceptual bases, architecture and software of web-oriented data-processing system for managing structured and unstructured data of natural and computational experiments are considered. The system provides search, computational analytical and GIS services for effective work with the data.

As an example of the practical implementation of proposed architecture the data-processing system "Vibroseismic Earth Sounding" developed by the authors of the report is presented for management the data obtained during the experiments on active vibroseismic monitoring.

Keywords: data-processing system, vibroseismic monitoring.

Введение

Согласно определению международной организации DAMA (The Data Management Association International) управление данными - набор процессов, обеспечивающих накопление, организацию, запоминание, обновление, хранение, обработку данных и поиск информации. В настоящее время роль информации и ее обработки в научных исследованиях становится доминирующей. Это связано с тем, что современные высокоточные

1 Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований, гранты № 05-07-90081 и№ 07-07-00106.

научные инструменты, применяемые при проведении экспериментов, порождают большие объемы данных. Также приходится работать с большими объемами синтетических данных, полученных при численном моделировании. Считается, что каждый год объем этих данных почти удваивается, достигая во многих научных областях терабайтных размеров на исследовательскую группу, работающую над конкретным проектом [1]. С другой стороны, для обнаружения «тонких» эффектов во вновь получаемых высокоточных данных требуются все более ресурсоемкие алгоритмы анализа. Следует также отметить коллективность и узкую специализацию современных научных исследований при широкой географии участников конкретного проекта.

В этих условиях представляется целесообразным централизованное управление научными данными с переносом собственно данных и программ для их анализа и визуализации на сервер и организацией интерактивного доступа пользователей через Интернет. Далее рассматриваются основные вопросы, связанные с разработкой подобных систем.

1. Модель данных

Организация структурированных табличных (реляционных) данных или метаданных обычно затруднений не вызывает. Для этого идеально подходят реляционная модель и язык SQL, лежащие в основе современных СУБД. Сложнее обстоит дело с данными, получаемыми от сенсоров и численных моделей в процессе эксперимента, представляющими собой п-мерные, в общем случае числовые массивы, которые не могут быть структурированы и поэтому не поддерживаются реляционными СУБД непосредственно.

В настоящее время для работы одновременно с реляционными и нереляционными данными в основном используют одну из двух архитектур:

- как реляционные, так и нереляционные данные находятся в базе данных;

- реляционные данные находятся в базе данных, а нереляционные данные - в файловых системах или на файловых серверах.

Каждый из этих двух подходов имеет свои преимущества и недостатки. В первом случае одна база данных становится удобным централизованным хранилищем для обоих типов данных. Однако нереляционные данные хранятся в формате больших двоичных объектов (BLOB), скорость доступа к этим объектам существенно уступает скорости доступа к файлам. Во втором случае обеспечивается высокая скорость доступа, но усложняется разработка приложений и управление ими, так как приложения должны поддерживать согласованность между записями в базе данных и файлами, связанными с этими записями. Данную проблему можно частично или полностью решить за счет модели данных, обеспечивающей эффективную индексацию файловой системы из базы данных.

ВОЗДЕЙСТВИЕ ОТКЛИК

Рис. 1. Концептуальная модель эксперимента

При построении концептуальной модели предметной области мы исходили из того, что экспериментально изучаемому объекту может быть приписан определенный набор параметров, соответствующий представлениям исследователей о состоянии и поведении этого объекта. Параметры - это то, что можно измерять, наблюдать и изменять в процессе исследований. В процессе экспериментов на изучаемый объект воздействуют некоторые факторы с контролируемыми параметрами, и с помощью сенсоров регистрируется ряд параметров объекта при фиксированных других параметрах. Тогда концептуальную модель эксперимента можно представить с помощью приведенной на рис. 1 ER-диаграммы (диаграмма «сущность-связь»).

Диаграмма содержит три класса сущностей: ОБЪЕКТ, ФАКТОР и СЕНСОР. Каждый класс с набором атрибутов, определяемых конкретной областью исследований. Взаимоотношения сущностей выражаются двумя классами связей: ВОЗДЕЙСТВИЕ и ОТКЛИК. В случае пассивного эксперимента или наблюдения класс сущностей ФАКТОР может отсутствовать.

Для перехода к реляционной модели данных заменим сущности и связи ER-диаграммы на соответствующие отношения R с первичными ключами К и атрибутами А :

ОБЪЕКТ - R1(K1, All, А12, ...);

ФАКТОР - R2(K2, А21, А22, ...);

СЕНСОР - R3(K3, А31, А32, ...);

ВОЗДЕЙСТВИЕ - R4(K1, К2);

ОТКЛИК - R5(K1, КЗ).

Вспомогательные отношения R4 и R5 служат для организации связи типа M:N (многие-ко-многим) между отношениями Rl, R2 и Rl, R3 соответственно. Первичными ключами К могут служить, например, порядковые номера кортежей соответствующих отношений. Результирующее отношение, формируемое в результате выполнения запроса, предполагающего обращение к файловому архиву, должно содержать набор ключевых атрибутов Kl, К2, КЗ. Такая модель позволяет организовать адресацию файлового архива, имеющего следующую иерархическая структуру:

root \ Kl \ К2 \ КЗ \ <файлы данных>

Данная структура соответствует естественной древовидной структуре файловой системы. Имена файлов данных образуются конкатенацией атрибутов Kl, К2, КЗ.

Предложенная модель данных в сочетании со способом адресации неструктурированных данных обеспечивает естественную однозначную связь между записями в базе данных и соответствующими файлами. В то

же время пользователи могут полностью абстрагироваться от имен или шаблонов имен файлов и каталогов, работая только с атрибутами, каталогизирующими свойства и происхождение каждого файла.

Как и модель эксперимента, модель данных является обобщенной, ее необходимо адаптировать для каждой конкретной предметной области и вида экспериментов. В большинстве случаев может потребоваться декомпозиция отношений ОБЪЕКТ, ФАКТОР и СЕНСОР с учетом функциональных зависимостей между атрибутами.

2. Структурная схема

Структурная схема информационно-вычислительной системы (ИБС), реализующей изложенную выше концепцию управления данными научных экспериментов, представлена на рис. 2. Пользователи взаимодействуют с системой с помощью стандартного \veb-6pay3epa, посылая запросы на поиск, анализ и визуализацию данных. В запросе на поиск указываются интересующие пользователя параметры объекта, параметры воздействующих на объект факторов и параметры сенсоров, регистрирующих данные. Запрос на анализ должен содержать перечень процедур анализа, которые будут применены к найденным данным, и параметры этих процедур.

В результате выполнения запроса на поиск из базы данных извлекаются необходимые для обращения к файловому архиву атрибутивные данные. На основе этих данных \¥еЬ-приложение формирует адреса файлов в архиве и передает их модулю анализа. Модуль анализа представляет собой приложение, выполняющее анализ данных в соответствии с алгоритмами, применяемыми в конкретной области экспериментальных исследований. В большинстве случаев это классические и специальные матема-тико-статистические процедуры анализа многомерных числовых массивов.

Рис. 2. Структурная схема информационно-вычислительной системы

Для обеспечения необходимого для on-line режима быстродействия при обработке данных ресурсоемкие вычислительные процедуры могут

выполняться программно-аппаратным модулем на основе архитектуры CUDA. В модуле применяются графические процессоры (GPU) и математические библиотеки компании NVIDIA [3]. За счет многоядерной параллельной архитектуры GPU превосходят по быстродействию процессоры общего назначения (CPU) на 1-3 порядка при выполнении большинства вычислительных процедур.

Полученные в результате анализа числовые массивы возвращаются web-приложению, которое «на лету» формирует графики, таблицы, текст и отправляет всё это пользователю в виде готовой web-страницы. Конечное представление информации реализуется при помощи клиентских технологий JavaScript, HTML и стилевых таблиц CSS.

Конкретная аппаратно-программная реализация структурной схемы рис. 2 определяется масштабами системы, сложностью применяемых алгоритмов анализа, количеством пользователей и т.д.

3. Управление геопространственными данными

Во многих научных областях (геофизика, экология и т.д.) исследователи имеют дело с пространственно обусловленными данными или геоданными. Поэтому архитектура ИБС должна предусматривать подсистему управления геоданными и картографическую подсистему.

Большинство современных СУБД, как коммерческих, так и свободно распространяемых, поддерживают класс пространственных данных непосредственно или с помощью специальных расширений. Картографические сервисы, в частности web-сервисы, до недавнего времени строились преимущественно на основе специализированного серверного ПО, позволяющего публиковать в сети Интернет карты, сопровождаемые базовым ГИС-инструментарием. Однако в последние годы в Интернете все большее распространение получают гибридные ГИС. В таких системах геоданные из прикладной базы данных интегрируются с картографическим сервисом, предоставляемым специализированным web-сервером. На сегодняшний день наиболее развитым картографическим web-сервисом является Google Maps компании Google. Сервис базируется на данных дистанционного зондирования (спектрозональные снимки со спутников Landsat, SPOT, Quickbird с разрешением до 0.68 м), совмещенных с топографическими картами в проекции Меркатора. Компания Google предоставляет пользователям интерфейс Google Maps API в виде классов объектов JavaScript для генерации карт и нанесения на них собственных маркеров, контуров, а также готовых слоев в формате KML. Данные для отображения могут находиться как непосредственно в коде web-страниц, так и во внешних XML и KML файлах.

4. ИВС «Вибросейсмическое просвечивание Земли»

На основе изложенной выше концепции нами была разработана база данных и web-ориентированная информационно-вычислительная система «Вибросейсмическое просвечивание Земли». Система предназначена для

управления данными экспериментов по активному вибросейсмическому мониторингу литосферы, которые проводились на протяжении 1995-2012 годов институтами Сибирского отделения Российской академии наук совместно с другими отечественными и зарубежными научными организациями.

Последние 30 лет в экспериментальной геофизике активно развивается новое направление - активная сейсмология, в котором для изучения строения земной коры и верхней мантии, а также исследования геодинамических процессов в зонах землетрясений и вулканов используются управляемые источники сейсмических волн - мощные сейсмические вибраторы, гидромеханические и электромагнитные импульсные источники. Это направление сформировалось в рамках научной программы «Вибрационное просвечивание Земли», выполнявшейся в Сибирском отделении РАН в 1970-1990 гг. под руководством академика A.C. Алексеева. За эти годы была создана экспериментальная база метода - мощные сейсмические вибраторы, системы регистрации вибрационных сигналов и системы компьютерной обработки вибросейсмических данных, а также выполнен большой объем экспериментов по вибрационному зондированию Земли в различных регионах России [4].

В настоящее время работы по активной сейсмологии проводятся в России, Японии, Китае, США, европейских странах. В Японии с вибросейсмической системой ACCROSS проводится мониторинг сейсмоопасных и разломных зон земной коры. В США в зоне разлома Сан-Андреас проводится мониторинг напряженного состояния разлома с использованием сейсморазведочных вибраторов. С участием ИВМиМГ СО РАН в рамках экспериментальных исследований проводился вибросейсмический мониторинг литосферы в Алтае-Саянском регионе, Байкальской рифтовой зоне, Таманской грязевулканической провинции, на профиле Улан-Удэ -Улан-Батор.

В сейсмологии основным источником волн является землетрясение -природный процесс, не управляемый ни по времени, ни по месту возникновения, ни по энергетике. С применением мощных сейсмических вибраторов были разработаны новые геотехнологии, которые позволяют избежать ряда ограничительных обстоятельств сейсмологии землетрясений и больших взрывов. Вибрационные геотехнологии имеют следующие преимущества:

- точно определенные координаты источника и времени его работы;

- повторяемость эксперимента;

- возможность возбуждения колебаний с заданными параметрами;

- возможность автоматизации управления экспериментом;

- повсеместность применения;

- экологическая безопасность, т.к. регистрируемый сигнал находится под микросейсмами, а необходимые соотношения сигнал/шум обеспечиваются накоплением.

К методам активной сейсмологии также относят экспериментальные

работы, в которых регистрируется сейсмическое поле природных источников по технологии, определенной конкретной задачей геофизики, например сейсмоэмиссионная томография вулканических структур с регистрацией микросейсмических событий из активной области вулкана. К таким работам можно отнести уникальный эксперимент по регистрации низкоэнергетических сейсмических событий в районе Эльбрусского вулканического центра, проведенный ИВМиМГ СО РАН в 2010 г. с использованием впервые созданной 2,5-километровой сейсмической антенны в штольне Баксанской нейтринной обсерватории ИЯИ РАН.

ИБС реализует следующие основные функции:

- получение подробной информации по любому из проведенных экспериментов (метаданные);

- поиск в базе данных одновременно по 18 параметрам вибропросвечивания (типы источников, вид и параметры сигналов, географические координаты и др.);

- интерактивный on-line анализ (корреляцонный, спектральный, спектрально-временной и т.д.) найденных сейсмотрасс с отображением результатов непосредственно в web-браузере пользователя;

- построение по результатам поиска интерактивных карт и спутниковых снимков с обозначенными источниками и регистраторами сейсмических волн.

В настоящее время система доступна по адресу http://opg.sscc.ru.

Заключение

В работе представлены концептуальные основы, архитектура и программное обеспечение информационно-вычислительной системы для поддержки экспериментов, проводимых научными коллективами, состоящими из специалистов, территориально удаленных друг от друга. Система также может использоваться в качестве учебного пособия для студентов геофизических и информационных специальностей. Разработанное инвариантное ядро системы обеспечивает эффективное управление неструктурированными данными, получаемыми в ходе экспериментов от приборов или компьютерных моделей. Практическая реализация показана на примере ИВС «Вибросейсмическое просвечивание Земли».

Литература

1. Gray J., Liu D.T., Nieto-Santisteban М., Szalay A., DeWitt D. and Heber G. Scientific Data Management in the Coming Decade // SIGMOD Record, Vol. 34, No. 4, Dec. 2005.

2. Ковалевский В.В., Брагинская Л.П., Григорюк А.П. Информационно-аналитическая система для вибросейсмических исследований // Проблемы информатики. - 2013. - №3. - С. 22-29.

3. CUDA Parallel Computing Platform. URL: http://www.nvidia.ru/object /cuda_home_ne w_ru. html.

4. Активная сейсмология с мощными вибрационными источниками /

АС. Алексеев [и др.] - Новосибирск: Филиал «Гео» издательства СО РАН, 2004. - 375 с.

Ковалевский Валерий Викторович, доктор технических наук, заместитель директора, Институт вычислительной математики и математической геофизики СО РАН, тел. (384) 3307196, e-mail: kovalevsky@sscc.ru

Брагинская Людмила Петровна, ведущий программист, Институт вычислительной математики и математической геофизики СО РАН, тел. (384) 3307069, e-mail: ludmila@opg.sscc.ru

Григорюк Андрей Павлович, научный сотрудник, Институт вычислительной математики и математической геофизики СО РАН, тел. (384) 3308743, e-mail: and@opg.sscc.ru

Kovalevsky Valery Victorovich, doctor of technical sciences, deputy director, Institute of Computational Mathematics and Mathematical Geophysics SB RAS.

Braginskaya Lyudmila Petrovna, leading programmer, Institute of Computational Mathematics and Mathematical Geophysics SB RAS.

Grigoryuk Audrey Pavlovich, researcher, Institute of Computational Mathematics and Mathematical Geophysics SB RAS.

i Надоели баннеры? Вы всегда можете отключить рекламу.