УДК 4.75
И. В. Бойченко, И. Ю. Турчановский
Институт вычислительных технологий СО РАН пр. Академический, 10/4, Томск, 645055, Россия
[email protected], [email protected]
ПОСТРОЕНИЕ СЕРВИСА ДАННЫХ В ИНФОРМАЦИОННЫХ СИСТЕМАХ НАУЧНЫХ ИССЛЕДОВАНИЙ НА ОСНОВЕ ПАРАДИГМЫ BIG DATA
Рассматривается подход к построению одной из основных подсистем в информационных системах научных исследований - подсистемы хранения и обработки данных, далее называемой сервисом данных. Для построения сервиса данных применена парадигма Big Data. Рассматривается организация данных различных уровней, с учетом жизненного цикла данных и возможностей современных технологий Big Data.
Ключевые слова: технологии обработки больших массивов данных, информационные системы научных исследований, параллельная обработка данных.
Введение
В работе [1] была выдвинута концепция построения информационных систем научных исследований (ИСНИс) нового поколения. Требования, функциональная структура, а также подходы к реализации подобных систем были сформулированы на основе опыта разработки программных систем в области дистанционного зондирования Земли [2-5]. Следует отметить, что применимость данной концепции не ограничивается только дистанционным зондированием, так как проблемы организации программного обеспечения в условиях постоянной эволюции данных, моделей и алгоритмов могут рассматриваться независимо от прикладных областей. Подобные вопросы в обобщенном виде рассматривались также в работах [6-9] и многих других.
С функциональной точки зрения в работе [1] в составе ИСНИс были выделены следующие подсистемы (далее - сервисы):
1) сервис «конструктор» - предназначен для выделения этапов (подзадач) решения задачи, назначения зависимости между этапами (графа решения) и назначения конкретного численного метода решения подзадачи (этапа);
2) сервис «хранилище» - предназначен для хранения всех типов данных и организации доступа к массивам исходных и производных данных;
3) вспомогательные сервисы - предоставляют возможность статистического анализа и визуализации данных.
В данной статье будут рассмотрены вопросы построения сервиса «хранилище», или сервиса данных. Общее описание сервиса «конструктор» было дано ранее [1].
Накопление больших объемов данных, создание средств поиска, извлечения и обработки, ориентированных на большие массивы, требует от IT-сообщества создания новых технологий. Одной из интенсивно развивающихся технологий является Big Data, парадигма которой
Бойченко И. В., Турчановский И. Ю. Построение сервиса данных в информационных системах научных исследований на основе парадигмы Big Data // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2015. Т. 13, вып. 2. С. 22-27.
ISSN 1818-7900. Вестник НГУ. Серия: Информационные технологии. 2015. Том 13, выпуск 2 © И. В. Бойченко, И. Ю. Турчановский, 2015
ориентирована на данные, характеризующиеся тремя критериями («3V»): объем (volume), скорость (velocity) и вариативность (variety) [10].
Технологии Big Data
Независимо от реализации в основу технологий Big Data положены два основных принципа:
1) принцип распределенного хранения данных;
2) принцип распределенной обработки, с учетом локальности данных.
Распределенное хранение решает проблему большого объема данных, позволяя организовывать хранилище из произвольного числа отдельных простых носителей, как правило обычных жестких дисков. Хранение может быть организовано с разной степенью избыточности, обеспечивая устойчивость к сбоям отдельных носителей.
Распределенная обработка с учетом локальности данных означает, что программа обработки доставляется на вычислитель, находящийся как можно ближе к обрабатываемым данным. Это принципиально отличается от традиционного подхода, когда вычислительные мощности и подсистема хранения разделены и данные должны быть доставлены на вычислитель. Таким образом, технологии Big Data опираются на вычислительные кластеры из множества вычислителей, снабженных локальной подсистемой хранения.
Доступ к данным и их обработка осуществляются специальным программным обеспечением. Наиболее известным и интенсивно развивающимся проектом в области Big Data является Apache Hadoop 1. Изначально в проекте развивались два взаимосвязанных направления: распределенная файловая система HDFS (Hadoop Distributed File System) и система вычислений по методу Map-Reduce.
К настоящему времени на базе Apache Hadoop был создан стек продуктов Big Data, получивший название Apache Big Data Stack, или ABDS (рис. 1). В этом стеке насчитывается более 110 проектов различного назначения [11].
Рис. 1. Стек Big Data Apache (ABDS)
1 Проект Apache Hadoop. URL: https://hadoop.apache.org/.
В зависимости от прикладной задачи разработчик приложения может воспользоваться продуктами прикладного уровня или непосредственно использовать интерфейс окружения времени исполнения. Уровни коммуникаций и управления ресурсами задействуются автоматически.
Следует отметить, что в ИСНИс решаются задачи не только задачи поиска и анализа, но и задачи, связанные с моделированием. Технологии Big Data по своему генезису ориентированы на задачи анализа данных. Это означает большой объем входных данных и небольшой объем выходных. При этом данные должны достаточно хорошо делиться на независимые части.
Моделирование предполагает обратную пропорцию - небольшой набор входных данных, но большой объем выходных. Сейчас в стеке Big Data имеются гибридные технологии, ориентированные на итеративную обработку данных. Одной из таких технологий является Spark 2. Возможности традиционных высокопроизводительных систем (HPC - High Performance Computing) и систем Big Data подробно рассмотрены в работе [11], где отмечено, что независимо от того, в какой системе данные моделируются, они должны быть размещены в распределенной файловой системе HDFS, чтобы последующий анализ был эффективен. В этой же работе говорится о тенденции сближения и взаимопроникновения технологий традиционных высокопроизводительных систем и технологий Big Data.
В работе [5] мы на своем опыте также пришли к выводу, что все данные, как первичные так и производные, следует хранить распределенно. В случае генерирования больших объемов данных технологии параллельной обработки являются единственной возможностью провести анализ эффективно.
Таким образом, жизненный цикл данных в ИСНИс связан не только с накоплением первичных экспериментальных данных, но и с накоплением производных (модифицированных данных), т. е. наблюдается свойство вариативности данных.
Следует отметить, что экспериментальные данные, как правило, являются многомерными. Это могут быть координаты в пространстве и времени и / или какие-либо физические величины, представленные функцией одного и более переменных (спектры), а также комбинации генов или компонентов синтезируемого вещества и т. д. В процессе исследований могут возникать дополнительные измерения, если исследователь решил проварьировать какой-либо из параметров алгоритма с целью выявить его влияние на конечный результат или вычислить оптимальное значение параметра на заданном диапазоне.
Вариативность данных
Вариативность - это свойство данных, характеризующее многообразие структур данных, обрабатываемых в одной задаче, которая возникает из самой природы исследований, когда используются входные данные и модели из различных источников. Также в ходе исследований могут меняться алгоритмы обработки и структуры выходных данных.
В [1] рассматриваются следующие потоки данных в процессе их накопления и обработки:
1) экспериментальные данные;
2) модели;
3) численные методы (библиотечные модули);
4) параметры методов;
5) исходный код этапов расчета;
6) графы управления;
7) результаты расчета;
8) результаты анализа.
Данные 1-6 формируют дескриптор обработки данных, необходимый для проведения расчета. Потоки данных в исследовательской системе приведены на рис. 2.
2 Проект Apache Spark. URL: https://spark.apache.org/.
Дескриптор
Производные данные
Рис. 2. Потоки данных в исследовательской системе
В основу функционирования сервиса данных ИСНИс положен принцип - данные сохраняются на протяжении всего жизненного цикла. Иначе говоря, изменение данных не уничтожает предыдущую версию, а формирует новую версию этих же данных. Аналогичный принцип используется в системах контроля версий. Такая организация хранения данных позволяет исследователю вернуться в любую точку своих исследований и воспроизвести полученный ранее результат, а также повторно использовать дескриптор для генерации новых данных, что приводит к многомерности данных в информационной системе.
Скорость накопления и объем данных
В парадигме Big Data под скоростью понимается объем данных, поступающий в единицу времени. Для ИСНИс в области зондирования Земли из космоса порождается поток порядка нескольких гигабайт в сутки. Поэтому при разработке сервиса хранения данных ИСНИс следует учитывать скорость накопления данных, так как от этого зависит необходимая вычислительная мощность, а следовательно, архитектура аппаратного и программного обеспечения [12; 13].
Важен также и общий объем данных, подлежащих обработке. Данные могут накапливаться медленно, но в течение длительного времени, например данные метеонаблюдений. Соответственно, итоговый объем данных может быть значительным.
Заключение
В работе рассмотрен подход к построению подсистемы хранения и обработки данных в ИСНИс. Показано, что разрабатываемый сервис данных соответствует критериям «3V» па-
радигмы Big Data. В настоящее время сервис данных для ИСНИс в области дистанционного зондирования Земли находится в стадии разработки.
Список литературы
1. Бойченко И. В., Маричев В. Н., Турчановский И. Ю. Сервисно-ориентированный подход к построению систем обработки и анализа данных лидарного зондирования атмосферы // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2014. Т. 12, вып. 4. С. 5-12.
2. Бойченко И. В., КатаевМ. Ю. Организация процесса исследований в системе ODRIS // Автоматизированные системы управления экспериментом: Сб. тр. Томск, 1999. C. 51-56.
3. Зуев В. В., Катаев М. Ю., Маричев В. Н. и др. Информационная система для обработки, анализа и хранения стратосферных оптических измерений // Оптика атмосферы и океана. 1999. Т. 12, № 5. С. 453-457.
4. Бойченко И. В., Катаев М. Ю., Маричев В. Н. Информационная система для анализа данных лидарного зондирования озона // Гидрология и метеорология. 2001. № 12. С. 96-105.
5. Бойченко И. В., Катаев М. Ю. Программная система моделирования отраженного от поверхности Земли солнечного излучения // Докл. Том. гос. ун-та систем управления и радиоэлектроники. 2009. № 1 (19), ч. 1. С. 88-95.
6. Горбунов-ПосадовМ. М. Расширяемые программы. М.: Полиптих, 1999. 336 с.
7. Тыугу Э. Х. Концептуальное программирование М.: Наука, 1984. 255 с.
8. De Roure D., Goble C. Software Design for Empowering Scientists // Software, IEEE. 2009. Vol. 26. No. 1. P. 88-95.
9. Roure D. D., Goble C. et al. The Evolution of my Experiment e-Science (e-Science) // IEEE Sixth International Conference. 2010. Р. 153-160.
10. Demchenko Y., Laat C. De, Membrey P. Defining architecture components of the Big Data Ecosystem // Collaboration Technologies and Systems (CTS). 2014 International Conference. 2014. May. P. 104-112.
11. Jha S., Qiu J., Luckow A. et al. A Tale of Two Data-Intensive Paradigms: Applications, Abstractions, and Architectures // 2014 IEEE International Congress on Big Data. 2014. Jun.
12. Mera D., Batko M., Zezula P. Towards Fast Multimedia Feature Extraction: Hadoop or Storm // 2014 IEEE International Symposium on Multimedia. 2014. Dec.
13. Moise D., Shestakov D., Gudmundsson G. T., Amsaleg L. Indexing and Searching 100M Images with Map-Reduce // ACM InternationalConference on Multimedia Retrieval. 2013. April. URL: https://hal.inria.fr/hal-00796475/document
Материал поступил в редколлегию 07.06.2015
I. V. Boychenko, I. Yu. Turchanovskiy
Institute of Computational Technologies SB RAS 10/4, Academichesky Ave., Tomsk, 645055, Russian Federation
[email protected], [email protected]
DESIGNING OF THE DATA SERVICE IN INFORMATION SYSTEMS FOR SCIENCE RESEARCH BASED ON BIG DATA PARADIGM
In this paper is considered an approach for building one of the basic subsystem of the information systems for science research - data storage and processing subsystem, called data service. Big Data has suggested as main design paradigm. The organization of data of the different layers is
described, with respect to data life cycle and the features of the contemporary Big Data technologies.
Keywords: big data technologies, information system for science research, parallel data processing.
References
1. Boychenko I. V., Marichev V. N., Turchanovskiy I. Yu. Service-oriented approach for designing the software systems for the atmosphere LIDAR sounding data processing and analysis. Vestnik of the Novosibirsk State University. Series: Information Technologies, 2014, vol. 12, no. 4, p. 5-12. (In Russ.)
2. Boychenko I. V., Kataev M. Yu. Research process in system ODRIS. Reports of Tomsk State University of Control System and Radioelectronics, «Automated system for control of experiments», 1999, no. 3, p. 51-56. (In Russ.)
3. Zuev V. V., Kataev M. Yu., Marichev V. N., Mitsel A. A., Boychenko I. V. Information system for processing, analizing and storing of the stratosphere optic measurements. Atmospheric and Oceanic Optics, 1999, vol. 12, no. 5, p. 453-457. (In Russ.)
4. Boychenko I. V., Kataev M. Yu., Marichev V. N. Information system for anlisys of the ozone LIDAR sounding data. Hidrology and Meteorology, 2001, no. 12, p. 96-105. (In Russ.)
5. Boychenko I. V., Kataev M. Yu. Software system for modelling of the solar radiation reflected by Earth surface. Reports of Tomsk State University of Control System and Radioelectronics, 2009, vol. 19, no. 1, pt. 1, p. 88-95. (In Russ.)
6. Gorbunov-Posadov M. M. Extendable programs. Moscow, Polyptikh, 1999. (In Russ.)
7. Tyugu E. H. Conceptual programming. Moscow, Nauka, 1984. (In Russ.)
8. De Roure D., Goble C. Software Design for Empowering Scientists. Software, IEEE, 2009, vol. 26, no. 1, p. 88-95.
9. Roure D. D., Goble C. et al. The Evolution of myExperiment. 2010 IEEE Sixth International Conference on e-Science, 2010, p. 153-160.
10. Demchenko Y., Laat C. De, Membrey P. Defining architecture components of the Big Data Ecosystem. Collaboration Technologies and Systems (CTS), 2014 International Conference, 2014, May, p. 104-112.
11. Jha S., Qiu J., Luckow A. et al. A Tale of Two Data-Intensive Paradigms: Applications, Abstractions, and Architectures. 2014 IEEE International Congress on Big Data, 2014, Jun.
12. Mera D., Batko M., Zezula P. Towards Fast Multimedia Feature Extraction: Hadoop or Storm, 2014 IEEE International Symposium on Multimedia, 2014, Dec.
13. Moise D., Shestakov D., Gudmundsson G. T., Amsaleg L. Indexing and Searching 100M Images with Map-Reduce. ACM International Conference on Multimedia Retrieval, 2013, April. URL: https://hal.inria.fr/hal-00796475/document