Научная статья на тему 'ЦЕЛЕВАЯ АРХИТЕКТУРА ГИБРИДНОГО АНАЛИТИЧЕСКОГО ХРАНИЛИЩА ДАННЫХ ДЛЯ ПРЕДПРИЯТИЯ ЭЛЕКТРОННОЙ КОММЕРЦИИ'

ЦЕЛЕВАЯ АРХИТЕКТУРА ГИБРИДНОГО АНАЛИТИЧЕСКОГО ХРАНИЛИЩА ДАННЫХ ДЛЯ ПРЕДПРИЯТИЯ ЭЛЕКТРОННОЙ КОММЕРЦИИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
197
33
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ХРАНЕНИЕ ДАННЫХ / ГИБРИДНАЯ АРХИТЕКТУРА ХРАНИЛИЩ ДАННЫХ / СИСТЕМА ОБРАБОТКИ И АНАЛИЗА ДАННЫХ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Подвальный С.Л., Барабанов В.Ф., Логинов Ф.Г., Коваленко С.А.

Рассматривается проектирование решения для сбора, хранения, real-time обработки и анализа Big Data (больших данных) для одной из ведущих российских мультиформатных продуктовых розничных компаний, работающих как в сфере прямых розничных продаж, так и в сфере электронной коммерции. Объектами исследования являются предъявляемые заказчиком требования к системе; существующая IT-архитектура заказчика, включающая различные системы-источники данных, хранилище данных, системы бизнес-аналитики и визуализации данных; лучшие практики построения масштабируемых высоконагруженных систем обработки и анализа данных; целевая архитектура проектируемого корпоративного хранилища данных. Актуальность разработки решения определяется тем, что в настоящее время происходит постоянный рост объема данных, обработка и анализ которых посредством использования традиционных методов анализа данных трудноосуществима или же неосуществима вообще. В связи с чем наиболее востребованным направлением развития становится разработка хранилища данных гибридной архитектуры, включающей в себя компоненты классического Business Intelligence, Big Data, а также инструменты виртуализации данных, позволяющие объединить данные компоненты в рамках единой системы. Описан сбор и анализ требований к системе, проведенный при разработке системы, приведен анализ платформ Big Data, описаны критерии представленных на рынке систем массово-параллельной обработки и обоснован выбор платформы, рассмотрены решения для предоставления бесшовного доступа к данным и описана имплементация целевой архитектуры гибридного аналитического хранилища. Представлена архитектура хранилища в нотации UML. Разработанная система отвечает всем требованиям к системам для хранения и анализа больших объемов данных, является горизонтально масштабируемой, отказоустойчивой и высокодоступной. Полученное решение поможет сократить затраты на рабочую силу, а использование в разработке программного обеспечения с открытым исходным кодом позволяет еще больше снизить затраты на разработку и использование программного комплекса

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

TARGET ARCHITECTURE OF A HYBRID ANALYTICAL DATA WAREHOUSE FOR AN E-COMMERCE ENTERPRISE

The article discusses solutions for the collection, storage, real-time processing and analysis of Big Data for one of the leading Russian multi-format food retail companies operating in the field of direct retail sales and e-Commerce. The objects of research are: customer requirements for the system; existing IT-architecture of the customer, including various systems-data sources, data warehouse, business intelligence and data visualization; best practices for building scalable high-load data processing and analysis systems; target architecture of the designed corporate data warehouse. The relevance of the solution development is determined by the fact that currently there is a constant increase in the volume of data, processing and analysis of which through the use of traditional data analysis methods is difficult or not feasible at all. In this connection, the development of a data warehouse of hybrid architecture, which includes components of the classic Business Intelligence, Big Data, as well as data virtualization tools, allowing one to combine these components within a single system, becomes the most popular direction of development. The article describes the collected, analyzed and agreed system requirements and the model of the target storage architecture developed with the help of UML. The result of the work described in the article is that the system meets all the requirements for systems for storing and analyzing large amounts of data, is horizontally scalable, fault tolerant and highly accessible. The resulting solution will reduce labor costs, and the use in the development of open source software can further reduce the cost of developing and using software

Текст научной работы на тему «ЦЕЛЕВАЯ АРХИТЕКТУРА ГИБРИДНОГО АНАЛИТИЧЕСКОГО ХРАНИЛИЩА ДАННЫХ ДЛЯ ПРЕДПРИЯТИЯ ЭЛЕКТРОННОЙ КОММЕРЦИИ»

DOI 10.25987/VSTU.2019.15.4.003 УДК 004.4

ЦЕЛЕВАЯ АРХИТЕКТУРА ГИБРИДНОГО АНАЛИТИЧЕСКОГО ХРАНИЛИЩА ДАННЫХ ДЛЯ ПРЕДПРИЯТИЯ ЭЛЕКТРОННОЙ КОММЕРЦИИ

С.Л. Подвальный, В.Ф. Барабанов, Ф.Г. Логинов, С.А. Коваленко Воронежский государственный технический университет, г. Воронеж, Россия

Аннотация: рассматривается проектирование решения для сбора, хранения, real-time обработки и анализа Big Data (больших данных) для одной из ведущих российских мультиформатных продуктовых розничных компаний, работающих как в сфере прямых розничных продаж, так и в сфере электронной коммерции. Объектами исследования являются предъявляемые заказчиком требования к системе; существующая IT-архитектура заказчика, включающая различные системы-источники данных, хранилище данных, системы бизнес-аналитики и визуализации данных; лучшие практики построения масштабируемых высоконагруженных систем обработки и анализа данных; целевая архитектура проектируемого корпоративного хранилища данных. Актуальность разработки решения определяется тем, что в настоящее время происходит постоянный рост объема данных, обработка и анализ которых посредством использования традиционных методов анализа данных трудноосуществима или же неосуществима вообще. В связи с чем наиболее востребованным направлением развития становится разработка хранилища данных гибридной архитектуры, включающей в себя компоненты классического Business Intelligence, Big Data, а также инструменты виртуализации данных, позволяющие объединить данные компоненты в рамках единой системы. Описан сбор и анализ требований к системе, проведенный при разработке системы, приведен анализ платформ Big Data, описаны критерии представленных на рынке систем массово-параллельной обработки и обоснован выбор платформы, рассмотрены решения для предоставления бесшовного доступа к данным и описана имплементация целевой архитектуры гибридного аналитического хранилища. Представлена архитектура хранилища в нотации UML. Разработанная система отвечает всем требованиям к системам для хранения и анализа больших объемов данных, является горизонтально масштабируемой, отказоустойчивой и высокодоступной. Полученное решение поможет сократить затраты на рабочую силу, а использование в разработке программного обеспечения с открытым исходным кодом позволяет еще больше снизить затраты на разработку и использование программного комплекса

Ключевые слова: хранение данных, гибридная архитектура хранилищ данных, система обработки и анализа данных

Введение

Сегодня как никогда в мире большой популярностью пользуется электронная коммерция. Оборот финансовых средств в сфере прямых продаж составил более 1,3 триллион долларов, между компаниями - 15 триллионов долларов. По результатам аналитиков и экспертов в сфере электронной торговли до 2018 года в странах, которые по уровню экономического развития относятся к странам с переходной экономикой и развивающейся, планировалось, что электронная коммерция займет более 40% от общих показателей торговли [1].

Конкуренция уже сейчас очень высока, а с ростом рынка на 30 - 40% в год [2] она станет еще сильнее. Это признают все участники: как поставщики услуг, так и онлайн-ритейлеры. Конкуренция проявляется в росте числа интернет-магазинов, в разрастании торгового предложения действующих игроков, в росте бюджетов на продвижение и в увеличении скорости запуска новых проектов.

В условиях динамичной внешней среды и ужесточения конкуренции все более значительную роль начинают играть методы и модели экономического анализа, позволяющие оперативно реагировать на возникающие проблемы и имеющиеся возможности. Задачи бизнес-анализа очень непросты, но здесь на помощь руководителю приходят современные управленческие концепции и технологии. За долгую историю своего развития теория и практика управления породили целый ряд разнообразных подходов, методов и моделей, нацеленных на повышение эффективности. Эти методы и модели, в свою очередь, обусловили появление и развитие разнообразных аналитических информационных систем [3].

В связи с постоянным ростом данных, которыми приходится оперировать крупным компаниям, в конце 2000-х годов, появилась альтернатива традиционным системам управления базами данных и решениям класса Business Intelligence. Совокупность подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получе-

© Подвальный С.Л., Барабанов В.Ф., Логинов Ф.Г., Коваленко С.А., 2019

ния воспринимаемых человеком результатов стали называть решениями класса Big Data или «Большие данные». На рис. 1 изображен график

динамики запросов «Big Data» и «Business Intelligence» с августа 2010 по август 2016. Данные взяты с сервиса Google Тренды [4].

Рис. 1. Динамики запросов «Big Data» и «Business Intelligence»

Сбор анализ и формализация требований к системе

На рис. 2 представлена диаграмма вариантов использования, построенная на основе ана-

лиза требований заказчика, а также типовых ролей пользователей, рассмотренных в статье «Анализ требований при разработке архитектуры аналитического хранилища данных».

Рис. 2. Функциональные требования. Диаграмма вариантов использования

Моделирование целевой архитектуры

Исходя из описанных выше требований, было принято решение о разработке гибридного аналитического хранилища данных, включающего в себя следующие компоненты:

- платформа Big Data;

- реляционная база данных класса MPP;

- решение для виртуализации данных.

Гибридное хранилище данных предполагает наличие компонентов класса NewSQL. Данный компонент не будет рассматриваться в данном случае, т. к. у заказчика уже имеется подобное решение (SAP Hana) и оно будет интегрировано в итоговый вариант архитектуры.

Далее рассмотрим каждый компонент по отдельности и определим возможные варианты имплементации гибридного аналитического хранилища данных исходя из плюсов и минусов конкретных решений.

Выбор платформы Big Data

В настоящее время на рынке присутствуют различные решения от многих поставщиков. У каждого есть как свои плюсы, так и минусы, но одной из основополагающих технологий в дан-

ной сфере является Hadoop - проект фонда Apache Software Foundation, свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов. Вокруг Hadoop образовалась целая экосистема из связанных проектов и технологий, многие из которых развивались изначально в рамках проекта, а впоследствии стали самостоятельными. При работе над решением, основанном на использовании продуктов экосистемы Hadoop, можно пойти двумя путями:

- загрузить каждый компонент по отдельности и попытаться собрать эти технологии в последовательную, гибкую и непротиворечивую архитектуру;

- использовать один из наиболее популярных дистрибутивов, в которых это сделано заранее.

Хотя первый вариант вполне возможен, принято решение остановиться на втором, так как он обеспечит простоту установки, администрирования и мониторинга всех входящих в поставку продуктов.

В таблице приводится сравнение двух наиболее популярных дистрибутивов.

Таблица 1

Сравнительные характеристики дистрибутивов H ortonworks и Cloudera

Критерий Hortonworks Cloudera

Управление кластером Свободное ПО Apache Ambari Проприетарное ПО Cloudera Manager

Лицензирование Распространение по open source лицензии Распространение по коммерческой лицензии

Интерактивная аналитика Самостоятельная установка Presto для интерактивной аналитики Коммерческий компонент Impala для интерактивной аналитики

Популярность в мире Существует с 2011 года Существует с 2008 года, большее количество пользователей

SQL в пакетном режиме Быстрый вычислительный движок Hive on Tez Более медленные Hive on Spark или Hive on MR

Поставка обновлений Только стабильные версии компонентов Последние версии компонентов

Инструментарий интеграции данных Имеет решение для управления данными HDF Необходимость использовать несколько различных инструментов

По результатам проведения сравнения принято решение остановиться на дистрибутиве от компании Hortonworks, как наиболее подходящем для реализации решения на основе гибридной архитектуры.

На рис. 3 изображены пакеты, которые присутствуют в последней версии дистрибутива Hortonworks [5].

Рис. 3. Компоненты дистрибутива Hortonworks Выбор реляционной базы данных класса MPP

На основе отчета Gartner Magic Quadrant for Data Management Solutions for Analytics 2017 (рис. 4) выбраны следующие системы класса MPP:

- Azure SQL Datawarehouse

- IBM db2 Warehouse (dashDB local)

- Microfocus Vertica (ex. HP Enterprise)

- Oracle Exadata

- Pivotal Greenplum

- SAP Hana (SAP Vora 2.0)

- Teradata

Из выборки были исключены решения класса NoSQL, NewSQL и продукты, предлагающиеся только в облаке, не сертифицированном в РФ.

COMPLETENESS OF VISIOKI -As of Februaty 2017

Рис. 4. Отчет Gartner Magic Quadrant for Data Management Solutions for Analytics 2017

В табл. 2 представлены решения класса имуществ и существенных ограничений. В МРР от различных вендоров и проведено их табл. 3 приведено сравнение решений в разрезе качественное сравнение для выявления пре- наиболее важных критериев.

Таблица 2

Качественное сравнение решений класса МРР от различных вендоров

Продукт Преимущества Ограничения Опыт в России Мировой опыт

Microfocus Vertica (Cloudera CDH 5.5+, Hortonworks HDP 2.2+) Может быть установлена как независимая MPP, так и над Hadoop. Во втором случае возможно многопоточное чтение данных в MPP из Hadoop. Установка на commodity оборудование. Поколоночное хранение данных в MPP. Отсутствует интеграция с Presto. Двусторонний обмен данными между MPP и Hadoop не возможен. Модель лицензирования по исходным несжатым данным. Lamoda Открытие Twitter

Oracle Exadata (Cloudera CDH 5.5+) Многопоточный доступ к данным со стороны MPP системы к данным Hadoop. Presto может использовать MPP как один из источников. Эффективное управление нагрузкой MPP системы, оптимизация запросов на основе статистики данных. Возможность держать горячие данные в flash-памяти MPP. Сильная связанность с собственными продуктами -возможна только интеграция с Oracle BigData Appliance. Только дистрибутив Cloudera. Поставляется только в виде ПАК. Альфа-Банк Почта Банк (30 ТБ) Allegro Group (Польша) Deutsche Bank

SAP Vora 2.0 (Cloudera CDH 5.5+, Hortonworks HDP 2.2+) Хранение горячих данных в RAM. Виртуализация данных в MPP. Сильная связанность со стеком продуктов SAP. Отсутствует интеграция с Presto. Не известно

IBM db2 Warehouse (dashDB local) Установка на commodity оборудование. Поколоночное хранение данных в MPP. Отсутствует интеграция с Presto. Двусторонний обмен данными между MPP и Hadoop не возможен. Сильная связанность с собственными продуктами -IBM db2 BigSQL. Не известно

Pivotal Greenplum/ Apache HAWQ (Cloudera CDH 5.5+, Hortonworks HDP 2.2+) Presto может использовать MPP как один из источников. Эффективное управление нагрузкой MPP системы, оптимизация запросов на основе статистики данных. Установка на commodity оборудование. Многопоточное чтение данных из Hadoop в MPP. Поколоночное хранение данных в MPP. Open Source дистрибутив. Имеет выделенные сервера для подключения пользователей. Продукт использует версию Postgres 8.3 (2008 год) и отдельные функции версии 9.1 (2011 год). Тткой" (35 ТБ) Ростелеком (80 ТБ) Trial compa-ny(600 ГБ) Bakrie Telecom

Teradata (Cloudera CDH 5.5+, Hortonworks HDP 2.2+) Возможно использовать ПАК или установить на commodity оборудование. Многопоточный двусторонний обмен данными между MPP и Hadoop. Интеграция с Presto. Эффективное управление нагрузкой MPP системы, оптимизация запросов на основе статистики данных. Поколоночное хранение данных в MPP. Возможность держать горячие данные в RAM MPP. Сбербанк (1 ПБ) ВТБ 24 (200 ТБ) МТС ФНС (60 ТБ) Магнит Walmart Tesco Schwarz Gruppe Apple Ebay Netflix

Продолжение табл. 2

Продукт Преимущества Ограничения Опыт в России Мировой опыт

Azure SQL Datawarehouse (Azure Data Lake Store) Интеграция с Presto. Поколоночное хранение данных в MPP. Возможна установка on-premise при приобретении Azure Stack. Интерактивный доступ только к Azure Data Lake Store. Не известно

Сравнение решений класса MPP по критериям

Таблица 3

о а

я

j- и о

о н

и

а •и s

w

л

н

О

о

о н

и

И О

й ч

о ^

= а

а о

н о

О о

S

J ä S

E a s

о ^ й

0 S « я S

1 E 2 ®

§ u

s «

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

M ®

a o o ■a

ее

В

o № S Я

CS

а -

о н

н

О

о

а о о a

CS

В

й

н

и

CS

а

о н

^ в

4 ^ « Ö

3 2

® -

Й :=

5 = Н я ¡3 я

CS о

а а

н ®

Я О

и

О №

5 Я

CS

6

-

О

н

О 1-1

^ я

о й Н fr и Щ

а Í

^ J Н я О я

£ 3

я

CS

а

и И

щ S О S

г о я о

ч

о

и

о

в

о

S

и

SS

а о о ■а

es

ев Ж

■Í -

И §

н S

в!

а

н

О

о

я

и §

Ь §

§ е^

« а

з «

В

и я

о

о а

Pivotal Greenplum

+

HDP, CDH

Teradata

HDP, CDH

IBM db2 Warehouse

HDP, CDH

Microfocus Vertica

HDP, CDH

Oracle Exadata

CDH

SAP Vora

HDP, CDH

Azure SQL Datawarehouse

Продолжение табл. 3

Управление конкурентной нагрузкой пользователей Оптимизатор запросов Поддержка R/Python Хранение и работа с геоданными / документами / графами Инструменты администрирования и мониторинга Использование MPP как движка для SAS Использование MPP как движка для IBM Cognos TM1 Использование MPP как движка для IBM SPSS Интеграция с ArcGIS

Pivotal Greenplum + + + +/+/+ + + + - -

Teradata + + + +/+/+ + + + + +

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

IBM db2 Warehouse + + + +/+/- + + + + +

Microfocus Vertica + + + +/+/- - + - - -

Oracle Exadata + + - +/+/- + + + - +

SAP Vora + - - -/+/+ + - - - -

Azure SQL Datawarehouse + + - + + - - -

$

0

+

+

+

+

+

+

$

$

+

+

+

+

+

+

+

+

+

$

$

+

+

+

+

+

$

$

+

+

+

+

+

$

$

+

+

+

+

$

$

+

+

+

+

$

$

+

+

Исходя из полученного сравнения, считаем решение Teradata лидером и далее используем данный компонент в качестве MPP платформы.

Решение для виртуализации данных

Для связи Data Lake и MPP компонент и предоставления бесшовного доступа к данным

используется модель виртуализации данных. Далее рассмотрим подробнее два решения: Presto и Apache Drill.

Presto - это распределенный сервис SQL-запросов с открытым исходным кодом. Presto может обрабатывать данные из множества различных источников (рис. 5).

Рис. 5. Cхема Hadoop Presto

Дата первого релиза: Январь 2013 Количество коммитов: 12 381

Поддерживаемые источники: Acumulo, Hive, Cassandra, MySQL, MongoDB, Kafka, PostgreSQL, Redis, JDBC и другие Пользователи: Facebook, Airbnb, Netflix, Dropbox и др.

Apache Drill - сервис для организации выполнения SQL-запросов над полуструктурированными данными, хранящимися в NoSQL-хранилищах (рис. 6).

Reporting and Analytics

1. ® .... .-'а — II»

JDBC/SQL and ODBC/SQL

Any data source

Рис. 6. Схема Apache Drill

Основываясь на предоставленной выше информации, принято решение использовать Presto.

Имплементация архитектуры гибридного аналитического хранилища данных

В результате рассмотрения различных вариантов компонентов для построения ГАХД остановились на Hortonworks в качестве плат-формы класса Big Data, Teradata - реляционной базы данных класса MPP и Presto - решения для виртуализации данных.

Результатом анализа данных компонентов, их интерфейсов, взаимодействия и функциональных возможностей стала целевая архитектура ГАХД для компании заказчика (рис. 7).

Данная архитектура представлена на диаграмме компонентов ниже в нотации UML (рис. 8).

Дата первого релиза: Июль 2013 Количество коммитов: 2 899 Поддерживаемые источники: Hbase, Hive, MongoDB, S3, JDBC и другие Пользователи: Google

Рис. 7. Диаграмма компонентов решения 26

Рис. 8. Схема потоков данных

Заключение

Архитектура гибридных аналитических хранилищ данных, построенная на технологии Big Data, позволяет уменьшить расходы на ИТ-инфраструктуру и ПО, сократить затраты на рабочую силу за счет более эффективных методов интеграции данных, управления, анализа и выработки решения; обеспечить увеличение дохода и прибыли путем новых или более эффективных способов ведения бизнеса.

При этом сочетание использования ПО с открытым исходным кодом и снижение цен аппаратных систем сделало эти технологии более доступными.

Спроектированная система является горизонтально масштабируемой, отказоустойчивой и высокодоступной, отвечает всем современным требованиям к системам для хранения и анализа данных.

Литература

1. Marz N., Warren J., from Manning. Lambda Architecture Overview: Big Data book, 2015. 256 с.

2. Azarmi B. Scalable Big Data Architecture // Apress, 2015. 137 с.

3. Исаев Д.В. Аналитические информационные системы. М.: ГУ-ВШЭ, 2008. 24 с.

4. Уайт Т. Hadoop: подробное руководство. СПб.: O'Relly; Питер, 2013. 437 с.

5. Maximize the value of data-at-rest: [Электронный ресурс]: Hortonworks. 2016. Режим доступа: http://hortonworks.com/products/data-center/hdp/, свободный (дата обращения: 12.09.2016).

6. Making Sense of it All. Lambda Architecture: [Электронный ресурс]: Hortonworks. 2016. Режим доступа: https://www.mapr.com/developercentral/lambda-architec (дата обращения: 12.09.2016).

7. Lambda Architecture: [Электронный ресурс]: lamb-da-architecture.net. 2016. Режим доступа: http://lambda-architecture.net/ (дата обращения: 12.09.2016).

8. Real time architecture using Hadoop and Storm: [Электронный ресурс]: SladeShare. 2016. Режим доступа: http://www. slideshare.net/nathan_gs/a-real-time-archi. (дата обращения: 12.09.2016).

Поступила 31.05.2019; принята к публикации 31.07.2019 Информация об авторах

Подвальный Семен Леонидович - д-р техн. наук, профессор кафедры автоматизированных и вычислительных систем, Воронежский государственный технический университет (394026, Россия, г. Воронеж, Московский проспект, 14), e-mail: spodvalny@yandex.ru, тел. (473) 2-46-77-18

Барабанов Владимир Федорович - д-р техн. наук, профессор кафедры автоматизированных и вычислительных систем, Воронежский государственный технический университет (394026, Россия, г. Воронеж, Московский проспект, 14), e-mail: bvf@list.ru, тел. (473) 2-46-77-18

Логинов Федор Геннадьевич - аспирант, Воронежский государственный технический университет (394026, Россия, г. Воронеж, Московский проспект, 14), e-mail: lfgoff@bk.ru, тел. (473) 2-46-77-18

Коваленко Сергей Александрович - аспирант, Воронежский государственный технический университет (394026, Россия, г. Воронеж, Московский проспект, 14), e-mail: sergpc@yandex.ru, тел. (473) 2-46-77-18

TARGET ARCHITECTURE OF A HYBRID ANALYTICAL DATA WAREHOUSE FOR AN E-COMMERCE ENTERPRISE

S.L. Podval'nyy, V.F. Barabanov, F.G. Loginov, S.A. Kovalenko Voronezh State Technical University, Voronezh, Russia

Abstract: the article discusses solutions for the collection, storage, real-time processing and analysis of Big Data for one of the leading Russian multi-format food retail companies operating in the field of direct retail sales and e-Commerce. The objects of research are: customer requirements for the system; existing IT-architecture of the customer, including various systems-data sources, data warehouse, business intelligence and data visualization; best practices for building scalable high-load data processing and analysis systems; target architecture of the designed corporate data warehouse. The relevance of the solution development is determined by the fact that currently there is a constant increase in the volume of data, processing and analysis of which through the use of traditional data analysis methods is difficult or not feasible at all. In this connection, the development of a data warehouse of hybrid architecture, which includes components of the classic Business Intelligence, Big Data, as well as data virtualization tools, allowing one to combine these components within a single system, becomes the most popular direction of development. The article describes the collected, analyzed and agreed system requirements and the model of the target storage architecture developed with the help of UML. The result of the work described in the article is that the system meets all the requirements for systems for storing and analyzing large amounts of data, is horizontally scalable, fault tolerant and highly accessible. The resulting solution will reduce labor costs, and the use in the development of open source software can further reduce the cost of developing and using software

Key words: data storage, hybrid architecture of data warehouses, data processing and analysis system

References

1. Marz N., Warren J. "Lambda architecture overview: big data book", ISBN 978161729034, 2015, 256 p.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2. Azarmi B. "Scalable big data architecture", Apress, ISBN 978-1-4842-1326-1, 2015, 137 p.

3. Isaev D.V. "Analytical information systems" ("Analiticheskie informacionnye sistemy"), Moscow, GU-VSHE, 2008, 24 p.

4. White T. "Hadoop: detailed guide", St. Petersburg, O'Relly, Piter, 2013, 437 p.

5. "Maximize the value of data-at-rest", Hortonworks, 2016, available at: http://hortonworks.com/products/data-center/hdp/

6. "Making sense of it all. Lambda architecture" Hortonworks, 2016, available at: https://www.mapr.com/developercentral/lambda-architec.

7. "Lambda architecture", lambda-architecture.net, 2016, available at: http://lambda-architecture.net/

8. "Real time architecture using Hadoop and Storm", SladeShare, 2016, available at: http://www.slideshare.net/nathan_gs/a-real-time-archi.

Submitted 31.05.2019; revised 31.07.2019 Information about the authors

Semen L. Podval'nyy, Dr. Sc. (Technical), Professor, Voronezh State Technical University (14 Moskovskiy prospekt, Voronezh 394026, Russia), e-mail: spodvalny@yandex.ru

Vladimir F. Barabanov, Dr. Sc. (Technical), Professor, Voronezh State Technical University (14 Moskovskiy prospekt, Voronezh 394026, Russia), e-mail: bvf@list.ru

Fedor G. Loginov, Graduate student, Voronezh State Technical University (14 Moskovskiy prospekt, Voronezh 394026, Russia), e-mail: lfgoff@bk.ru

Sergey A. Kovalenko, Graduate student, Voronezh State Technical University (14 Moskovskiy prospekt, Voronezh 394026, Russia), e-mail: sergpc@yandex.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.