Научная статья на тему 'Исследование и определение основных достоинств и недостатков существующих типов хранилищ данных и анализ их применения'

Исследование и определение основных достоинств и недостатков существующих типов хранилищ данных и анализ их применения Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
189
33
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ХРАНИЛИЩА ДАННЫХ / DATA WAREHOUSES / OLAP / ROLAP / MOLAP / HOLAP / ТАБЛИЦЫ ФАКТОВ / FACT TABLE

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Михайлов Михаил Вячеславович, Коломеец Максим Вадимович, Булгаков Михаил Вадимович, Чечулин Андрей Алексеевич

Данная работа посвящена исследованию существующих типов хранилищ данных, которые используются для извлечения информации о бизнес-процессах в системах интеллектуального анализа. Объектом исследования являются OLAP-хранилища. В статье рассматриваются достоинства и недостатки существующих технологий хранения данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Михайлов Михаил Вячеславович, Коломеец Максим Вадимович, Булгаков Михаил Вадимович, Чечулин Андрей Алексеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

INVESTIGATION AND DETERMINATION OF GENERAL ADVANTAGES AND DISADVANTAGES OF EXISTING DATA WAREHOUSES TYPES AND ANALYSIS OF APPLICATIONS

The work is devoted to research of existing types of data warehouses that are used to extract information about business processes in mining systems. The target of research is OLAP-storage. The article discusses the advantages and disadvantages of existing storage technologies.

Текст научной работы на тему «Исследование и определение основных достоинств и недостатков существующих типов хранилищ данных и анализ их применения»

ИССЛЕДОВАНИЕ И ОПРЕДЕЛЕНИЕ ОСНОВНЫХ ДОСТОИНСТВ И НЕДОСТАТКОВ СУЩЕСТВУЮЩИХ ТИПОВ ХРАНИЛИЩ ДАННЫХ И АНАЛИЗ ИХ ПРИМЕНЕНИЯ

Михайлов Михаил Вячеславович

программист, соискатель учёной степени канд. техн. наук, Ярославский государственный университет,

РФ, г. Ярославль E-mail: m. mikhaylov1 @uniyar. ac. ru

Коломеец Максим Вадимович

программист лаборатории проблем компьютерной безопасности Санкт-Петербургского института информатики и автоматизации

Российской академии наук, РФ, г. Санкт-Петербург E-mail: kolomeec@comsec.spb.ru

Булгаков Михаил Вадимович

программист лаборатории проблем компьютерной безопасности Санкт-Петербургского института информатики и автоматизации

Российской академии наук, РФ, г. Санкт-Петербург E-mail: bulgakov@comsec.spb.ru

Чечулин Андрей Алексеевич

канд. техн. наук, ст. науч. сотр. лаборатории проблем компьютерной безопасности Санкт-Петербургского института информатики и автоматизации Российской академии наук, РФ, г. Санкт-Петербург E-mail: andreych@bk. ru

СибАК

www.sibac.info

INVESTIGATION AND DETERMINATION OF GENERAL ADVANTAGES AND DISADVANTAGES OF EXISTING DATA WAREHOUSES TYPES AND ANALYSIS OF APPLICATIONS

Mikhail Mikhailov

developer, PhD of technical science (pending) Yaroslavl State University,

Russia, Yaroslavl

Maxim Kolomeec

developer at Laboratory of Computer Security Problems of the St. Petersburg Institute for Informatics and Automation of the Russian Academy of Science, Russia, St. Petersburg

Mikhail Bulgakov

developer at Laboratory of Computer Security Problems of the St. Petersburg Institute for Informatics and Automation of the Russian Academy of Science, Russia, St. Petersburg

Andrey Chechulin

candidate of science, senior research fellow of Laboratory of Computer Security Problems of the St. Petersburg Institute for Informatics and Automation of the Russian Academy of Science, Russia, St. Petersburg

АННОТАЦИЯ

Данная работа посвящена исследованию существующих типов хранилищ данных, которые используются для извлечения информации о бизнес-процессах в системах интеллектуального анализа. Объектом исследования являются OLAP-хранилища. В статье рассматриваются достоинства и недостатки существующих технологий хранения данных.

ABSTRACT

The work is devoted to research of existing types of data warehouses that are used to extract information about business processes in mining systems. The target of research is OLAP-storage. The article discusses the advantages and disadvantages of existing storage technologies.

Ключевые слова: хранилища данных; OLAP; ROLAP; MOLAP; HOLAP; таблицы фактов.

Keywords: data warehouses; OLAP; ROLAP; MOLAP; HOLAP, fact

table.

В настоящее время все больше компаний для поддержания бизнес-процессов и поддержки принятия решений прибегают к использованию систем комплексного анализа данных. Получение необходимой информации для принятия решений, требует предварительного сбора данных из всех информационных источников компании, приведение собранных данных к единой структуре и последующего анализа. Однако, стремительный рост объема данных не позволяет эффективно использовать традиционные методы их сбора, хранения и последующего анализа. Решением данной проблемы становятся технологии, основанные на On-Line Analytical Processing (OLAP) хранилищах, которые позволяют структурировать данные по многомерному принципу на основе агрегированной информации из больших массивов данных [7]. При этом, данное решение позволяет формировать OLAP-структуры, которые удобно анализировать. На сегодняшний день существует множество расширений OLAP-систем, каждое из которых обладает своими преимуществами и недостатками. Именно по этой причине важно проанализировать основные типы OLAP. Подобное исследование позволит в дальнейшем выбрать наилучшее решение для построения хранилища данных для выгрузки в системы интеллектуального анализа [3; 6].

Исследование основных типов хранилищ данных

OLAP - это концепция, согласно которой данные представляются в виде многомерного куба (таблицы фактов). На рисунке 1 приведен пример [4] таблицы фактов, где в качестве осей выступают изделие, его цвет и день реализации. Ячейки куба называются мерами и содержат информацию о количестве реализованной продукции. Элементы оси могут быть агрегированы по принципу многоуровневой иерархии [5]. Например, ось содержащая день реализации может быть агрегирована до месяца, а месяц, в свою очередь - до года. При этом, так как месяцы имеют различное количество дней, как и годы, множества элементов оси необходимо агрегировать по различным правилам.

С

СибАК

www.sibac.info

Черный Белый ClmiR Розовый

Рисунок 1. Таблица фактов в виде трехмерного OLAP-куба

В техническом плане, типы OLAP базируются на различных системах хранения данных. Как правило, для реализации хранения используются реляционные системы управления базами данных (СУБД) либо же многомерные базы данных (БД). Для доступа к многомерным данным используется язык MDX (Multidimensional Expressions) [4].

Системы, в которых OLAP-структура многомерного куба данных хранится в реляционной БД, называются Relational OLAP (ROLAP) [1]. В ROLAP меры хранятся в реляционных таблицах, а, для доступа к данным, MDX-запросы преобразуются в SQL-запросы. Достоинством таких систем является хранение данных в реляционных таблицах, что позволяет использовать уже существующие БД компаний. Как правило, для ускорения агрегации, ROLAP-хранилища содержат множество дополнительных таблиц с некоторыми заранее агрегированными наборами данных. С одной стороны, преимущество данного подхода состоит в том, что он позволяет работать с большими объемами данных. С другой стороны, подход имеет существенный недостаток - количество вспомогательных таблиц многократно превышает количество таблиц с данными (т. е. приводит к «взрыву» хранилищ). Так, использование ROLAP приводит к увеличению объема хранилищ от 300 до 1200 % [2]. Также, недостатком является то, что из-за трансляции MDX-запросов в SQL-запросы, функциональность ROLAP-системы ограничивается возможностями языка SQL.

Системы Multidemsional OLAP (MOLAP) имеют другую структуру [1]. В них многомерный куб хранится непосредственно в многомерной БД. Таким образом, преимуществом данной системы является то, что MDX-запросы выполняются над многомерным кубом, а не реляционной БД, что позволяет существенно увеличить скорость запросов к данным. Системы MOLAP, аналогично ROLAP, хранят как агрегированные данные, так и не агрегированные. Так как элементы MOLAP являются копиями элементов реляционной БД, она требует дополнительного дискового пространства. Однако, объем используемого дискового пространства у MOLAP на порядок меньше, чем у ROLAP, что также является преимуществом. С другой стороны, использование MOLAP подразумевает неизменность существующих данных: данные не могут быть изменены, только добавлены; что не всегда достижимо. В случае изменения данных, многомерный куб необходимо полностью перестроить, что является существенным недостатком. Еще одним недостатком является то, что так как MOLAP собирает информацию из реляционных БД, в отличие от ROLAP, для его построения необходимы дополнительные инструменты.

Тип Hybrid OLAP (HOLAP) наследует преимущества ROLAP и MOLAP [1]. HOLAP использует сразу оба типа БД: многомерную БД для агрегированных данных и реляционную БД для не агрегированных. HOLAP имеет явное преимущество, которое выражается в том, что HOLAP позволяет исключить копирование не агрегированных данных из реляционной БД в многомерный куб. Таким образом, повышается скорость доступа к агрегированным данным по сравнению с MOLAP, однако скорость доступа к не агрегированным данным снижается, что является недостатком. Стоит отметить, что гибридное использование ROLAP и MOLAP подразумевает их взаимодействие, что повышает сложность реализации и также является недостатком.

Результаты сравнительного анализа приведены в таблице 1.

Таблица 1.

Результаты сравнительного анализа основных типов OLAP-систем

Критерий ROLAP MOLAP HOLAP

БД Реляционная Многомерная Реляционная и многомерная

Избыточность данных Отсутствует Высокая Отсутствует

«Взрыв» хранилища Возможен Невозможен Невозможен

Статичность данных Отсутствует Присутствует Отсутствует

Р, СибАК

www.sibac.info

Трансляция MDX в SQL Да Нет Частично

Скорость запроса к не агрегированным данным Высокая Высокая Средняя

Скорость запроса к агрегированным данным Низкая Высокая Высокая

Сложность реализации Низкая Средняя Высокая

В настоящей работе исследованы основные типы OLAP хранилищ данных. В зависимости от системы интеллектуального анализа, сложности бизнес-процессов и количества ресурсов можно подобрать оптимальный тип OLAP. Тип ROLAP больше подходит для анализа разреженных данных, MOLAP - для сконцентрированных наборов. HOLAP объединяет преимущества обоих типов, но более сложен в реализации. В дальнейшем результаты будут применены при разработке структуры хранения данных для выгрузки в системы интеллектуального анализа [6; 3]. Работа выполняется при финансовой поддержке РФФИ, проект № 16-37-50067.

Список литературы:

1. Барсегян А. Методы и модели анализа данных: OLAP и Data Mining. -БХВ-Петербург, СПб, 2004. - С. 49-66.

2. Компания SAP Эффективные технологии построения корпоративных Хранилищ Данных - [Электронный ресурс] - Режим доступа -URL:http://www.olap.ru/desc/sybase/news/sybase.asp (Дата обращения: 20.11.2016).

3. Котенко И.В., Саенко И.Б., Полубелова О.В., Чечулин А.А. Применение технологии управления информацией и событиями безопасности для защиты информации в критически важных инфраструктурах // Труды СПИИРАН. Вып. 1 (20). СПб.: Наука, 2012. - С. 27-56.

4. Chaudhuri S., Dayal U. An overview of data warehousing and OLAP technology. - ACM SIGMOD Record, Vol. 26 Issue 1, New York, NY, USA, March 1997. - Р. 65-74.

5. Lutz G. Working with OLAP cubes - [Электронный ресурс] - Режим доступа - http://our.componentone.com/2014/11/13/working-with-olap-cubes (Дата обращения: 15.11.2016).

6. Rainardi V. Building a Warehouse // Apress - 2008. - Р. 411.

7. Thomsen E. OLAP Solutions: Building Multidimensional Information Systems // Willey Computer Publishing, Canada - 2002.

i Надоели баннеры? Вы всегда можете отключить рекламу.