Научная статья на тему 'АНАЛИЗ ВЫЧИСЛИТЕЛЬНОЙ СЛОЖНОСТИ МЕТОДОВ ДЕКОМПОЗИЦИИ OLAP-ГИПЕРКУБОВ МНОГОМЕРНЫХ ДАННЫХ'

АНАЛИЗ ВЫЧИСЛИТЕЛЬНОЙ СЛОЖНОСТИ МЕТОДОВ ДЕКОМПОЗИЦИИ OLAP-ГИПЕРКУБОВ МНОГОМЕРНЫХ ДАННЫХ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
69
14
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
OLAP-СИСТЕМЫ / ГИПЕРКУБ МНОГОМЕРНЫХ ДАННЫХ / МЕТОДЫ РЕДУКЦИИ / ВЫЧИСЛИТЕЛЬНАЯ СЛОЖНОСТЬ / ВЫЧИСЛИТЕЛЬНАЯ ПРОИЗВОДИТЕЛЬНОСТЬ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Носов А.П., Ахрем А.А., Рахманкулов В.З., Южанин К.В.

В работе исследуются проблемы редукции (декомпозиции) моделей многомерных данных в виде гиперкубовых OLAP-структур. OLAP обработка данных не допускает изменения размерности пространства. С увеличением объемов данных падает производительность вычислений кубовых структур. Методы редукции больших кубов данных на подкубы с меньшими объемами позволяют решать проблему снижения производительности вычислений.Рассматриваются задачи редукции для случаев, когда агрегирование критериев уже определено решёткой куба, а декомпозиция куба на меньшие по размерности кубы нужна для снижения времени вычисления полной решётки при динамическом изменении данных в кубе.Цель работы состоит в нахождении условий уменьшения вычислительной сложности решения задач анализа данных редукционными методами, получении точных количественных границ уменьшения сложности декомпозиционных методов из класса полиномиальной степеней сложности, установлении характера зависимости вычислительной производительности от структурных свойств гиперкуба и определении количественных границ вычислительной производительности решения декомпозиционных задач агрегирования данных.Проведено исследование вычислительной сложности декомпозиционных методов анализа многомерных гиперкубов полиномиально-логарифмической и полиномиальной степеней сложности. Найдена точная верхняя граница уменьшения сложности декомпозиционных методов анализа исходного OLAP--гиперкуба данных по отношению к недекомпозиционным, и на их основе доказаны критерии эффективного применения редукционных методов анализа гиперкубовых структур по сравнению с традиционными нередукционными методами.Приведены примеры методов декомпозиции кубовых структур, как уменьшающих, так и увеличивающих вычислительную сложность по сравнению с вычислениями по полной модели.Результаты работы могут быть использованы при обработке и анализе массивов информации гиперкубовых структур аналитических OLAP-систем, относящихся к классу BigData, или сверхбольших компьютерных систем многомерных данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

COMPUTATIONAL COMPLEXITY ANALYSIS OF DECOMPOSITION METHODS OF OLAP HYPER-CUBES OF MULTIDIMENSIONAL DATA

The paper investigates the problems of reduction (decomposition) of multidimensional data models in the form of hypercube OLAP structures. OLAP data processing does not allow changes in the dimension of space. With the increase in data volumes, the productivity of computing cubic structures decreases. Methods for reducing large data cubes to sub-cubes with smaller volumes can solve the problem of reducing computing performance.The reduction problems are considered for cases when the cube lattice has already determined criteria aggregation, and the cube decomposition into smaller cubes is needed to reduce the computation time of the full lattice when dynamically changing data in the cube.The objective of the paper is to find conditions for reducing the computational complexity of solving data analysis problems by reduction methods, to obtain exact quantitative boundaries for reducing the complexity of decomposition methods from the class of polynomial degrees of complexity, to establish the nature of the dependence of computational performance on the structural properties of a hypercube, and to determine the quantitative boundaries of computational performance for solving decomposition problems of data aggregation .The study of the computational complexity of decomposition methods for the analysis of multidimensional hyper-cubes of polynomial-logarithmic and polynomial degrees of complexity is carried out. An exact upper limit is found for reducing the complexity of decomposition methods for analyzing the initial OLAP - data hypercube with respect to non-decomposition ones and based on them criteria are proved for the effective application of reduction methods for analyzing hypercube structures in comparison with traditional non-reduction methods.Examples of decomposition methods of cube structures are presented, both reducing and increasing computational complexity in comparison with calculations using the full model.The results obtained can be used in processing and analysis of information arrays of hypercube structures of analytical OLAP-systems belonging to the BigData class, or ultra-large computer multidimensional data systems.

Текст научной работы на тему «АНАЛИЗ ВЫЧИСЛИТЕЛЬНОЙ СЛОЖНОСТИ МЕТОДОВ ДЕКОМПОЗИЦИИ OLAP-ГИПЕРКУБОВ МНОГОМЕРНЫХ ДАННЫХ»

Математика и математическое моделирование. 2020. №4. С. 52-64.

DOI: 10.24108/mathm.0420.0000221

I Ахрем А. А., Носов А. П., Рахманкулов В. 3., Южанин К. В., 2020.

Математика к Математическое

моделирование

Сетевое научное издание http://mathmelpub.ru ISSN 2412-5911

ХДК 004.6+57.087.1

Анализ вычислительной сложности методов декомпозиции ОЬАР-гиперкубов многомерных данных

Ахрем А. А.1, Носов А. П.1'*, Рахманкулов В. З.1, Южанин К. В.1

1 Федеральный исследовательский центр «Информатика и управление» РАН, Москва, Россия

* nosov@isa.ru

В работе исследуются проблемы редукции (декомпозиции) моделей многомерных данных в виде гиперкубовых ОЬАР-структур. Проведено исследование вычислительной сложности декомпозиционных методов анализа многомерных гиперкубов полиномиально-логарифмической и полиномиальной степеней сложности. Найдена точная верхняя граница уменьшения сложности декомпозиционных методов анализа исходного ОЬАР-гиперкуба данных по отношению к недекомпозиционным, и на их основе доказаны критерии эффективного применения редукционных методов анализа гиперкубовых структур по сравнению с традиционными нередукционными методами.

Ключевые слова: ОЬАР-системы; гиперкуб многомерных данных; методы редукции; вычислительная сложность; вычислительная производительность

Представлена в редакцию: 17.06.2020, исправлена: 15.08.2020.

Введение

В настоящее время становится все более актуальной разработка методов редукции моделей сложных систем, т. е. приведение таких моделей к более простому виду, например, к декомпозиции исходной модели на модели меньшей размерности [1, 2, 3].

Проблемы редукции моделей и анализа вычислительной сложности алгоритмов традиционно интересуют исследователей-математиков и компьютерных специалистов при практической реализации методов моделирования [4, 5, 6, 7, 8, 9, 10]. В частности, проблема снижения размерности признакового пространства в задачах ранжирования и многокритериальной классификации исследовались в работах [4, 5], в которых критерии агрегируют с помощью экспертов, что упрощает порядковую классификацию многокритериальных альтернатив в статическом пространстве оценок. Аналогичный подход представлен в работе [6], когда при решении задач кластеризации исходный набор переменных заменяется новым

набором обобщённых критериев, учитывающих связи переменных. OLAP обработка данных не допускает изменения размерности пространства, однако, поскольку вычислительная сложность OLAP-данных определяется не размерностью гиперкуба, а размером решетки подкубов, которая задает на нем структуру данных, становится возможной декомпозиция на подкубовых структрах.

С увеличением объемов данных падает производительность вычислений кубовых структур. Методы редукции больших кубов данных на подкубы с меньшими объемами позволяют решать проблему снижения производительности вычислений. Решая задачи редукции OLAP-кубов, необходимо исследовать влияние выбранного метода редукции на вычислительную сложность задач и целостность обобщенных результатов.

Аналогичные проблемы возникают при обработке и анализе массивов информации гиперкубовых структур аналитических OLAP-систем, относящихся к классу BigData, или сверхбольших компьютерных систем многомерных данных [4, 5, 6].

В работах авторов [7, 8, 9, 10] по математическим методам анализа многомерных данных аналитических OLAP-систем рассматриваются задачи редукции для случаев, когда агрегирование критериев уже определено решёткой куба, а декомпозиция куба на меньшие по размерности кубы нужна для снижения времени вычисления полной решётки при динамическом изменении данных в кубе. В указанных работах были исследованы методы редукции моделей многомерных данных в виде OLAP-гиперкубов, способствующих уменьшению вычислительной сложности решения задач с большими и сверхбольшими исходными данными в классе задач полиномиальной степени сложности. Доказаны необходимые и достаточные условия эффективного применения методов редукции задач анализа гиперкубов данных по сравнению с традиционными нередукционными методами их решения. Приведены примеры методов декомпозиции кубовых структур, как уменьшающих, так и увеличивающих вычислительную сложность по сравнению с вычислениями по полной модели.

Цель настоящей работы состоит в нахождении условий уменьшения вычислительной сложности решения задач анализа данных редукционными методами, получении точных количественных границ уменьшения сложности декомпозиционных методов из класса полиномиальной степеней сложности, установлении характера зависимости вычислительной производительности от структурных свойств гиперкуба и определении количественных границ вычислительной производительности решения декомпозиционных задач агрегирования данных.

1. Критерии эффективности редукционных методов решения задач анализа многомерных OLAP-кубов данных

В настоящем разделе статьи будем предполагать, что задан гиперкуб KHm, имеющий m > 1 размерностей. Пусть на KHm задана решетка L [11, 12], состоящая из n подкубов. В этом случае решетка L определяет гиперкубовую структуру данных, и такой гиперкуб бу-

дем обозначать KnHm. Пусть на этой структуре анализируются многомерные OLAP-данные из некоторого непустого множества C(KnHm). Предположим, что методы решения задач анализа данных из C(KnHm) допускают декомпозицию гиперкуба KnHm на k (2 < k < n) непересекающихся подкубовых структур Lb .. ., Lk, в каждую из которых входят пь. .., nk (n +... + nk = n) подкубов исходной решетки L. Допустим, что вычислительная сложность f (n) метода решения задачи из множества C(KnHm) принадлежит одному из следующих классов:

- Fe(n) = { f (n, а) = an}, где a = const > 1 (класс экспоненциальной вычислительной степени сложности);

- Fp(n) = { f (n,p) = np}, где p — натуральное число (класс полиномиальной вычислительной степени сложности);

- Flp(n) = { f (n; a,p,q) = np (loga n)q}, где q — целое число (класс полиномиально-логарифмической вычислительной степени сложности);

Классы вычислительной степени сложности определяют значения вычислительной сложности f = f (n, •) нередукционных (недекомпозиционных) методов на всей структуре данных гиперкуба, а вычислительная сложность fR редукционных (декомпозиционных) методов составляется из вычислительных сложностей метода на подкубовых структурах fi = f (n, •), при этом полагаем

k

fR(n, •) = E f (ni, •). (1)

i= 1

Критерий эффективности методов определяется путем сравнения вычислительных сложностей редукционного и нередукционного методов из одного класса, и эффективнее считается тот из методов, для которого вычислительная сложность меньше.

В работах авторов [8, 9, 10] для классов экспоненциальной и полиномиальной степеней сложности были доказаны следующие критерии эффективности на основе уменьшения (увеличения) вычислительной сложности редукционных методов анализа OLAP-кубов многомерных данных по сравнению с нередукционными методами.

I. В работе [8] для методов экспоненциальной степени сложности показано, что при определенных условиях, а именно, при

a > 2; ni > 1, f (ni, a) = ani, i = 1,...,k; k> 2. (2)

вычислительная сложность редукционных методов анализа OLAP-гиперкубов многомерных данных уменьшается по сравнению с традиционными нередукционными методами, т.е. fR < f, при всех f, fi е Fe, т.е. в этих условиях применение редукционных методов оправдано, так как их эффективность выше.

Отметим, что в случае, когда параметр а удовлетворяет неравенствам 1 < a < 2 возможны ситуации, когда вычислительная сложность декомпозиционных методов анализа

ОЬАР-гиперкубов уменьшается, увеличивается или равняется вычислительной сложности традиционных недекомпозиционных методов. Приведем соответствующие примеры.

Пример 1. Пусть а = 3/2, п = 5, п1 = 4, п2 = 1. В этом случае имеем:

5 (ЗУ 243 П1 4 81 162 „2 ! 3 48 (3)

а = о = а = а = — = ——; а 2 = а1 = - = —. (3)

Л) 32 ' 16 32 ' 2 32

Принимая во внимание (3) получаем

243 162 48 210 /(5, 3/2) = — > ^ + 48 = ^ = /(4, 3/2) + /(1, 3/2) = /й(5, 3/2), (4)

т.е. вычислительная сложность традиционного метода решения задач анализа ОЬАР-кубов многомерных данных больше вычислительной сложности редукционного метода. Применение редукционного метода оправдано.

Пример 2. Пусть а = 3/2, п = 3, п1 = 2, п2 = 1. В этом случае будем иметь:

/(3, 3/2) = (2)3 = 27; /(2, 3/2) = 4 = 18; /(1, 3/2) = а1 = 3 = |. (5)

Используя равенства (5) получаем

27 18 12 30

/(3,3/2) = 27 < у + у = у = /(2, 3/2) + /(1,3/2) = /й(3, 3/2), (6)

т.е. в этом случае вычислительная сложность традиционного метода анализа гиперкуба ОЬАР-данных меньше вычислительной сложности редукционного метода. Применение редукционного метода менее эффективно, и для решения задач анализа лучше использовать нередукционный метод.

Пример 3. Пусть а = 2, п = 2, п1 = п2 = 1. В данном случае получаем следующую оценку соотношений:

/(2, 2) = 22 = 4 = 2 + 2 = /(1, 2) + /(1, 2) = /й(2, 2), (7)

т.е. в рассматриваемом случае вычислительные сложности традиционного и декомпозиционного методов анализа ОЬАР-гиперкуба данных совпадают.

II. В работе [9] исследуются задачи анализа ОЬАР-гиперкубов данных с применением методов полиномиальной степени сложности. Показано, что при р > 2 вычислительная сложность редукционных методов уменьшается по сравнению с вычислительной сложностью нередукционных методов, т.е. /к < /, при всех /, / е ^р, и, следовательно, анализ данных, основанный на использовании подкубовых структур имеет преимущество над методами, в которых такая декомпозиция не учитывается.

Отметим, что при р =1 ни один из методов не имеет преимуществ над другими, так как /к = / ввиду простого равенства п1 = п1 + ... + пк, справедливого при любом к > 2 в силу предположения о характере разбиения на подкубовые структуры (1).

Таким образом, критерий эффективности /К < / определяет преимущество редукционных методов анализа ОЬАР-гиперкубов данных над нередукционными методами при всех р > 2 в классе методов полиномиальной степени сложности.

2. Критерий эффективности редукционных методов в одном подклассе полиномиально-логарифмической степени сложности

В работе [ 10] для методов анализа ОЬЛР-гиперкубов данных из класса полиномиально-логарифмической степени сложности ^ 1р(п) = { /(п; а,р,д) = пр(^а п)9 } показано, что при р > 1 и д > 1 выполняется критерий эффективности /к < /, устанавливающий преимущество в данном классе редукционных методов над нередукционными.

Рассмотрим ситуацию, когда задача анализа ОЬЛР-гиперкуба данных решается методами полиномиально-логарифмической степени сложности из рассматриваемого нами класса ^1р, где вычислительная сложность метода определяется формулой

/ (п,а) = и)-1, а> 1, (8)

т.е. подслучай [10], когда р =1 и д = -1.

В этом случае справедлива следующая теорема.

Теорема 1. Для методов из подкласса полиномиально-логарифмической степени сложности ^1р вида (8) выполняется критерий эффективности:

/й > /, (9)

т.е. эффективность нередукционных методов в этом подклассе выше, чем редукционных.

Доказательство. Вычислительная сложность редукционного метода из класса ^1р на каждой из подкубовых структур ОЬЛР-гиперкуба задается формулой

п'

/(п,а) = п)-1 = -—'—, г = 1, ...,к, к > 2,

1oga П

где п = п1 + ... + пк, и, следовательно, при любом 2 < к < п для каждого г имеем щ < п, откуда

п1 > п1 пк > пк (10)

1oga п1 1^а n, 1oga пк 1^а п.

Складывая неравенства (10) находим, что

п1 + + пк > п1 +... + пк = п (11)

1oga п1 ... 1oga пк ^а п 1^а п.

Принимая во внимание (11), получаем

к

/д(п,а) = ^/(п',а) > /^а^

'=1

что и требовалось доказать. Теорема 1 доказана.

Отметим, что приведенное доказательство распространяется на любой редукционный алгоритм из рассматриваемого подкласса, и, таким образом, доказанный в теореме 1 критерий эффективности /д > /, определяет преимущество нередукционных методов анализа ОЬЛР-гиперкубов данных над всеми редукционными методами в подклассе ^1р вида (8) методов полиномиально-логарифмической степени сложности.

3. Количественное сравнение эффективности методов в классе полиномиальной степени сложности

Приведенные в предыдущих разделах статьи критерии эффективности выявляют преимущество одних методов над другими (редукционных над нередукционными, и наоборот), но не дают ответа на вопрос: на сколько, или, точнее, во сколько раз одни методы эффективнее других.

В данном разделе статьи будет установлена количественная верхняя оценка уменьшения сложности редукционных методов анализа OLAP-кубов многомерных данных, принадлежащих классу F p полиномиальной степени сложности, при декомпозиции исходного гиперкуба на два подкуба, по сравнению с нередукционными методами.

Для сравнения эффективностей редукционных и нередукционных методов одного класса вначале определим относительную эффективность методов следующим образом.

Определение 1. Относительной эффективностью редукционного метода fR g F из класса сложности F по отношению к нередукционному методу f g F из того же класса сложности F называется отношение их вычислительных сложностей

Ef (f,fR ) = fR. (12)

Когда из контекста ясно о каких классах сложности идет речь будем обозначать относительную эффективность просто E.

Замечание 1. Таким образом, критерии эффективности редукционных методов по отношению к нередукционным методам в терминах относительной эффективности будут выглядеть следующим образом: E > 1 — редукционный метод эффективнее, E < 1 — эффективнее нередукционный метод, E = 1 — оба метода одинаково эффективны.

Итак, рассмотрим при k = 2 множество подкубовых структур l2 = {Li, L2} разбиений гиперкуба KnHm на два подкуба Kni Hm и Kn2 Hm, состоящих соответственно из n1 и n2 (n1 + n2 = n) подкубов исходной решетки L. Скажем, что {n1; n2} g l2, если n1 + n2 = n, т. е. множество l2 состоит из всевозможных таких пар, дающих в сумме n.

Вычислительная сложность методов из класса полиномиальной степени сложности задается следующими формулами:

- для нередукционного метода f g Fp имеем f (n,p) = np;

- для редукционного метода fR g F p при декомпозиции на две подкубовые структуры: f R(n,p) = f (n1;p) + f (n2,p) = np + n2, где {n1; n2} g l2 (в этом случае скажем, что редукционные методы определены на множестве l2 и введем для них обозначение fR ({n1; n2})).

Заметим, что вычислительная сложность нередукционного метода фиксирована, в то время как вычислительная сложность редукционного метода зависит от разбиений на подкубовые структуры. Таким образом, наибольшая относительная эффективность редукционного метода по сравнению с нередукционным методом достигается тогда, когда найдено разбиение с минимальной вычислительной сложностью редукционного метода.

Определим верхнюю границу относительной эффективности (уменьшения вычислительной сложности) редукционного метода fR g Fp из класса полиномиальной степени сложности, определенного на множестве l2 по отношению к нередукционному методу f g Fp из класса полиномиальной степени сложности как

E f p (f,fR)= max E =-f—,-v. (13)

{n1,n2}ec2 min fR inbn2j

{ni,n2>eL2 L2V 7

Далее будем использовать обозначение просто E, так как из контекста ясно, о чем идет речь.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Для редукционных методов на множестве l2 справедливо следующее утверждение. Теорема 2. Пусть число n является четным — n = 2m. Тогда для любого m > 1 верхняя граница относительной эффективности достигается на l2 при n1 = n2 = m, причем

E =2 p-1, (14)

и не зависит от m.

Доказательство. Относительная эффективность для любой пары {n1, n2} g l2 определяется по формуле

np

E = —p . (15)

n 1 + n2

Пусть для определенности всегда n1 = max {n1;n2}. Положим c = n1(n2)-1. Тогда c > 1 для любой пары {n1; n2} g l2.

1. Рассмотрим вначале случай, когда степень p равна двум (p = 2). Для величины E в силу (15) в данном случае справедливы соотношения:

E = n2 = (c +1)2 = c2 + 2c +1 = (16)

E n1 + n2 c2 + 1 c2 + 1 1 + c2 + 1. ( )

Поскольку при любом c > 1 всегда c2 + 1 > 2c, учитывая равенства (16), получаем, что

Е < 2, (17)

причем равенство Е = 2 (Е принимает максимальное значение) достигается в (17) в случае, когда с =1, т.е. при п = п2 = т. Таким образом, Е = 21 = 22-1 = 2р-1, что и требовалось доказать.

2. Рассмотрим теперь случай произвольных натуральных чисел р > 3. Имеем в силу (15) и выбора с > 1

Е-1 = пР + пР = ср + 1 = / Лр + 1 = Лр + 1

пр (с +1)р \с +и (с +1)р V с +и (с +1)р ' ^ '

Положим и = 1/(с +1). Учитывая (17), (18) находим, что

Е-1 = (1 - и)р + ир' (19)

Используя (19), найдем первую производную

йЕ-1

йи

Учитывая (20), находим

-р(1 - и)р-1 + рир-1. (20)

йи 2

Найдя вторую производную

й 2Е-1

йЕ-1 1 , ч

0 при и = -. (21)

р(р - 1) (1 - и)р-2 + р(р - 1) ир-2

йи2

видим, что при любом р > 3 она положительна:

й2Е-1 , ч /1 \р-2

йи2

1 р - 2 2р(р - 1)(2) > 0,

«=1/2 \2,

следовательно, в точке и =1/2 функция Е -1 как функция от и достигает своего минимума, равного

/1 \ р /1 \ р

E-1 = + ^ =2 ■ 2-р = 2-(р-1), (22)

соответственно в этой же точке значение E максимально, откуда получаем, что

^ = 2 р-1.

Теперь, функция E-1 как функция от о достигает своего минимума (и, соответственно, значение Е максимально), в силу выбора и, в точке 1/(о + 1) = 1/2, т.е. при о =1. Из (22) имеем

Е-1(1) = 2-(р-1),

следовательно,

Е(1) = 2(р-1), (23)

и, так как в силу выбора, о =1 при п1 = п2, и п1 + п2 = п = 2т, видим, что относительная эффективность Е принимает значение (23) при п1 = т, п2 = т, т.е. для {т, т} € £2, и это значение равно Е.

Таким образом установлено, что верхняя граница относительной эффективности Е = = 2(р-1), и она достигается при п1 = п2 = т. Теорема 2 полностью доказана.

Теорема 2 устанавливает точную верхнюю границу относительной эффективности (уменьшения вычислительной сложности) редукционных методов анализа ОЬЛР-гиперкуба данных по отношению к нередукционным методам в классе полиномиальной степени сложности при декомпозиции исходного гиперкуба на подкубовую структуру из двух кубов. Теорема 2 утверждает, что в условиях теоремы редукционные методы эффективнее нередукционных методов не более, чем в 2р-1 раз, и их максимальная эффективность достигается

при декомпозиции гиперкуба на два подкуба одинаковой размерности, равной размерности гиперкуба, и у которых размерности структур данных совпадают с их геометрической размерностью. При этом максимально достижимая эффективность редукционных методов по отношению к нередукционными не зависит от размерности кубов, а зависит от степени полиномиальной сложности метода, и чем сложнее методы, тем большую эффективность дает применение редукционных методов при такой декомпозиции данных.

Заключение

В настоящей работе исследованы математические методы анализа процессов редукции больших OLAP-гиперкубов многомерных данных на подкубовые компоненты. Установлены критерии уменьшения (увеличения) вычислительной производительности решения задач редукции гиперкубов данных по сравнению с традиционными нередукционными методами анализа информации в аналитических OLAP-системах. Для специального подкласса методов редукции полиномиальной степени сложности получены количественные верхние границы уменьшения их вычислительной сложности по сравнению с недекомпозиционными методами анализа OLAP-гиперкубов.

Представленные в данной работе результаты по анализу процессов редукции гиперкубов многомерных данных используются в междисциплинарном проекте РФФИ, выполняемом совместно медиками и специалистами в области информационных технологий, использующих принципы и методы виртуального моделирования искусственных биологических органов на основе OLAP-моделей, где OLAP применяется при описании больших иерархий из множеств продуктовых наборов, используемых пациентами при приеме пищи. Кроме того, это важно при on-line мониторинге огромного количества пациентов (миллионы) при анализе региональных медицинских данных или данных по странам и континентам.

Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований, грант 19-07-00686а.

Список литературы

1. Павловский Ю.Н., Смирнова Т.Г. Проблема декомпозиции в математическом моделировании. М: ФАЗИС, 1998. 272 с.

2. ЁлкинВ.И. Редукция нелинейных управляемых систем: декомпозиция и инвариантность по возмущениям. М: ФАЗИС, 2003. 208 с.

3. Цурков В.Н. Декомпозиция в задачах большой размерности. М.: Наука, 1981. 352 с.

4. Петровский А.Б., Лобанов В.Н. Многокритериальный выбор в пространстве признаков большой размерности: мультимедийная технология ПАКС-М // Искусственный интеллект и принятие решений. 2014. №3. С. 92-104.

5. Agarwal S., Agrawal R., Deshpande P.M., Gupta A., Naughton J., Ramakrishnan R., Sarawagi S. On the computation of multidimensional aggregates // Materialized views: techniques, implementations and applications / Ed. by A. Gupta, I.S. Mumick. Camb.: MIT Press, 1999. Ch. 24. Pp. 506-521. DOI: 10.7551/mitpress/4472.003.0030

6. Чубукова И.А. Data mining: учеб. пособие. 2-е изд. M.: Бином. Лаборатория знаний, 2008. 382 c.

7. Макаров И.М., Рахманкулов В.З., Ахрем А.А., Ровкин И.О. Исследование свойств гиперкубовых структур в OLAP-системах // Информационные технологии и вычислительные системы. 2005. №2. С. 4-9.

8. Ахрем А.А., Рахманкулов В.З., Южанин К.В. О сложности редукции моделей многомерных данных // Искусственный интеллект и принятие решений. 2016. № 4. С. 79-85.

9. Ахрем А.А., Рахманкулов В.З., Южанин К.В. Декомпозиционные методы анализа многомерных данных // Системные исследования. Методологические проблемы: ежегодник 2015-2018. Вып. 38. М., 2018. С. 88-97.

10. Ахрем А.А., Носов А.П., Рахманкулов В.З., Южанин К.В. Вычислительная производительность методов редукции гиперкубов многомерных данных аналитических OLAP-систем // Искусственный интеллект и принятие решений. 2019. № 4. С. 23-28.

11. Гуров С.И. Булевы алгебры, упорядоченные множества, решётки. 2-е изд. М.: URSS, 2013. 352 c.

12. Богомолов А.М., Салий В.Н. Алгебраические основы теории дискретных систем. М.: Наука. ФИЗМАТЛИТ. 1997. 368 с.

Mathematics and Mathematical Modeling, 2020, no. 4, pp. 52-64.

DOI: 10.24108/mathm.0420.0000221

Akhrem A. A., Nosov A. P., Rakhmankulov V. Z., Yuzhanin K. V., 2020.

Mathematics & Mathematical Modelling

http://mathmelpub.ru ISSN 2412-5911

Computational Complexity Analysis of Decomposition Methods of OLAP Hyper-cubes of Multidimensional Data

Akhrem A. A.1, Nosov A. P.1'*, Rakhmankulov V. Z.1, Yuzhanin K. V.1

Federal Research Center "Informatics and Control" of RAS, Moscow Russian Federation

* nosov@isa.ru

Keywords: OLAP systems, hypercube of multidimensional data, reduction methods, computational complexity, computational performance

Received: 17.06.2020, Revised: 15.08.2020.

The paper investigates the problems of reduction (decomposition) of multidimensional data models in the form of hypercube OLAP structures. OLAP data processing does not allow changes in the dimension of space. With the increase in data volumes, the productivity of computing cubic structures decreases. Methods for reducing large data cubes to sub-cubes with smaller volumes can solve the problem of reducing computing performance.

The reduction problems are considered for cases when the cube lattice has already determined criteria aggregation, and the cube decomposition into smaller cubes is needed to reduce the computation time of the full lattice when dynamically changing data in the cube.

The objective of the paper is to find conditions for reducing the computational complexity of solving data analysis problems by reduction methods, to obtain exact quantitative boundaries for reducing the complexity of decomposition methods from the class of polynomial degrees of complexity, to establish the nature of the dependence of computational performance on the structural properties of a hypercube, and to determine the quantitative boundaries of computational performance for solving decomposition problems of data aggregation .

The study of the computational complexity of decomposition methods for the analysis of multidimensional hyper-cubes of polynomial-logarithmic and polynomial degrees of complexity is carried out. An exact upper limit is found for reducing the complexity of decomposition methods for analyzing the initial OLAP data hypercube with respect to non-decomposition ones and based on them criteria are proved for the effective application of reduction methods for analyzing hypercube structures in comparison with traditional non-reduction methods.

Examples of decomposition methods of cube structures are presented, both reducing and increasing computational complexity in comparison with calculations using the full model.

The results obtained can be used in processing and analysis of information arrays of hypercube structures of analytical OLAP systems belonging to the BigData class, or ultra-large computer multidimensional data systems.

References

1. Pavlovskij Yu.N., Smirnova T.G. Problema dekompozitsii v matematicheskom modelirovanii [The problem of decomposition in mathematical modeling]. Moscow: FAZIS Publ., 1998. 272 p. (in Russian).

2. Elkin V.I. Reduktsiia nelinejnykh upravliaemykh system: dekompozitsiia i invariantnost' po vozmushcheniiam [Reduction of nonlinear controlled systems: decomposition and perturbation invariance]. Moscow: FAZIS Publ., 2003. 208 p. (in Russian).

3. Tsurkov V.N. Dekompozitsiia v zadachakh bol'shoj razmernosti [Decomposition in high-dimensional problems]. Moscow: Nauka Publ., 1981. 352 p. (in Russian).

4. Petrovsky A.B., Lobanov V.N. Multiple criteria choice in the attribute space of large dimension: multi-method technology PAKS-M. Iskusstvennyj intellect ipriniatie reshenij [Artificial Intelligence and Decision Making], 2014, no. 3, pp. 92-104 (in Russian).

5. Agarwal S., Agrawal R., Deshpande P.M., Gupta A., Naughton J., Ramakrishnan R., Sarawagi S. On the computation of multidimensional aggregates. Materialized views: techniques, implementations and applications / Ed. by A. Gupta, I.S. Mumick. Camb.: MIT Press, 1999. Ch. 24. Pp. 506-521. DOI: 10.7551/mitpress/4472.003.0030

6. Chubukova I.A. Data mining [Data mining]: a textbook. 2nd ed. Moscow: BINOM. Labora-toriia znanij Publ., 2008. 382 p. (in Russian).

7. Makarov I.M., Rakhmankulov V.Z., Akhrem A.A., Rovkin I.O. Investigation of properties of hypercube structures in OLAP systems. Informatsionnye tekhnologii i vychislitelnye sistemy [Information Technology and Computing Systems], 2005, no. 2, pp. 4-9 (in Russian).

8. Akhrem A.A., Rakhmankulov V.Z., Yuzhanin K.V. On complexity of the reduction of multidimensional data models. Scientific and Technical Information Processing, 2017, vol. 44, no. 6, pp. 406-411. DOI: 10.3103/S0147688217060028

9. Akhrem A.A., Rakhmankulov V.Z., Yuzhanin K.V. Dekompozitsionnye metody analiza mno-gomernykh dannykh [Decomposition methods for analyzing multidimensional data]. Sistemnye issledovaniia. Metodologicheskie problemy: ezhegodnik 2015{2018. Vypusk 38 [System research. Methodological problems: Yearbook 2015-2018. No. 38]. Moscow, 2018. Pp. 88-97 (in Russian).

10. Akhrem A.A., Nosov A.P., Rakhmankulov V.Z., Yuzhanin K.V. Computational performance of hypercube reduction methods for multidimensional data of analytical OLAP system. Iskusstvennyj intellect ipriniatie reshenij [Artificial Intelligence and Decision Making], 2019, no. 4, pp. 23-28 (in Russian).

11. Gurov S.I. Bulevy algebry, uporiadochennye mnozhestva, reshetki [Boolean algebras, ordered sets, lattices]. 2nd ed. Moscow: URSS Publ., 2013. 352 p. (in Russian).

12. Bogomolov A.M., Salij V.N. Algebraicheskie osnovy teorii diskretnykh system [Algebraic foundations of the theory of discrete systems]. Moscow: Nauka. Fizmatlit Publ., 1997. 368 p. (in Russian).

i Надоели баннеры? Вы всегда можете отключить рекламу.