Математика и математическое моделирование. 2021. №1. С. 27-42.
DOI: 10.24108/mathm.0121.0000244
Ахрем А. А., Носов А. П., Рахманкулов В. 3., 2021.
Математика к Математическое
моделирование
Сетевое научное издание http://mathmelpub.ru ISSN 2412-5911
ХДК 004.6+57.087.1
Анализ эффективности методов полиномиальной степени сложности при декомпозиции ОЬАР-кубов многомерных данных
Ахрем А. А.1, Носов А. П.1'*, Рахманкулов В. З.1
1 Федеральный исследовательский центр «Информатика и управление» РАН, Москва, Россия
* nosov@isa.ru
В работе исследуются проблемы редукции (декомпозиции) моделей многомерных данных в виде гиперкубовых ОЬАР-структур. Рассматривается случай, когда структура данных определяется решеткой, разбивающей гиперкуб на нечетное количество подкубов, и декомпозиция гиперкуба осуществляется на этом множестве подкубовых структур. Установлена точная верхняя граница увеличения вычислительной производительности методов анализа ОЬАР-данных на подкубах, определяющая эффективность декомпозиционного подхода по сравнению с анализом ОЬАР-дан-ных на полном нередуцированном гиперкубе. Проведено сравнение эффективности декомпозиции гиперкуба на два подкуба на множествах, состоящих из четного и нечетного числа подкубовых структур и показано, что при большом дроблении данных для методов полиномиальной степени сложности эффективность декомпозиции практически не зависит от этого фактора и растет с ростом степени сложности применяемых методов.
Ключевые слова: ОЬАР-система, декомпозиция, вычислительная производительность, гиперкуб ОЬАР-данных, полиномиальная сложность
Представлена в редакцию: 21.12.2020.
Введение
Обработка и анализ сверхбольших массивов информации гиперкубов аналитических ОЬАР-систем относятся к классу Б1§Ба1а и требуют больших затрат машинного времени, с увеличением объемов данных падает производительность вычислений кубовых структур, и эта проблема с распространением цифровых технологий практически на все сферы человеческой деятельности становится как никогда актуальной. Напомним, что указанные системы предназначены для анализа и обобщения детальных данных, накапливаемых в базах и хранилищах данных, при анализе бизнес-процессов и поддержке принятия жизненно важных решений в промышленности, финансовой сфере, торговле, медицине и других областях, использующих информационные технологии [1, 2, 3, 4].
Один из подходов, позволяющий решать проблему снижения производительности вычислений, связан с декомпозицией больших кубов данных на подкубы с меньшими объемами. Задачи декомпозиции структур многомерных данных с целью ускорения вычислений и увеличения производительности рассматриваются во многих работах отечественых и зарубежных авторов [5, 6, 7, 8, 9]. При решении задачи декомпозиции необходимо исследовать влияние выбранного способа декомпозиции на вычислительную сложность задач. OLAP обработка данных не допускает изменения размерности пространства, однако, поскольку вычислительная сложность OLAP-данных определяется не размерностью гиперкуба, а размером решетки подкубов, которая задает на нем структуру данных, становится возможной декомпозиция на подкубовых структрах.
В работах авторов [10, 11, 12] по математическим методам анализа многомерных данных аналитических OLAP-систем рассматриваются задачи декомпозиции куба на меньшие по размерности подкубы для снижения времени вычисления полной решётки при динамическом изменении данных в кубе, когда агрегирование критериев уже определено решёткой куба. Для методов анализа многомерных данных были введены классы вычислительной сложности, определяющие вычислительную производительность этих методов при обработке данных гиперкуба, и исследовались способы редукции моделей многомерных данных, способствующих уменьшению вычислительной сложности решения задач с большими и сверхбольшими исходными данными.
В работах [10, 11] исследуются математические методы декомпозиции (редукции) больших гиперкубов многомерных данных аналитических OLAP-систем на подкубовые компоненты. Показана возможность уменьшения вычислительной сложности методов решения задач при декомпозиции данных по сравнению с применением этих методов к анализу больших массивов информации, накапливаемых непосредственно в гиперкубах многомерных OLAP-данных, и установлены критерии уменьшения или увеличения вычислительной производительности при применении методов на подкубовых компонентах (редукционные методы) по сравнению с применением этих методов на гиперкубе (нередукционные или традиционные методы) в зависимости от классов той или иной степеней сложности рассматриваемых методов. Заметим, что полученные в этих работах критерии уменьшения или увеличения вычислительной сложности методов решения задач анализа OLAP-гиперкубов многомерных данных устанавливают лишь характер изменения этих величин при декомпозиции, но не дают их количественной оценки.
В работе [12] было проведено количественное сравнение эффективности применения редукционных методов анализа OLAP-данных по сравнению с традиционными методами в классе полиномиальной степени сложности для случая, когда решетка исходного гиперкуба данных содержит четное число подкубов.
В настоящей статье, являющейся продолжением работы [12], получена точная количественная оценка уменьшения вычислительной сложности редукционных методов анализа
ОЬЛР-кубов по сравнению с нередукционными методами в ситуации, когда данные методы имеют полиномиальную степень сложности, а решетка исходного гиперкуба данных состоит из нечетного числа подкубов.
1. Критерии уменьшения вычислительной сложности редукционных методов решения задач анализа ОЬЛР-гиперкубов данных
В настоящем разделе статьи будем считать, что задан гиперкуб КпНт с решеткой Ь, состоящей из п подкубов. Допустим также, что на этой решетке Ь решаются задачи анализа многомерных ОЬЛР-данных из некоторого непустого множества С(КпНт). Предположим, что структура данных из С(КпНт) допускают декомпозицию (редукцию) гиперкуба КпНт на к (2 < к < п) непересекающихся подкубовых структур Ь^ ..., Ьк, в каждую из которых входят пь ..., пк подкубов исходной решетки Ь таким образом, что п1 + ... + пк = п.
Пусть вычислительная сложность / метода решения задачи анализа данных из множества С(КпНт) принадлежит классу полиномиальной вычислительной степени сложности [12]:
- Гр(п) = {/(р, п) = пр: р Е М}, где N — множество натуральных чисел.
Подкласс класса ^р(п) при р > 2 далее будем обозначать ^ (п).
Напомним [12], что классы вычислительной степени сложности определяют значения вычислительной сложности / = / (■, п) нередукционных (недекомпозиционных) методов на всей структуре данных гиперкуба, а вычислительная сложность /К редукционных (декомпозиционных) методов составляется из вычислительных сложностей метода на подкубовых структурах ¡^ = f (■, п^), при этом полагаем
/й(-,п) = Е f (-,п*), (1)
г=1
и критерий эффективности методов определяется путем сравнения вычислительных сложностей редукционного и нередукционного методов из одного класса, и эффективнее считается тот из методов, для которого вычислительная сложность меньше.
В работах авторов [11, 12] были доказаны следующие критерии уменьшения вычислительной сложности (увеличения вычислительной производительности) редукционных методов анализа ОЬЛР-кубов многомерных данных из класса полиномиальной степени сложности.
Теорема 1. Для методов полиномиальной степени сложности при р > 2 справедливо следующее соотношение:
/(Р,п) >/(Р,п1) + ... + /(Р,пк). (2)
При р =1 ни один из методов не имеет преимуществ над другими, так как /К = / ввиду простого равенства п1 = п1 +... + п1к, справедливого при любом к > 2 в силу предположения о характере разбиения на подкубовые структуры.
Отметим, что теорема 1 устанавливает необходимые и достаточные условия уменьшения вычислительной сложности редукционных методов при решении задач анализа OLAP-ги-перкубов из подкласса Fp (n) полиномиальной степени сложности, который, в силу тривиальности случая p = 1, содержит все возможные случаи, представляющие какой-либо интерес для исследований. Заметим также, что полученные в теореме 1 критерии уменьшения вычислительной сложности методов решения задач анализа OLAP-гиперкубов многомерных данных не дают количественной оценки значения величины уменьшения вычислительной сложности редукционных методов.
Далее для подкласса Fp(n) редукционных методов полиномиальной степеней сложности даются точные количественные оценки величины уменьшения вычислительной сложности.
2. Точная верхняя граница уменьшения вычислительной сложности редукционных методов полиномиальной степени сложности при декомпозиции OLAP-гиперкуба данных на два подкуба
В настоящем разделе статьи рассмотрим случай, когда нередукционный метод f и редукционный метод fR декомпозиции исходного гиперкуба KnHm с решеткой L на два подкуба Kni Hm и Kn2 Hm, состоящих соответственно из n и n2 подкубов решетки L принадлежат подклассу полиномиальной сложности Ff (n). Напомним [12], что относительной эффективностью редукционного метода fR из класса сложности F по отношению к нередукционному методу f из того же класса сложности F называется отношение их вычислительных сложностей E = f/fR, и это отношение зависит от способа разбиения гиперкуба на подкубовые структуры. Отметим, что в той же работе [12] рассмотрена ситуация, при которой решетка L имеет четное число подкубов, и был получен следующий результат.
Теорема 2. Пусть число n является четным: n = 2r. Тогда точная верхняя граница относительной эффективности
Ef р (f,fR )= max E =-f-?-v (3)
(ni,n2}e£2 min fR |ni,n2i
{ni,n2>eL2 L2V 4
редукционного метода fR из класса полиномиальной степени сложности по отношению к нередукционному методу f того же класса сложности достигается на множестве подкубовых структур L2 = {L1,L2} разбиений гиперкуба KnHm на два подкуба Kni Hm и Kn2 Hm, состоящих соответственно из n1 и n2 (n1 + n2 = n) подкубов исходной решетки L при
n1 = n2 = r, причем
E =2p-1. (4)
Отметим, что теорема 2 устанавливает точную верхнюю границу уменьшения вычислительной сложности редукционных методов анализа OLAP-гиперкуба данных по отношению к нередукционным методам в классе полиномиальной степени сложности при декомпозиции исходного гиперкуба KnHm на два подкуба Kni Hm и Kn2 Hm. Заметим также, что
в силу (4) максимально достигаемая эффективность редукционных методов по отношению к нередукционным в случае, когда решетка Ь гиперкуба КпНт имеет четное число подкубов, не зависит от размерности решетки, а зависит лишь от степени полиномиальной сложности метода, и чем сложнее методы, тем большую эффективность дает применение редукционных методов при такой декомпозиции данных исходного ОЬЛР-гиперкуба КпНт.
Исследуем теперь ситуацию, когда декомпозиция гиперкуба для редукционного метода /к из подкласса полиномиальной степени сложности ^ (п) осуществляется на множестве подкубовых структур £2 = {Ь1, Ь2} разбиений гиперкуба КпНт на два подкуба Кп1 Нт и Кп2 Нт, состоящих соответственно из п1 и п2 (п1 + п2 = п) подкубов исходной решетки Ь при нечетном п: п = 2г + 1, г — натуральное число.
В этом случае для верхней границы относительной эффективности (3) справедлива следующая оценка.
Теорема 3. Пусть число п является нечетным: п = 2г + 1. Тогда точная верхняя граница относительной эффективности редукционного метода /к из подкласса полиномиальной степени сложности (п) по отношению к нередукционному методу / того же подкласса сложности ^(п) достигается на С2 при п1 = г, п2 = г + 1 вне зависимости от г, и вычисляется по формуле
Е = 2р
1
2пр
(5)
(п - 1)р + (п + 1)
Доказательство. Относительная эффективность для любой пары {п1,п2} € С2 определяется по формуле
пр
Е = пр—-р. (6)
п1 + п2
Пусть для определенности п2 > п1. Тогда для любой такой пары {п1, п2} € £2 имеем, что 1 < п1 < г и г + 1 < п2 < 2г.
1. Рассмотрим вначале случай, когда степень р равна двум (р = 2).
Положим с = п1/п2. Тогда для любой пары {п1, п2} Е £2 имеем, что 0 < с < 1, и также,
<с +1)2 = (I + 1)2 = (^ = £ (7)
с2 + 1 = (ш)2 + 1 = п1—п2. (8)
п2 п22
п2 п2
Для величины Е в силу (6)-(8) в данном случае справедливы соотношения
Е = п2 = (с +1)2 = с2 + 2с +1 = 1 + ^^
п2 + п2 с2 + 1 с2 + 1 + с2 + 1. ()
Так как
2с _1 = 2с - с2 - 1 < 0
с2 + 1 с2 + 1 с2 + 1
2 с
то при любом 0 < с < 1 всегда -< 1, и учитывая (9), получаем, что
с2 + 1
Е < 2, (10)
причем Е принимает максимальное значение в (10) в случае, когда с ^ 1, так как функция
Е = Е(с) монотонно возрастает при с € (0,1), поскольку ее производная ^ = —
(хс (с I 1)
строго положительна на этом интервале.
Теперь найдем разбиение С2 на пары (п^п2}, при котором достигается максимальная относительная эффективность. Так как п = п — п2, имеем с = п/п2 — 1. Поскольку п = 2 г + 1 и п2 может принимать только значения п2 = г + к, к = 1, 2, ..., г, в силу предположения п2 > п^ получаем для последовательных значений ск при к =1, 2, ..., г
2г + 1 2г + 1 — г — к г + 1 — к
ск = —7Т — 1 =-¡1-=-, (11)
г + к г + к г + к
откуда видим, что ск принимает максимальное значение, равное г/(г + 1) при к =1, так как с ростом к числитель в (11) уменьшается, а знаменатель растет, и, таким образом, значение дроби (11) лишь уменьшается. Как уже было отмечено в ходе доказательства, относительная эффективность Е увеличивается с ростом с, поэтому достигает максимального значения при максимально возможном значении ск, т. е. при к =1 на разбиении, когда п2 = г + 1, и соответственно п1 = г.
Найдем максимальное значение Е при таком разбиении, это можно сделать непосредственно из формулы (6) при р =2. Имея ввиду, что г = (п — 1)/2 находим
2 2 2 п2 п2 п2
Е
п2 + п2 _ г2 + (г + 1)2 _ (п — 1)2 /п — 1 + Л 2 _
_+ V ^^ + 1)
п2 2/ п2 А / 2п2 А (12)
= (п — 1)2 + (п + 1)2 = ^(п — 1)2 + (п +1)2У = \(п — 1)2 + (п +1)^ , ( ) 22 + 22
и получаем, что (12) определяет точную верхнюю достижимую границу Е, которая зависит от п.
Замечание 1. Условие Е < 2, доказанное ранее в (10), влечет необходимость
2п2
< 1.
(п — 1)2 + (п + 1)2 Проверим, что это так. Действительно,
(п — 1)2 + (п + 1)2 = п2 — 2п + 1 + п2 + 2п + 1 = 2п2 + 2,
2п2
а ^ 2 + 2 < 1 при любом натуральном п, поэтому, согласно (12) действительно имеем Е < 2, что согласуется с (10).
2. Рассмотрим теперь общий случай при произвольных натуральных числах р > 3. Идеи доказательства в этом случае в основном остаются те же, что и при р = 2. Выберем также
с = п1/п2. Тогда
(с +1)Р = (Ш + 1)" = (Ш±п2 у = пр (13)
\п2 / V п2 / п2
и
с +1= (^ У +1 = ^. (14)
Для величины Е-1 в силу (6), (13), (14) имеет место
'1 + '2 СР + 1 ( С у 1 ( 1 \2
Е ' (С +1)2 1с +1/ + (С +1)2 V С +1У + (С +1)2. (15)
Положим и = 1/(с +1), тогда, учитывая (15), получаем, что
Е-1 = (1 - и)2 + и2, (16)
при 1/2 < и < 1 (так как 0 < с < 1).
Используя (16), найдем первую производную:
-Е-1
-— = —р(1 - и)2-1 + ри2-1, (17)
-и
которая строго положительна, так как 1 — и < и при всех и € (1/2, 1). В самом деле, обратное предположение 1 — и > и влечет, что 1 > 2и и и < 1/2. Поэтому
( 1 _ и\2-1
—р(1 — и)2-1 + ри2-1 = — ( +1 > 0.
Следовательно, функция Е-1(и) монотонно возрастает на этом интервале, т.е. для любых и1 < и2 из интервала (1/2, 1) выполняется Е-1(и1) < Е-1(и2), а значит, и функция Е(и), как обратная функция, монотонно убывает, т.е. для любых и1 < и2 из интервала (1/2, 1) выполняется Е(и1) > Е(и2).
Поскольку и изменяется от 1/2 до 1 на интервале (1/2, 1), когда с меняется соответственно от 1 до 0 на интервале (0, 1), то при обратном изменении С от 0 до 1 на интервале (0, 1) функция Е(с) уже монотонно возрастает, и для любых с1 < с2 из интервала (0, 1) выполняется Е(с1 ) < Е(с2).
Теперь, чтобы найти разбиение £2 на пары {п1, п2 }, при котором функция Е(с) принимает наибольшее значение, воспользуемся конструкцией (11), которая не зависит от р, где уже показано, что при п2 = г + к, к = 1, 2, ..., г, для последовательных значений ск при к =1, 2, ..., г выполняется с1 > ск для любого к > 1. Следовательно, Е(ск) < Е(с1) при к = 2, . . . , г и максимальная эффективность достигается на разбиении, когда '2 = г + 1, и, соответственно, '1 = г.
Найдем максимальное значение Е при таком разбиении. Непосредственно из формулы (15) имеем
Е =<£±12, (18)
С2 + 1 ' v 7
и, подставляя значение с1 = г/(г + 1) в (18), находим
е = (2г,+. (19)
г2 + (г + 1)2
Переходя к п = 2г + 1, откуда г = (п — 1)/2, окончательно получаем
Е = (2г + 1)Р = пП = пП =
= гР + (г + 1)Р = гР + (г + 1)Р = (п — 1)Р + / п — 1 + ЛР =
2р V 2 )
=_ПР_= *>(_ПР_1 =2р-1^_2ПР_1 (20)
(п — 1)Р + (п + 1)Р ^(п — 1)Р + (п +1)^ \(п — 1)Р + (п +1)р; ' ^ ;
2Р 2Р
т.е. точная верхняя граница Е действительно вычисляется по формуле (5) и достигается на разбиении £2 при п = г и п2 = г + 1. Теорема 3 полностью доказана.
Теорема 3 устанавливает точную количественную оценку уменьшения вычислительной сложности (относительную эффективность) декомпозиционного метода fк € (п) по сравнению с традиционными методами анализа ОЬАР-данных, принадлежащими тому же классу сложности, когда решетка исходного гиперкуба имеет нечетное число подкубов. Отметим также, что в силу (5) максимально достигаемая эффективность редукционных методов по отношению к нередукционным в случае, когда решетка Ь гиперкуба КпНт имеет нечетное число подкубов, не зависит от размерности гиперкуба, а зависит от размерности решетки и от степени сложности метода, и чем сложнее методы и выше разбиение решеткой, тем большую эффективность дает применение редукционных методов при такой декомпозиции данных исходного ОЬАР-гиперкуба.
3. Сравнение точных верхних границ уменьшения вычислительной сложности для решеток с четным и нечетным количеством подкубов
Сравним точные значения верхних границ уменьшения вычислительной сложности для решеток с четным (формула (4)) и нечетным (формула (5)) количеством подкубов. Выражения (4) и (5) отличаются сомножителем, зависящим от п, который появляется в случае нечетного числа подкубов в структуре данных гиперкуба и имеет вид
2пр
Я(п) = 7-7^-7-7Г". (21)
(п — 1)р + (п + 1)р 4 у
Для Я(п), определенного в (21), справедливо следующее утверждение.
Утверждение 1. При любых натуральных п > 2 и р > 2
|Я(п)| < 1. (22)
Кроме того, функция Я(п) строго монотонно возрастает с ростом п при фиксированном р и при любом натуральном р > 2
Иш Я(п) = 1. (23)
Доказательство. Пусть т = 2п и к — натуральное число (т/2 < к < т). Выберем с = т — к/к. При таком выборе имеем 0 < с < 1, и тогда для функции
кР + (т — к)Р
Я"
тР
по аналогии с (15) имеет место представление
= к2 + (т — к)2 = с2 + 1 = / _ \2 + 1
т2 (с + 1)2 V с +1/ (с + 1)2.
Рассмотрим обратную к Я-1 функцию
т2
Я(т, к) = ----—. (25)
^ У к2 + (т — к)2
Для к = т/2 + 1 получим представление Я(п) в виде
Г1. , 2п2 т2
Я(п)
(п — 1)2 + (п + 1)2 2(2-1^ (т/2 — 1)2 + (т/2 + 1)2)
т
= 21-2 ■ ——-г- = 21-2 Я(т, (т/2 + 1)). (26)
к2 + (т — к)2
Далее используем схему доказательства теоремы 2 из [12] при четном т. Положим и = 1/(с +1). Тогда, учитывая (24), получаем, что
Я-1 = (1 — и)2 + и2 (27)
при 1/2 < и < 1 (так как 0 < с < 1). Используя (27), найдем первую производную:
-Я-1
—р(1 — и)(2-1) + ри(2-1), (28)
-и
которая, как нетрудно заметить, обращается в нуль в одной из точек полуинтервала [1/2, 1), а именно
-Я-1 1 , ч
— = 0 при и =2. (29)
Находим вторую производную:
-2 /?-1
= р(р — 1)(1 — и)(2-2) + р(р — 1)и(2-2). (30)
-и2
Видим, что при любом р > 2 она положительна:
-2Я-1 ( 1 \(2-2)
= 2р(р — 1) - > 0. (31)
«=1/2 \2/
-и2
Следовательно, в точке и = 1/2 функция Я 1, как функция от и, достигает своего строгого минимума, равного
Я
1
'1 N 2 /1 \ 2
v-)+(-)=2 ■ 2-2 = 2-(2-1). (32)
В этой же точке значение Я(т) максимально и
Я(т, к) = тах Я(т, к) = 2(2-1). (33)
Согласно теореме 2, максимум Я(т, к) достигается при к = т/2, в чем можно убедиться непосредственно, так как в силу выбора и, при и = 1/2, в точке 1/(с + 1) = 1/2 получаем с =1 и к = т — к, т.е. 2к = т или к = т/2.
Таким образом, Я(т, к) < Я(т, т/2) = 2Р-1 при любом натуральном т/2 < к < т, откуда получаем Я(т, (т/2 + 1)) < 2Р-1 и из (26) видим, что
R(n) = 21-P R(m, (m/2 + 1)) < 21-p ■ 2p-1 = 1,
(34)
Это доказывает неравенство (22) утверждения 1.
Монотонное возрастание Я(п) по п является естественным следствием монотонного возрастания Я(т, (т/2 + 1)) по т. Чтобы убедиться в последнем, рассмотрим вначале последовательность ст значений с при к = т/2 + 1. Имеем
т — к т — т/2 — 1 т — 2 к=т/2+1 к т/2 + 1 т + 2'
Для любых натуральных т2 > т1 выполняется
(35)
m2 — 2 m1 — 2 4(m2 — m1)
> 0,
(36)
2 1 т2 + 2 т1 + 2 (т2 + 2)(т1 + 2)
т.е. ст2 > ст1 при любых т2 > т1, так что последовательность ст монотонно возрастает согласно известному определению монотонно возрастающей последовательности. Далее,
Иш ст = Иш
m2
1,
(37)
т^-те т^-те т + 2
и последовательность ст с ростом т стремится к своему предельному значению, равному единице.
Используя те же рассуждения, что и при доказательстве теоремы 3, приходим к выводу, что ит = 1/(ст + 1) стремится строго монотонно справа налево к предельному значению 1/2 при изменении на полуинтервале [1/2, 1), когда ст стремится к 1 слева направо на полуинтервале (0, 1]. Кроме того,
lim R- = lim [(1 — um)p + м^] =
1p 1--г) +
1p
Иш
т^те
cm + 1 J V + 1 1 \Р] (1 \ Р (1ЧР
2
(cm+j ^+ J - (2) +G) 2 (P (38)
Соответственно,
JimR(m, (m/2 + = 2P-1. (39)
Учитывая (26), находим
lim R(n) = 21-P ■ lim Rfm, (m/2 + 1)) = 21-P ■ 2P-1 = 1, (40)
и^ж 4 7 m—>oo V 4 ' ' J
что и доказывает равенство (23) утверждения 1. Утверждение 1 полностью доказано.
В утверждении 1 получено следующее свойство: верхняя граница эффективности редукционных методов на решетках с разбиением гиперкуба на нечетное число подкубов отличается от верхней границы эффективности на решетках с разбиением гиперкуба на четное число подкубов. Наиболее сильно отличие в верхних границах проявляется при малых п, но с ростом п оно «сглаживается».
Замечание 2. Можно и непосредственно проверить, что
2п2
Ит Я(п) = Ит ^-г-;-— = 1.
(п — 1)2 + (п + 1)2
Приведенное же в работе доказательство утверждения 1, с одной стороны, позволяет увидеть монотонность стремления Я(п) к предельному значению, а с другой, раскрывает структурные особенности различий в декомпозиции на четной и нечетной решетках.
Следствием теорем 2, 3 и утверждения 1 является тот факт, что при достаточно больших п при одинаковой степени сложности эффективность редукционных методов на решетках с нечетным числом подкубов сопоставима с эффективностью на решетках с четным числом подкубов.
Следствие 1. При нечетном п точная верхняя граница относительной эффективности редукционного метода fк из подкласса полиномиальной степени сложности Е2(п) по отношению к нередукционному методу f того же подкласса сложности ^(п) при п ^ то вычисляется по формуле
Е = 22-1 (41)
и совпадает с верхней границей относительной эффективности редукционного метода fк из подкласса полиномиальной степени сложности ^(п) по отношению к нередукционному методу f того же подкласса сложности ^(п) при четном п.
Отметим, что на решетках с четным числом подкубов точная верхняя граница (41) достигается на множестве С2 при п1 = п 2, тогда как на решетках с нечетным числом подкубов эта граница недостижима, хотя значение относительной эффективности становится сколь угодно близким к границе с ростом п, и наилучшее приближение на множестве С2 достигается при п1 = п2 — 1 .
Заключение
Исследованы проблемы редукции (декомпозиции) моделей многомерных данных в виде гиперкубовых ОЬЛР-структур. Рассмотрен случай, когда структура данных определяется решеткой, разбивающей гиперкуб на нечетное количество подкубов, и декомпозиция гиперкуба осуществляется на два подкуба на множестве, состоящем из нечетного числа подкубо-вых структур, методами полиномиальной степени сложности.
Установлена точная количественная оценка уменьшения вычислительной сложности (повышения относительной эффективности) декомпозиционного метода по сравнению с традиционными методами анализа ОЬЛР-данных, принадлежащими тому же классу сложности.
Показано, что максимально возможная эффективность редукционных методов по отношению к нередукционным методам в случае, когда решетка разбивает гиперкуб на нечетное число подкубов, не зависит от размерности гиперкуба, а зависит от размерности решетки и от степени сложности метода, и чем сложнее методы и выше разбиение решеткой, тем большую эффективность дает применение редукционных методов при такой декомпозиции данных исходного OLAP-гиперкуба.
Проведено сравнение эффективности редукционных методов при декомпозиции гиперкуба на два подкуба на множествах, состоящих из четного и нечетного числа подкубовых структур. Получены свойства, которыми верхняя граница эффективности редукционных методов на решетках с разбиением гиперкуба на нечетное число подкубов отличается от верхней границы эффективности на решетках с разбиением гиперкуба на четное число подкубов. Показано, что эти отличия "сглаживаются" с увеличением размерности решетки, и что при большом дроблении данных для методов полиномиальной степени сложности на нечетных решетках максимальная эффективность редукционных методов практически достигается и сопоставима с их эффективностью на четных решетках.
Изложенные в статье результаты по редукции OLAP-гиперкубов используются в междисциплинарном проекте РФФИ, исследующим принципы и методы виртуального моделирования искусственных биологических органов на основе моделей OLAP и Data Mining.
Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований, грант 19-07-00686 а.
Список литературы
1. Андрейчиков A.B., Андрейчикова О.Н. Интеллектуальные информационные системы: учеб. М: Финансы и статистика, 2004. 422 с.
2. Ноженкова Л.Ф., Шайдуров B.B. OLAP-технологии оперативной информационно-аналитической поддержки организационного управления // Информационные технологии и вычислительные системы. 2010. №2. С. 15-27.
3. Замятин A.B. Введение в интеллектуальный анализ данных: учеб. пособие. Томск: Изд-во Томского гос. ун-та, 2016. 120 с.
4. Вайнштейн Ю.В. Планирование медицинской помощи с применением аналитических OLAP-моделей // Вестник Томского гос. ун-та. Сер. «Математика. Кибернетика. Информатика». 2004. Приложение № 8470, 9(II). С. 16-22.
5. Петровский А.Б., Ройзензон Г.В. Снижение размерности признакового пространства в задачах многокритериальной классификации: стратификация кортежей // 11-я национ. конф. по искусственному интеллекту с международным участием: КИИ-2008 (г. Дубна, Россия, 29 сентября - 3 октября 2008 г.): Тр. М.: ЛЕНАНД, 2008. Т. 2. С. 262-270.
6. Петровский А.Б., Лобанов В.Н. Многокритериальный выбор в пространстве признаков большой размерности: мультимедийная технология ПАКС-М // Искусственный интеллект и принятие решений. 2014. №3. С. 92-104.
7. Agarwal S., Agrawal R., Deshpande P.M., Gupta A., Naughton J.F., Ramakrishnan R., Sarawagi S. On the computation of multidimensional aggregates // Materialized views: techniques, implementations and applications / Ed. by A. Gupta. Camb.: MIT Press, 1999. Pp. 506-521. DOI: 10.7551/mitpress/4472.003.0030
8. ЧубуковаИ.А. Data Mining: учеб. пособие. 2-е изд. М: Бином. Лаборатория знаний, 2008. 382 с.
9. Макаров И.М., Рахманкулов В.З., Ахрем А.А., Ровкин И.О. Исследование свойств гиперкубовых структур в OLAP-системах // Информационные технологии и вычислительные системы. 2005. №2. С. 4-9.
10. Akhrem A.A., Rakhmankulov V.Z., Yuzhanin K.V. On the complexity of the reduction of multidimensional data models// Scientific and Technical Information Processing. 2017. Vol. 44, no. 6. Pp. 406-411. DOI: 10.3103/S0147688217060028
11. Ахрем А.А., Носов А.П., Рахманкулов В.З., Южанин К.В. Вычислительная производительность методов редукции гиперкубов многомерных данных аналитических OLAP-систем // DOI: 10.14357/20718594190403
12. Ахрем А.А., Носов А.П., Рахманкулов В.З., Южанин К.В. Анализ вычислительной сложности методов декомпозиции OLAP-гиперкубов многомерных данных // Математика и математическое моделирование. 2020. № 4. С. 52-64. DOI: 10.24108/mathm.0420.0000221
Mathematics and Mathematical Modeling, 2021, no. 1, pp. 27-42.
DOI: 10.24108/mathm.0121.0000244
I Akhrem A. A., Nosov A. P., Rakhmankulov V Z., 2021.
Mathematics & Mathematical Modelling
http://mathmelpub.ru ISSN 2412-5911
Analysing Efficiency Methods of Polynomial Complexity Degree in Multidimensional OLAP Cube Data Decomposition
Akhrem A. A.1, Nosov A. P.1'*, Rakhmankulov V. Z.1
Federal Research Center "Informatics and Control" of RAS, Moscow, Russian Federation
* nosov@isa.ru
Keywords: OLAP-system, decomposition, computational performance, OLAP-data hypercube, polynomial complexity
Received: 21.12.2020.
The article investigates the problems of reduction (decomposition) of multidimensional data models in terms of hypercube OLAP structures. Describes the case when a data structure is defined by the array that slices and dices the hypercube into the odd number of subcubes, and this set of subcube structures becomes decomposed. Defines an exact upper bound for increasing a computational performance of methods to analyze OLAP data on subcubes, which determines the decomposition approach efficiency in comparison with the OLAP data analysis on a complete unreduced hypercube. A compared efficiency of the hypercube decomposition into two subcubes on the sets consisting of the even and odd number of subcube structures has shown that with considerable data partitioning for methods of a polynomial complexity degree the decomposition efficiency essentially is independent on this factor and rises with increasing complexity degree of methods applied.
When using the mathematical methods to study decomposition (reduction) of large hyper-cubes of multidimensional data of analytical OLAP systems into subcube components, there is a need to find conditions for minimising the computational complexity of methods to solve the problems of the OLAP hyper-cube analysis during data decomposition in comparison with using these methods for analyzing large amounts of information that is accumulated directly in the hyper-cubes of multidimensional OLAP data to establish the criteria for decreasing or increasing computational performance when applying methods on the subcube components (reduction methods) as compared to applying these methods on a hypercube (non-reduction or traditional methods), depending on one or another degree of complexity of complex methods.
The article provides an accurate quantitative estimate of decreasing computational complexity of reduction methods for analyzing OLAP cubes as compared to the non-reduction methods in the case when said methods have the polynomial complexity and the original hypercube array of data comprises the odd number of subcubes.
References
1. Andrejchikov A.V., Andrejchikova O.N. Intellektual'nye informatsionnye sistemy [Intelligent information systems]: atextbook. Moscow: Finansy i statistikaPubl., 2004.422 p. (inRussian).
2. NozhenkovaL.F., Shaydurov V.V. OLAP-technology of operative information-analytical support of organizational management. Informatsionnye tekhnologii i vychislitel'nye sistemy [Information Technologies and Computing Systems], 2010, no. 2, pp. 15-27 (in Russian).
3. Zamiatin A.V. Vvedenie v intellektual'nyj analiz dannykh [Introduction to data mining]: a textbook. Tomsk: Tomsk State Univ. Publ., 2016. 120 p. (in Russian).
4. Vainstein Yu.V. Planning of medical care using analytical OLAP models. Vestnik Tomskogo gosudarstvennogo universiteta. Ser. Matematika. Kibernetika. Informatika [Bulletin of the Tomsk State Univ. Ser. Mathematics. Cybernetics. Computer science], 2004, suppl. No. 8470, 9(II), pp. 16-22 (in Russian).
5. Petrovsky A.B., Rojzenson G.V. Snizhenierazmernosti priznakovogoprostranstvavzadachakh mnogokriterial'noj klassifikatsii: stratifikatsiia kortezhej [Reducing the dimension of the feature space in multi-criteria classification problems: stratification of tuples]. 11-ia natsionalnaia konferentsiiapo iskusstvennomu intellektu s mezhdunarodnym uchastiem: KII2008 [11th national conf. on artificial intelligence with international participation: KII-2008 (Dubna, Russia, Sept. 29th - October 3rd, 2008)]: Proc. Moscow: LENAND Publ., 2008. Vol. 2. Pp. 262-270 (in Russian).
6. Petrovsky A.B., Lobanov V.N. Multiple criteria choice in the attribute space of large dimension: multi-method technology PAKS-M. Isskustvennyj intellekt ipriniatie reshenij [Artificial Intelligence and Decision Making], 2014, no. 3, pp. 92-104 (in Russian).
7. Agarwal S., Agrawal R., Deshpande P.M., Gupta A., Naughton J.F., Ramakrishnan R., Sarawagi S. On the computation of multidimensional aggregates. Materialized views: techniques, implementations and applications/Ed. by A. Gupta. Camb.: MIT Press, 1999. Pp. 506521. DOI: 10.7551/mitpress/4472.003.0030
8. Chubukova I.A. Data Mining: a textbook. 2nd ed. Moscow: BINOM. Laboratoriia znanij Publ., 2008. 382 p. (in Russian).
9. Makarov I.M., Rakhmankulov V.Z., Akhrem A.A., Rovkin I.O. Investigation of properties of hypercube structures in OLAP systems. Informatsionnye tekhnologii i vychislitel'nye sistemy [Information Technologies and Computing Systems], 2005, no. 2, pp. 4-9 (in Russian).
10. Akhrem A.A., Rakhmankulov V.Z., Yuzhanin K.V. On the complexity of the reduction of multidimensional data models. Scientific and Technical Information Processing, 2017, vol. 44, no. 6, pp. 406-411. DOI: 10.3103/S0147688217060028
11. Akhrem A.A., Nosov A.P., Rakhmankulov V.Z., Yuzhanin K.V. Computational performance of hypercube reduction methods for multidimensional data of analytical OLAP systems. Is-skustvennyj intellekt i priniatie reshenij [Artificial Intelligence and Decision Making], 2019, no. 4, pp. 23-28. DOI: 10.14357/20718594190403
12. Akhrem A.A., Nosov A.P., Rakhmankulov V.Z., Yuzhanin K.V. Computational complexity analysis of decomposition methods of OLAP hyper-cubes of multidimensional data. Matem-atika i matematicheskoe modelirovanie [Mathematics and Mathematical Modeling], 2020, no. 4, pp. 52-64. DOI: 10.24108/mathm.0420.0000221 (in Russian).