Научная статья на тему 'Формирование метаданных многомерных информационных систем на базе классификационных схем'

Формирование метаданных многомерных информационных систем на базе классификационных схем Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
132
20
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
MULTIDIMENSIONAL INFORMATION SYSTEM / MULTIDIMENSIONAL DATA CUBE / SPARSE DATA CUBE / CLASSIFICATION SCHEME / COMBINATION OF MEASUREMENT VALUES / SET OF POSSIBLE MEMBER COMBINATIONS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Фомин Максим Борисович, Кузнецов Евгений Александрович, Шорохов Сергей Геннадьевич

Разработан способ формирования метаданных многомерной информационной системы путем сопряжения классификационных схем. Каждая классификационная схема представляет собой иерархию значений измерений, относящихся к отдельной структурной компоненте наблюдаемого явления. В основе метода лежит выявление групп значений измерений, которые связаны с группами значений других измерений. Группы значений разных измерений используются для построения кластеров сочетаний значений измерений. Сочетания кластера формируются декартовым произведением групп значений измерений. Метаданные информационной системы представлены в виде множества допустимых сочетаний значений измерений, которые формируются как набор кластеров. Для решения этой сложной задачи наблюдаемое явление рассматривается как набор структурных компонент. Из полного набора измерений информационной системы выделяются отдельные наборы измерений, семантически связанные со структурными компонентами наблюдаемого явления. Семантические связи, выявленные в процессе анализа структурной компоненты, позволяют построить иерархию групп значений измерений и представить их совокупность в виде графа классификационной схемы, связанной со структурной компонентой. В информационных системах с многоаспектным описанием предметной области кубы данных характеризуются большой разреженностью, что затрудняет формирование метаданных. Классификационные схемы описывают отдельные аспекты метаданных, связанные с отдельными структурными компонентами наблюдаемого явления. Сопряжение классификационных схем дает возможность получить полное описание метаданных. Использование классификационных схем позволяет разбить задачу описания структуры аналитического пространства многомерной информационной системы на более простые задачи анализа его отдельных структурных компонент. Сопряжение классификационных схем, относящихся к разным структурным компонентам, дает возможность сформировать метаданные информационной системы. В метаданных центральное место занимает множество допустимых сочетаний значений измерений.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Фомин Максим Борисович, Кузнецов Евгений Александрович, Шорохов Сергей Геннадьевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CLASSIFICATION SCHEME-BASED GENERATION OF MULTIDIMENSIONAL INFORMATION SYSTEM METADATA

The purpose of the paper is development of a method for generating metadata of a multidimensional information system by classification scheme conjugation. Each classification scheme is a hierarchy of dimension values (members) related to a separate structural component of the observed phenomenon. The method is based on the identification of groups of dimension values that are associated with the groups of values of other dimensions. The groups of members for different dimensions are used to generate clusters of member combinations. Cluster combinations are generated by the Cartesian product of groups of members. The metadata of the information system are presented as a set of possible member combinations, which is formed as a set of clusters. To solve this complex problem the observed phenomenon is considered as a set of structural components. Separate sets of dimensions, which are semantically related to the structural components of the observed phenomenon, are distinguished from the complete set of dimensions of the information system... The purpose of the paper is development of a method for generating metadata of a multidimensional information system by classification scheme conjugation. Each classification scheme is a hierarchy of dimension values (members) related to a separate structural component of the observed phenomenon. The method is based on the identification of groups of dimension values that are associated with the groups of values of other dimensions. The groups of members for different dimensions are used to generate clusters of member combinations. Cluster combinations are generated by the Cartesian product of groups of members. The metadata of the information system are presented as a set of possible member combinations, which is formed as a set of clusters. To solve this complex problem the observed phenomenon is considered as a set of structural components. Separate sets of dimensions, which are semantically related to the structural components of the observed phenomenon, are distinguished from the complete set of dimensions of the information system. The semantic relationships identified in the analysis of the structural component allow to generate a hierarchy of groups of dimension values and represent all of them in the form of a graph a classification scheme associated with the structural component. In information systems with a multidimensional representation of a subject domain, data cubes are characterized by high sparseness, which complicates metadata generation. The classification schemes describe specific aspects of the metadata associated with the individual structural components of the observed phenomenon. Conjugation of the classification schemes allows to obtain a complete description of the metadata. The use of classification schemes provides the opportunity to divide the task of describing the structure of the multidimensional information system analytical space into simpler tasks of analysis of its individual structural components. The conjugation of classification schemes related to different structural components enables the generation of information system metadata. The central place in the metadata belongs to the set of possible member combinations. function show_eabstract() { $('#eabstract1').hide(); $('#eabstract2').show(); $('#eabstract_expand').hide(); } ▼Показать полностью

Текст научной работы на тему «Формирование метаданных многомерных информационных систем на базе классификационных схем»

Оригинальная статья / Original article УДК 681.3.016

DOI: http://dx.doi.org/10.21285/1814-3520-2018-12-145-156

ФОРМИРОВАНИЕ МЕТАДАННЫХ МНОГОМЕРНЫХ ИНФОРМАЦИОННЫХ СИСТЕМ НА БАЗЕ КЛАССИФИКАЦИОННЫХ СХЕМ

© М.Б. Фомин1, Е.А. Кузнецов2, С.Г. Шорохов3

^Российский университет дружбы народов,

117198, Российская Федерация, г. Москва, ул. Миклухо-Маклая, 6.

^Лаборатория новых информационных технологий,

129075, Российская Федерация, г. Москва, Мурманский пр-д, 14.

РЕЗЮМЕ: Разработан способ формирования метаданных многомерной информационной системы путем сопряжения классификационных схем. Каждая классификационная схема представляет собой иерархию значений измерений, относящихся к отдельной структурной компоненте наблюдаемого явления. В основе метода лежит выявление групп значений измерений, которые связаны с группами значений других измерений. Группы значений разных измерений используются для построения кластеров сочетаний значений измерений. Сочетания кластера формируются декартовым произведением групп значений измерений. Метаданные информационной системы представлены в виде множества допустимых сочетаний значений измерений, которые формируются как набор кластеров. Для решения этой сложной задачи наблюдаемое явление рассматривается как набор структурных компонент. Из полного набора измерений информационной системы выделяются отдельные наборы измерений, семантически связанные со структурными компонентами наблюдаемого явления. Семантические связи, выявленные в процессе анализа структурной компоненты, позволяют построить иерархию групп значений измерений и представить их совокупность в виде графа - классификационной схемы, связанной со структурной компонентой. В информационных системах с многоаспектным описанием предметной области кубы данных характеризуются большой разреженностью, что затрудняет формирование метаданных. Классификационные схемы описывают отдельные аспекты метаданных, связанные с отдельными структурными компонентами наблюдаемого явления. Сопряжение классификационных схем дает возможность получить полное описание метаданных. Использование классификационных схем позволяет разбить задачу описания структуры аналитического пространства многомерной информационной системы на более простые задачи анализа его отдельных структурных компонент. Сопряжение классификационных схем, относящихся к разным структурным компонентам, дает возможность сформировать метаданные информационной системы. В метаданных центральное место занимает множество допустимых сочетаний значений измерений.

Ключевые слова: многомерная информационная система, многомерный куб данных, разреженный куб данных, классификационная схема, сочетание значений измерений, множество допустимых сочетаний

Информация о статье: Дата поступления 08 ноября 2018 г.; дата принятия к печати 30 ноября 2018 г.; дата онлайн-размещения 28 декабря 2018 г.

Для цитирования: Фомин М.Б., Кузнецов Е.А., Шорохов С.Г. Формирование метаданных многомерных информационных систем на базе классификационных схем. Вестник Иркутского государственного технического университета. 2018;22(12):145-156. DOI: 10.21285/1814-3520-2018-12-145-156

1Фомин Максим Борисович, кандидат физико-математических наук, доцент кафедры информационных технологий, e-mail: fomin-mb@rudn.ru

Maxim B. Fomin, Cand. Sci. (Physics and Mathematics), Associate Professor of the Department of Information Technology, e-mail: fomin-mb@rudn.ru

2Кузнецов Евгений Александрович, ведущий разработчик департамента цифровых решений, e-mail: kuznetsovea@lanit.ru

Evgeniy A. Kuznetsov, Leading programmer of the Department of Digital Solutions, e-mail: kuznetsovea@lanit.ru

3Шорохов Сергей Геннадьевич, кандидат физико-математических наук, старший преподаватель кафедры информационных технологий, e-mail: shorokhov-sg@rudn.ru

Sergey G. Shorokhov, Cand. Sci. (Physics and Mathematics), Senior Lecturer of the Department of Information Technology, e-mail: shorokhov-sg@rudn.ru

CLASSIFICATION SCHEME-BASED GENERATION OF MULTIDIMENSIONAL INFORMATION SYSTEM METADATA

M.B. Fomin, E.A. Kuznetsov, S.G. Shorokhov

Peoples' Friendship University of Russia (RUDN University), 6, Miklukho-Maklaya St., Moscow 117198, Russian Federation Laboratory of New Information Technologies (LANIT) 14, Murmanskiy proezd, Moscow 129075, Russian Federation

ABSTRACT: The purpose of the paper is development of a method for generating metadata of a multidimensional information system by classification scheme conjugation. Each classification scheme is a hierarchy of dimension values (members) related to a separate structural component of the observed phenomenon. The method is based on the identification of groups of dimension values that are associated with the groups of values of other dimensions. The groups of members for different dimensions are used to generate clusters of member combinations. Cluster combinations are generated by the Cartesian product of groups of members. The metadata of the information system are presented as a set of possible member combinations, which is formed as a set of clusters. To solve this complex problem the observed phenomenon is considered as a set of structural components. Separate sets of dimensions, which are semantically related to the structural components of the observed phenomenon, are distinguished from the complete set of dimensions of the information system. The semantic relationships identified in the analysis of the structural component allow to generate a hierarchy of groups of dimension values and represent all of them in the form of a graph - a classification scheme associated with the structural component. In information systems with a multidimensional representation of a subject domain, data cubes are characterized by high sparseness, which complicates metadata generation. The classification schemes describe specific aspects of the metadata associated with the individual structural components of the observed phenomenon. Conjugation of the classification schemes allows to obtain a complete description of the metadata. The use of classification schemes provides the opportunity to divide the task of describing the structure of the multidimensional information system analytical space into simpler tasks of analysis of its individual structural components. The conjugation of classification schemes related to different structural components enables the generation of information system metadata. The central place in the metadata belongs to the set of possible member combinations.

Keywords: multidimensional information system, multidimensional data cube, sparse data cube, classification scheme, combination of measurement values, set of possible member combinations

Information about the article: Received November 08, 2018; accepted for publication November 30, 2018; available online December 28, 2018.

For citation: Fomin M.B., Kuznetsov E.A., Shorokhov S.G. Classification scheme-based generation of multidimensional information system metadata. Vestnik Irkutskogo gosudarstvennogo tehnicheskogo universiteta = Proceedings of Irkutsk State Technical University. 2018; 22(12):pp. 145-156. (In Russ.) DOI: 10.21285/1814-3520-2018-12-145-156

Введение

В информационной системе, в которой показатели, характеризующие наблюдаемое явление, представлены в многомерной форме, размерностями куба данных являются измерения. Каждое измерение соответствует некоторому аспекту анализа наблюдаемого явления. В случае если система содержит большой объем семантически разнородных данных, многомерный куб данных характеризуется высокой разреженностью и неравномерностью заполнения [1]. Модель данных информационной системы формируется в соответствии со следующим

принципом: каждая значимая ячейка многомерного куба соответствует некоторому факту. Для эффективного описания структуры многомерного куба может быть использован кластерный метод. Этот метод базируется на семантическом анализе сочетаемости значений разных измерений в значимых ячейках куба [2]. Он позволяет описать метаданные информационной системы в виде множества допустимых сочетаний значений измерений. Допустимые сочетания ставятся в соответствие значимым ячейкам многомерного куба.

Постановка задачи

В случае если многомерная информационная система создается для описания семантически разнородных фактов, и структура аналитического пространства содержит большое число измерений, многомерный куб данных характеризуется значительной разреженностью, которая должна быть отражена в модели данных [3-9]. В этой ситуации при описании множества допустимых сочетаний возникает сложная задача анализа сочетаемости значений всех измерений куба в совокупности. Эта задача может быть упрощена в случае если наблюдаемое явление допускает разделение на набор структурных компонент, каждая из которых имеет свои аспекты анализа. Учет семантики имеет важное значение при построении модели данных [10]. Разделение на набор структурных компонент позволяет выделить в аналитическом пространстве наборы измерений, ассоциированные со структурными компонентами, и рассматривать сочетаемость значений измерений в каждом наборе измерений по отдельности.

Можно предложить метод построения множества допустимых сочетаний значений измерений многомерного куба, состоящий из следующих этапов:

- разбиение наблюдаемого явления, которое описывает информационная система, на структурные составляющие;

- анализ сочетаемости значений измерений, характеризующих эти структурные составляющие;

- построение классификационных схем, содержащих описание допустимых сочетаний значений измерений по отдельности для каждой структурной составляющей;

- соединение сочетаний, взятых из разных классификационных схем, во множество допустимых сочетаний значений измерений многомерного куба в совокупности.

В процессе выполнения описанного выше алгоритма характеристики наблюдаемого явления и связи между ними надо рассматривать с позиции классификации, которая отражала бы семантику наблюдаемого явления. В качестве характеристик выступают измерения куба данных. Классификацию характеристик можно выполнить с использованием иерархического принципа. В этом случае выявленные свойства могут быть представлены в форме связного ациклического графа. Характеристики наблюдаемого явления разделяются по признаку значимости и распределяются по разным уровням иерархии графа. После формирования иерархии характеристик можно переходить к построению графа, используя при этом попарный анализ сочетаемости значений измерений, соответствующих характеристикам, расположенным в иерархии одна под другой.

Описание разреженного куба данных с использованием сочетаний значений измерений

Каждому аспекту анализа наблюдаемого явления, для описания которого разрабатывается многомерная информационная система, соответствует одно из измерений многомерного куба Н. Полный набор измерений образует множество Л(Я) = {Л1,Л2, .. ,£"}, где И1 - ¡-е измерение, п = dim(Я) -размерность многомерного куба. Измерение задается множеством значений измерения: д1 = {й[,й12, .. , й1к.}, где ^ - число значений /-го измерения. Значения измерения д1

выбираются из множества позиций классификатора, который соответствует тому аспекту наблюдаемого явления, который связан с измерением д1.

Многомерный куб данных является структурированным набором ячеек. Каждой ячейке с многомерного куба может быть сопоставлено сочетание значений измерений с = (¿1,й22, .. , ^¡1), по одному значению для каждого из измерений [11]. В случае разреженного куба не все возможные сочета-

подмножества сочетании, каждое из которых соответствует своеИ смысловой компоненте. Подмножество сочетаний является объединением кластеров сочетаний. Оно может быть построено как результат анализа сочетаемости характеристик наблюдаемого явления, соответствующих некоторой его смысловой компоненте. Технически характеристики отображаются в кластерах в виде значений измерений многомерного куба.

Кластерный метод позволяет получить описание МДС для многомерного куба Н путем выполнения следующих шагов.

1. В структуре наблюдаемого явления должны быть выделены N семантических компонент. Этим компонентам должны быть сопоставлены подмножества сочетаний Qk, к = 1,..,И. Должно быть построено выражение для множества допустимых сочетаний МДС(Н), в котором подмножества Qk связаны при помощи теоретико-множественных операций объединения, пересечения и дополнения.

2. В каждом подмножестве Qk должны быть выделены слои измерений 1} = .. ,Б'1}, где 1 = 1,..,тк - номер слоя в подмножестве, тк - количество слоев, ;'[ - номер измерения в слое, = 1,..,1, I - количество измерений в /-м слое. Слой измерений - это набор измерений, сочетаемость значений которых во множестве не зависит от того, какие значения в сочетаниях принимают измерения, не входящие в слой. В случае если известны подмножества

сочетаний значений измерений для каждого из слоев измерений, подмножество сочетаний Qk может быть получено при помощи декартова произведения по слоям: Q = МДС(1}) хМДС(12)х ..х МДС(1т). Здесь МДС(£1) - множество сочетаний значений измерений /-го слоя.

3. Для каждого из слоев И подмножества Qk подмножество допустимых сочетаний МДС(£1) должно быть представлено в виде набора кластеров сочетаний в слое. Каждый кластер в слое определяется набором групп значений измерений , к - номер измерения в слое, - номер группы, ] = 1,..,1\ К = [с!1^}2, .. ^¡1}. Сочетания кластера могут быть получены декартовым произведением групп значений измерений (или специального значения «Не используется» вместо группы), по одной группе для каждого из измерений слоя:

МДС(К) = Gl1 x G¡2 x . .x G¡1.

На рис. 1 представлена диаграмма, описывающая взаимосвязь структурных элементов МДС.

Можно выделить два типичных случая разбиения наблюдаемого явления на смысловые компоненты и представления МДС(Н) с использованием нескольких подмножеств. Первый - когда при анализе разных смысловых компонент возникают разные разбиения измерений на слои, второй -

Рис. 1. Диаграмма структуры множества допустимых сочетаний значений измерений Fig. 1. Structural diagram of the set of possible member combinations

когда имеется простой способ построения подмножества, описывающего МДС с избытком, и эффективный способ описания сочетаний, которые должны быть исключены из этого подмножества, чтобы сократить его до МДС.

В первом случае разбиению наблюдаемого явления на I смысловых компонент соответствует объединение подмножеств сочетаний значений измерений:

SPMC(H) = QlUQ2U ..и .

В силу семантических различий этих смысловых компонент множество измерений в разных подмножествах может быть по-разному разбито на слои:

О(Н) = ^и^и ..иЬ™1 ,

где 1 = 1 ..I - номер разбиения, т{ - число слоев в /-м разбиении. Каждое подмножество Qi формируется в соответствии со своим разбиением множества измерений на слои.

Во втором случае множество допустимых сочетаний представляется в виде разности подмножеств:

МДС(Н) = ,

где И - множество сочетаний, описанное с избытком (сокращаемое подмножество), а Q - множество исключаемых сочетаний. Сокращаемое подмножество может быть сформировано с использованием следующего правила: в него включаются сочетания, полученные декартовым произведением всех значений измерений, дополненные набором сочетаний, содержащих значение «Не используется» для некоторых измерений, с исключением тех сочетаний, которые могут быть получены заменой специального значения «Не используется» на допустимое значение. Такой подход может быть использован в случае, если множество МДС(Н) имеет сложную структуру и известен простой алгоритм формирования подмножества Q.

Описание наблюдаемого явления набором классификационных схем

Процесс описания свойств наблюдаемого явления в рамках многомерной модели данных с позиций семантики заключается в выявлении классификационных признаков (измерений многомерного куба) и установлении связей между ними. При этом наблюдаемое явление не рассматривается как многокомпонентный объект, и классификационные признаки не ранжируются: среди них не выделяются главные и второстепенные. Установление связей между измерениями производится путем поиска соответствия между их значениями. В случае большого числа измерений это сложная задача, недостатки такого подхода могут быть устранены введением в модель данных информационной системы дополнительных объектов - классификационных схем характеристик наблюдаемого явления (будем использовать для их обозначения аббревиатуру «КСХ»). Установим для КСХ следующие требования:

1. При задании КСХ должна учитываться компонентная структура наблюдаемого явления. Если наблюдаемое явление семантически может быть разделено на отдельные структурные составляющие, для каждой из которых может быть выбран свой набор аспектов анализа, каждой такой составляющей должна сопоставляться КСХ. Процедура построения КСХ должна базироваться на выявлении и анализе соответствующих выбранным аспектам анализа характеристик. Характеристикам должны быть сопоставлены измерения многомерного куба.

2. Классификационные схемы характеристик наблюдаемых явлений должны быть построены по иерархическому принципу. Среди относящихся к КСХ характеристик должно быть установлено ранжирование, выделяющее измерения, которые в большей и в меньшей степени выражают

смысл структурной составляющей наблюдаемого явления, которая сопоставлена КСХ. Должно быть выбрано главное измерение, которое в наибольшей степени отражает семантику соответствующей КСХ структурной составляющей. Из остальных измерений, включенных в КСХ, которые с семантической точки зрения подчинены главному измерению и выражают частные свойства структурной составляющей наблюдаемого явления, должна быть сформирована иерархия характеристик. Должен быть реализован следующий принцип: значения главного измерения выражают наиболее значимые свойства наблюдаемого явления; значения измерений, лежащих ниже по иерархии по отношению к главному, выражают подчиненные свойства, уточняющие смысл значений главного измерения.

3. При построении иерархий характеристик наблюдаемого явления в КСХ должна быть возможность описания значений главного измерения по-отдельности или группами значений, поскольку разные значения могут быть связаны с разными аспектами семантики структурной составляющей наблюдаемого явления. Для значений главного измерения, имеющих такое семантическое различие, должны быть построены разные иерархии характеристик.

4. В иерархии характеристик, которая имеется в КСХ, должна присутствовать информация о том, какой набор показателей количественно описывает наблюдаемое явление в случае выбора конкретных значений измерений, присутствующих в иерархии.

Примером наблюдаемого явления, которое может быть разбито на отдельные структурные составляющие, может служить «Кредитование». Четыре его компоненты, которым могут быть сопоставлены КСХ: «Участники операций кредитования», «Инструменты операций кредитования», «Условия сделок операций кредитования» и «Факторы риска операций кредитования».

В процессе разработки информационной системы классификационные схемы могут взять на себя роль источника классификационной информации о наблюдаемом явлении. При этом семантически КСХ связана со структурной составляющей наблюдаемого явления и может быть источником информации о характеристиках структурной составляющей, представленной в иерархической форме. Технологически КСХ связана с измерениями многомерного куба данных и может быть шаблоном при построении метаданных многомерной информационной системы.

Представление классификационной схемы в виде дерева сочетаний

Классификационная схема характеристик наблюдаемого явления - объект многомерной информационной системы, описывающий структурную составляющую наблюдаемого явления, и содержащий следующие данные:

- набор измерений, включенных в классификационную схему;

- набор значений этих измерений, включенных в классификационную схему;

- главное измерение, выбранное в наборе измерений КСХ;

- набор показателей, включенных в классификационную схему;

- дерево сочетаний значений измерений КСХ, задающее иерархию характеристик, включенных в КСХ.

Иерархический принцип построения КСХ реализуется в структуре дерева сочетаний значений измерений КСХ. Дерево сочетаний КСХ может быть построено как результат семантического анализа структурной составляющей наблюдаемого явления. Дерево можно определить путем описания процедуры его построения. Построение дерева должно осуществляться движением от корня дерева, в котором заданы группы значений ключевого измерения, вниз по уровням иерархии с добавлением в дерево на каждом шаге группы значений измерений, раскрывающей смысл значений измерения предыдущего уровня иерархии. При этом на следующий уровень должна быть добавлена группа, относящаяся к измерению, в

наибольшей степени связанному со значениями измерения предыдущего уровня. Как следствие, в разных ветвях дерева на путях от корня к листьям могут возникать разные последовательности измерений КСХ.

При обходе дерева КСХ от значений главного измерения вниз по уровням иерархии, значения измерений, расположенные на этих уровнях, по мере обхода выражают все менее значимые свойства наблюдаемого явления. Тем самым в дереве КСХ устанавливается ранжирование характеристик наблюдаемого явления.

В результате выполнения описанного выше алгоритма происходит построение дерева сочетаний значений измерений КСХ, обладающее структурой, для которой выполняются следующие правила:

1. Корнем дерева является узел «Ключевое измерение».

2. Дерево представляет собой иерархическую структуру, в которой уровни задаются чередованием узлов типа «Группа значений измерения» и узлов типа «Измерение». При этом группы значений измерений должны быть заданы в измерениях, соответствующих узлам, расположенным в дереве на один уровень выше по иерархии.

3. Листьями дерева являются узлы типа «Группа значений измерения».

4. Узлу типа «Группа значений измерения» (кроме узла, являющегося листом дерева) должен соответствовать один узел типа «Измерение» на расположенном ниже уровне иерархии дерева. Узлу типа «Измерение» может соответствовать один узел или несколько узлов типа «Группа значений измерения» на расположенном ниже уровне иерархии дерева.

5. На пути от корня до листа каждое измерение может встречаться не более чем один раз.

Пример дерева сочетаний значений измерений представлен ниже (рис. 2).

Каждый путь от корня дерева сочетаний к листу содержит некоторый набор групп значений разных измерений. Это означает, что путь задает кластер сочетаний значений измерений КСХ. Для формирования полного набора кластеров сочетаний требуется обойти все дерево. В процессе обхода дерева в ширину число формируемых кластеров увеличивается каждый раз, когда на некотором уровне иерархии встречается несколько групп значений, относящихся к одному узлу типа «Измерение». В случае если

Рис. 2. Пример дерева сочетаний значений измерений классификационной схемы Fig. 2. An example of a tree of classification scheme member combinations

на пути от корня дерева к листу отсутствует некоторое измерение, которое имеется в структуре КСХ, это измерение должно принимать значение «Не используется» в кластере, который соответствует рассматриваемому пути.

Кластеры сочетаний значений измерений для КСХ, дерево сочетаний значений измерений которой представлено на рис. 2, приведены ниже (таблица).

С позиций семантики каждый кластер, имеющийся в дереве сочетаний клас-

Важным свойством КСХ является возможность использовать сочетания значений измерений, которые в них описаны, при формировании метаданных информационной системы. Набор измерений многомерного куба формируется исходя из следующего принципа: в нем должны присутствовать все характеристики, от которых могут зависеть показатели, используемые при анализе наблюдаемого явления. Построение МДС на таком «широком» наборе измерений многомерного куба является сложной задачей. Решить эту задачу помогает использование КСХ, которые играют классификационную функцию по отношению к МДС.

В каждой из КСХ, относящейся к наблюдаемому явлению, уже содержится информация о сочетаемости значений той части измерений, которые связаны с отдельными свойствами этого наблюдаемого явления. Задача состоит в том, чтобы правильно соединить сочетания из разных КСХ

сификационной схемы, соответствует своему набору свойств наблюдаемого явления. В информационной системе эти свойства описываются значениями некоторого набора показателей, включенных в классификационную схему. В разных кластерах могут быть заданы разные наборы показателей. Информация о том, какие показатели заданы в кластере сочетаний КСХ, должна быть описана в дереве сочетаний значений измерений КСХ в виде атрибутов листьев дерева сочетаний.

вместе во множестве допустимых сочетаний. При соединении сочетаний двух КСХ может возникнуть одна из следующих ситуаций:

- измерения, включенные в первую КСХ, отсутствуют во второй и наоборот;

- наборы измерений, имеющиеся в КСХ, частично пересекаются.

В первой ситуации сочетаемость значений измерений одной КСХ не зависит от значений измерений другой КСХ. Такая ситуация соответствует случаю, когда МДС, описывающее структуру многомерного куба данных, разбито на слои. Для каждой из КСХ в этом случае МДС (КСХ) является описанием одного из слоев МДС (Н).

В ситуации пересечения наборов измерений, относящихся к двум стыкуемым КСХ, при формировании сочетаний МДС(Н) возникает задача продолжения сочетаний одной КСХ сочетаниями другой КСХ с частичным перекрытием по измерениям. Эта задача может не иметь единственного ре-

Кластеры сочетаний значений измерений классификационной схемы Clusters of classification scheme member combinations

№ Измерение A Измерение B Измерение C Измерение D

1 A1 B1 Не используется Не используется

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2 A1 B2 C1 Не используется

3 A2 B3 C1 Не используется

4 A2 B4 Не используется D1

б A2 B5 Не используется D2

Формирование структуры многомерного куба данных с использованием классификационных схем

шения. Выбор правильного варианта построения МДС(Н) в описанной ситуации должен производиться аналитиком на основе семантического анализа. При этом должны быть решены следующие вопросы: - если значения измерений в сочетаниях из разных КСХ в области пересечения измерений совпадают, считать ли такие со-

четания продолжением друг друга, или считать, что каждое из них порождает свое сочетание в МДС(Н);

- если для некоторого сочетания из одной КСХ есть несколько продолжений в другой КСХ, какой из возможных вариантов продолжения выбрать при формировании сочетания в МДС(Н).

Заключение

Метаданные многоаспектной многомерной информационной системы, спроектированной с использованием кластерного метода, имеют структуру разреженного и неравномерно заполненного многомерного куба. Формирование таких метаданных является сложной задачей, решить которую можно, рассматривая наблюдаемое явление, которое описывает информационная система в виде совокупности структурных составляющих. Каждой структурной составляющей соответствует классификационная схема, данные которой могут быть представлены в виде множества допустимых сочетаний значений измерений, связанных с характеристиками этой структурной составляющей. Классификационные схемы, в сравнении с метаданными информационной системы в целом, описывают узкий набор свойств наблюдаемого явления и представляют характеристики этих свойств в иерархической форме. Решить задачу построения классификационных схем позволяет семантический анализ характеристик структурных составляющих наблюдаемого явления, каждой структурной составляющей по отдельности. Ограниченный набор характеристик в КСХ упрощает процесс формирования иерархии значений характеристик.

1. Thomsen E. OLAP Solution: Building Multidimensional Information System. NY, Willey Computer Publishing. 2002. 688 p.

2. Висков А.В., Фомин М.Б. Методы описания допустимых сочетаний реквизитов-признаков при использовании многомерных моделей в инфокоммуникаци-онных системах // T-Comm. Телекоммуникации и Транспорт. 2012. № 7. С. 45-47.

В результате появляется возможность выявления внутренней структуры многомерного куба данных. Подмножества измерений, включенных в разные классификационные схемы, частично пересекаются. Состыковка сочетаний из разных КСХ в соответствии со значениями измерений, лежащих в области пересечения, позволяет восстановить структуру многомерного куба данных информационной системы. Эта процедура должна быть выполнена с участием аналитика, который принимает решение о выборе способа продолжения сочетания в случае многозначности.

В случае разработки большой многоаспектной многомерной информационной системы использование кластерного подхода для описания множества допустимых сочетаний значений измерений позволяет обеспечить компактность при задании метаданных и выразить семантику анализируемого наблюдаемого явления. В основе предлагаемого подхода лежит выявление связей между измерениями, которые отражают свойства наблюдаемого явления, и формирование групп значений измерений, элементы которых объединены схожим поведением по отношению к этим связям.

кии список

3. Hirata, C.M., Lima, J.C. Multidimensional cyclic graph approach: representing a data cube without common sub-graphs. Information Sciences. 2011. Vol. 181. P. 2626-2655. DOI: 10.1016/j.ins.2010.05.012

4. LuoZ.W., Ling T.W., Ang C.H., Lee S.Y., Cui B. Range top/bottom k queries in OLAP sparse data cubes. In: Mayr H.C., Lazansky J., Quirchmayr G., Vogel P. Database and Expert Systems Applications - DEXA 2001.

Vol. 2113. P. 678-687. Heidelberg, Springer, 2001. P. 678-687. DOI: 10.1007/3-540-44759-8_66

5. Vitter J.S., Wang M. Approximate computation of multidimensional aggregates of sparse data using wavelets. In: Proceedings of the 1999 International Conference on Management of Data - SIGMOD 1999. New York, ACM. 1999. P. 193-204. D0I:10.1145/304182.304199

6. Messaoud R.B., Boussaid O., Rabaseda S.L. A multiple correspondence analysis to organize data cube. In: Databases and Information Systems IV - DB&IS 2006. Vilnius, IOS Press. 2007. P. 133-146.

7. Karayannidis N., Sellis T., Kouvara Y. CUBE file: a file structure for hierarchically clustered OLAP cube. In: Ber-tino E., Christodoulakis S., Plexousakis D., Christophides V., Koubarakis M., BEohm K., Ferrari E. Advances in Database Technology - EDBT 2004, vol. 2992. Heidelberg, Springer. 2004. P. 621-638. DOI: 10.1007/978-3-540-24741 -8_36

8. Chen C., Feng J., Xing L. Computation of sparse data cubes with constraints. In: Kambayashi Y., Mohania M., Wob W. Data Warehousing and Knowledge Discovery -DaWaK 2003. Vol. 2737. Heidelberg, Springer. 2003. P. 14-23. DOI: 10.1007/978-3-540-45228-7_3

9. Wang W., Lu H., Feng J., Yu J.X. Condensed cube: an effective approach to reducing data cube size. In: Proceedings of the 18th International Conference on Data Engineering - ICDE 2002. IEEE Computer Society, Washington. 2002. P. 155-165.

10. Gomez L.I., Gomez S.A., Vaisman A.A. generic data model and query language for spatiotemporal OLAP cube analysis. In: Rundensteiner, E., Markl, V., Mano-lescu, I., Amer-Yahia S., Naumann F., Ari I. Proceedings of the 15-th International Conference on Extending Database Technology - EDBT 2012. New York, ACM. 2012. P. 300-311.

11. Фомин М.Б. Описание метаданных многомерных информационных систем с использованием кластерного метода // Вестник Иркутского государственного технического университета. 2017. Т 21. № 7. С. 7886. https: doi.org/10.21285/1814-3520-2017-7-78-86.

12. Salmam F.Z., Fakir M., Errattahi R. Prediction in OLAP data cubes. Journal of Information & Knowledge Management. 2016. Vol. 15. No. 2. P. 449-458. DOI: 10.1142/S0219649216500222

13. Fu L.: Efficient evaluation of sparse data cubes. In: Li Q., Wang G., Feng L. Advances in Web-Age Information Management, vol. 3129 - WAIM 2004. Heidelberg, Springer, 2004. P. 336-345. DOI: 10.1007/978-3-540-27772-9_34

14. Romero O., Pedersen T.B., Berlanga R., Nebot V., Aramburu M.J., Simitsis A.: Using semantic web technologies for exploratory OLAP: A survey. IEEE Transactions on Knowledge and Data Engineering. 2015. Vol. 27. No. 2. P. 571-588. DOI: 10.1109/TKDE.2014.2330822

15. Salmam F.Z., Fakir M., Errattahi R. Explanation in OLAP data cubes. Journal of Information Technology Research. 2014. Vol. 7. No. 4. P. 36-78. DOI: 10.4018/jitr.2014100105

16. Orlov Y., Gaidamaka Y., Zaripova E. Approach to estimation of performance measures for SIP server model with batch arrivals. In: Vishnevsky V., Kozyrev D. Distributed Computer and Communication Networks. DCCN 2015, vol 601. Cham, Springer, pp. 141-150. DOI: 10.1007/978-3-319-30843-2_15

17. Висков А.В., Фомин М.Б. Моделирование аналитических измерений в многомерных базах данных // Вестник Иркутского государственного технического университета. 2012. Т. 63. № 4. С. 15-19.

References

1. Thomsen E. OLAP Solution: Building Multidimensional Information System. NY, Willey Computer Publishing, 2002, 688 p.

2. Viskov A.V., Fomin M.B. Methods of a description of the permissible combination of detail-attributes when using multidimensional models in infocommunication systems. T-Comm. Telekommunikacii i Transport [T-Comm], 2012, no. 7, pp. 45-47. (In Russian)

3. Hirata C.M., Lima J.C. Multidimensional cyclic graph approach: representing a data cube without common sub-graphs. Information Sciences, 2011, vol. 181, pp. 2626-2655. DOI: 10.1016/j.ins.2010.05.012

4. LuoZ.W., Ling T.W., Ang C.H., Lee S.Y., Cui B. Range top/bottom k queries in OLAP sparse data cubes. In: Mayr H.C., Lazansky J., Quirchmayr G., Vogel P. Database and Expert Systems Applications - DEXA. Heidelberg, Springer, 2001, vol. 2113, pp. 678-687. DOI: 10.1007/3-540-44759-8_66

5. Vitter J.S., Wang M. Approximate computation of multidimensional aggregates of sparse data using wavelets. In: Proceedings of the 1999 International Conference on

Management of Data - SIGMOD 1999. New York, ACM. 1999, pp. 193-204. DOI:10.1145/304182.304199

6. Messaoud R.B., Boussaid O., Rabaseda S.L. A multiple correspondence analysis to organize data cube. In: Databases and Information Systems IV - DB&IS 2006. Vilnius, IOS Press, 2007, pp. 133-146.

7. Karayannidis N., Sellis T., Kouvara Y. CUBE file: a file structure for hierarchically clustered OLAP cube. In: Ber-tino E., Christodoulakis S., Plexousakis D., Christophides V., Koubarakis M., BEohm K., Ferrari E. Advances in Database Technology - EDBT 2004, vol. 2992. Heidelberg, Springer, 2004, pp. 621-638. DOI: 10.1007/978-3-540-24741-8_36

8. Chen C., Feng J., Xing L. Computation of sparse data cubes with constraints. In: Kambayashi Y., Mohania M., Wob W. Data Warehousing and Knowledge Discovery -DaWaK 2003, vol. 2737. Heidelberg, Springer, 2003, pp. 14-23. DOI: 10.1007/978-3-540-45228-7_3

9. Wang W., Lu H., Feng J., Yu J.X. Condensed cube: an effective approach to reducing data cube size. In: Proceedings of the 18th International Conference on Data

Engineering - ICDE 2002. IEEE Computer Society, Washington, 2002, pp. 155-165.

10. Gomez L.I., Gomez S.A., Vaisman A.A. generic data model and query language for spatiotemporal OLAP cube analysis. In: Rundensteiner, E., Markl, V., Mano-lescu, I., Amer-Yahia S., Naumann F., Ari I. Proceedings of the 15-th International Conference on Extending Database Technology - EDBT 2012. New York, ACM, 2012, pp. 300-311.

11. Fomin M.B. Cluster method-based description of multidimensional information system metadata. Vestnik Irkutskogo gosudarstvennogo tekhnicheskogo universi-teta [Proceedings of Irkutsk State Technical University], 2017, vol. 21, no. 7, pp. 78-86. (In Russian) https: doi.org/10.21285/1814-3520-2017-7-78-86

12. Salmam F.Z., Fakir M., Errattahi R. Prediction in OLAP data cubes. Journal of Information & Knowledge Management. 2016, vol. 15, no. 2, pp. 449-458. DOI: 10.1142/S0219649216500222

13. Fu L.: Efficient evaluation of sparse data cubes. In: Li Q., Wang G., Feng L. Advances in Web-Age Information Management, vol. 3129 - WAIM 2004. Heidelberg,

Springer, 2004, pp. 336-345. DOI: 10.1007/978-3-540-27772-9_34

14. Romero O., Pedersen T.B., Berlanga R., Nebot V., Aramburu M.J., Simitsis A.: Using semantic web technologies for exploratory OLAP: A survey. IEEE Transactions on Knowledge and Data Engineering, 2015, vol. 27, no. 2, pp. 571-588. DOI: 10.1109/TKDE.2014.2330822

15. Salmam F.Z., Fakir M., Errattahi R. Explanation in OLAP data cubes. Journal of Information Technology Research, 2014, vol. 7, no. 4, pp. 36-78. DOI: 10.4018/jitr.2014100105

16. Orlov Y., Gaidamaka Y., Zaripova E. Approach to estimation of performance measures for SIP server model with batch arrivals. In: Vishnevsky V., Kozyrev D. Distributed Computer and Communication Networks. DCCN 2015, vol 601. Cham, Springer, pp. 141-150. DOI: 10.1007/978-3-319-30843-2_15

17. Viskov A.V., Fomin M.B. Modeling of analytical dimensions in multidimensional databases. Vestnik Irkutskogo gosudarstvennogo tekhnicheskogo universi-teta [Proceedings of Irkutsk State Technical University], 2012, vol. 63, no. 4, pp. 15-19. (In Russian)

Критерии авторства

Фомин М.Б. предложил модель данных КСХ, Кузнецов Е.А. и Шорохов С.Г. сформулировали свойства ХСХ. Авторы проанализировали полученные результаты. Авторы в равной мере несут ответственность за плагиат.

Authorship criteria

Fomin M.B. proposed the data model for classification schemes. Kuznetsov E.A. and Shorokhov S.G. formulated the properties of the classification schemes. The authors analyzed the obtained results. The authors bear equally responsible for plagiarism.

Конфликт интересов

Авторы заявляют об отсутствии конфликта интересов.

Conflict of interests

The authors declare that there is no conflict of interests regarding the publication of this article.

i Надоели баннеры? Вы всегда можете отключить рекламу.