Научная статья на тему 'Описание метаданных многомерных информационных систем с использованием кластерного метода'

Описание метаданных многомерных информационных систем с использованием кластерного метода Текст научной статьи по специальности «Математика»

CC BY
212
32
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
iPolytech Journal
ВАК
Область наук
Ключевые слова
МНОГОМЕРНАЯ ИНФОРМАЦИОННАЯ СИСТЕМА / МНОГОМЕРНЫЙ КУБ ДАННЫХ / РАЗРЕЖЕННЫЙ КУБ ДАННЫХ / СОЧЕТАНИЕ ЗНАЧЕНИЙ ИЗМЕРЕНИЙ / МНОЖЕСТВО ДОПУСТИМЫХ СОЧЕТАНИЙ / КЛАСТЕР СОЧЕТАНИЙ ЗНАЧЕНИЙ ИЗМЕРЕНИЙ / MULTIDIMENSIONAL INFORMATION SYSTEM / MULTIDIMENSIONAL DATA CUBE / SPARSE DATA CUBE / MEMBER COMBINATION / SET OF POSSIBLE MEMBER COMBINATIONS / CLUSTER OF MEMBER COMBINATIONS

Аннотация научной статьи по математике, автор научной работы — Фомин Максим Борисович

ЦЕЛЬ. Разработка метода описания структуры разреженного многомерного куба данных, лежащего в основе информационной системы, построенной на базе многомерного подхода. МЕТОДЫ. В основе метода лежит выявление в разреженном многомерном кубе кластеров семантически связанных ячеек. Ячейки, входящие в кластер, могут быть описаны сочетаниями значений измерений, являющимися размерностями многомерного куба. РЕЗУЛЬТАТЫ. В системах с многоаспектным описанием предметной области кубы данных характеризуются большой разреженностью, что затрудняет организацию хранения данных и порождает сложности в процессе анализа информации. Кластерный метод базируется на анализе попарной сочетаемости значений разных измерений многомерного куба данных. Такой анализ обеспечивает возможность выявить семантически связанные группы значений измерений. Построение связей между группами значений разных измерений позволяет выявить в кубе данных кластеры наборы ячеек, которые обладают сходными свойствами и могут быть описаны единым образом. ВЫВОДЫ. Кластерный метод анализа многомерного куба данных позволяет сформулировать описание метаданных многомерной информационной системы.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Фомин Максим Борисович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CLUSTER METHOD-BASED DESCRIPTION OF MULTIDIMENSIONAL INFORMATION SYSTEM METADATA

The PURPOSE of this article is development of a method for describing the structure of a sparse multidimensional data cube which forms the basis of a multidimensional information system. METHODS. The method is based on the identification of clusters of semantically related cells in a sparse multidimensional cube. The cells included in a cluster can be defined by combinations of members which are the cube dimensions. RESULTS. Data cubes are characterized by substantial sparseness in the systems with multi-aspect description of the data domain. This sparseness complicates the organization of data storage and complicates the process of information analysis. The proposed cluster method is based on the analysis of pairwise compatibility of members of different dimensions of a multidimensional data cube. This analysis enables the identification of semantically related groups of members. Detection of relationships between the groups of members allows to construct clusters represented by the sets of cells with similar properties which may be described in the same way. CONCLUSIONS. The cluster analysis method of a multidimensional data cube allows to formulate the description of metadata of a multidimensional information system.

Текст научной работы на тему «Описание метаданных многомерных информационных систем с использованием кластерного метода»

Оригинальная статья / Original article УДК 681.3.016

DOI: 10.21285/1814-3520-2017-7-78-86

ОПИСАНИЕ МЕТАДАННЫХ МНОГОМЕРНЫХ ИНФОРМАЦИОННЫХ СИСТЕМ С ИСПОЛЬЗОВАНИЕМ КЛАСТЕРНОГО МЕТОДА

л

© М.Б. Фомин1

Российский университет дружбы народов,

Российская Федерация, 117198, г. Москва, ул. Миклухо-Маклая, 6.

РЕЗЮМЕ. ЦЕЛЬ. Разработка метода описания структуры разреженного многомерного куба данных, лежащего в основе информационной системы, построенной на базе многомерного подхода. МЕТОДЫ. В основе метода лежит выявление в разреженном многомерном кубе кластеров семантически связанных ячеек. Ячейки, входящие в кластер, могут быть описаны сочетаниями значений измерений, являющимися размерностями многомерного куба. РЕЗУЛЬТАТЫ. В системах с многоаспектным описанием предметной области кубы данных характеризуются большой разреженностью, что затрудняет организацию хранения данных и порождает сложности в процессе анализа информации. Кластерный метод базируется на анализе попарной сочетаемости значений разных измерений многомерного куба данных. Такой анализ обеспечивает возможность выявить семантически связанные группы значений измерений. Построение связей между группами значений разных измерений позволяет выявить в кубе данных кластеры - наборы ячеек, которые обладают сходными свойствами и могут быть описаны единым образом. ВЫВОДЫ. Кластерный метод анализа многомерного куба данных позволяет сформулировать описание метаданных многомерной информационной системы.

Ключевые слова: многомерная информационная система, многомерный куб данных, разреженный куб данных, сочетание значений измерений, множество допустимых сочетаний, кластер сочетаний значений измерений.

Формат цитирования: Фомин М.Б. Описание метаданных многомерных информационных систем с использованием кластерного метода // Вестник Иркутского государственного технического университета. 2017. Т. 21. № 7. С. 78-86. DOI: 10.21285/1814-3520-2017-7-78-86

CLUSTER METHOD-BASED DESCRIPTION OF MULTIDIMENSIONAL INFORMATION SYSTEM METADATA M.B. Fomin

Peoples' Friendship University of Russia (RUDN University), 6, Miklukho-Maklaya St., Moscow, 117198, Russian Federation.

ABSTRACT. The PURPOSE of this article is development of a method for describing the structure of a sparse multidimensional data cube which forms the basis of a multidimensional information system. METHODS. The method is based on the identification of clusters of semantically related cells in a sparse multidimensional cube. The cells included in a cluster can be defined by combinations of members which are the cube dimensions. RESULTS. Data cubes are characterized by substantial sparseness in the systems with multi-aspect description of the data domain. This sparseness complicates the organization of data storage and complicates the process of information analysis. The proposed cluster method is based on the analysis of pairwise compatibility of members of different dimensions of a multidimensional data cube. This analysis enables the identification of semantically related groups of members. Detection of relationships between the groups of members allows to construct clusters represented by the sets of cells with similar properties which may be described in the same way. CONCLUSIONS. The cluster analysis method of a multidimensional data cube allows to formulate the description of metadata of a multidimensional information system.

Keywords: multidimensional information system, multidimensional data cube, sparse data cube, member combination, set of possible member combinations, cluster of member combinations

For citation: Fomin M.B. Cluster method-based description of multidimensional information system metadata. Proceedings of Irkutsk State Technical University. 2017, vol. 21, no. 7, pp. 78-86. (In Russian) DOI: 10.21285/1814-3520-2017-7-78-86

Фомин Максим Борисович, кандидат физико-математических наук, доцент кафедры информационных технологий, e-mail: fomin_mb@rudn.university

Maksim B. Fomin, Candidate of Physico-Mathematical sciences, Associate Professor of the Department of Information Technologies, email: fomin_mb@rudn.university

Введение

Для оперативного анализа большого объема данных используют многомерные информационные системы, построенные на принципах OLAP. Аналитическим пространством в системе такого типа является многомерный куб данных. Роль размерностей куба играют измерения, соответствующие различным аспектам анализа наблюдаемого явления, для описания которого создается система. В случае, если система содержит большой объем семан-

тически разнородных данных, многомерный куб характеризуется высокой разреженностью и неравномерностью заполнения [1]. В результате возникает проблема разработки адекватного способа описания структуры аналитического пространства, использование которого позволило бы эффективно организовать процесс анализа данных. Такой правильный способ должен обеспечивать учет семантики наблюдаемого явления.

Постановка задачи

Структура аналитического пространства многомерной информационной системы должна отражать свойства тех аспектов наблюдаемого явления, которые используются в процессе анализа данных. Каждому аспекту соответствует одно из измерений многомерного куба Н [2]. Полный набор измерений образует множество О(Н) = [О1,02, .. ,Оп}, где О1 - /-е измерение, п = йт(Н) - размерность многомерного куба. Каждое измерение описывается множеством значений измерения д1 = {й[, .. ,й1к.}, где / - номер измерения, к^ - количество значений измерения. Значения измерения О1 набираются из множества позиций базового справочника или классификатора, который соответствует тому аспекту анализа наблюдаемого явления, который связан с д1.

Многомерный куб данных представляет собой структурированный набор ячеек. Каждая ячейка с задается сочетанием значений измерений с = (¿1, й\2, .. , й?п). В сочетание входит по одному значению для каждого из измерений. В случае, если анализ наблюдаемого явления производится с использованием большого набора разнотипных аспектов, не все возможные сочетания значений измерений задают значимые ячейки многомерного куба, то есть ячейки, соответствующие некоторому факту. Этот эффект возникает вследствие семантического несоответствия некоторых

значений из разных измерений друг другу и порождает разреженность в кубе.

Сложная структура сочетаемости значений измерений может приводить к ситуации, когда некоторое измерение становится семантически неопределенным в сочетании с набором значений остальных измерений. В этом случае при описании значимой ячейки многомерного куба для задания значения семантически неопределенного измерения будем применять специальное значение «не используется».

Таким образом, структуру аналитического пространства многомерной информационной системы описывает множество допустимых сочетаний значений измерений, соответствующее множеству значимых ячеек многомерного куба [3]. Для обозначения этого множества будем использовать аббревиатуру «МДС». Для задания значений измерений в процессе формирования сочетаний МДС будем использовать данные, взятые из справочников или классификаторов, которые соответствуют измерениям, и специальное значение «не используется». Для множества допустимых сочетаний должны выполняться следующие требования:

- если в МДС есть сочетание, в котором специальное значение «не используется» задано для одного или нескольких измерений (набор 1) в сочетании с некоторым набором значений других измерений (набор 2), то в МДС не может существовать

еще одного сочетания с такими же значениями измерений из набора 2. Иными словами, измерение либо используется, либо не используется в сочетании с некоторым набором значений остальных измерений;

- в МДС не может существовать сочетания, в котором для всех измерений задано специальное значение «не используется».

Наблюдаемое явление характеризуется значениями показателей, заданными в значимых ячейках многомерного куба. Полный набор показателей образует множество У(Н) = , р2, .. , рт}, где V] - j-й показатель; т - число показателей в гиперкубе. В значимой ячейке могут быть заданы не все показатели из У(Н). Возникновение такой ситуации возможно в случае семантического несоответствия между значениями измерений, задающими ячейку, и некоторыми показателями. При описании аналитического пространства для каждой зна-

чимой ячейки с требуется задать свое множество У(с) = [р1г V, .. , уПс}, состоящее из определенных в этой ячейке показателей, тс < т. Для описания в ячейке с показателей, не входящих в множество У(с), будем использовать специальное значение «не используется». Должно выполняться правило: множество показателей У(с), заданных в значимой ячейке с, не может быть пустым. Описание показателей в незначимых ячейках многомерного куба, соответствующих сочетаниям значений измерений, не входящим в МДС, не имеет смысла.

Задача состоит в том, чтобы разработать формальный подход для описания МДС, который позволяет представить метаданные многомерной информационной системы в компактной форме, отражающей семантику анализируемого наблюдаемого явления.

Кластерный подход к описанию аналитического пространства

Для правильного описания структуры аналитического пространства требуется провести семантический анализ сочетаемости значений измерений. Могут существовать закономерности в сочетаемости значений двух, трех и более измерений, определяющие структуру МДС. Но в большинстве случаев правила сочетаемости МДС задаются попарными связями между измерениями. Мы ограничимся рассмотрением такой ситуации.

В качестве иллюстративного примера будем рассматривать структуру аналитического пространства информационной системы, описывающей наблюдаемое явление «Выдача кредитов». Данные показателей системы будем представлять в шести аспектах, соответствующих следующим измерениям: «Время выдачи кредита», «Место выдачи кредита», «Тип заемщика», «Пол заемщика», «Вид деятельности» и «Вид кредита». Первое измерение базируется на данных календаря, взятых во временном диапазоне, который используется при анализе. Второе измерение базируется

на справочнике территориально-административного деления. Остальные измерения зададим следующими значениями:

- Тип заемщика = {«Юридическое лицо», «Физическое лицо»};

- Пол заемщика = {«Мужской», «Женский»};

- Вид деятельности = {«Строительство», «Торговля», «Банковская деятельность»};

- Вид кредита = {«Оборотный», «Межбанковский», «Ипотечный», «Потребительский»}.

Источником информации о семантических связях между измерениями является нормативная документация, относящаяся к наблюдаемому явлению. Задача аналитика - формализовать эту информацию в виде правил сочетаемости, позволяющих построить МДС. В случае, если анализируются попарные связи, правила должны определять, какая пара значений двух измерений может встречаться в сочетаниях МДС и какие значения одного из измерений

несовместимы в МДС со всеми значениями другого измерения. Такой подход позволяет выделить во множестве значений измерения группы значений. Группа значений измерения - это набор, включающий одно или несколько значений измерения, которые «одинаково» сочетаются со значениями некоторого другого измерения в МДС.

Метод, основанный на выделении групп во множестве значений измерений, позволяет описывать попарные связи между измерениями. Эти попарные связи задаются установлением соответствия между двумя группами значений из разных измерений, для которых выявлена «одинаковость» сочетаемости или соответствия между группой в одном измерении и значением «не используется» в другом. Для попарных связей должны выполняться следующие условия:

- если некоторое значение первого измерения включено в группу, которой соответствует группа во втором измерении, то оно не может быть включено в группу, которой соответствует значение «не используется» для второго измерения;

- если некоторой группе значений первого измерения соответствует значение «не используется» для второго измерения, то значения из этой группы могут присутствовать в МДС только в сочетании со значением «не используется» для второго измерения;

- если некоторое значение первого измерения включено в группу, которой соответствует группа во втором измерении, то в сочетании из МДС, в которое включено это значение, второе измерение должно либо принимать значение из второй группы, либо для него должно быть задано значение «не используется».

Можно выделить несколько видов связи между измерениями, разделив их на «простые» и «сложные». Простые виды связи:

Ассоциация. В паре измерений О1 и О2 существует ассоциация, если во множестве значений каждого из них может быть выделено п групп (п>2) и между этими группами может быть установлено взаимно

однозначное соответствие, проявляющееся следующим образом: если в сочетание из МДС входят значения О1 и О2, то они входят парами, взятыми из соответствующих друг другу групп значений.

Полная ассоциация. В паре измерений О1 и О2 существует полная ассоциация, если между значениями этих измерений может быть установлено взаимно однозначное соответствие, проявляющееся в том, что в МДС значения О1 и О2 могут входить парами в любых сочетаниях.

Зависимость. Между измерениями О1 и О2 существует зависимость (Л2 зависит от Л1), если значения О1 могут быть разделены на две группы значений так, что в случае, если в некоторое сочетание из МДС входит значение из первой группы значений й1, то значением О2 в этом сочетании является допустимое значение, а если в сочетание входит значение из второй группы значений й1, то О2 в этом сочетании принимает значение «не используется».

В паре измерений могут быть заданы сложные связи, которые являются комбинацией нескольких простых связей:

Ассоциация и зависимость. Между

01 и О2 существует ассоциация и зависимость, если в О2 может быть выделено п групп (п >1), а в О1 - (п + 1) групп так, что между первыми п группами О1 и группами

02 установлена ассоциация, а если в сочетание из МДС входит значение из (п + 1)-й группы значений й1, то О2 в этом сочетании принимает значение «не используется». При этом значения из (п + 1)-й группы значений О1 не встречаются в остальных группах этого измерения.

Ассоциация и двусторонняя зависимость. Между О1 и О2 существует ассоциация и двусторонняя зависимость, если во множестве значений каждого из этих измерений может быть выделено п групп (п > 2); так что, если в сочетание из МДС входит значение из первой группы й1, то О2 в этом сочетании принимает значение «не используется»; если в сочетание из МДС входит значение из первой группы О2, то О1 в этом сочетании принимает значение «не

используется», а оставшаяся (п - 1) группа значений измерений В1 и В2 образует ассоциацию. При этом значения из первой группы в О1 и из первой группы в В2 не встречаются в остальных группах своих измерений.

Двусторонняя зависимость. Между измерениями О1 и В2 существует двусторонняя зависимость, если выполняется правило: в случае, когда в сочетание из МДС входит значение из О1, то В2 в этом сочетании принимает значение «не используется», а когда в сочетание входит значе-

Заемщик/ n=2 Вид кредита /

Debtor type Type of loan

a

Заемщик / Пол 1 Debtor

Debtor type gender

Вид Пол / Debtor

деятельности /

Occupation gender

ние из В2, то В1 в этом сочетании принимает значение «не используется».

На рис. 1 представлены диаграммы, содержащие обозначения попарных связей между измерениями для иллюстративного примера, описанного выше.

Для описания содержания попарных связей между измерениями удобно использовать диаграммы соответствия групп значений измерений. На рис. 2 представлены попарные диаграммы соответствия групп для описанного выше иллюстративного примера.

ь

Вид кредита / Type of loan n=2 Вид деятельности / Occupation

-

d

Рис. 1. Диаграммы, описывающие попарные связи между измерениями: a - ассоциация; b - полная ассоциация; c - зависимость; d - ассоциация и зависимость; е - двусторонняя зависимость Fig. 1. Diagrams describing pairwise relations between the dimensions: a - association; b - full association; c - dependence; d - association and dependence; e - two-sided dependence

Заемщик / Debtor type

Физ. лицо / Natural person

Юр. лицо / Legal entity

Вид

кредита / Type of loan

Потребительский / Consumer Ипотечный / Mortgage

Оборотный / Operating Межбанковский / Interbank Ипотечный / Mortgage

Заемщик / Debtor type

Пол / Debtor gender

Физ. лицо / Natural person Мужской / Male Женский / Female

Юр. лицо / Legal entity

He используется / Not in use

a

Вид

кредита / Type of loan

Оборотный / Operating Ипотечный / Mortgage

Межбанковский / Interbank Ипотечный I Mortgage

Потребительский / Consumer

Вид

деятельности / Occupation

Строительство / Constr. engineering Торговля / Trade

Банковская деятельность / Banking

He используется/ Not in use

Вид

деятельности/ Occupation

Все виды деятельности / All types of occupation

He используется/ Not in use

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Пол / Debtor gender

He используется / Not In use

Мужской / Male Женский / Female

Рис. 2. Попарные диаграммы соответствия групп значений измерений: a - ассоциация;

b - зависимость; c - ассоциация и зависимость; d - двусторонняя зависимость Fig. 2. Pairwise compliance diagrams of groups of members: a - association; b - dependence; c - association and dependence; d - two-sided dependence

После построения попарных связей между измерениями многомерного куба можно построить диаграмму связности измерений. На этой диаграмме должны быть представлены все измерения с указанием всех связей между ними. На базе этой диаграммы может быть построена другая диаграмма соответствия групп значений измерений, на которой представлены все группы и установлено соответствие между ними. Эти диаграммы могут быть использованы при формировании МДС аналитического пространства.

В случае, если во множестве измерений О(Н) можно выделить подмножество (будем называть такое подмножество слоем измерений) V- = {Б'1,Б'2, .. ,0'к], где ;'[ - номер измерения в слое; = 1,..,к (к-количество измерений в /-м слое, 1 < к < (Ит(И)), каждое измерение из которого находится в полной ассоциации со всеми измерениями, не входящими в И, то сочетаемость значений измерений в И можно рассматривать независимо от других измерений. Слой измерений - это набор измерений, сочетаемость значений которых в МДС не зависит от того, какие значения в сочетаниях принимают измерения, не входящие в слой. В случае разбиения множества измерений аналитического пространства на слои можно построить диаграмму связности измерений и сформировать множество допустимых сочетаний значений измерений для каждого из слоев по отдельности. После анализа слоев измерений можно получить МДС декартовым произведением:

МДС(Н) = МДС(11) х МДС(12)х . .х МДЩ™), где т - число слоев измерений.

В рассматриваемом примере можно выделить три слоя:

- Ь1 = [Тип заемщика, Пол заемщика,

Вид деятельности, Вид кредита};

Вид деятельности / Occupation

- I2 = [Время выдачи кредита};

- 1} = [Место выдачи кредита}.

На рис. 3 представлена диаграмма связности измерений для слоя I1 из иллюстративного примера.

Если анализировать некоторое измерение как элемент диаграммы связности слоя и учитывать связи рассматриваемого измерения со всеми остальными измерениями слоя, то имеющиеся в этом измерении группы значений можно преобразовать так, что они будут соответствовать всем связям рассматриваемого измерения одновременно. Новые группы должны лежать на пересечении групп, участвующих в описании попарных связей с разными измерениями. При помощи такой процедуры можно описать сочетаемость полного набора измерений в слое. Будем называть такую процедуру формирования групп разбиением групп значений измерений, описывающих попарные связи. При разбиении групп должны наследоваться связи между измерениями, которые были выявлены на этапе попарного анализа.

На рис. 4 представлен фрагмент диаграммы соответствия групп, иллюстрирующий процедуру разбиения групп для измерения «Вид кредита».

В процессе разбиения групп используются все попарные связи из диаграммы связности слоя. В этом полном наборе связей можно выделить связи типа «полная ассоциация» и связи, описывающие соответствие групп, которые уже учтены в оставшихся связях. Выделенные связи не влияют на результат разбиения групп и могут быть удалены из диаграммы связности. Тем самым диаграмма может быть редуцирована к более простому виду без потери информации о сочетаемости значений измерений.

Пол / Debtor gender

Заемщик / Debtor type 2

Вид кредита / Type of loan

Рис. 3. Диаграмма связности измерений для слоя L1 Fig. 3. Diagram of dimensions connectivity for the L1 layer

Заемщик / Debtor type

Вид кредита / Type of loan

Вид деятельности / Occupation

Физ лицо /

Natural person

Юр. лицо / Legal entity

ПотреВительский/ Consummer Ипотечный / Mortgage Потребительский / Consummer

Оборотный / Operating Ипотечный / Mortgage

Оборотный / Operating Межбанковский / Interbank Ипотечный t Mortgage

Межбанковский 1 Interbank Ипотечный / Mortgage

He используется / Not in use

Строительство I Constr. engineering Торговля I Trade

Банковская деятельность/ Banking

Рис. 4. Фрагмент диаграммы соответствия групп значений измерений для слоя L1 Fig. 4. Fragment of the compliance diagram of the groups of measurement value members for the L1 layer

После разбиения групп, описывающих попарные связи между измерениями, можно выполнить обход диаграммы соответствия групп значений измерений аналитического пространства или слоя измерений. В процессе обхода диаграммы вдоль ее связей можно выявить цепочки групп значений измерений, а для некоторых измерений - специального значения «не используется» вместо группы, значения из которых сочетаются в МДС по правилу «каждый с каждым». Такие цепочки определяют набор сочетаний, входящих в МДС, которые могут быть получены декартовым произведением групп значений измерений и специального значения «не ис-

пользуется», если оно присутствует в цепочке. Будем называть такой набор сочетаний кластером сочетаний. Кластер сочетаний - множество сочетаний значений измерений, которое может быть получено при помощи операции декартова произведения, где операндами являются группы значений измерений или специальное значение «не используется», по одному операнду для каждого из измерений, заданных в многомерном кубе или в слое измерений многомерного куба. На рис. 6 представлены кластеры сочетаний, соответствующие диаграмме связности измерений для слоя 1} из иллюстративного примера.

Рис. 5. Редуцированная диаграмма связности измерений для слоя L1 Fig. 5. Reduced dimensions connectivity diagram for the L1 layer

Вид деятельности / Occupation

Вид кредита / Type of loan

Заемщик / Debtor type

По.] / Debtor gender

Constr, engineering Оборотный / Operating Юр. лицо / He используется /

Trade Ипотечный / Mortgage Legal entity Not In use

Банковская деятельность / Banking Межбанковский 1 Interbank Ипотечный / Mortgage Юр. лицо / Legal entity He используется / Not in use

He используется / Not In use Потребительский / Consummer Ипотечный / Mortgage Физ. лицо / Natural person Мужской / Male Женский / Female

Рис. 6. Кластеры сочетаний для слоя L1 Fig. 6. Clusters of member combinations for the L1 layer

При отсутствии разбиения множества измерений на слои МДС может быть представлено как объединение кластеров, соответствующих диаграмме сочетаемости измерений аналитического пространства. В случае разбиения множества измерений на слои МДС для каждого слоя должно быть построено как объединение кластеров сочетаний слоя, а МДС значений измерений многомерного куба получено как результат декартова произведения МДС для слоев.

Возможна ситуация, когда в наблюдаемом явлении можно выделить сильно различающиеся смысловые компоненты. В этом случае можно по отдельности сформировать подмножества сочетаний, соответствующих разным смысловым компонентам. Для этого надо в каждой компоненте провести свой анализ сочетаемости значений измерений и в соответствии с ним сформировать кластеры сочетаемости. Результирующее множество МДС может быть получено с использованием операций теории множеств, операндами в которых выступают подмножества сочетаний для компонент.

Можно выделить два случая, когда такой подход может быть успешно использован. Первый - когда при анализе разных смысловых компонент возникают разные разбиения измерений на слои, второй - когда имеется простой способ построения подмножества, описывающего МДС с избытком, и эффективный способ описания сочетаний, которые должны быть исключены из этого подмножества, чтобы сократить его до МДС. Рассмотрим эти случаи более подробно.

В первом случае разбиению наблюдаемого явления на I смысловых компонент соответствует объединение подмно-

жеств сочетаний значений измерений:

МДС(H) = QlUQ2U ..uQl .

В силу семантических различий смысловых компонент множество измерений в разных подмножествах может быть по-разному разбито на слои:

О(Н) = ..иЬ™1 ,

где 1 = 1 ..I - номер разбиения; т{ - число слоев в -м разбиении. Каждое подмножество Qi формируется в соответствии со своим разбиением множества измерений на слои.

Во втором случае множество допустимых сочетаний представляется в виде разности подмножеств:

МДС(Н) = ЯМ ,

где И - множество сочетаний, описанное с избытком (сокращаемое подмножество); Q - множество исключаемых сочетаний.

Сокращаемое подмножество может быть сформировано с использованием следующего правила: в него включаются сочетания, полученные декартовым произведением всех значений измерений, дополненные набором сочетаний, содержащих значение «не используется» для некоторых измерений, с исключением тех сочетаний, которые могут быть получены заменой специального значения «не используется» на допустимое значение. Такой подход может быть использован в случае, если множество МДС(Н) имеет сложную структуру и известен простой алгоритм формирования подмножества Q.

Метод построения множества допустимых сочетаний

Можно предложить алгоритм описания МДС, базирующийся на кластерном подходе и состоящий из следующих шагов: 1. Выделить в наблюдаемом явлении п смысловых компонент (п > 1) и сопоставить этим компонентам подмножества

сочетаний Qi, I = 1,..,п.

2. Построить формулу для МДС(Н) с использованием Qi и операций теории множеств в соответствии с выявленными взаимосвязями между компонентами наблюдаемого явления.

3. Сформировать подмножества сочетаний для каждого Qi:

- произвести анализ попарных связей между измерениями, соответствующими семантике Qi, и сформировать группы значений измерений, выражающие эти связи;

- выделить во множестве измерений слои измерений и построить диаграммы связности измерений для каждого слоя;

- произвести разбиение групп значений измерений, заданных в слоях, в со-

ответствии со связями, имеющимися в диаграммах связности слоев;

- произвести формирование кластеров сочетаний и объединение этих кластеров в подмножества сочетаний для слоев;

- произвести формирование подмножества сочетаний Qi декартовым произведением подмножеств сочетаний для слоев измерений.

4. Вычислить МДС(И) с использованием формулы, построенной при выполнении шага 2.

Заключение

В случае разработки большой многоаспектной многомерной информационной системы использование кластерного подхода для описания множества допустимых сочетаний значений измерений позволяет обеспечить компактность при задании метаданных и выразить семантику наблюда-

емого явления. В основе предлагаемого подхода лежит выявление связей между измерениями, отражающими свойства наблюдаемого явления, и формирование групп значений измерений, элементы которых объединены схожим поведением по отношению к этим связям.

Библиографический список

1. Thomsen E. OLAP Solution: Building Multidimensional Information System. NY, Willey Computer Publishing, 2002. 688 p.

2. Висков А.В., Фомин М.Б. Моделирование аналитических измерений в многомерных базах данных // Вестник ИрГТУ. 2012. № 4 (63). С. 15-19.

3. Висков А.В., Фомин М.Б. Методы описания допустимых сочетаний реквизитов-признаков при использовании многомерных моделей в инфокомму-никационных системах // Т-Сотт.: Телекоммуникации и Транспорт. 2012. № 7. С. 45-47.

References

1. Thomsen E. OLAP Solution: Building Multidimensional Information System. NY, Willey Computer Publishing, 2002, 688 p.

2. Viskov A.V., Fomin M.B. Modelirovanie analitich-eskikh izmerenii v mnogomernykh bazakh dannykh [Modeling of analytical dimensions in multidimensional databases]. Vestnik IrGTU [Proceedings of Irkutsk State Technical University]. 2012, no. 4 (63), pp. 15-19. (In Russian)

Критерии авторства

Фомин М.Б. провел исследование, оформил научные результаты и несет ответственность за плагиат.

3. Viskov A.V., Fomin M.B. Metody opisaniya dopustimykh sochetanii rekvizitov-priznakov priispol'zovanii mnogomernykh modelei v infokommu-nikatsionnykh sistemakh [Methods of a description of the permissible combination of detail-attributes when using multidimensional models in infocommunication systems]. T-Comm.: Telekommunikatsiii Transport [T-Comm: Telecommunications and Transport]. 2012, no. 7, pp. 45-47. (in Russian)

Authorship criteria

Fomin M.B. has conducted the research, formalized the scientific results and bears the responsibility for plagiarism.

Конфликт интересов

Автор заявляет об отсутствии конфликта интересов.

Статья поступила 22.06.2017 г.

Conflict of interests

The author declares that there is no conflict of interests regarding the publication of this article.

The article was received 22 June 2017

i Надоели баннеры? Вы всегда можете отключить рекламу.