Научная статья на тему 'Применение классификационного подхода при использовании многомерных моделей в инфокоммуникационных системах'

Применение классификационного подхода при использовании многомерных моделей в инфокоммуникационных системах Текст научной статьи по специальности «Математика»

CC BY
258
83
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНФОКОММУНИКАЦИОННАЯ СЕТЬ / МНОГОМЕРНЫЙ АНАЛИЗ ДАННЫХ / КЛАССИФИКАЦИОННАЯ СХЕМА / РЕКВИЗИТ ПРИЗНАК / МОДЕЛЬ МЕТАДАННЫХ

Аннотация научной статьи по математике, автор научной работы — Висков А. В., Кузнецов Е. А., Фомин М. Б.

Одним из подходов при организации анализа данных в инфокоммуникационных сетях может быть использование технологии оперативного многомерного анализа данных. Для представления информации в этом случае используется многомерное аналитическое пространство, размерностями которого являются классифицируемые реквизиты(признаки. Они задаются дискретным набором значений, которые организованы в виде иерархической системы. Как правило, в случае больших размерностей задачи и большого числа допустимых значений реквизитов(признаков, аналитическое пространство характеризуется неравномерностью и разреженностью, при описании которых возникает необходимость рассмотрения сочетаний значений реквизитов(признаков. Построение множества допустимых сочетаний значений реквизитов(признаков позволяет на уровне метаданных отразить семантику предметной области. Рассмотрены возможные варианты классификации данных при определении допустимых сочетаний. Использован теоретико(множественный подход, в основе которого лежит выделение групп значений реквизитов(признаков, которые объединены сходным поведением по отношению к связям между компонентами системы. Рассмотренные варианты организации классификации могут быть использованы при разработке модели метаданных для организации эффективного обмена данными между компонентами инфокоммуникационной системы.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Висков А. В., Кузнецов Е. А., Фомин М. Б.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Применение классификационного подхода при использовании многомерных моделей в инфокоммуникационных системах»

Применение классификационного подхода при использовании многомерных моделей в инфокоммуникационных системах

Одним из подходов при организации анализа данных в инфокоммуникационных сетях может быть использование технологии оперативного многомерного анализа данных. Для представления информации в этом случае используется многомерное аналитическое пространство, размерностями которого являются классифицируемые реквизиты-признаки. Они задаются дискретным набором значений, которые организованы в виде иерархической системы. Как правило, в случае больших размерностей задачи и большого числа допустимых значений реквизитов-признаков, аналитическое пространство характеризуется неравномерностью и разреженностью, при описании которых возникает необходимость рассмотрения сочетаний значений реквизитов-признаков. Построение множества допустимых сочетаний значений реквизитов-признаков позволяет на уровне метаданных отразить семантику предметной области. Рассмотрены возможные варианты классификации данных при определении допустимых сочетаний. Использован теоретико-множественный подход, в основе которого лежит выделение групп значений реквизитов-признаков, которые объединены сходным поведением по отношению к связям между компонентами системы. Рассмотренные варианты организации классификации могут быть использованы при разработке модели метаданных для организации эффективного обмена данными между компонентами инфокоммуникационной системы.

Ключевые слова:

инфокоммуникационная сеть, многомерный анализ данных, классификационная схема, реквизит-признак, модель метаданньх

Висков А.В.,

к. ф.-м. н, ведущий системный аналитик ЗАО "Ланит", yiskov@lanit.ru

Кузнецов Е.А.,

аспирант кафедры информационных технологий РУДН, Teakuznecov@sci.pfu.edu.ru

Фомин М.Б.,

к. ф.-м. н, доцент кафедры информационных технологий РУДН, mfomin@sci.pfu.edu.ru

Введение

Одним из подходов к формированию структуры инфокоммуни-кационной системы является многомерный принцип организации данных, предоставляющий возможности для удобного анализа данных. При этом состояние системы, характеризующей наблюдаемое явление, описывается значениями анализируемых показателей, заданных в многомерном аналитическом пространстве [1]. Структура аналитического пространства формируется в виде сочетаний допустимых значений реквизитов-признаков, определяющих значения показателей. Данные в таких системах могут характеризоваться существенной неравномерностью и разреженностью. Разработка адекватного метода описания множества сочетаний допустимых значений характеристик наблюдаемых явлений позволит повысить эффективность описания данных, обеспечить поддержку действий пользователей в процессе работы по формированию данных и уменьшить трудозатраты на этапе анализа.

Аналитическое пространство, моделирующее сложное наблюдаемое явление, имеет структуру, которую можно анализировать в аспекте отдельных компонент наблюдаемого явления [3]. Для обеспечения такого анализа можно использовать классификационный подход, при котором для отдельных структурных составляющих наблюдаемого явления формируется классификационные схемы, вы-

ражающие семантику этих компонент. При этом построение состава и содержания классификационных схем должно производиться на базе выявления и анализа классификационных признаков соответствующей составляющей наблюдаемого явления. Разработка формального подхода для описания классификационных схем, выражающих свойства фрагментов наблюдаемого явления, позволит решить задачу ранжирования классификационных признаков, и на этой базе — построения аналитического пространства в виде множества сочетаний допустимых значений реквизитов-признаков в простой и компактной форме.

1. Принципы построения множества допустимых

сочетаний значений реквизитов-признаков

С позиции описания структуры информационной модели задачу можно сформулировать следующим образом. Совокупность классифицируемых реквизитов-признаков (КРП), которые определяют первичный показатель, выражающий некоторое наблюдаемое явление, образует п-мерное аналитическое пространство — многомерный куб. КРП являются размерностями этого куба. Характер наблюдаемого явления определяет набор всех возможных значений КРП. При описании первичного показателя используется часть этих значений — допустимые значения КРП. Сочетание этих значений, по одному для каждого из КРП, соответствует одной из ячеек многомерного куба. Помимо допустимых значений, классифицируемому реквизиту-признаку может быть присвоено значение "не используется".

При описании первичного показателя используются не все возможные сочетания значений КРП, а их часть, составляющее множество сочетаний допустимых значений. Применение значения "не используется" для КРП имеет особенности: если оно присвоено какому-либо КРП и присутствует в сочетании с некоторым набором значений других КРП, то при описании первичного показателя не может существовать еще одного сочетания с таким же набором значений других КРП. Иными словами, реквизит-признак либо используется, либо не используется при описании первичного показателя в сочетании с некоторым фиксированным набором значений остальных КРП.

Значения КРП должны быть описаны в специальном справочнике. При этом несколько значений КРП могут быть объединены в набор по некоторому семантическому признаку. Получающиеся в результате такого объединения объекты также являются значениями КРП, но соответствуют другому уровню в иерархии реквизита-признака. Таким образом, со справочником связана иерархическая структура значений КРП. Она определяет направление применения агрегационных функций при работе с первичными показателями, определяющими наблюдаемое явление.

2. Методы анализа структуры множества сочетаний

допустимых значений

Структура множества сочетаний допустимых значений определяется первичным показателем, для которого это множество определено. Анализ предметной области описываемого наблюдаемого явления, формализованный в виде набора правил сочетаемости, дает возможность выразить соответствующие этим правилам семантические связи между КРП [2]. При отсутствии всяких ограничений комбинация сочетаний во множестве может быть произвольной. В большинстве случаев особенности наблюдаемого явления позволяют сформулировать правила сочетаемости в виде попарных связей между КРП. В этом случае можно разбить допустимые значения КРП на группы таким образом, что значения, принадлежащие одной группе, одинаково ведут себя по отношению к связям, которые установлены в парах КРП.

Можно выделить два основных вида таких связей: ассоциация и зависимость, а также два комбинированных вида связей: ассоциация и зависимость, ассоциация и двусторонняя зависимость. Классификация основана на выделении групп значений КРП среди допустимых значений реквизитов-признаков.

Ассоциация. В паре КРП (КРП1 и КРП2) существует ассоциация, если допустимые значения каждого из них могут быть разбиты на п групп, п?2, и между этими группами может быть установлено взаимно однозначное соответствие, проявляющееся в том, что в сочетаниях из множества сочетаний допустимых значений значения КРП1 и КРП2 могут входить только парами, взятыми из соответствующих друг другу групп.

Зависимость. Между двумя КРП (КРП1 и КРП2) существует зависимость, если значения КРП1 могут быть разбиты на две группы так, что в случае, если в некоторое сочетание из множества сочетаний допустимых значений входит значение из первой группы значений КРП1, то значением КРП2 в этом сочетании является одно из допустимых значений, а если в сочетание входит значение из второй группы значений КРП1, то КРП2 в этом сочетании принимает значение "не используется".

Меду двумя КРП может существовать двойная или тройная связь: ассоциация и зависимость или ассоциация и двусторонняя зависимость. Определим эти связи следующим образом.

Между двумя КРП (КРП1 и КРП2) существует ассоциация и зависимость, если допустимые значения КРП2 могут быть разбиты на п групп, п?1, а допустимые значения КРП1 — на (п+1) группу так, что между первыми п группами КРП1 и группами КРП2 может быть установлено взаимно однозначное соответствие, проявляющееся в том, что в сочетания из множества сочетаний допустимых значений значения КРП1 и КРП2 могут входить только парами, взятыми из соответствующих друг другу групп значений, и если в сочетание из множества СДЗ входит значение из (п+1)-й группы значений КРП1, то КРП2 в этом сочетании принимает значение "не используется".

Между двумя КРП (КРП1 и КРП2) существует ассоциация и двусторонняя зависимость, если допустимые значения КРП1 и КРП2 могут быть разбиты на п групп, п>2, так, что между (п-1)-й группой КРП1 и (п-1)-й группой КРП2 может быть установлено взаимно однозначное соответствие, проявляющееся в том, что в сочетания из множества сочетаний допустимых значений значения КРП1 и КРП2 могут входить только парами, взятыми из соответствующих друг другу групп значений, и если в сочетание из множества СДЗ входит значение из п-й группы значений КРП1, то КРП2 в этом сочетании принимает значение "не используется", а если в сочетание из множества СДЗ входит значение из п-й группы значений КРП2, то КРП1 в этом сочетании принимает значение "не используется".

Анализ всех попарных связей в совокупности КРП, определяющих первичный показатель, позволяет построить диаграмму первичного показателя, устанавливающую связи между всеми группами значений КРП. Эта диаграмма определяет структуру множества сочетаний допустимых значений и может рассматриваться как источник исходных данных при построении полного списка сочетаний. Для формирования множества сочетаний допустимых значений реквизитов-признаков можно использовать теоретико-множественный подход, в рамках которого строятся подмножества полного множества сочетаний, отражающие выявленные связи по части КРП [4]. Значения этих КРП в сочетаниях подмножества берутся из индуцированных связями групп значений, а на значения остальных КРП не накладывается ни каких ограничений. Итоговое множество сочетаний допустимых значений можно описать как результат пересечения построенных таким образом подмножеств сочетаний.

3. Выработка классификационного подхода при описании сочетаний значений реквизитов-признаков

В многомерных инфокоммуникационных системах может быть применено несколько подходов к построению систем классификации, формирующих правила, на основании которых происходит разбиение используемых в них объектов на группы. Среди них можно выделить три основных: иерархический, фасетный и дескриптор-ный.

При иерархическом подходе к классификации реквизиты-признаки, выбранные в качестве классификационных признаков, должны быть отнесены к тому или иному классу на разных уровнях иерархии. Таким образом, иерархическая схема классификации может быть описана в виде связного ациклического графа G=(V,E), который по своей структуре является деревом. При этом элементами множества вершин V графа являются группы объектов информационной системы (группы значений реквизитов-признаков), ребра из множества Е задают отношения иерархии между выделенными группами объектов. Каждый объект на любом уровне иерархии должен быть отнесен только к одному классу, который характеризуется конкретными значениями классификационных признаков. При этом выбор классификационных признаков для конкретного класса вытекает из семантического содержания рассматриваемой компоненты наблюдаемого явления. К достоинствам иерархического классифи-

Т-Сотт, #11-2013

67

кационного подхода можно отнести логичность и высокую информативность. Недостатком является сложность модификации графа G при внесении в систему изменений. Иерархический метод классификации реализуется путем построения дерева Э от корня к листьям. При этом последовательно раскрывается смысл реквизитов-признаков в рамках наблюдаемого явления, и выявляется состав групп значений реквизитов-признаков, которые формируют сочетания из множества сочетаний допустимых значений реквизитов-признаков.

Использование фасетного подхода к классификации объектов в информационных системах приводит к разбиению исходного множества неклассифицированных объектов на подмножества. Такое разбиение производится по различным классификационным признакам, вне зависимости одного от другого. В инфокоммуникацион-ных системах, построенных на базе многомерного принципа организации данных, в качестве классификационных признаков естественным образом выступают реквизиты-признаки, а значениями классификационных признаков в фасетах являются группы значений реквизитов-признаков [5]. При этом могут быть использованы группы, выявленные в процессе применения иерархического подхода. Для описания используется фасетная формула кб=(ф1, Ф2,.., Фп), где б=1..н N — число фасетов, Ф1 — группа значений КРП, соответствующая одному из классификационных признаков. Таким образом, использование одновременно иерархического и фасетного подходов позволяет сформировать группы значений реквизитов-признаков и построить при помощи этих групп множество сочетаний допустимых значений реквизитов-признаков, которое выражает структуру отдельной компоненты наблюдаемого явления, для описания которой создается классификационная схема.

В процессе построения классификационных схем выявляются взаимосвязи между базовыми понятиями, на которых строится архитектура информационной системы: наблюдаемое явление (НЯ), первичный показатель (ПП), классифицируемый реквизит-признак (КРП) и классификационная схема (КСХ).

----Сияя, семантического уровни

Рис. 3. Диаграмма связей между объектами информационной системы

Связи на диаграмме означают зависимости (семантические и технологические). КСХ является источником классификации для ПП, относящихся к рассматриваемому НЯ: отражая семантику одной из структурных составляющих НЯ, КСХ является шаблоном при построении ПП в аспекте этой структурной составляющей. КРП формируют КСХ. На процесс такого формирования влияет семантическая связь между НЯ и КРП: НЯ семантически порождает КРП.

В силу того, что КСХ выражает свойства структурной составляющей НЯ, между КСХ и НЯ существует неявная семантическая связь, формирующая состав реквизитов-признаков КСХ. Эта же связь позволяет определить, какие КСХ могут лежать в основе ПП, относящихся к НЯ. Связь между НЯ и ПП означает, что ПП относится к данному НЯ и описывает его, выявляя роль ПП как технологической компоненты системы.

Заключение

При построении инфокоммуникационных систем на базе многомерных моделей данных, аналитическое пространство может иметь сложную структуру, характеризующуюся неравномерностью и разреженностью. Для описания этих особенностей аналитического пространства используется множество сочетаний допустимых значений реквизитов-признаков. Для формирования этого множества требуется выявить связи, существующие между реквизитами-признаками и отражающие свойства наблюдаемого явления, для описания которого создается система. При этом можно по отдельности рассмотреть обособленные компоненты наблюдаемого явления, построив для каждой компоненты классификационную схему, вклю-чаюшую реквизиты-признаки, выражающие только её свойства. На начальном этапе построения классификационной схемы можно воспользоваться иерархическим подходом, позволяющим выявить группы значений реквизитов-признаков, из которых могут быть сформированы сочетания множества сочетаний допустимых значений реквизитов-признаков. Создание набора классификационных схем, описывающих отдельные компоненты наблюдаемого явления, позволяет построить аналитическое пространство наблюдаемого явления путем сопряжения множеств сочетаний допустимых значений реквизитов-признаков, соответствующих разным компонентам, по повторяющимся в сочетаниях разных множеств группам значений реквизитов-признаков.

Литература

1. Асламов Е.Б., Висков А.В., Фомин М.Б. Свойства аналитических измерений // Вестник РУДН. Серия математика, информатика, физика, 2007. - № 1-2. - С. 46-52.

2. Висков А.В., Фомин М.Б. Методы описания допустимых сочетаний реквизитов-признаков при использовании многомерных моделей в инфокоммуникационных системах // T-Comm — Телекоммуникации и Транспорт, 2012. — № 7. — С. 45-47.

3. 1ендель Е.Г., Мунерман В.И., Шкляр Б.Ш. Оптимизация процессов обработки данных на базе алгебраических моделей // Управляющие системы и машины. — Киев: Наукова думка, 1985. — № 6. — С. 91-95.

4. Барсегян АА., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа данных: OLAP и Data Mining. — СПб.: БХВ-Петрбург, 2004. — 336 с.

5. Журавлёв Ю.И., Рязанов В.В., Сенько О.В. Распознавание. Математические методы. Программная система. Практические применения. — М.: ФАЗИС, 2005. — 159 с.

The application of a classification approach when using multidimensional models in infocommunication systems

ViskovAlexy V., Senior System Analyst, Corporate Systems Department, New Information Technology Laboratory (LANIT), viskov@lanit.ru Kuznetcov Evgeny. A, PhD Student, Information Technologies Department, Peoples' Friendship University of Russia, eakuznecov@sci.pfu.edu.ru Fomin Maxim B., An associate professor, Information Technologies Department, Peoples' Friendship University of Russia, mfomin@sci.pfu.edu.ru

Abstract. One of the approaches to the organization of data analysis in the infocommunication networks is to use technologies for multidimensional data analysis. To provide information in this case, the multi-dimensional analytic space, the dimensions of which are classified detail-attribute. They are given by a discrete set of values, which are organized in a hierarchical system. Typically, in the case of large dimension of the problem and the large number of valid values of detail-attribute analytic space characterized by uneven and sparse, in the description of which it is necessary to consider combinations of values of detail-attributes. Construction of the set of valid combinations of detail-attributes can reflect on the level of metadata semantics of the domain. The article describes the possible classification of the data in the determination of the valid combinations. We used the set-theoretic approach, based on the construction of groups of values of detail-attributes, which have a similar behavior with respect to the relationship between the components of the system. Discussed variants of classification can be used to develop a metadata model for effective communication between the components of infocommunication system.

Keywords: infocommunication network, multidimensional data analysis, classification scheme, detail-attribute, metadata model.

i Надоели баннеры? Вы всегда можете отключить рекламу.