Научная статья на тему 'Разведочный анализ многомерных данных и их сегментация методом динамического проецирования на псевдотрехмерные образы'

Разведочный анализ многомерных данных и их сегментация методом динамического проецирования на псевдотрехмерные образы Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
652
103
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВИЗУАЛИЗАЦИЯ / МНОГОМЕРНЫЕ ДАННЫЕ / КОГНИТИВНЫЕ ОБРАЗЫ / VISUALIZATION / MULTIDIMENSIONAL DATA / COGNITIVE IMAGES

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Шпехт Ирина Александровна

Предложен новый метод визуализации многомерных данных, в котором для восприятия многомерного пространства реализовано проецирование многомерных данных на пространства малой размерности (2-, 3-мерные) путем их разбиения лучами, выходящими из координатного центра (количество лучей равно размерности исходного пространства данных). Для каждой точки исходного пространства определяются точки-отображения как центры тяжести плоских многоугольников, полученных при отложении величины соответствующих координат на лучах. Результаты могут использоваться при построении решающих правил в задачах принятия решений в трудноформализуемых технических и информационных системах. Библиогр. 3. Ил. 4.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The new method for visualization of multidimensional data, where the perception of multidimensional space realized the projection of multidimensional data on low-dimensional space (2, 3-D) by their partition emanating from the origin rays, equal to the number of dimensions of the original data space is suggested. For each point of the original space the mapping points as centers of gravity of plane polygons, derived from sediments of the value of the corresponding coordinates on the rays are determined. The results can be used in constructing the decision rules in decision-making problems in the hard forming technology and information systems.

Текст научной работы на тему «Разведочный анализ многомерных данных и их сегментация методом динамического проецирования на псевдотрехмерные образы»

УДК 004.67,004.93'14

И. А. Шпехт

РАЗВЕДОЧНЫЙ АНАЛИЗ МНОГОМЕРНЫХ ДАННЫХ И ИХ СЕГМЕНТАЦИЯ МЕТОДОМ ДИНАМИЧЕСКОГО ПРОЕЦИРОВАНИЯ НА ПСЕВДОТРЕХМЕРНЫЕ ОБРАЗЫ

Введение

Более полное изучение и развитие сложной системы управления возможно с помощью многомерного анализа данных, представляющего ее многопараметрическое поведение. Решение задач анализа системы в целом получается весьма эффективным, если удается на основе экспериментальных данных проводить первичный разведочный анализ многомерных данных, представляющих систему.

С другой стороны, одной из проблем существующих систем классификации и распознавания является представление промежуточных и итоговых результатов исследования в виде, удобном для визуального анализа пользователя, т. к. данные в них зачастую имеют многомерный характер, в то время как пространство размерностью более трех переменных визуально представить трудно. Именно поэтому анализ многопараметрических задач, как правило, проводят без надлежащего графического отображения данных.

Постановка задачи

Существуют различные методы обработки многомерных данных, например факторный анализ, кластерный анализ, таксономия и т. п. Однако решения, найденные разными методами, могут существенно отличаться друг от друга в силу ограничений, накладываемых разными методами как на исходную выборку, так и на количество и форму полученных кластеров, что может привести к неадекватным и неустойчивым результатам [1-3].

В связи с этим важную роль играет разработка когнитивных методов визуализации многомерных данных, позволяющих исследователю в наглядном виде визуально обнаружить характерные особенности массива изучаемых данных. Программное обеспечение, разработанное с использованием таких методов, позволит выполнять анализ многомерных данных тем специалистам в различных предметных областях, которые недостаточно хорошо знакомы с методами многомерного анализа.

Методы и подходы решения

К сожалению, существующие методы визуализации данных не свободны от недостатков. Поскольку человек не способен непосредственно воспринимать образы пространства с числом измерений более 3-х, возникает необходимость отражать многомерные данные на пространство малой размерности, что так или иначе приводит к некоторым искажениям. Наиболее характерны следующие проблемы:

- наложение двух и более кластеров;

- искажение топологии (в некоторых методах близкие точки многомерного пространства могут проецироваться в далёкие точки пространства малой размерности и, одновременно, далёкие точки - в близкие).

Для усовершенствования существующих методов визуализации многомерных данных с целью предварительной разведки их структуры, обеспечения надёжного разделения кластеров и уменьшения искажений расстояний между точками многомерного пространства при их проецировании в пространство малой размерности (искажений топологии), нами был разработан метод визуализации многомерных данных на двумерную плоскость применительно к непрерывности признакового пространства (алгоритм «ЛИЛИЯ»). Метод позволяет частично решить проблему наложения различных кластеров при проецировании многомерных данных в пространство малой размерности.

Исходной информацией для применения метода является числовая таблица (матрица) многомерных данных типа «объект-признак», где строки отражают информацию об изучаемых объектах или явлениях, а столбцами являются свойства (признаки, характеристики), описывающие эти объекты и явления. Здесь объектами могут быть живые организмы, ситуации, социальные процессы и т. д.

Содержание алгоритма «ЛИЛИЯ» опишем пошагово.

1. Начало координат исходного многомерного пространства смещается таким образом, чтобы любая точка (объект) исходного набора данных имела только положительные координаты, и проводится их нормирование.

2. Двумерная плоскость разбивается на равные сектора лучами, исходящими из координатного центра (число лучей равно размерности исходного пространства данных).

3. Каждый луч представляется в виде оси координат, на которых и откладываются представленные в числовом виде нормализованные величины свойства объектов для каждой точки исходного многомерного пространства.

4. Полученные точки на лучах соединяются отрезками прямой, и каждый исследуемый многомерный объект отображается на плоскости в виде плоского многоугольника, состоящего из последовательно соединенных точек - нормализованных атрибутов объекта (рис. 1).

Рис. 1. Представление объекта на многолучевой плоскости для 8-мерного исходного пространства

На данном шаге получаем отображение объектов без потери информации, но отображение большого числа объектов затрудняет их визуальное восприятие (многоугольники накладываются друг на друга и мешают их восприятию).

1. Строятся точки-отображения для исходных объектов многомерного пространства в виде центров тяжести полученных ранее фигур (плоских многоугольников). При построении точек-отображений имеет место потеря исходной информации, однако это позволяет существенно упростить анализ большого объёма данных. В большинстве случаев исследователь может визуально выделить отдельные кластеры.

Итогом работы алгоритма «ЛИЛИЯ» является массив точек-отображений на плоскости (приведенные графические представления данных), которые характеризуют исследуемые объекты лучшим образом с точки зрения их разделения на кластеры. Данное представление удобно для первичной разведки многомерных данных (рис. 2).

Рис. 2. Первичная разведка многомерных данных алгоритмом «ЛИЛИЯ»

Однако в процессе работы алгоритма визуализации «ЛИЛИЯ» могут возникать некоторые ошибки или неточности, связанные с приведенным графическим представлением многомерного объекта. Так, например, при визуализации объектов с пропорциональными, но разными по абсолютной величине характеристиками получаются близкие точки-отображения на плоскости, как это изображено на рис. 3.

При этом исключаются ситуации, когда близкие точки отображаются как далёкие, а обратная ситуация - отображение далёких точек в близкие - возможна. Подобные искажения могут приводить к наложению некоторых кластеров

Один из способов исключения указанных ошибок заключается в переходе к трехмерному представлению, с соответствующим изменением расположения лучей в пространстве. Они, как и в случае двумерного представления, исходят из координатного центра, но под углом к исходной плоскости, который задаётся пользователем, образуя тем самым перевернутую пирамиду с вершиной в начале координат. Из-за сходства полученной картины представления данных с закрываемым зонтом данный алгоритм получил название «ЗОНТ» (рис. 4).

В этом случае отметки, сделанные на лучах (соответствующие координатам исходных точек многомерного пространства), сместятся относительно нормали исходной плоскости, образуя трехмерные многоугольники, центры тяжести которых и будут представлять собой точки-отображения для трёхмерного пространства.

Рис. 4. Графическое представление алгоритма «ЗОНТ»

Таким образом, расположенные в исходном многомерном пространстве на больших расстояниях точки (спроецированные в близкие или совпадающие точки при двумерном отображении) оказываются в новом трехмерном отображении на большом удалении друг от друга, что позволяет визуально разделить наложенные кластеры. В итоге при трехмерном представлении приведенных данных происходит расхождение наложенных кластеров, что соответствует реальному представлению данных.

Заключение

Для реализации предложенных алгоритмов визуализации многомерных данных методом проецирования в пространства малой размерности был разработан программный комплекс визуализации (алгоритмы «ЛИЛИЯ», «ЗОНТ»), предназначенный для извлечения характерных особенностей и выявления кластерной структуры в многомерном массиве данных. Программный комплекс упрощает проблему разведочного анализа многомерных данных и первичную классификацию объектов в условиях априорной неопределённости в отношении как самих объектов, так и условий их наблюдения.

Форматом входных данных для программы являются электронные таблицы с нормированными значениями непрерывнозначных признаков объектов представления.

Работоспособность алгоритмов «ЗОНТ» и «ЛИЛИЯ» была подтверждена на примере гипотетического массива многомерных данных, а также на классическом наборе многомерных данных «Ирисы Фишера».

СПИСОК ЛИТЕРАТУРЫ

1. ЖуравлевЮ. И. Распознавание образов // Избр. науч. тр. - М.: Магистр, 1998. - 415 с.

2. Загоруйко Н. Г. Прикладные методы анализа данных и знаний. - Новосибирск: Изд-во Ин-та математики, 1999. - 270 с.

3. Зиновьев А. Ю. Визуализация многомерных данных. - Красноярск: Изд-во КГТУ, 2000. - 320 с.

Статья поступила в редакцию 11.05.2011, в окончательном варианте - 9.06.2011

EXPLORATORY ANALYSIS OF MULTIDIMENSIONAL DATA

AND ITS SEGMENTATION BY DYNAMIC PROJECTION ON THE PSEUDOTHREE-DIMENSIONAL COGNITIVE IMAGES

I. A. Shpekht

The new method for visualization of multidimensional data, where the perception of multidimensional space realized the projection of multidimensional data on low-dimensional space (2, 3-D) by their partition emanating from the origin rays, equal to the number of dimensions of the original data space is suggested. For each point of the original space the mapping points as centers of gravity of plane polygons, derived from sediments of the value of the corresponding coordinates on the rays are determined. The results can be used in constructing the decision rules in decision-making problems in the hard forming technology and information systems.

Key words: visualization, multidimensional data, cognitive images

i Надоели баннеры? Вы всегда можете отключить рекламу.