Научная статья на тему 'Визуализация многомерных данных с помощью естественной поверхности'

Визуализация многомерных данных с помощью естественной поверхности Текст научной статьи по специальности «Математика»

CC BY
252
32
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВИЗУАЛИЗАЦИЯ / ЕСТЕСТВЕННАЯ ПОВЕРХНОСТЬ / КРИВИЗНА / ГЛАВНЫЕ НАПРАВЛЕНИЯ / VISUALIZATION / NATURAL SURFACE / CURVATURE / MAIN DIRECTIONS

Аннотация научной статьи по математике, автор научной работы — Герасимова А.С.

Рассматривается один из новых подходов к визуализации многомерных данных. Предлагаемый метод использует так называемую естественную поверхность. В качестве гипотезы принимается то, что такая поверхность существует. Задача визуализации решается с помощью параметризации двумерной поверхности.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

VISUALIZATION OF MULTIDIMENSIONAL DATA WITH THE HELP OF THE NATURAL SURFACE

We deal with a visualization of multidimensional data problem and propose a new approach to it. This method uses the so-called natural surface. The hypothesis – such surface exists. The problem of visualization is solved by means of parametrization of a two-dimensional surface.

Текст научной работы на тему «Визуализация многомерных данных с помощью естественной поверхности»

УДК 519.248

А.С. Герасимова

аспирант, кафедра математического анализа, ФГБОУ ВПО «Алтайский государственный университет»

ВИЗУАЛИЗАЦИЯ МНОГОМЕРНЫХ ДАННЫХ С ПОМОЩЬЮ ЕСТЕСТВЕННОЙ ПОВЕРХНОСТИ

Аннотация. Рассматривается один из новых подходов к визуализации многомерных данных. Предлагаемый метод использует так называемую естественную поверхность. В качестве гипотезы принимается то, что такая поверхность существует. Задача визуализации решается с помощью параметризации двумерной поверхности.

Ключевые слова: визуализация, естественная поверхность, кривизна, главные направления.

A.S.Gerasimova, Altai State University

VISUALIZATION OF MULTIDIMENSIONAL DATA WITH THE HELP OF THE NATURAL

SURFACE

Abstract. We deal with a visualization of multidimensional data problem and propose a new approach to it. This method uses the so-called natural surface. The hypothesis - such surface exists. The problem of visualization is solved by means of parametrization of a two-dimensional surface.

Keywords: visualization, natural surface, curvature, main directions.

Рассмотрим задачу визуализации многомерных данных. Речь идет о такой замене многомерных точек-объектов на двумерные объекты, при которой геометрическая структура облака данных искажается минимально.

Предмет исследования - данные, полученные в результате наблюдения за системой из m реальных объектов, каждый из которых имеет n характеристик. Если все эти характеристики числовые, то будем отождествлять объекты с точками в n-мерном евклидовом пространстве.

Предположим, что рассматриваемые точки-объекты лежат на некоторой двумерной поверхности. Конечно же, это обстоятельство может быть чисто случайным, но иногда (и именно этот случай представляет наибольший интерес) оно несет в себе некую важную информацию об объектах. Формально интерпретируем это следующим образом.

Параметризуем упомянутую двумерную поверхность с помощью параметров u и v. Тогда для каждой точки-объекта помимо наблюдаемых n характеристик указаны еще две характеристики u и v (непосредственно не наблюдаемые, а восстановленные по расположению точек-объектов). Выявление этих характеристик и определение их для каждого из изучаемых объектов может рассматриваться как особый вариант решения задачи сокращения размерностей и, как следствие, визуализации исходных данных на плоскости.

В качестве основной рабочей гипотезы принято, что поверхность, наилучшим образом прилегающая к рассматриваемым точкам, существует и задается двухпара-метрическим векторным уравнением r = f (u,v). Будем рассматривать задачу построения требуемой поверхности по заданным точкам-объектам в n-мерном пространстве.

Естественной поверхностью будем называть поверхность, содержащую все точки Х1, ..., Хт вместе с криволинейной сеткой координат, построенной таким образом, что в каждой из точек Х1, ..., Хт касательные векторы к координатным линиям совпадают с направлениями главных кривизн этой поверхности. При этом заметим, что чем «круче» поверхность, т.е. чем больше ее кривизна в некотором направлении, тем сильнее меняются физические координаты точки при малом ее движении по поверхности в этом направлении. Вдоль такого направления координаты исходных точек в многомерном пространстве меняются наиболее сильно и, тем самым, это направление может считаться наиболее информативным. Под информативностью здесь понимается изменчивость совокупности двух ненаблюдаемых показателей (и, V).

Сделать высказанное заключение позволяет аналогия с понятием главных компонент в классическом многомерном анализе данных [1]. В соответствии с этой аналогией введем понятие главных направлений естественной поверхности. Здесь в силу предложенного критерия информативности главными направлениями будут считаться те, в которых кривизна естественной поверхности меняется наиболее сильно. Из курса дифференциальной геометрии [2] нам известно, что направления главных кривизн в каждой точке поверхности могут быть найдены с помощью первых двух производных функции. Эти производные можно приближенно найти при помощи их разностных аналогов.

Будем считать в каждой точке систему координат локально линейной. В каждой точке-объекте мы умеем приближенно определять по 2 вектора ^, п е И", задающие

касательные к координатным линиям по и=оо^ и v=co"st соответственно в точке Х. При движении вдоль каждой координатной линии остается неизменной одна из внутренних координат - и либо V. Пусть Х0 - крайняя по V точка, следующая за ней - Х1, г, /=0, 1 - радиус-векторы соответствующих точек (координаты этих векторов совпадают с координатами точек X).

Без ограничения общности можно считать, что и0=^=0 и и1=и0. Величину приращения по V в предположении локальной линейности координат принимаем равной величине расстояния от точки Х1 до плоскости, натянутой на векторы ц0, ц1. Это соответствует длине проекции вектора г1 - г0 на вектор, перпендикулярный рассматриваемой плоскости, то есть на векторное произведение п0хП1. Отсюда

^ = ( - Г0 хЦ) , = ^ + дV. (1)

П хп|

Определим также точки, ближайшие к Х0 по и и вычислим

ди = (г -Г0Н^о ), = +ди . (2)

Далее задаем алгоритм перебора точек, например, при помощи понятия соседей. Переберем всех тех ближайших соседей каждой из точек с уже известными внутренними координатами, для которых внутренние координаты еще не определены, придавая главное значение порядку по V и вычислим их внутренние координаты по формулам (1), (2). Затем перейдем к соседям новых точек и т.д.

Наконец, все внутренние координаты в первом приближении определены. Возьмем крайнюю точку по и, и повторим процедуру, взяв за исходные координаты на-

16

№ 2 (18) - 2013

чальной точки те значения u, v, которые были получены при первом проходе. На этот раз главное значение придаем порядку по u. Можно все это повторять многократно и не обязательно с крайней точки. Признаком завершения процедуры следует признать установление относительно правильного порядка точек и по u, и по v в рассчитанных внутренних координатах.

Для упрощения изложенной весьма сложной процедуры на практике можно предложить менее сложный для вычисления вариант. С помощью описанного ранее алгоритма определим в каждой выборочной точке X главные направления и обозначим их , r/j по u и v соответственно. Выберем какую-либо точку X0 и ее внутренние

координаты u0, v0 (на первом шаге u0=v0=0). Используем приближенные формулы

Г * го +#о (ui -uo) + По (vi - v0), следующие из формулы Тейлора для функции двух переменных [3]. Рассматривая отдельно каждую из координат выписанного приближенного равенства, неизвестные величины u1, v1 можно рассматривать, как коэффициенты линейной регрессии £o,no на

Г - ro + ^o +%vo [4].

В качестве n значений свободных переменных £o, no выступают пары координат этих n-мерных векторов. В качестве n значений отклика (выхода, зависимой переменной) - координаты вектора r1 - ro +%ouo +novo. Найденные коэффициенты регрессии -

искомые внутренние координаты второй точки. Дальше процесс повторяется по схеме, намеченной для сложного способа, описанного выше.

Таким образом, полученные двумерные координаты объектов послужат для их визуализации на плоскости. Заметим, что с точки зрения практика смысл определяемых внутренних координат объекта, как правило, понятен. Примером таких внутренних координат может служить, например, настроение и характер пациентов при медицинском обследовании.

Список литературы:

1. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Классификация и снижение размерности: Справочное пособие. - М.: Финансы и статистика, 1989.

2. Новиков С.П., Фоменко А.Т. Элементы дифференциальной геометрии и топологии: Учебник для университетов. - М., 1987.

3. Фихтенгольц Г.М. Основы математического анализа: Том 1. - М., 1968.

4. Дронов С. В. Многомерный статистический анализ. - Барнаул, 2oo3.

List of references:

1. Ayvazyan S.A., Bukhshtaber V.M., Enyukov I.S. Meshalkin L.D. Applied statistics: Classification and decrease in dimension: Handbook. - M: Finance and statistics, 1989.

2. Novikov S. P., Fomenko A.T. Elements of differential geometry and topology: The textbook for universities. - M, 1987.

3. Fikhtengolts G. M. Bases of the mathematical analysis: Volume 1. - M, 1968.

4. Dronov S.V. Multidimensional statistical analysis: Manual. Barnaul, 2oo6.

i Надоели баннеры? Вы всегда можете отключить рекламу.