УДК 004.9
ВИЗУАЛИЗАЦИЯ ЭКСПЕРИМЕНТАЛЬНЫХ МНОГОМЕРНЫХ ДАННЫХ НА ОСНОВЕ ОБОБЩЕННЫХ ГРАФИЧЕСКИХ ОБРАЗОВ
О.Г. Берестнева, В.А. Воловоденко, К.А. Шаропин,
О.М. Гергет
Томский политехнический университет E-mail: ogb@tpu.ru
Представлены различные подходы к визуализации результатов экспериментальных исследований. Приведены примеры решения прикладных задач с использованием NovoSpark Visualizer.
Ключевые слова:
Методы визуализации, многомерные экспериментальные данные.
Key words:
Imaging, multi-dimensional experimental data.
Современные компьютерные технологии используют широкий спектр методов визуализации информации. Легкость построения графиков и диаграмм с помощью ЭВМ все заметнее меняет когнитивные навыки исследователя. Современные пакеты анализа информации позволяют строить сотни типов различных графиков и диаграмм, в том числе так называемые пиктографики «Лица Чернова». Результаты применения последних в анализе психофизиологических данных представлены в [1]. Методы визуализации позволяют исследователю одним взглядом обнаружить особенности, выявить закономерности и аномалии в больших объемах информации.
Особенно широко графические методы используются в разведочном анализе данных и задачах кластеризации, позволяя выявлять закономерности в многомерных массивах информации. Методы визуализации такого рода (метод главных компонент [2], методы структурного упорядочения [3, 4] и др.) основаны, как правило, на переходе от многомерной к двумерной системе координат.
Основной задачей визуализации данных является задача получения визуального образа, однозначно соответствующего набору данных. Например, в методе структурного упорядочения таким визуальным образом является точка в преобразованном пространстве координат. В данной статье рассмотрен подход, предложенный В.А. Воловоденко [4, 5], который позволяет провести визуализацию основных линейных конструкций: отрезок, ломанная линия, симплекс в многомерных пространствах. Основой визуализационного подхода является линейное преобразование значений многомерного наблюдения A в двумерную кривую fA(t), т. е. A «• fA(t), при этом гарантируется, что близким по значениям наблюдениям A и B будут соответствовать визуально близкие образы-кривые fA(t) и fB(t); для сильно различающихся по значениям наблюдений их образы-кривые будут заметно отличаться.
Берестнева Ольга
Григорьевна, профессор
кафедры прикладной
математики Института
кибернетики ТПУ.
E-mail: ogb6@yandex.ru Область научных интересов:
математическое моделирование, информационные технологии. Воловоденко Виталий
Алексеевич, канд. техн. наук, доцент кафедры оптимизации систем управления Института кибернетики ТПУ.
E-mail: volcowvav@ tpu.ru
Область научных интересов:
информационные технологии. Шаропин Константин
Александрович, канд. техн. наук, доцент кафедры
прикладной математики
Института кибернетики ТПУ. E-mail: kashar@mail.ru Область научных интересов:
компьютерные технологии, математическое моделирование. Гергет Ольга Михайловна, канд. техн. наук, доцент кафедры прикладной
математики Института
кибернетики ТПУ.
E-mail: olgagerget@mail.ru
Область научных интересов:
компьютерные технологии и математическое моделирование.
В рассматриваемом случае наиболее общей формой представления данных является вектор конечномерного пространства
A = (Оз, ^ а2,..., аи—1) е ^ (1)
Для перехода от данного вектора к визуальному образу будет использоваться базис ортонормированных функций {pi (т)}” 0 . В качестве такого базиса можно использовать известные функции, в частности ортонормированные полиномы Лежандра на отрезке [0,1], множество которых мы обозначим через {/г (т)}°1 .
В таком случае точке с координатами А = (а0, а, О,..., О-х) можно поставить в соответствие функцию
и—1
(т) = Х а11(т) (2)
¿=0
Формирование вектора А связано с преобразованием данных. Для характеристики наблюдаемого многомерного объекта большую роль играют значения его координат. В большинстве случаев каждый показатель имеет свою единицу измерения, и его значение будет влиять на вид функции (т) . Для того чтобы исключить влияние разноименности
показателей на вид функции (т) , необходимо перейти к безразмерным единицам одним
из известных способов.
Следует отметить, что порядок включения показателей в вектор А также будет влиять
на вид функции (т) . Для обоснования порядка следования показателей при решении конкретных прикладных задач предлагается проведение экспертного оценивания информативности показателей.
Разница между формулами (1) и (2) заключается в том, что для вектора А из (1) возможно только аналитическое представление, в то время как для функции (т) возможно представление в виде графика этой функции. Между (1) и (2) устанавливается однозначная связь в обе стороны, т. е. взаимно-однозначная связь. Если ввести в рассмотрение второй вектор
В = <= = Ь2-.., =и—1)
то ему ставится в соответствие функция
и—1
^в (т) = ^ Ьili (т).
1 =о
Будем считать, что функции РА (т) и Рв (т) являются визуальными образами точек А и В, принадлежащих пространству Rn (рис. 1).
Б
Рис. 1. Визуальные образы точек А и В, принадлежащих пространству Rn
Если с векторами А и В связать точки их концов, а начала векторов разместить в начале координат пространства Я„, то получается взаимно-однозначная связь между точками
пространства Я„ и функциями-образами (г) и (г) . На рис. 2 введены следующие
обозначения для осей координат: Х0, ..., Хп-2, Хп-1 , которые соответствуют показателям
Рис. 2. Условное представление прямой Ь, проходящей через точки А и В в пространстве Я„ Введем переменную г и образуем линейное выражение
С(г) = (1 - г)А + гВ = ((1 - г)а0 + гЪ0, (1 - г)а + гЪ1?...,(1 - г)ап_х + гЪп_х) (3)
Очевидно:
С(0)=А и С(1)=В.
Эта возможность дает право на рассмотрение функции С(г) как функции, представляющей многомерную прямую линию, проходящую через точки А и В в пространстве Ип.
Следовательно, мы можем рассматривать выражение аналогичное (3) для представления отрезка АВ:
z є
[0,1]
AB = (1 - z) A + zB
(4)
Параметр z является последовательным параметром и может представлять различные расстояния. Из выражения (4) следует, что можно образовать функцию
П — 1
Fab (z) = X (1 — Z)aili(т) + zbili(т) (5)
i = 0
Обратим внимание, что эта функция будет зависеть от двух аргументов {z, т}. Это
очень важно, так как дает возможность получения графика функции (z) = F^ (z, т) ,
который является визуальным образом отрезка АВ (рис. 3). Таким образом, получается, что на квадрате [0,1]*[0,1] можно построить гладкую поверхность по формуле (5), которая будет однозначно соответствовать аналитическому выражению (4), представляющему многомерный отрезок АВ.
a0 , a1, a2 ,•••, an-1 ■
Рис. 3. Визуальное представление поверхности, соответствующей отрезку АВ
Рассмотрим пример. Пусть даны многомерные объекты со следующими характеристиками:
Н1 = {1, 0, 0, 0}, Н2= {0, 1, 0, 0}, Н3 = {0, 0, 1, 0}, Н4= {0, 0, 0, 1}.
Преобразуем их с помощью полиномов:
1 -І0 (т) + 0 - (т) + 0 - І2 (т) + 0 - І3 (т)
^ 0 - І0 (т) + 1 - Іх (т) + 0 -І2 (т) + 0 - І3 (т)
^ 0 - І0 (т) + 0 - І (т) + 1 - І2 (т) + 0 - І3 (т)
0 - І0 (т) + 0 - Іх (т) + 0 - І2 (т) + 1 - І3 (т)
В общем случае:
Л А Л*
Лз
г =
^ Л -10 (т) + Л1 - І1 (т) + Л* -І* (т) + Лз - Із (т) = (Г, І(т)) = г (т)
Параметр т представляет собой параметр композиции образа, он безразмерен и играет роль аргумента полиномов. Вектор ^ нельзя изобразить в трехмерном пространстве, поэтому он заменяется на ^\(т), который в свою очередь можно легко представить в виде двумерной кривой.
Для иллюстрации приведем еще один пример из [5]. Предположим, есть два 10-мерных наблюдения А и В со следующими значениями:
А: {53.78, 1, 17.56, 2.54, 6.36, 0.16, 4.63, 8.1, 3.28, 1.9},
В: {50.53, 1.4, 19.05, 2.34, 5.95, 1.53, 3.63, 7.82, 2.98, 2.48}.
Следующие кривые являются визуальными представлениями наблюдений А и В
Б,
Рис. 4. Кривая А
Рис. 5. Кривая В
► т
Теперь совместим эти два образа. Кривые А и В очень похожи друг на друга. Это означает, что исходные наблюдения тоже очень близки друг к другу.
0
0
Б,
т
Рис. 6. Кривые А и В
Чем больше кривые неотличимы друг от друга, тем идентичнее наблюдения, которые они представляют, т. е. метод устанавливает взаимно-однозначное соответствие между строками в наборе данных и их кривыми.
0
Если отобразить кривые наблюдений в трехмерном пространстве, используя третье измерение, называемое также -измерением», как расстояние в многомерном пространстве или промежуток времени между двумя наблюдениями, можно обнаружить много интересных свойств.
Введение понятия расстояния между наблюдениями позволяет отображать наблюдения в трехмерном пространстве, отображая значения величины расстояния на <«-оси». Метрика расстояния выбирается произвольно и соответствует, например, геометрическому (Евклидовое), статистическому (Махаланобис) или хронологическому (временной промежуток) расстояниям. Таким образом появляется возможность отображения как статических, так и динамических данных.
В силу линейности преобразования А ^ /А(1), образу отрезка прямой между многмерными наблюдениями А и В соответствует поверхность, соединяющая образы наблюдений. Любая кривая, представляющая наблюдение с промежуточными значениями, будет лежать на этой поверхности, как показано на рис. 7.
Образы наблюдений А и В в трехмерном изображении Образ отрезка между наблюдениями А и В с
промежуточным наблюдением
Рис. 7. Изображение отрезка многомерной прямой [5]
Для более детального сравнения наблюдений, особенно в случае неоднородных единиц измерения показателей, данные можно трансформировать одним из традиционных способов:
• нормализация - для выражения результатов в единой системе измерений
• стандартизация - для сравнения переменных и/или наборов данных с различными характеристиками распределения или единицами измерения
Представленный подход реализован в пакете ЫоуоБрагк Visualizer, на базе которого авторами был успешно решен ряд прикладных задач анализа и интерпретации многомерных данных в медицине [6, 7], педагогике [4] и социальной сфере [6, 9].
Таким образом, представление многомерного наблюдения в виде двумерного образа (кривой) гарантирует, что близким по значениям наблюдениям А и В будут соответствовать визуально близкие образы-кривые; для сильно различающихся по значениям наблюдений их образы-кривые будут заметно отличаться. Становится возможным автоматически классифицировать наблюдения, определять наиболее важные переменные в модели, производить кластеризацию данных, визуально сравнивать индивидуальные наблюдения и целые наборы данных, а также выполнять много других задач в работе с многомерными данными.
что представленные в статье методы и подходы являются перспективными направлениями в области анализа и представления многомерных экспериментальных данных.
1. Шаропин К.А., Берестнева О.Г., Шкатова Г.И. Визуализация результатов экспериментальных исследований //Известия Томского политехнического университета, 2010. - Т. 316. - № 5. - С. 172-176.
2. Дюк В.А., Эммануэль В. Информационные технологии в медико-биологических исследованиях. - СПб: Питер, 2003. - 528 с.
/л(()
Результаты проведенных авторами исследований позволяют уверенно утверждать,
СПИСОК ЛИТЕРАТУРЫ
3. Попечителев Е.П. Анализ числовых таблиц в биотехнических системах обработки экспериментальных данных. - Л.: Наука, 1985. - 148 с.
4. Марухина О.В., Берестнева О.Г., Воловоденко В.А., Шаропин К.А. Технологии визуализации результатов экспериментальных исследований //Информационные и математические технологии в науке и управлении: Труды XVI Байкальской Всерос. конф.. Часть 3. - Иркутск, 2010. - С. 165-171.
5. Шаропин К.А., Берестнева О.Г., Воловоденко В.А., Марухина О.В. Визуализация медицинских данных на базе пакета NovoSpark // Известия Южного федерального университета. Технические науки, 2010. - Т. 109. - № 8. - С. 242-249.
6. Берестнева О.Г., Пеккер Я.С., Шаропин К.А., Воловоденко В.А. Выявление скрытых закономерностей в медицинских и социально-психологических исследованиях // Аппликативные вычислительные системы: Труды 2-й Междунар. конф. по аппликативным вычислительным системам. - Москва, 29-31 октября 2010. - Москва: Институт Актуального образования «ЮрИнфоР-МГУ», 2010. - С. 287-296.
7. Марухина О.В., Берестнева О.Г., Шаропин К.А., Осадчая И.А. Когнитивная графика в
социально-психологических исследованиях // Информационные и математические технологии в науке и управлении: Труды XVI Байкальской Всерос. конф.
«Информационные и математические технологии в науке и управлении». Часть 3. -Иркутск, 2011. - С. 176-181.
Поступила 15.10.2011 г.