Научная статья на тему 'Использование кривых Эндрюса для визуализации многомерных данных в задачах многокритериальной оптимизации'

Использование кривых Эндрюса для визуализации многомерных данных в задачах многокритериальной оптимизации Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
824
146
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МНОГОКРИТЕРИАЛЬНАЯ ОПТИМИЗАЦИЯ / ВЕЙВЛЕТ / ИРИСЫ ФИШЕРА / МНОГОМЕРНЫЕ ДАННЫЕ / КРИВЫЕ ЭНДРЮСА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Грошев С. В., Пивоварова Н. В.

Проблема наглядного и понятного представления многомерных данных актуальна для многих предметных областей. В данной работе проводится анализ различного математического аппарата для построения кривых Эндрюса с целью визуализации многомерных данных на плоскости. С использованием тестового набора данных, называемого в литературе Ирисы Фишера, показано построение кривых Эндрюса с использованием функций преобразования Фурье, полиномиальных функций, а также вейвлетов. Делается вывод о корреляции результатов с исходным представлением тестовых данных в виде точечной диаграммы. С целью улучшения визуального восприятия графического представления исследованы различные способы модификации кривых Эндрюса. Рассмотрены различные варианты проекций кривых на координатные плоскости и произвольные подпространства. Кроме того, исследовано влияние масштабирования кривых Эндрюса на визуальное восприятие многомерной информации.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Грошев С. В., Пивоварова Н. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Использование кривых Эндрюса для визуализации многомерных данных в задачах многокритериальной оптимизации»

Наука й Образование

МГТУ им. Н.Э. Баумана

Сетевое научное издание

1ЭЗМ

Наука и Образование. МГТУ им. Н.Э. Баумана. Электрон. журн. 2015. № 12. С. 197-214.

Б01: 10.7463/1215.0825627

Представлена в редакцию: 04.11.2015 Исправлена: 18.11.2015

© МГТУ им. Н.Э. Баумана

УДК 519.6

Использование кривых Эндрюса для визуализации многомерных данных в задачах многокритериальной оптимизации

Грошев С. В.1'", Пивоварова Н. В.1 *

:МГТУ им. Н.Э. Баумана, Москва, Россия

Проблема наглядного и понятного представления многомерных данных актуальна для многих предметных областей. В данной работе проводится анализ различного математического аппарата для построения кривых Эндрюса с целью визуализации многомерных данных на плоскости. С использованием тестового набора данных, называемого в литературе Ирисы Фишера, показано построение кривых Эндрюса с использованием функций преобразования Фурье, полиномиальных функций, а также вейвлетов. Делается вывод о корреляции результатов с исходным представлением тестовых данных в виде точечной диаграммы. С целью улучшения визуального восприятия графического представления исследованы различные способы модификации кривых Эндрюса. Рассмотрены различные варианты проекций кривых на координатные плоскости и произвольные подпространства. Кроме того, исследовано влияние масштабирования кривых Эндрюса на визуальное восприятие многомерной информации.

Ключевые слова: многокритериальная оптимизация, многомерные данные, кривые Эндрюса, вейвлет, ирисы Фишера

Введение

В настоящее время вопросы обработки больших объемов информации приобретают большое значение. Это может быть как статистическая обработка данных, облачные вычисления, так и иные применения. Одним из примеров использования многомерных данных является задача многокритериальной оптимизации (МКО-задача). Классические подходы к решению МКО-задачи основаны на сведении ее к совокупности задач глобальной однокритериальной оптимизации. Относительно новым и быстро развивающимся подходом является предварительное построение некоторой конечномерной аппроксимации множества, а тем самым, и фронта Парето, а затем предъявлении их лицу, принимающему решения (ЛПР) [1]. Затем ЛПР неформальными методами выбирает в качестве решения одну из точек предъявленной Парето-аппроксимации.

Известно, что человек лучше воспринимает информацию в графическом виде. Если число критериев в МКО-задаче равно двум или трем, то визуализация Парето-аппроксимации не составляет трудности. В случае задачи многокритериальной оптимизации с большим числом критериев, визуализация представляет собой определенную проблему. В работе [2] представлен обзор методов визуализации фронта Парето в задаче многокритериальной оптимизации. В этой же работе упоминается возможность использования кривых Эндрюса для визуализации многомерных данных. В настоящей работе рассмотрим применение различных техник использования кривых Эндрюса для решения подобных задач.

1. Кривые Эндрюса

В своей работе [3] Эндрюс предложил простой и удобный метод для изображения многомерных данных на плоскости. Если размерность данных равна m, каждая точка х = (xi,..., xm), где Xi,(i = 1,.. ,,m) - изменяемые переменные, может быть представлена

функцией в виде ряда Фурье = х^ + sin t + х3 cos t + х4 sin 21 + x5 cos 2t + -

которая выводится графически на интервале - п < t < п. Таким образом, каждой точке из набора данных соответствует линия на графике в этом промежутке.

Данная функция имеет некоторые свойства. Так, если Xi = xii,., xmi,(i = 1,., п) - где п точек да-мерного пространства, то для их среднего вектора х справедливо равенство

. (1)

Кроме того, если х^Хк = 1,.. .,ш; / = 1,..., п) - некоррелируемые случайные величины с дисперсией о2, имеет место равенство

(2)

В результате имеем

Таким образом, кривые Эндрюса сохраняют информацию о средних значениях, расстояниях и дисперсии и дают большое число одномерных проекций на векторы (2 1/2, sin t, cos t,...) (—тг < t < тг) Поскольку расстояния между кривыми Эндрюса линейно отображают расстояния между точками данных, то кривые, расположенные ближе друг к другу, соответствуют близким точкам. Это дает возможность использования рассматриваемых кривых для представления многомерных данных.

Для иллюстрации применения кривых Эндрюса, в качестве исходных многомерных данных удобно рассматривать так называемые Ирисы Фишера [4]. Ирисы Фишера - это набор данных для задачи классификации, на примере которого Рональд Фишер в 1936 году продемонстрировал работу представленного им метода дискриминантного анализа. Этот набор данных стал уже классическим, и часто используется в литературе для иллюстрации различных алгоритмов работы с данными.

Ирисы Фишера состоят из данных о 150 экземплярах растения ириса - по 50 экземпляров из трёх видов — Ирис щетинистый (Iris setosa), Ирис виргинский (Iris virginica) и Ирис разноцветный (Iris versicolor). Для каждого экземпляра измерялись четыре характеристики (в сантиметрах): xi - длина наружной доли околоцветника (sepal length), хг - ширина наружной доли околоцветника (sepal width), хз - длина внутренней доли околоцветника (petal length) и Х4 - ширина внутренней доли околоцветника (petal width). Результат графического представления данного набора в виде точечной диаграммы изображен на Рис.1.

Iri* Qata 4<«1;где1ова,дгееп=и*г94Ео1«,Ыие^гу1п1е1)

ГВ Н IB Л U BI II 1й £1

Sepal.Lenglh * * f-jj jíB ♦ si' • ч -• м ' % т * - Л -р; ч i * - i * 1. 1 u iar^ г* ■

■ я- Width » ^ 0: • Г • . *

.к /Г , ¿V- г Petal. Length А

' -Ír-M*-.'' ё Petet,Width

U U II Т| I f I + I ч Т

Рис1. Представление Ирисов Фишера в виде точечной диаграммы

Анализируя данную диаграмму, можно увидеть в ней закономерности. Например, имеется группа точек, которые явно выделяются на фоне остальных (класс setosa). Классификация Ирисов Фишера представляет собой четырехмерную задачу, и ее визуализация является не очень сложной. Проблемы возникают при больших размерностях задачи.

Возьмем для наглядности тот же набор данных, который использовался для точечной диаграммы (Рис.1), и изобразим эти данные с помощью диаграммы Эндрюса (Рис.2).

Можно заметить, что линии соответствующие похожим значениям, также имеют и схожую форму. При этом размерность данных не имеет никакого значения - каждой точке всегда будет соответствовать одна линия на графике. Ясно видно, как отличается класс setosa от двух других классов. Например, кривые очень тесно связаны в окрестности to = -2,5. Это говорит о том, что в направлении, перпендикулярном вектору

{-=, sin f0, cos t0, sin 2 to)

облако данных выглядит скорее плоским, так что уместна редукция размерности с четырех до трех.

Как и следовало ожидать, трудно отличить класс virginica от класса versicolor, хотя на некоторых интервалах t разница отчетливо видна. Например, на интервале [-2,5; -1,5] оба класса демонстрируют разную кривизну. Интерактивно составленная диаграмма позволит проявить эту особенность более явно. Также заметим некоторые потенциально отдаленные кривые в облаке класса versicolor. Главным же достижением диаграммы Эндрю-са в данном случае является то, что мы получили понятное и легко читаемое представление наших данных.

2. Проецирование, масштабирование и упорядочивание кривых Энрюса

Для улучшения восприятия графических данных можно рассматривать различные ортогональные проекции на координатные плоскости и произвольные подпространства. В данном разделе рассмотрим только случай включения или исключения координаты x. Уравнение кривой после проецирования содержит x¡= 0, (j = 1,...,m) для некоторыхj. Например, если при Xj= 0 различение кривых затруднено, это свидетельствует о слабом раз-

личии данных вдоль этой координаты, и наоборот. Эта техника может быть рассмотрена с точки зрения исследования данных [5].

Диапазон значений одной координаты может превышать диапазон других координат настолько, что вклад последних в визуальное отображение кривой будет незаметен. Чтобы избежать этого, применяют масштабирование. Производится оно следующим образом.

Пусть задан набор из // точек = .....^ = *.....в /«-мерном пространстве. Пусть

также задана функция

Х1 „2"=1 „_1ИГ=1(;1/1 Х]У

где %1 и - среднее арифметическое и дисперсия /-й переменной. Обозначим точки после масштабирования как

где

Квадрат евклидового расстояния между точками X] и XI равен а между соответствующими точками после масштабирования равен

I,, II2 _ V™ (хкГх1а)

Пусть у - точка, соответствующая точке х после масштабирования. Тогда расстояния по оси у будут сохранены для соответствующей кривой. Более того, для некоррелируемых нормально распределенных данных будет справедливо равенство:

(3)

В качестве основного правила можно полагать, что коррелирующие переменные следует группировать и дискриминантным (сильно различающиеся) переменным назначать существенно разные частоты. Проиллюстрируем описанный метод проецирования, используя тригонометрические функции при проецировании данных на подпространства хк= 0, (к = 1,2,3,4).

Так, в подпространстве хз = 0 (Рис.3, слева) все три класса Ирисов близки друг к другу на всем интервале Это значит, что параметр хз , соответствующий длине лепестка, является важной дискриминантной характеристикой. С другой стороны, Х1 - длина чашелистика и Х2 - ширина чашелистика имеют малую дискриминантную силу. Аналогичные изображения при проекции на хз = 0 и Х4 = 0 приведены на Рис.4.

Рис.3. Кривые Эндрюса для Ирисов Фишера при проецировании плоскости на х1 = 0 и х2 = 0

Рис.4. Кривые Эндрюса для Ирисов Фишера при проецировании плоскости на х3 = 0 и х4 = 0

Интересные возможности визуализации дает проецирование нескольких плоскостей одновременно. Так на Рис.5 показана проекция на плоскости хз = х4 = 0, которая показывает, что измерения лепестков Ириса, практически не имеют дискриминантной силы.

Рис.5 Кривые Эндрюса для Ирисов Фишера, спроецированные на хз = х4 = 0

Улучшить восприятие многомерных данных на плоскости может их масштабирование. На Рис.6 слева показан масштабированный набор Ирисов Фишера, в котором можно выделить отдельные классы. Наиболее явно наличие трех классов видно при интерактивном отображении диаграммы.

Рис.6. Кривые Эндрюса для Ирисов Фишера: общие масштабированные данные и масштабированные

данные класса 8&о8а.

Также можно выполнить масштабирование по отдельным классам данных для Ирисов Фишера. На Рис.6 справа показан результат масштабирования класса данных setosa, а на Рис.7 - результат масштабирования по данным классов versicolor и virginica.

Рис.7. Кривые Эндрюса для Ирисов Фишера: масштабированные данные класса versicolor и virginica.

3. Кривые Эндрюса на основе полиномов Чебышева и Лежандра

Свойства кривых Эндрюса, упомянутые в первом разделе, справедливы для любых базисов ортогональных функций, а не только для функций Фурье. То есть, если

где О - область допустимых значений, обозначает набор Ь 2 - ортогональных функций. То-

гда для каждого

имеем равенство

которое может дать удобное двумерное представление (ОЬеР Основная проблема, связанная с этими более общими способами представления, заключается в том, что функция дисперсии может оказаться трудно вычислимой и не сохранять свойства (1), (2) для функций Фурье.

Для данных с некоррелируемыми переменными (наименее интересный случай) это затрудняет интерпретацию кривых, если измерение значимых ширин меняется вдоль кривой. Уместно дать базовые определения и свойства полиномов Лежандра и Чебышева. Полиномы Чебышева Т (х) степени п определяются как

Т„00 = cos 118, х = cos в , (0 < в < я) Известны следующие свойства полиномов Чебышева

где -1 < х < 1. Таким образом можно найти коэффициенты полинома Чебышева. Коэффициенты полинома до 10-й степени приведены в Таблице 1.

Таблица 1. Коэффициенты полиномов Чебышева

Степень Мощность х полинома 0 1 2 3 4 5 6 7 8 9 10

0 1

1 0 1

2 -1 0 2

3 0 -3 0 4

4 1 0 -8 0 8

5 0 S 0 -20 0 16

6 -1 0 13 0 -43 0 32

7 0 -7 0 56 0 -112 0 64

8 1 0 -32 0 160 0 -256 0 128

9 0 9 0 -120 0 432 0 -570 0 2Ё6

10 -1 0 so 0 -400 0 1120 0 -1280 0 512

Для X = (х 1,..., хт) уравнение кривой Эндрюса на основе полинома Чебышева имеет

вид

Если переменные х,- являются случайными некоррелируемыми числами с дисперсией 2, то можно показать, что

С практической точки зрения имеет смысл пренебрегать граничными эффектами ( t = ±1) и ограничить интервал х- скажем, до [-0,8; 0,8] и показать, что на этом интервале выполняется неравенство

Полиномы Лежандра Рл(х) степени п определяются, как

= 1,

Р.ОО = Щ^хР^х) ~Рп_2(х),(п > 2)

(6)

где -1 < < 1 . Отсюда можно найти коэффициенты полинома (Таблица 2).

Таблица 2. Коэффициенты полиномов Лежандра

Степень полинома Мощность X 0 1 2 3 4 5

0 1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1 0 1

2 -0,5 0 1,5

3 0 -1,5 0 2,5

4 0,375 0 -3,75 0 4,375

5 0 1,375 0 -8,75 0 7,875

Для х = (Х1,..., Хш) уравнение кривой Эндрюса на основе полиномов Лежандра имеет

вид

(7)

При этом все свойства оригинальной версии кривых Эндрюса, кроме оценок дисперсии, остаются в силе. Для некоррелируемых данных с постоянной дисперсией а2 можно показать, что

(8)

если / ограничено интервалом [-1,1].

В заключение приведем результаты построений кривых Эндрюса на основании вышеизложенного. На Рис.8 слева показаны кривые на основе полинома Чебышева, а на Рис.8 справа - на основе полинома Лежандра.

Рис.8. Кривые Эндрюса для Ирисов Фишера: (а) на основе полиномов Чебышева и (Ь) на основе полиномов

Лежандра

На рисунке хорошо видно, что класс данных Iris setosa хорошо отделен от остальных классов, что согласуется с исходным представлением тестовых данных в виде точечной диаграммы (Рис.1) и оригинальных кривых на основе тригонометрических функций (Рис.2).

4. Кривые Эндрюса на основе вейвлетов

Как известно, вейвлеты в основном получаются путем растяжения и смещения отдельной функции с достаточным условием разложения во временном и частотном диапазонах. Достаточное условие разложения подразумевает, что функция ¥(х) и ее разложение в ряд Фурье в обоих диапазонах быстрее, чем |х|-1 и |у|-1 соответственно. Таким образом, можно записать

С М-1 <

CJ/Г1 |Ф(х)| <!*<«..

(10)

Набор вейвлетов обладает массой свойств отдельной функции ¥(х), таких как регулярность (дифференцируемость), непрерывность и так далее [6].

Ниже приведены определения для наиболее часто применяемых вейвлетов. - Вейвлет Хаара (Рис.9 вверху слева):

- Вейвлет Франклина (Рис.9 внизу слева):

- вейвлет шляпа Стетсона (Рис.9 вверху справа):

- вейвлет мексиканская Шляпа (Рис.9 внизу справа)

Обозначим ¥(х) родительский вейвлет и пусть а и Ь — действительные числа. Тогда семейство вейвлетов, соответствующее функции ¥(х), описывается формулой:

1/2 „ и где а задает растяжение, Ь - смещение. Множитель | а|" нормализует семейство вейвле-

тов. Набор вейвлетов может быть составлен путем последовательного конструирования

каждого вейвлета, ¥а,ь(х) для разных значений а или Ь, как в (11).

Рис. 9. Примеры вейвлетов

Семейства вейвлетов, сконструированные путем непрерывного варьирования параметров а и Ь, называются семействами непрерывных вейвлетов. Дискретные вейвлеты составлены ограничением значений а и Ь дискретной сеткой. Обычно а = 2"-' и Ь = к (9 < к < 2'), где у , к — целые числа.

Вейвлеты имеют некоторые преимущества по сравнению с рядами Фурье. Одним из них является то, что свойства вейвлетов представлены непосредственно в коэффициентах, в отличие от рядов Фурье. Специальные классы вейвлетов обладают преобразованием, аналогичным преобразованию Фурье, допускающим анализ в частотно"временном интервале. Во многих областях анализа сигнала преобразование Фурье используется для измерения частотных характеристик сигнала по всей области. Напротив, вейвлет" преобразование используют, когда требуется измерение частотных характеристик в связ-

ках, локализованных по времени. Преобразование Фурье и вейвлет-преобразование являются взаимодополняющими. Преобразование Фурье дает усреднение частоты по времени, а вейвлет-преобразование - значения частоты сигнала на произвольном интервале времени.

Рассмотрим построение кривых Эндрюса с помощью вейвлетов. Например, можно составить уравнение кривой, используя функции Хаара:

где 0 < t < 1.

Коэффициент при xi был выбран так, чтобы обеспечить ортогональность функций. Кривые могут быть образованы также другими семействами вейвлетов, но вейвлеты Хаара обладают многими желаемыми свойствами, благодаря их кусочно-постоянной природе. Важно отметить, что функциональное представление в (11) не обязательно обеспечивает близость по t дисперсии для fx(t) некоррелируемых данных. Интервалы по оси t могут меняться для поддержки разного числа вейвлет-функций. В этом случае значения /¡(t) на различных интервалах обусловлены разным числом вейвлет-функций и, следовательно, разным числом переменных.

Существует ряд возможных способов получить независимость функции от t. Один из способов подразумевает использование сжатых и смещенных вейвлетов таких, что для всех t число ненулевых на t вейвлетов постоянно. В этом случае дисперсия кривых не зависит от t. При этом, однако, можно вывести только некоторые линейные комбинации переменных. Другой подход - создать новую функцию уг, которая является нормализацией суммы всех вейвлетов разрешения r, то есть

Каждая точка ассоциируется с функцией

(12)

Этот метод более близок к оригинальному методу Эндрюса, поскольку функции (12) и (13) имеют поддержку по всему интервалу. Метод имеет два преимущества: сохраняется независимость по I и допускается большое число линейных комбинаций с коэффициентами 1 и -1. К сожалению, коэффициент линейной комбинации не может быть равным нулю, и дисперсия fx(t) для этого метода значительно выше, чем в предыдущем случае.

На Рис.10 изображены кривые Эндрюса с вейвлетами Хаара (11), а Рис.11 показывает кривые с функциональным представлением (13). На Рис. 10, 11 функции Хаара постепенно сужаются, что облегчает визуальное восприятие изображения.

1;

-е_______

I ■ 1 I 1 -- -г---г

-ÛS 53- ал i.s

Рис. 10. Кривые Эндрюса Ирисов Фишера с использованием вейвлетов Хаара

аз D.2 П.Т 1.2

Рис. 11. Кривые Эндрюса для ирисов Фишера с равномерным распределением

Можно заметить, что на обеих рисунках кривые для класса Iris setosa отличаются от кривых для классов Iris versicolor и Iris virginica. Эта кластеризация более очевидна на Рис.11. Таким образом, вейвлеты могут быть использованы для построения функционального представления и применены в кривых Эндрюса.

Отметим, что кусочное постоянство вейвлетов Хаара может дополнительно улучшить визуальное представление данных при исследовании кластеров многомерных данных, поскольку хорошо известно, что человек может судить об областях и расстояниях на изображении лучше по прямым линиям, чем по кривым. Это особенно важно, когда в кривые Эндрюса включается большое число переменных.

Заключение

В работе исследовано применение различного математического аппарата для построения кривых Эндрюса. В качестве исходных многомерных данных рассмотрены Ирисы Фишера - ставший уже классическим набор данных для задачи классификации. Показано, что построение кривых Эндрюса на основе преобразования Фурье, полиномиальных функций, а также вейвлетов дает сходные результаты, позволяющие говорить о том, что кривые Эндрюса можно применять для анализа самых разнообразных данных высокой размерности. Указаны достоинства и недостатки использования перечисленных функций.

Список литературы

1. Карпенко А.П. Современные алгоритмы поисковой оптимизации. Алгоритмы, вдохновленные природой. М.: Изд-во МГТУ им. Н.Э. Баумана, 2014. 446 с.

2. Белоус В.В., Грошев С.В., Карпенко А.П., Остроушко В.А. Методы визуализации фронта Парето в задаче многокритериальной оптимизации. Обзор // XX Байкальская Всероссийская конференция «Информационные и математические технологии в науке и управлении»: тр. (Иркутск-Байкал, Россия, 29 июня - 7 июля 2015 г.). Ч. 1. Иркутск: ИСЭМ СО РАН, 2015. С. 22-29.

3. Andrews D.F. Plots of high-dimensional data // Biométries. 1972. Vol. 28, no. 1. P. 69-97. DOI: 10.2307/2528964

4. Fisher R.A. The Use of Multiple Measurements in Taxonomie Problems // Annals of Eugen-ies. 1936. Vol. 7, iss. 2. P. 179-188.

5. Embreehts P., Herzberg A.M. Variations of Andrews' Plots // International Statistical Review / Revue Internationale de Statistique. 1991. Vol. 59, no. 2. P. 175-194. DOI: 10.2307/1403442

6. Embrechts P., Herzberg A.M., Kalbfleisch H.K., Traves W.N., Whitla J.R. An introduction to wavelets with applications to Andrews plots // Journal of Computational and Applied Mathematics. 1995. Vol. 64, iss. 1-2. P. 41-56. DOI: 10.1016/0377-0427(95)00005-4

Science ¿Education

of the Baurnan MSTU

Science and Education of the Bauman MSTU, 2015, no. 12, pp. 197-214.

DOI: 10.7463/1215.0825627

Received: 04.11.2015

Revised: 18.11.2015

© Bauman Moscow State Technical Unversity

Using the Andrews Plotss to Visualize Multidimensional Data in Multi-criteria Optimization

S.V. Groshev1'*, N.V. Pivovarova1 ''shev_5ergeygjmail.ru

1Bauman Moscow State Technical University, Moscow, Russia

Keywords: multicriteria optimization, high-dimensional data, Andrews Plotss, wavelet, Fisher's Iris

data set

Currently, issues on processing of large data volumes are of great importance. Initially, the Andrews plots have been proposed to show multidimensional statistics on the plane. But as the Andrews plots retain information on the average values of the represented values, distances, and dispersion, the distances between the plots linearly indicate distances between the data points, and it becomes possible to use the plots under consideration for the graphical representation of multi-dimensional data of various kinds. The paper analyses a diversity of various mathematical apparatus for Andrews plotting to visualize multi-dimensional data.

The first section provides basic information about the Andrews plots, as well as about a test set of multidimensional data in Iris Fischer's literature. Analysis of the Andrews plot properties shows that they provide a limitlessly many one-dimensional projections on the vectors and, furthermore, the plots, which are nearer to each other, correspond to nearly points. All this makes it possible to use the plots under consideration for multi-dimensional data representation. The paper considers the Andrews plot formation based on Fourier transform functions, and from the analysis results of plotting based on a set of the test, it draws a conclusion that in this way it is possible to provide clustering of multidimensional data.

The second section of the work deals with research of different ways to modify the Andrews plots in order to improve the perception of the graphical representation of multidimensional data. Different variants of the Andrews plot projections on the coordinate planes and arbitrary subspaces are considered. In addition, the paper studies an effect of the Andrews plot scaling on the visual perception of multidimensional data.

The paper's third section describes Andrews plotting based on different polynomials, in particular, Chebyshev and Legendre polynomials. It is shown that the resulting image is well correlated with the original point diagram and the Andrews plots based on the Fourier transform. This allows us to draw a conclusion that the Andrews plots based on the polynomial functions can be used for multidimensional data analysis.

The fourth section studies wavelets as a basis for Andrews plotting. It is noted that wavelets have some advantages as compared to the Fourier series. In many areas of the signal analysis

a Fourier transform is used for measuring the frequency characteristics of the signal over the entire area. The wavelet transform, on the contrary, is used when it is necessary to measure frequency characteristics in time-localized clusters. Fourier and wavelet transforms are complementary. Fourier transform yields an average frequency with respect to time, and the wavelet transform provides the signal frequency values at any time interval. Based on wavelets Andrews plotting through a set of test data, has shown that it is possible to apply this approach to the graphical representation of multidimensional data.

References

1. Karpenko A.P. Sovremennye algoritmy poiskovoi optimizatsii. Algoritmy, vdokhnovlennye prirodoi [Modern algorithms of search engine optimization. Nature-inspired optimization algorithms]. Moscow, Bauman MSTU Publ., 2014. 446 p. (in Russian).

2. Belous V.V., Groshev S.V., Karpenko A.P., Ostroushko V.A. Imaging methods for Pareto front in the problem of multi-criteria optimization. Overview. 20 Baikal'skaya Vserossiiskaya konferentsiya "Informatsionnye i matematicheskie tekhnologii v nauke i upravlenii": tr. [Proc. of the 20th Baikal Conference on Information and Mathematical Technologies in Science and Management], Baikal Lake, Irkutsk, Russia, June 29 - July 8, 2015, pt. 1, pp. 22-29. (in Russian).

3. Andrews D.F. Plots of high-dimensional data. Biometrics, 1972, vol. 28, no. 1, pp. 69-97. DOI: 10.2307/2528964

4. Fisher R.A. The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenics, 1936, vol. 7, iss. 2, pp. 179-188.

5. Embrechts P., Herzberg A.M. Variations of Andrews' Plots. International Statistical Review /Revue Internationale de Statistique, 1991, vol. 59, no. 2, pp. 175-194. DOI: 10.2307/1403442

6. Embrechts P., Herzberg A.M., Kalbfleisch H.K., Traves W.N., Whitla J.R. An introduction to wavelets with applications to Andrews plots. Journal of Computational and Applied Mathematics, 1995, vol. 64, iss. 1-2, pp. 41-56. DOI: 10.1016/0377-0427(95)00005-4

i Надоели баннеры? Вы всегда можете отключить рекламу.