Научная статья на тему 'Использование деревьев решений при визуализации многомерных данных'

Использование деревьев решений при визуализации многомерных данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
499
57
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВИЗУАЛИЗАЦИЯ МНОГОМЕРНЫХ ДАННЫХ / ДЕРЕВЬЯ РЕШЕНИЙ / SEE5/C5 / MULTIDIMENSIONAL SCALING / DECISION TREES

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Яковлев Сергей Сергеевич, Середин Олег Сергеевич

Существующие алгоритмы снижения размерности данных с целью их визуализации не всегда они могут предоставить достаточную разделимость объектов исходных данных в задачах классификации. Предлагается использовать алгоритм построения деревьев решений See5 как эффективного способа визуализации многомерных данных. Использование подхода на основе решающих деревьев в рамках задачи визуализации многомерных данных позволит осуществить более качественное разделение объектов разных классов исходных данных относительно рассмотренных в статье существующих методов визуализации многомерных данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Яковлев Сергей Сергеевич, Середин Олег Сергеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

USING DECISION TREE ALGORITHMS IN MULTIDIMENSIONAL SCALING

There aremany data visualization algorithms providing set of vector projections of multidimensional data objectsin a space with a smaller dimension used to analyze the value of components ofprojection vectors and the location of groups ofprojected vectors of visualized objects in a given space. However, often these methods can’tprovide sufficient separability of initial multidimensional data objects. It is proposed to use decision tree algorithm See5 for multidimensional scaling. Using C5 algorithmas multidimensional scaling algorithm can provide a qualitative separation of objects from different classes of source data in relation to the existing methods of multidimensional scaling.

Текст научной работы на тему «Использование деревьев решений при визуализации многомерных данных»

procedure of symmetry axis searching. In this work, the possibility of applying reflection invariants to the task of symmetry detection on binarized real-world images is experimentally tested. To do this, we compare values of reflection invariants to the objective symmetry measure calculated on the basis of Jaccard similarity. Experimental study was performed on Butterfly and MPEG 7 CE Shape-1 Part B datasets. Results show that it is impossible to use reflection invariants for fast detection of approximate symmetry on binary raster images.

Key words: reflection symmetry, binary image, image moments, reflection invariants.

Fedotova Sofia Antonovna, student, _fedotova. sonya@gmail. com, Russia, Tula, Tula State University,

Seredin Oleg Sergeevich, candidate of mathematical science, docent, oseredin@yandex. ru, Russia, Tula, Tula State University,

Kushnir Olesia Aleksandrovna, assistant, kushnir-olesya@,rambler. ru, Russia, Tula, Tula State University

УДК 004.67

ИСПОЛЬЗОВАНИЕ ДЕРЕВЬЕВ РЕШЕНИЙ ПРИ ВИЗУАЛИЗАЦИИ

МНОГОМЕРНЫХ ДАННЫХ

С. С. Яковлев, О. С. Середин

Существующие алгоритмы снижения размерности данных с целью их визуализации не всегда они могут предоставить достаточную разделимость объектов исходных данных в задачах классификации. Предлагается использовать алгоритм построения деревьев решений See5 как эффективного способа визуализации многомерных данных. Использование подхода на основе решающих деревьев в рамках задачи визуализации многомерных данных позволит осуществить более качественное разделение объектов разных классов исходных данных относительно рассмотренных в статье существующих методов визуализации многомерных данных.

Ключевые слова: визуализация многомерных данных, деревья решений, See5/C5.

Визуализация - это представление различной информации с помощью изображений, графиков, схем, таблиц - всего того, что значительно упрощает восприятие. 90% информации человек воспринимает зрительно. Данные довольно легко визуализировать до тех пор, пока количество рассматриваемых признаков не превышает трех. Действительно не представляет трудности построить график функции или диаграмму распределения объектов на плоскости (в пространстве двух признаков). В случае необходимости можно рассматривать объекты в трехмерном пространстве.

Однако задач, где для описания объектов используется такое малое число признаков, немного. Гораздо чаще возникает ситуация, когда для описания объекта используются несколько десятков или даже сотен признаков. Большое количество признаков объясняется желанием построить как можно более полную и достоверную модель исследуемой системы. Однако качественно, т.е. наиболее наглядно, визуализировать такую модель нелегко. Таким образом возникает противоречие: для того, чтобы построить визуализацию, число признаков, различающих объекты не должно

превышать трех; с другой стороны, для того чтобы результаты исследования были максимально достоверны желательно иметь как можно более полную модель, включающую в себя несколько десятков признаков. Т.е. при выборе количества характеризующих объект признаков на одной чаше весов находятся цели «наглядность» и «простота» визуализации, а на другой - «достоверность» и «точность» исследования.

Обзор методов визуализации многомерных данных. В литературе известен ряд методов визуализации многомерных данных. Методы основаны на разных идеях, но они объединены выполняемой задачей и общим типом конечного результата. В рамках статьи рассмотрим кратко несколько из них.

Алгоритм FastMap - идея метода, предложенного К. Фалоутсосом в 1995 году [1], заключается в том, что в исходном пространстве осуществляется поиск двух наиболее удаленных друг от друга объектов, которые назначаются опорными объектами. Опорные объекты определяют оптимальную, с точки зрения качества представления структуры данных, ось, на которую будет осуществляться проецирование всех оставшихся N — 2 объектов. Предполагается, что, выбрав в качестве опорных самые далекие объекты, мы тем самым обеспечим наибольшую наглядность полученной проекции.Главным достоинством данного алгоритма является его низкая вычислительная стоимость, линейно зависимая от количества объектов: O(kN), а недостатком -

строгие ограничения на вид функции расстояний, которые сужают область его применения.

Метод главных компонент (англ. PrincipalComponentAnalysis, PCA) или разложение Карунена-Лоева- метод снижения размерности в данных, идеи которого высказывались еще в 19 веке [2]. Идея метода заключается в поиске в исходном пространстве гиперплоскости заданной размерности с последующим проектированием выборки на данную гиперплоскость. При этом выбирается та гиперплоскость, ошибка проектирования данных на которую является минимальной в смысле суммы квадратов отклонений.

Алгоритм SammonMapping-был предложен Дж. Сэммоном в 1969 году [3]. Данный метод пытается сопоставить попарные расстояния проекций элементов данных меньшей размерности с их исходными расстояниями: Предположим, что у нас есть конечное множество векторных выборок{x } и пусть d. . = d(x., x.) - расстояние между x.

и x . Пусть r - местоположение отображения x на гиперплоскости. Принцип состоит

J 1 1

в том, чтобы определить местоположениеr,i = [1..n] на плоскости таким образом, чтобы все их взаимные расстояния | r — r | оказались как можно ближе к расстоянию между

соответствующими векторами в исходном пространстве.

Для расчёта расстояния между векторными выборками используется метрика Минковского:

С " . Ля

dm (xi, xj ) = I I 1 xi,k — xj ,k 1 R .

V k=1 J

Чтобы количественно оценить точность ("goodness") проекции используется стоимостная функция, названная как Sammon'sstress или ошибка(невязка) Сэммона:

E = 1 (d(x,,xj)—|r — r. |)2

S II d (xi

, xj ) ' •J>i

d (x., x.)

i J>i

Таким образом, проекция направлена на минимизацию этой функции, а проблема проецирования может рассматриваться как функция, минимизирующая ошибку Сэммона.

Алгоритм на основе самоорганизующихся сетей Кохонена-принадлежит финскому ученому Т Кохонену [4]. Основной принцип работы сетей - введение в правило обучения нейрона информации относительно его расположения. Обучение при этом заключается не в минимизации ошибки, а в подстройке весов (внутренних параметров нейронной сети) для наибольшего совпадения с входными данными. Основные преимущества использования сетей Кохонена при визуализации многомерных данных: устойчивость к зашумленным данным, а также быстрое и неуправляемое обучение.

Визуализация многомерных данных с использованием деревьев решений. Метод деревьев решений (decision trees) является одним из наиболее популярных методов решения задач классификации и прогнозирования. Иногда этот метод интеллектуального анализа данных также называют деревьями решающих правил, деревьями классификации и регрессии.

Впервые деревья решений были предложены Е. Хантомвработе [4]. Деревья решений были представлены как способ представления правил в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение. Под правилом понимается логическая структура, представленная в виде «если ... то ...».

Алгоритм построения решающего дерева C5/See5 является продолжением алгоритма C4.5, который в свою очередь является развитием идеи алгоритма ID3 [5]. Для построения дерева на каждом внутреннем узле необходимо найти такое условие, которое бы разбивало множество, ассоциированное с этим узлом на подмножества. В качестве такой проверки должен быть выбран один из признаков.

Алгоритм построения деревьев решений C5/See5 направлен на решение только задачи классификации и является «жадным алгоритмом». Если один раз был выбран признак, и по нему было произведено разбиение на подмножества, то алгоритм не может вернуться назад и выбрать другой признак, который дал бы лучшее разбиение. И поэтому на этапе построения нельзя сказать даст ли выбранный признак, в конечном итоге, оптимальное разбиение. Для построения дерева на каждом внутреннем узле необходимо найти такое условие (проверку), которое бы разбивало множество, ассоциированное с этим узлом на подмножества. В качестве такой проверки должен быть выбран один из признаков. Общее правило для выбора признака можно сформулировать следующим образом: выбранный признак должен разбить множество так, чтобы получаемые в итоге подмножества состояли из объектов, принадлежащих к одному классу, или были максимально приближены к этому, т. е. количество объектов из других классов («примесей») в каждом из этих множеств было как можно меньше.

Алгоритм C5/See5 использует теоретико-информационный подход для выбора наиболее подходящего признака:

Gain( X ) = Info(T ) - Infox (T ), где, Info(T)- энтропия множества T, причем:

n I T I

InfOx (T ) = S T. * Info(T ).

i=l 1 T 1

Множества T T T TN получены при разбиении исходного множества T по проверке X, причем выбирается признак, предоставляющий максимальное значение по критерию.

Идея визуализации многомерных данных с использованием алгоритма построения деревьев решений C5/See5 заключается в следующем:

1. На исходном наборе многомерных данных, включающих описание классовой принадлежности каждого объекта, строится дерево решений.

139

2. Полученный набор узлов включает проверки, которые разделяют исходное множество объектов на описанные классы с некоторой вероятностью. В данных проверках участвуют диапазоны или конкретные значения признаков, описывающих объекты исходных многомерных данных.

3. Используем первые k -признаков, характеризующихся наиболее высоким уровнем использования в проверках в полученном наборе узлов, для визуализации массива многомерных объектов в k -мерном пространстве.

4. Полученная визуализация многомерных данных на основе проецирования объектов в k -мерном пространстве наиболее используемых в правилах k -признаков позволит представить исходные данные.

На основе вышеприведенного описания допустимо выдвинуть гипотезу, что преимущество данного способа визуализации данных будет заключатся в возможности более качественного разделения объектов разных классов исходных данных на полученной плоскости, чем у других, описанных ранее алгоритмов. Причем, прямым факторов, влияющим на степень разделения объектов на плоскости, будет являться точность, с которой правило, полученное алгоритмом C5, разделит исходные данные на классы.

Экспериментальные исследования. Разработанный методэкспериментально исследован намногомерном наборе данных, полученном посредством обработки набора аудиозаписей алгоритмом OpenSmile [6]. Данных алгоритм выделяет в аудиозаписях особенности, связанные с голосом (speech-relatedfeatures), такие как энергия сигнала, громкость, спектры октавы, спектры бака, спектры мела, мел-кепстральные коэффициенты, высота, джиттер, шиммер, форманту и др.

Набор аудиозаписей был созданна основе двух составляющих:

- опрос людей на предмет записи их голоса. Общее число человек, давших согласие на участие в эксперименте, является 29 человек, среди которых 9 женщин и 20 мужчин. Каждый человек произнес фразу «Здравствуйте», средняя длительность записи составила от 1 до 3 секунд. Сформировано85 объектов класса «голоса»;

- запись образцов инструментальных композицийаналогичной длительности. Использовано десять композиций жанров «альтернативный рок», «классическая музыка», «акустическая гитара», «джаз», «retro-wave», «скрипка», «фортепьяно». В итоге получено дополнительных 224 объекта класса «инструментальные композиции».

После объединения вышеперечисленных записей и их обработки с помощью алгоритма OpenSmileобщий набор данных включает в себя 309 объектов двух классов, описанных 88 признаками.

Визуализация полученного набора данных производилась стандартными алгоритмами (см. рис. 1 - 4), реализованными в лабораторном программном средствеVisu-alChart3D[7]. Данное программное средство позволяетпроводить визуализацию многомерных данных методом FastMap, методом главных компонент, методом Dissimilar-itySpace, методом Сэммона, самоорганизующимися картами Кохонена и предоставить полученный результат на двух- или трехмерной плоскости для последующего анализа. Представляемый функционал для работы с графической плоскостью допускает изменение точки обзора плоскости, масштаба, а также выбор группы отдельной группы объектов для визуализации. Предоставляемые возможности анализа результатов визуализации данных допускают выбор объектов и демонстрации некоторых характеристик, таких как имя, класс и значение компонент его проекции, а также мультимедийного представления в виде видео или аудио записи. Настройка исходных данных осуществляется путем выбора источника массива данных. Допускается выбор файла в формате *.txt и *.csv, а структура источника массива данных может включать матрицу «объект-признак», матрицу расстояний и матрицу готовых для визуализации трехмерных координат.

Из анализа рис. 1- 4 можно сделать вывод, из всех четырех примененных методов визуализации многомерных данных добиться линейной разделимости смог только метод главных компонент.

Рис. 1. Визуализация подготовленных данных методом FastMap

Рис. 2. Визуализация подготовленных данных методом главных компонент

Рис. 3. Визуализация подготовленных данных методом Сэммона

141

5сгеел:{154,128), Predicated; 1415, Н:274), Window; Main

Рис. 4. Визуализация подготовленных данных с помощью сетей Кохонена

Рассмотрим визуализацию подготовленных данных при помощи алгоритма построения деревьев решений See5. Для этого использовалась бесплатная версия программы C5компании RuleQuest[8].Построим дерево решений для описанной выборки данныхи определим первый разделяющий признак (см. рис. 5).

Read 30 9 cases (3 3 attributes! from lab3teat.data

1оийпеээ_эшаЗj-eEcentile20.0 <= 0.29S3S53: 2 (35J

lDudnea3_ama3_peEcentile2Q.O > 0,2983853: 1 (224)

Evaluation on training data (30 3 caaea):

Рис. 5. Определение первого разделяющего признака

В ходе построения дерева решений 224 объекта было отнесено к классу «инструментальные композиции», 85 к классу «голоса». Подобранное граничное значение признака «Loudness_sma3_percentile20.0» позволяет разделить два вышеописанных класса с точностью 100.0%. Изымем данный признак из исходного набора данных и повторим вышеописанные действия доя поиска дополнительных двух разделяющих признаков. Таковыми были определены «Loudness_sma3_stddevNorm» и «spectralFlux_sma3_stddevNorm». Проведем визуализацию исходного набора данных на основе трех вышеописанных разделяющих признаков (см. рис. 6).

142

Рис. 6. Визуализация подготовленных данных в пространстве разделяющих

признаков

Произведенная визуализация данных на основе трех разделяющих их признаков, выявленных алгоритмом Бее5, позволяет разделить классы «голос» и «инструментальные композиции» с высокой точностью. Результаты, приведенные на рис. 6, позволяют судить о линейной разделимости исходных данных в пространстве разделяющих признаков.

Предположим на основе результатов интерпретации визуализированных данных соотнесением проекций координат многомерных объектов к их реальным представлениям (в данном случае, аудиозаписям), что класс «голоса» можно представить в виде двух отдельных классов, «мужские голоса» и «женские голоса» и также получить высокую точность разделения объектов разных классов. В таком случае снова осуществим визуализацию многомерных данных, представленных с учетом наличия не двух, а трех описывающих их классов: «мужские голоса», «женские голоса», «инструментальные композиции». Алгоритм Бее5 выделил следующие разделяющие признаки (см. рис. 7), позволив предоставить следующие результаты визуализации обновлённых данных (см. рис. 8).

0ес±з1оп сгее:

1оиапезз_зтаЗ_регсеп£11е20.0 > 0.2983853: 1 (224) 1ои<1пезз_зтаЗ_регсег^з.1е20.0 <= 0.2983853:

:,. ,Е0зет^пеЕгот27.5Н2_зтаЗг12_регсеп1;з.1е50.0 <= 29.44744: 3 (57/1) Е0эет1сопеЕгот27.5Н2_31паЗп2_регсепт:11е50.0 > 29.44744: :.. ,1ои<1пезз_31Г1аЗ_регсеп^1е50.0 <= 0.3480964: 2 (24) 1ои<1пезз_31Г1аЗ_регсеп^1е50.0 > 0.3480964: 3 (4)

Evaluaпion оп ггазлзлд (1ага (309 сазез): Бес1з1оп Тгее

Ел-зе Еггога

4 1( □ . )

(а) (Ь) (с)

224 24 1 60

<-с1азз1£1е(1 аз

(a): с1азз 1

(b): с1азз 2

(c): с1азз 3

АтагИхгье изаде:

100% 1ои<1пезз_31паЗ_регсеп£л.1е20.0 28 3 ЕО зет! Ьопе Ег от2 7. 5Н2_зтаЗпг_ре гсегЛИе 5 0.0 9% 1ои^еэз_31паЗ_регсеп^1е50.0

Рис. 7Определение разделяющих признаков для классов «мужские голоса», «женские голоса» и «инструментальные композиции»

143

Рис. 8. Визуализация многомерных объектов классов «мужские голоса», «женские голоса» и «инструментальные композиции» в пространстве разделяющих признаков

Полученные результаты визуализации многомерных данных набора данных, состоящих из объектов класса «мужские голоса», «женские голоса» и «инструментальные композиции» позволяет сделать заключение о линейной разделимости проекций объектов классов.

Обсуждение результатов и заключение.Предложенный метод визуализации многомерных данныхпозволил добиться линейной разделимости объектов исходных данных на описанные классы в пространстве сниженной размерности, что, в свою очередь, позволило подтвердить выдвинутую ранее гипотезу о преимуществах данного способа визуализации в задачах классификации. В дальнейшем предполагается инкорпорировать реализацию алгоритма построения деревьев решений See5 в качестве библиотеки в лабораторный комплекс визуализации многомерных данных.

Работа выполнена при поддержке РФФИ, гранты 16-57-52042, 18-07-00942.

Список литературы

1. Faloustas C. King-Ip Lin. FastMap: a fast algorithm for indexing, data-mining and visualization of traditional and multimedia datasets, 1995, 26 p.

2. Shlens J.A tutorial on principal component analysis // arXiv preprint arXiv: 1404.1100. 2014.

2. Sammon J.W. A nonlinear mapping for data structure analysis. IEEE Transactions on Computers. 18: 401,402.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3. Kohonen T. Self-Organizing Maps (Third Extended Edition). New York, 2001,

501p.

4. Hunt, E.B., Marin, J., Stone, P.J. Experiments in induction. Oxford, England: Academic Press, 1966, 247 p.

5.Quinlan J.R. Improved Use of Continuous Attributes in C4.5 // Journal of Artificial Intelligence Research, 1996. Vol. 4. P. 77-90.

6. Eyben F., Wollmer M., Schuller B. Opensmile: the munich versatile and fast open-source audio feature extractor // Proceedings of the 18th ACM international conference on Multimedia, 2010, P. 1459-1462.

7. Яковлев С. С. Исследование методов и разработка лабораторного комплекса визуализации многомерных данных: магистерская диссертация. ТулГУ, 2018.

8. Data Mining Tools See5 and C5.0 [Электронный ресурс]. URL: https://www.rulequest.com/see5-info.html (дата обращения: 20.04.2018).

Яковлев Сергей Сергеевич, аспирант, bigsergoya@gmail. com, Россия, Тула, Тульский государственный университет,

Середин Олег Сергеевич, канд. ф.-м. наук, доцент, oseredin@yandex. ru, Россия, Тула, Тульский государственный университет

USING DECISION TREE ALGORITHMS IN MULTIDIMENSIONAL SCALING

S.S. Yakovlev, O.S. Seredin

There aremany data visualization algorithms providing set of vector projections of multidimensional data objectsin a space with a smaller dimension used to analyze the value of components ofprojection vectors and the location of groups ofprojected vectors of visualized objects in a given space. However, often these methods can'tprovide sufficient separability of initial multidimensional data objects. It is proposed to use decision tree algorithm See5 for multidimensional scaling. Using C5 algorithmas multidimensional scaling algorithm can provide a qualitative separation of objects from different classes of source data in relation to the existing methods of multidimensional scaling.

Key words: Multidimensional scaling, decision trees, See5/C5.

Yakovlev Sergey Sergeevich, postgraduate, bigsergoya@gmail. com, Russia, Tula, Tula State University,

Seredin Oleg Sergeevich, candidate of mathematical science, docent, oseredin@yandex. ru, Russia, Tula, Tula State University

УДК 004.827

РЕШЕНИЕ ОБРАТНЫХ ЗАДАЧ ПРИ ИНТЕРВАЛЬНОМ ЗАДАНИИ

ИСХОДНЫХ ДАННЫХ

В. А. Фатуев, И. А. Пчелинцев

Предлагается метод решения обратных задач, позволяющий значительно сократить бесконечное множество решений при интервальном задании исходных данных. Обратная задача решается на основе диофантова уравнения с использованием факторного пространства и интервальной математики.

Ключевые слова: интервал, диофантовы уравнения, обратная задача, факторное пространство, функция Эйлера.

Решение обратных задач является весьма актуальной проблемой. Такие науки, как физика и математика, обязаны многим открытиям именно формализацией и решением обратных задач. Но не только точные науки нуждаются в решении подобных задач. Например, в археологии постоянно возникает необходимость решения обратных задач для восстановления последовательности исторических событий на основе

145

i Надоели баннеры? Вы всегда можете отключить рекламу.