Научная статья на тему 'Выбор способа декомпозиции пространства признаков для нелинейного снижения размерности'

Выбор способа декомпозиции пространства признаков для нелинейного снижения размерности Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
493
106
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СНИЖЕНИЕ РАЗМЕРНОСТИ / ДЕКОМПОЗИЦИЯ ПРОСТРАНСТВА ПРИЗНАКОВ / ИЕРАРХИЧЕСКАЯ КЛАСТЕРИЗАЦИЯ / KD-ДЕРЕВЬЯ / DIMENSIONALITY REDUCTION / DECOMPOSITION OF THE FEATURE SPACE / HIERARCHICAL CLUSTERING / KD-TREES

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Мясников Евгений Валерьевич

В работе рассматриваются два подхода к иерархической декомпозиции пространства признаков для повышения эффективности нелинейного метода снижения размерности. Первый подход, предложенный автором настоящей работы, основывается на декомпозиции исходного пространства признаков с использованием иерархической кластеризации. Второй оригинальный подход основывается на иерархической декомпозиции целевого пространства с использованием KD-деревьев. Анализируемые подходы оцениваются с точки зрения эффективности работы нелинейного метода снижения размерности.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE CHOICE OF A METHOD FOR FEATURE SPACE DECOMPOSITION FOR NON-LINEAR DIMENSIONALITY REDUCTION

This paper considers two approaches to the hierarchical decomposition of the feature space to improve the efficiency of the non-linear dimensionality reduction method. The first approach suggested by the author of the paper is based on the decomposition of the original feature space using hierarchical clustering. The second original approach is based on a hierarchical decomposition of the target space by using a KD-Tree. The approaches analyzed are evaluated in terms of the efficiency of the non-linear dimensionality reduction method.

Текст научной работы на тему «Выбор способа декомпозиции пространства признаков для нелинейного снижения размерности»

ВЫБОР СПОСОБА ДЕКОМПОЗИЦИИ ПРОСТРАНСТВА ПРИЗНАКОВ ДЛЯ НЕЛИНЕЙНОГО СНИЖЕНИЯ РАЗМЕРНОСТИ

Мясников Е.В.

Самарский государственный аэрокосмический университет имени академика С.П. Королёва (национальный исследовательский университет) (СГАУ), Институт систем обработки изображений РАН

Аннотация

В работе рассматриваются два подхода к иерархической декомпозиции пространства признаков для повышения эффективности нелинейного метода снижения размерности. Первый подход, предложенный автором настоящей работы, основывается на декомпозиции исходного пространства признаков с использованием иерархической кластеризации. Второй оригинальный подход основывается на иерархической декомпозиции целевого пространства с использованием КБ-деревьев. Анализируемые подходы оцениваются с точки зрения эффективности работы нелинейного метода снижения размерности.

Ключевые слова: снижение размерности, декомпозиция пространства признаков, иерархическая кластеризация, КБ-деревья.

Введение

Методы снижения размерности данных, действующие по принципу сохранения попарных расстояний между объектами, могут применяться как средства отображения многомерных данных в научных исследованиях и производственной деятельности в целом ряде областей: биологии, генетике, социологии, экономике и т.д. В современных информационных системах такие методы могут применяться при создании систем навигации по базам данных мультимедийной информации [1, 2, 3, 4, 5], а также при организации интерфейсов доступа к виртуальным каталогам. В области анализа и обработки изображений нелинейные методы снижения размерности нашли своё применение не только при проведении научных исследований, но и при решении ряда прикладных задач: создании автоматизированных систем сегментации изображений, составлении тематических карт по спутниковым снимкам и др.

Существуют различные критерии, применяемые для оценки качества отображения многомерных данных в пространство малой размерности. В частности, ошибка отображения может быть записана в виде:

=i y щ (d(°¡, oj) - d"(°i, oj))2

(1)

Здесь l, щ - некоторые константы, d(o¡, oj) и d (o, °j) - расстояние между объектами o¡ и °j соответственно в многомерном пространстве и пространстве малой размерности, O - всё множество объектов.

При некоторых значениях констант выражение (1) сводится к известным ошибкам Крускала [6] и Сэм-мона [7] (см. выражение (3) ниже). При этом координаты точек y, в пространстве малой размерности могут быть легко определены, например, методом наискорейшего спуска:

y ; (t +1) = y, (t) + 2 al- o (t), (2)

d(°, °j) - d*(o1, o )

o, (t) = Y

oj eO j*'

щ-

d O, °t)

-(y , (t) - y j (t))

Здесь настраиваемый параметр а влияет на скорость работы и сходимость алгоритма. Существуют и другие алгоритмы построения такого отображения, например, алгоритм случайного поиска [8], алгоритм БЫЛСОГ [9] и др.

Безусловно, методы снижения размерности, действующие по принципу сохранения попарных расстояний между объектами, составляют лишь подкласс нелинейных методов снижения размерности. Информацию о других методах можно почерпнуть, например, в [10].

Кроме того, существует класс методов, основанных на алгоритмах силовой укладки графов. В таких методах точки представляются системой частиц, взаимодействующих друг с другом на плоскости (или в трёхмерном пространстве) в соответствии с некоторой математической моделью физического процесса. Наиболее известными являются модели Идса [11], Фрухтермана-Рейнгольда [12] и Камада-Кавайи [13].

В настоящей работе для оценки качества работы методов снижения размерности многомерных данных взята мера, предложенная Сэммоном в 1969 году [7] и часто называемая ошибкой Сэммона:

£ = -

1

Y d(° ¡, °j)

Y (d(O,,Oj)- d'(O,,Oj))2 (3) э„о.eO d(o,, o )

к j

Это выражение представляет собой частный случай (1) при

1 = -

1

Y d(о ¡, °j)

Щ =

1

d (o,, °t)

Выражение (2) в случае использования ошибки (3) может быть переписано в виде следующего рекуррентного соотношения для координат у 1 в пространстве малой размерности:

у (I +1) = у ДО + т • (0, (4)

e

k

о í,°je O

°i,oj e o

o{,°je O

2 а

£ ¿(о,, О,)

„ С(о.,о.)- С*(о., о.) , ,

° ¿0 = £ и/ \ и*<' \ •( у О - У, О). (5)

О^а !(О, о.) • С (о,, о,) .

Рассматриваемые в настоящей работе методы описываются ниже применительно именно к ошибке (3), однако могут быть обобщены и на случай выбора ряда других ошибок представления многомерных данных.

Работа построена следующим образом. В первом разделе дан краткий обзор методов с пониженной вычислительной сложностью. Второй и третий разделы посвящены описанию используемых в настоящей работе подходов к декомпозиции пространства признаков. В четвёртом разделе приводятся результаты численных экспериментов. В конце работы приводится заключение.

1. Методы с пониженной вычислительной сложностью

К сожалению, существенным недостатком методов нелинейного снижения размерности, работающих по итерационной схеме (похожей на представленную выше), является высокая вычислительная сложность. В связи с этим был предложен ряд методов, имеющих пониженную вычислительную сложность.

Одним из способов снижения вычислительной сложности является использование триангуляции [14], при котором сначала с использованием базового алгоритма ищется решение для некоторого количества объектов М< N. Затем производится последовательное добавление (И- М) объектов с использованием триангуляции.

В методе снижения размерности с использованием линейного преобразования [15] ищется линейное преобразование, позволяющее, зная матрицу расстояний между объектами в многомерном пространстве, получать положение объектов на плоскости. Указанное линейное преобразование матрицы расстояний определяется по части объектов, к которым уже был применён базовый метод, а затем применяется к матрице расстояний между новыми и уже спроецированными объектами.

Решением проблемы высокой вычислительной сложности может быть алгоритм, использующий аппроксимации приращений координат точек 2а1&,(() в (2) на каждой итерации. Для выполнения такой аппроксимации может быть использован подход, подобный предложенному в работе [16], где на каждой итерации для каждого корректируемого элемента формируется два множества. В первом из множеств содержатся элементы, наиболее близкие к корректируемому в многомерном пространстве. Во втором множестве содержатся элементы, отбираемые на каждой итерации случайным образом. Такой подход был использован применительно к модели Идса [11], однако он может быть применён и при минимизации ошибки Сэммона [20].

Позднее вычислительная сложность метода [16] была снижена по сравнению с исходным методом путём применения алгоритма [16] к подмножеству объектов и последующего добавления оставшихся объектов в полученное решение [17].

Эффективным способом снижения вычислительной сложности является иерархическая декомпозиция пространства. После выполнения такой декомпозиции объекты могут учитываться не по отдельности, а группами, что позволяет значительно ускорить итеративный процесс оптимизации. Очевидно, что такой подход позволяет аппроксимировать (2) лишь с некоторой точностью, которая зависит от того, насколько удачно подобрано распределение объектов по группам.

При этом такая декомпозиция может быть выполнена как в исходном, так и в целевом пространстве. Подход, основанный на иерархической декомпозиции исходного пространства, реализован в предложенных автором настоящей работы методах: в нелинейном методе снижения размерности данных с использованием опорных узлов [18], а также ранее в комбинированном методе снижения размерности [2].

Подход, основанный на декомпозиции пространства малой размерности, был реализован, например, в работах [12] (регулярная декомпозиция) и [19] (иерархическая декомпозиция с использованием квадродере-ва) при решении задачи укладки графов на плоскости для аппроксимации действующих на вершины сил. Следует отметить, что идеи декомпозиции пространства малой размерности широко применяются при моделировании в физике и, в частности, в астрофизике при расчёте взаимодействий большого количества источников. Однако о применении иерархической декомпозиции целевого пространства для решения задач снижения размерности данных, в частности, с использованием методов, действующих по принципу сохранения попарных расстояний, автору неизвестно.

В настоящей работе мы сравниваем оба подхода как с точки зрения качества получаемого отображения, так и с точки зрения времени функционирования.

Исследования ряда других методов снижения размерности, описанных в обзоре настоящей статьи, могут быть найдены в работе автора [20].

2. Декомпозиция в исходном пространстве

Подход к декомпозиции исходного пространства реализован в настоящей работе в виде нелинейного метода снижения размерности данных с использованием опорных узлов [18].

Под опорным узлом в работе понимается либо собственно объект исходного множества, либо некоторый создаваемый в процессе работы метода объект, характеризующий подмножество объектов исходного множества.

Собственно метод снижения размерности состоит из следующих этапов:

1. Построение иерархии кластеров на основе координат объектов в исходном многомерном пространстве.

т =

о, ,о.е а

исходного множества.

2. Инициализация координат объектов в целевом пространстве малой размерности.

3. Построение списков опорных узлов для каждо-

го из объектов для расчёта аппроксимации приращений.

4. Выполнение итеративной процедуры оптимиза-

ции для всего множества объектов.

Далее указанные шаги описываются более подробно.

Этап 1. Построение иерархии кластеров

Под иерархией кластеров будем понимать древовидную структуру данных, корнем которой является кластер верхнего уровня С0, а каждая вершина-кластер С1 на уровне 1 > 0 содержит либо подкла-

стеры {С1+1, С1+1,..., С1+1}, либо непосредственно объ-

[ 1 2 |С1| J

екты {о.,о.,...,о. }

I 11 12 С \

Для построения иерархии кластеров могут быть применены как алгоритмы иерархической агломера-тивной кластеризации, так и неиерархические алгоритмы кластеризации, запускаемые в рекурсивном порядке (например, алгоритм к-внутригрупповых средних, нейросетевой алгоритм WTA и т. д.).

Этап 2. Инициализация координат объектов в целевом пространстве

Нелинейный метод снижения размерности Сэммо-на, принятый в настоящей работе в качестве базового, позволяет выполнять инициализацию координат объектов в целевом пространстве (строить начальное приближение) различными способами. В частности, в литературе встречаются способы инициализации случайными значениями, результатами работы метода РСА. При этом отмечено [2], что инициализация с использованием метода РСА позволяет обеспечить в среднем снижение размерности с более высоким качеством.

Этап 3. Построение списка опорных узлов

Под опорным узлом объекта о в настоящей работе будем понимать некоторый объект о1 Ф о или группу объектов {о} 1=1..^, обладающих в исходном многомерном пространстве близкими характеристиками и рассматриваемых как единое целое. Под списком опорных узлов 5 объекта о будем понимать упорядоченное множество опорных узлов объекта о.

При построении списка опорных узлов для каждого из объектов примем во внимание тот факт, что при построении аппроксимации приращений координат объекты, расположенные вблизи рассматриваемого, следует учитывать по отдельности, а группы объектов, расположенные в удалении от рассматриваемого, возможно учитывать совместно.

Таким образом, если при построении аппроксимации какой-либо кластер иерархии находится в удалении от объекта, он может рассматриваться как единое целое. В противном случае необходимо произвести декомпозицию кластера на кластеры более низкого

уровня. В том же случае, когда кластер состоит непосредственно из объектов и не содержит подкластеров, декомпозиция кластера приводит к добавлению в список опорных узлов всех объектов кластера, что может приводить к значительному увеличению объёма списка опорных узлов для расчёта приращений. Чтобы избежать этого, предлагается вместо декомпозиции кластера на отдельные объекты выделять из кластера те объекты, которые близки к рассматриваемому, а остальные объекты кластера объединять во множество, называемое далее неполным кластером, которое учитывать при расчёте приращений как единое целое.

Условие декомпозиции, использованное в настоящей работе, несколько отличается от условия, использованного в [18], и ограничивает значением 3 оценку угла а, под которым кластер С наблюдается из объекта о в исходном пространстве (см. рис. 1): а (С, о) > 3.

Формирование списка опорных узлов выполняется для каждого из объектов один раз до запуска процесса оптимизации. Ниже приводится более формальное описание предлагаемого алгоритма формирования опорных узлов для объекта.

О-Ь;.....

¿Р

'••уа

Рис. 1. Иллюстрация к алгоритму построения списка опорных узлов. Кластер, наблюдаемый из объекта о под углом а, будет разбит на три кластера, если а>3.

Кластер, наблюдаемый из о под углом Р, будет рассматриваться как единое целое при Р<3

Пусть о - некоторый объект, для которого требуется сформировать список 5 опорных узлов, С - произвольный кластер иерархии. Тогда рассмотренные выше принципы могут быть реализованы в виде следующего рекурсивного алгоритма.

1. Если кластер С удовлетворяет условию декомпозиции по отношению к рассматриваемому объекту (а (С,о) > 3) и в С содержатся подкластеры Се С, 1 = 1..Д то применить этот рекурсивной алгоритм для каждого из подкластеров Сь С2, ... , С^.

2. Если кластер С удовлетворяет условию декомпозиции по отношению к рассматриваемому объекту (а (С, о) > 3) и в С содержатся объекты о, е С, 1 = 1..Д то

а) выделить множество V объектов, не удовлетворяющих условию декомпозиции по отношению к рассматриваемому объекту, в неполный кластер: V = {о11ё(оь о) < Т}, а (V, о) < 3;

б) в том случае, если множество V непустое, добавить его в список опорных узлов: 5 = 5 и V;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

в) добавить в список опорных узлов 5 все оставшиеся объекты кластера: 5 = 5 и (С\ V).

3. Если кластер С не удовлетворяет условию декомпозиции по отношению к рассматриваемому объекту (а (С, о) < 5), то добавить его в список опорных узлов: 5 = 5 и С.

Рассмотренный алгоритм задан с точностью до угла декомпозиции 5 и порога Т, определяющего, находятся ли два объекта рядом.

Одним из возможных способов выбора порога является задание его равным радиусу кластера, содержащего рассматриваемый объект. То есть

Т = Я(Ск), ое Ск,

где Я(С) = шах{ё(с, о}, о е С, с - центр кластера С в исходном пространстве. Этот способ выбора порога использовался в настоящей работе.

Функция а (С, о), определяющая значение угла, под которым кластер С наблюдается из объекта о в исходном пространстве, с целью снижения вычислительной сложности рассчитывалась как оценка угла, под которым описывающая кластер С гиперсфера наблюдается из объекта о в исходном пространстве:

а(С, о) = 2 • агсБш(Я(С) / ё(с, о)).

Этап 4. Итеративная процедура оптимизации

Процедура оптимизации в настоящей работе строится на основе аппроксимации вычисления рекуррентного соотношения (4). Наибольший интерес представляет приближённое вычисление для произвольного объекта ое O суммы в 1(?) в (5), так как

расчёт множителя т в выражении (4) может быть сделан заранее и не представляет затруднений. С использованием сформированного на предыдущем шаге работы метода списка опорных узлов 5 для объекта о е О приближённое значение суммы (5) на шаге 1 может быть записано в виде

в, = Е , Бу Ь

Б. е 5

где функция д(о/, Бу) принимает различный вид в зависимости от того, является ли Бу объектом, кластером или неполным кластером.

является объекте

ё (о,, о у) - ё "(о1, о у)

1. Если Бу является объектом оу, то

'(У,- У у).

с(о., Б ) =-

у ё (о,, оу) • ё "(о,, оу)

2. Если Бу является кластером Су, то

?(о1,35/) = Су

ё(о,, с ) - ё*(о1, с )

ё(о,, су) • ё (о,, су) где ё(о , су ) - расстояние от объекта до центра кластера в исходном пространстве, ё'(оп су)- расстояние от объекта до центра кластера в результирующем пространстве, уС - координаты центра кластера в результирующем пространстве.

3. Если Бу является неполным кластером Уу, то

аналогично

?(о,, 5у) = \У\ •

ё(о,, Уу) - ё*(о„ Уу) ё(о,, Уу) • ё*(о„ Уу)

•( У! - У,у ) ,

где ё(о,, у.)- расстояние от объекта до центра не-

полного кластера

исходном пространстве,

ё (о,, уу)- расстояние от объекта до центра неполного кластера в результирующем пространстве, УУ -

координаты центра неполного кластера в результирующем пространстве.

Следует отметить, что центры кластеров и неполных кластеров в многомерном пространстве могут быть рассчитаны заранее. Центры кластеров уС в результирующем пространстве должны уточняться в процессе оптимизации, причём центры неполных кластеров у7 могут быть рассчитаны через центры

соответствующих полных кластеров УС и позиции исключённых объектов:

Ус

• Е у к

\Су\ ок е Су

У К =

У\

1Су| • у с. - Е У к

3. Декомпозиция в целевом пространстве

В отличие от рассмотренного выше подхода выполнение декомпозиции в целевом пространстве неизбежно ведёт к необходимости периодического обновления или перестройки той структуры, с использованием которой выполняется декомпозиция. Причина этого заключается в изменении координат объектов в целевом пространстве по мере выполнения оптимизационного процесса.

В настоящей работе для декомпозиции в целевом пространстве использованы КБ-деревья. Построение дерева выполняется перед каждой итерацией оптимизационного процесса с использованием следующей рекурсивной процедуры:

1. Вычисление характеристик текущего узла дерева (средние координаты в исходном и целевом пространстве, границы узла в целевом пространстве).

2. В том случае, если в узле содержится лишь один объект, то выход.

3. Разбиение узла на два дочерних перпендикулярно наиболее вытянутой границе так, чтобы количество объектов в дочерних узлах было приблизительно равным.

4. Выполнение для вновь образованных дочерних узлов этой процедуры.

Построенное дерево используется для выполнения очередной итерации оптимизационного процесса. Пусть построено КБ-дерево О = {дк}, к = 1 .. К с узлами д1, д2, ... , дК. Тогда вычисление для произвольного

в

1

о, е С

о,. е V,

объекта ое О суммы а, в (5) на шаге t может быть сделано приближенно:

в, = Ё , Я у )

}

путём обхода построенного дерева, начиная с корня дерева Яъ следующим образом:

1. Если условие декомпозиции для текущего рассматриваемого узла Яу не выполняется и объекты, содержащиеся в терминальных вершинах текущего узла дерева, могут быть учтены группой, то очередное слагаемое рассчитывается следующим образом:

Ç(o;, Я, ) = \qt

d(о,, q, ) - d (о,, q, ) d (o1, q, ) • d *(o;, q, )

( У - У Çj ) ,

где | я | - количество объектов (терминальных узлов), содержащихся в соответствующем узле КБ-дерева, d(oh я) и d (о, я) - расстояние между объектом о1 и центром узла Яу соответственно в многомерном пространстве и пространстве малой размерности, уЯ. -координаты центра узла в результирующем пространстве.

2. В противном случае критерий декомпозиции выполняется, и аналогичным образом обходятся оба поддерева рассматриваемого узла.

Условие декомпозиции, использованное при обходе дерева, аналогично рассмотренному выше и ограничивает (значением 5) оценку угла, под которым минимальный ограничивающий объект узла прямоугольник наблюдается из объекта о в целевом пространстве (рис. 2).

Рис. 2. Иллюстрация декомпозиции в целевом пространстве с использованием КО-дерева. Различные уровни декомпозиции показаны различными линиями: первый уровень показан сплошной линией, второй уровень показан штрихпунктирной линией, третий - штриховой

линией. Группа из четырёх объектов (минимальный ограничивающий прямоугольник показан точками) будет разбита на две, если угол Р, под которым минимальный ограничивающий прямоугольник наблюдается из объекта о, больше угла декомпозици 5

Следует отметить, что указанный алгоритм выполняется на каждой итерации для каждого объекта, поэтому для повышения эффективности построенное дерево обходится не рекурсивно, а итеративно с использованием специальных указателей.

4. Экспериментальные исследования

В рамках работы все исследуемые методы были программно реализованы на языке C++ в интегрированной среде разработки Borland Turbo C++ 2006 Explorer. При проведении экспериментов использовался ПК на базе Intel Core i5-3470 CPU 3.2 GHz.

В качестве исходных данных при проведении экспериментов использовался набор данных Corel Image Features Data Set (http://archive.ics.uci.edu/ml/databases/ CorelFeatures/CorelFeatures.data.html), содержащий признаки, рассчитанные по цифровым изображениям из коллекции Corel (http://corel.digitalriver.com/). В частности, в работе использовались следующие наборы признаков.

Набор 1 - цветовые моментные характеристики [21]. Рассчитывалось по 3 характеристики (среднее, СКО и коэффициент асимметрии) для каждой из цветовых компонент. Размерность пространства признаков - 9.

Набор 2 - цветовые гистограммы [22], построенные в цветовом пространстве HSV. Цветовое пространство разбивалось на 8 частей по H и на 4 части по S компонентам. Размерность пространства признаков - 32.

Набор 3 - текстурные признаки на основе матриц совместной встречаемости [23]. Рассчитывались 4 характеристики (второй угловой момент, контраст, обратный момент разности, энтропия) по 4 направлениям (горизонтальному, вертикальному и двум диагональным). Размерность пространства признаков - 16.

Из указанных наборов признаков вырезались фрагменты, содержащие признаковую информацию для необходимого количества изображений, после чего для наборов 1 и 3 к признаковой информации добавлялась единичная компонента и производилась нормировка.

Для оценки эффективности работы методов рассчитывалось значение ошибки представления многомерных данных (3), а также измерялось среднее время выполнения одной итерации процедуры оптимизации.

Работа методов останавливалась при замедлении скорости снижения ошибки (если относительное снижение ошибки за 10 итераций не превышало 0,05). Во всех случаях размерность целевого пространства была выбрана равной двум (решалась задача двумерного отображения). Инициализация выполнялась с использованием метода главных компонент.

Результаты экспериментов приведены на рис. 3 - 7.

На рис. 3 и 4 приводятся зависимости качественных и временных характеристик от угла декомпозиции 5, при котором осуществляется переход к дочерним узлам соответствующей иерархической структуры (дерева кластеров или KD-дерева).

Представленные на рис. 3 - 5 результаты приведены для набора признаков 1. Отметим, что эксперименты, проведённые на других описанных выше наборах данных, показывают схожие результаты.

Как видно из приведённых результатов, большие значения угла 5 приводят к ожидаемому ухудшению качества отображения по причине более грубой аппроксимации, что выражается в больших значениях

ошибки e представления многомерных данных (рис. 3). Время, затрачиваемое на выполнение одной итерации, уменьшается с увеличением угла 5 (рис. 4) за счёт меньшего количества обрабатываемых узлов соответствующей иерархической структуры при построении аппроксимаций. 0,109 0,108 0,107 -0,106 -0,105 0,104

а)

0,099 0,098 0,097 0,096 0,095 0,094

6 D—й -4

<Х1 У

/ Й

/ / В целевом пространствеJ

9 0,1 0,2 0,3 0,4 0,5 8

6 ( — В исход ном про странствеJ

0 0,1 0,2 0,3 0,4 0,5 5

Рис. 3. Зависимость ошибки е представления многомерных данных от угла декомпозици 5 (в долях от лрадиан)

500 400

300

200

100

О

т ® « —♦— В исходном пространстве —В целевом пространстве

i \ X

\ i

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

rv

♦—< (i

0,1 0,2 0,3 0,4 0,5 5

Рис. 4. Зависимость среднего времени выполнения одной итерации (в мс) от угла декомпозици 5 (в долях от лрадиан)

Следует отметить, что подход с использованием декомпозиции в исходном пространстве обеспечивает меньшие значения ошибки представления многомерных данных, чем подход с использованием декомпозиции в целевом пространстве. При этом среднее время выполнения итерации остаётся существенно меньшим при использовании подхода с декомпозицией в исходном пространстве на участке 5 е [0,05 л, 0,2 л].

Среднее времени выполнения одной итерации в методе опорных узлов показано более детально на рис. 5. 45 40 35 30 25 20 15

0 0,1 0,2 0,3 0,4 0,5 5

Рис. 5. Зависимость среднего времени выполнения одной итерации Т (в мс) и средней длины списка опорных узлов Ь от угла разбиения 5 (в долях от лрадиан) при декомпозиции в исходном пространстве

Там же представлена средняя длина сформированного списка опорных узлов Ь. Как видно из графика, время выполнения итерации согласуется с длиной сформированного списка опорных узлов, которая зависит от угла декомпозиции 5.

На рис. 6 и рис. 7 приводятся зависимости качественных и временных характеристик от количества объектов для всех трёх описанных наборов признаков. Полученные результаты подтверждают сказанное выше. Качество отображения, измеряемое ошибкой е представления многомерных данных, формируемое с использованием декомпозиции в исходном пространстве признаков, во всех случаях оказалось выше качества отображения, формируемого с использованием декомпозиции в целевом пространстве. При этом подход с декомпозицией в исходном пространстве с использованием опорных узлов позволяет строить отображение быстрее, чем при использовании декомпозиции в целевом пространстве с использованием КБ-дерева.

0,12 0,11

0,10

0,09

0,08

а) 0

0,12 0,10

е

И i ¡>—®—t i

у

—♦— В исходном пространстве —В целевом пространстве

1000 2000 3000 4000 5000 N

0,08 0,06 0,04

Е . ja»—а

1 ф < ►

<

—♦— В исходном пространстве —®— В целевом пространстве

0

1000 2000 3000 4000 5000 N

0,036 0,034 0,032 0,030 0,028

е А >~с М

« У ♦— >- .

1 i

—♦— В исходном пространстве -<•>- В целевом пространстве

в) ' 0 1000 2000 3000 4000 5000 N

Рис. 6. Зависимость ошибки епредставления многомерных данных от количества объектов: для набора признаков 1 (а); для набора признаков 2 (б); для набора признаков 3 (в)

Заключение

В рамках работы проведено исследование двух подходов к декомпозиции пространства с точки зрения качества и скорости работы нелинейного метода снижения размерности данных. Исследование показало, что на представленных наборах данных декомпозиция исходного пространства более предпочтительна, чем декомпозиция целевого пространства и с точки зрения качественных, и с точки зрения временных показателей.

400 300 200 100

а) О 500 400

300 200 100

б) О 400 300 200 100

в) о'

т —♦— В исходном пространстве —®— В целевом пространстве ш)

J

-Л"* г А—< >

\

1000 2000

—♦— В исходном пространстве —®— В целевом пространстве

3000 4000 5000 N —

4W

1000 2000 3000 4000 5000 N

т —♦— В исходном пространстве --В целевом пространстве J

А JSJ К

.М Г . А

1 1

1000

2000 3000 4000 5000 N

Рис. 7. Зависимость среднего времени выполнения одной итерации (в мс) от количества объектов: для набора признаков 1 (а); для набора признаков 2 (б); для набора признаков 3 (в)

Очевидно, что ни один из рассмотренных подходов не позволяет полностью контролировать ошибку аппроксимации приращений координат точек в (2), так как в первом случае при декомпозиции учитываются лишь характеристики узлов в исходном пространстве, а во втором случае - лишь в целевом. Выходом из этой ситуации и дальнейшим направлением исследований может стать разработка метода, совмещающего в себе оба подхода. Такой метод может быть разработан, например, на основе нелинейного метода снижения размерности с использованием опорных узлов с дополнительным контролем конфигурации объектов узла в целевом пространстве.

Благодарности

Работа выполнена за счёт Российского научного фонда (РНФ), грант № 14-31-00014 «Создание лаборатории прорывных технологий дистанционного зондирования Земли».

Литература (References)

1. Hiroike, A. Visualization of information spaces to retrieve and browse image data / A. Hiroike, Y. Musha, A. Sugi-moto, Y. Mori // Proceedings of the Third International Conference on Visual Information and Information Systems (VISUAL'99). Lecture Notes in Computer Science. -Springer, 1999. - Vol. 1614. - P. 155-162.

2. Мясников, Е.В. Навигация по коллекциям цифровых изображений на основе методов автоматической классификации / Е.В. Мясников // Интернет-Математика 2007: c6. работ. - Екатеринбург: Изд-во Урал. ун-та,

2007. - C. 144-152. (Myasnikov, E.V. Digital image collection navigation based on automatic classification methods / E.V. Myasnikov // Internet-Mathematics 2007: Collected papers. - Ekaterinburg, Russia, 2007. - P. 144-152. -(In Russian).)

3. Rodden, K. Evaluating Similarity-Based Visualisations As Interfaces For Image Browsing / K. Rodden. - Technical Report. - University of Cambridge, Computer Laboratory, 2002. - 248 p.

4. Rose, T. ANVIL: a system for the retrieval of captioned images using NLP techniques / T. Rose, D. Elworthy, A. Kotcheff, A. Clare, P. Tsonis // The Challenge of Image Retrieval. Electronic Workshops in Computing, 2000.

5. Rubner, Y. Adaptive color-image embeddings for database navigation / Y. Rubner, C. Tomasi, L.J. Guibas // Proceedings of the IEEE Asian Conference on Computer Vision, 1998. - P. 104-111.

6. Kruskal, J.B. Multidimensional scaling by optimizing goodness of fit to a nonmetric hypothesis / J.B. Kruskal // Psychometrika. - 1964. - Vol. 29. - P. 1-27.

7. Sammon, J.W., Jr. A nonlinear mapping for data structure analysis / J.W. Sammon, Jr. // IEEE Transactions on Computers. - 1969. - Vol. C-18, Issue 5. - P. 401-409.

8. Calvert, T.W. Randomly Generated Nonlinear Transformations for Pattern Recognition / T.W. Calvert, T.Y. Young // IEEE Transactions on Systems Science and Cybernetics. -1969. - Vol. 5. - P. 266-273.

9. De Leeuw, J. Applications of convex analysis to multidimensional scaling / J. De Leeuw, J.R. Barra, F. Brodeau, G. Romie [et al.] // Recent developments in statistics. -1977. - P. 133-145.

10. Lee, J.A. Nonlinear Dimensionality Reduction / J.A. Lee, M. Verleysen. - Springer, 2007.

11. Eades, P. A Heuristic for Graph Drawing / P. Eades // Con-gressus Numerantium. - 1984. - Vol. 42. - P. 149-160.

12. Fruchterman, T. Graph Drawing by Force-directed Placement / T. Fruchterman, E. Reingold // Software -Practice and Experience. - 1991. - Vol. 21, Issue 11. -P. 1129-1164.

13. Kamada, T. An Algorithm for Drawing General Undirected Graphs / T. Kamada, S. Kawai // Information Processing Letters. - 1989. - Vol. 31. - P. 7-15.

14. Lee, R.C.T. A Triangulation Method for the Sequential Mapping of Points from N-Space to Two-Space / R.C.T. Lee, J.R. Slagle, H. Blum // IEEE Transactions on Computers. - 1977. - Vol. 26, Issue 3. - P. 288-292.

15. P^kalska, E. A new method of generalizing Sammon mapping with application to algorithm speed-up / E. P"ekalska, D. de Ridder, R.P.W. Duin, M.A. Kraaijveld // Proc. ASCI'99, 5th Annual Conf. of the Advanced School for Computing and Imaging. - Heijen, The Netherlands: 1999, June 15-17. - P. 221-228.

16. Chalmers, M. A Linear Iteration Time Layout Algorithm for Visualizing High-Dimensional Data / M. Chalmers // Proc. IEEE Visualization '96. - San Francisco, 1996. -P. 127-132.

17. Morrison, A. Fast Multidimensional Scaling Through Sampling, Springs and Interpolation / A. Morrison, G. Ross, M. Chalmers // Information Visualization. - 2003. - Vol. 2. - P. 68-77.

18. Myasnikov, E.V. A Nonlinear Method for Dimensionality Reduction of Data Using Reference Nodes / E.V. Myas-nikov // Pattern Recognition and Image Analysis. - 2012. -Vol. 22, Issue 2. - P. 337-345.

19. Quigley, A. FADE: Graph Drawing, Clustering, and Visual Abstraction / A. Quigley, P. Eades // Proceedings of the 8-th International Symposium on Graph Drawing. - 2001. - P. 197-210.

20. Мясников, Е.В. Анализ методов снижения размерности в задаче представления коллекций цифровых изображений / Е.В. Мясников // Компьютерная оптика. -2008. - Т. 32, № 3. - С. 296-301. (Myasnikov, E.V. The study of dimensionality reduction methods in the task of browsing of digital image collections / E.V. Myasnikov // Computer Optics. - 2008. - Vol. 32(3). - P. 296-301. - (In Russian).)

21. Stricker, M. Similarity of color images / M. Strieker, M. Orengo // In Proc. SPIE Conf. on Vis. Commun. and Image Proc. - 1995.

22. Swain, M. Color indexing / M. Swain, D. Ballard // International Journal of Computer Vision. - 1991. - Vol. 7(1).

23. Haralick, R.M. Texture features for image classification / R.M. Haralick, K. Shanmugam, I. Dinstein // IEEE Transactions on Systems, Man and Cybernetics. - 1973. - SMC-3(6).

THE CHOICE OF A METHOD FOR FEATURE SPACE DECOMPOSITION FOR NON-LINEAR DIMENSIONALITY REDUCTION

E. V. Myasnikov Samara State Aerospace University, Image Processing Systems Institute, Russian Academy of Science

Abstract

This paper considers two approaches to the hierarchical decomposition of the feature space to improve the efficiency of the non-linear dimensionality reduction method. The first approach suggested by the author of the paper is based on the decomposition of the original feature space using hierarchical clustering. The second original approach is based on a hierarchical decomposition of the target space by using a KD-Tree. The approaches analyzed are evaluated in terms of the efficiency of the non-linear dimensionality reduction method.

Key words: dimensionality reduction, decomposition of the feature space, hierarchical clustering, KD-trees.

Сведения об авторе

Мясников Евгений Валерьевич, 1981 года рождения. В 2004 году окончил с отличием Самарский государственный аэрокосмический университет (СГАУ) по специальности «Автоматизированные системы обработки информации и управления». Кандидат технических наук (2007), доцент кафедры геоинформатики и информационной безопасности СГАУ, старший научный сотрудник научно-исследовательской лаборатории прорывных технологий дистанционного зондирования Земли СГАУ, научный сотрудник лаборатории математических методов обработки изображений Института систем обработки изображений РАН (ИСОИ РАН). Результаты научных исследований отражены более чем в 50 научных работах, соавтор монографии. Область научных интересов: распознавание образов, обработка изображений, геоинформатика, проектирование и разработка программного обеспечения.

E-mail: [email protected].

Evgeny Valerievich Myasnikov (b. 1981) graduated with honors from Samara State Aerospace University (SSAU) in 2004, majoring in Automated Systems for Information Processing and Control". PhD in Technical Sciences (2007). Currently he works as Associate Professor at Geoinformatics and Information Security department, senior researcher at the Breakthrough Technologies for Earth's Remote Sensing laboratory in S.P. Korolyov Samara State Aerospace University (National Research University), SSAU and as the Researcher at Mathematical Methods of Image Processing laboratory, Image Processing Systems Institute of RAS (IPSI RAS). The research results are reflected in more than 50 scientific papers, co-author of the monograph. Research interests are pattern recognition, image processing, geoinformatics, software development.

Поступила в редакцию 5 ноября 2014 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.