АНАЛИЗ МЕТОДОВ СНИЖЕНИЯ РАЗМЕРНОСТИ В ЗАДАЧЕ ПРЕДСТАВЛЕНИЯ КОЛЛЕКЦИЙ ЦИФРОВЫХ ИЗОБРАЖЕНИЙ
Е.В. Мясников
Самарский государственный аэрокосмический университет им.академика С.П. Королева, Институт систем обработки изображений РАН
Аннотация
В работе рассматривается ряд методов снижения размерности пространства признаков применительно к задаче представления коллекций цифровых изображений на плоскости в соответствии с визуальными характеристиками изображений. Рассматриваемые методы сравниваются друг с другом как с точки зрения ошибки Сэммона (отображения из многомерного пространства в двумерное), так и с точки зрения времени, затрачиваемого на формирование отображения. В работе приводится обзор методов, используемых при построении систем представления коллекций цифровых изображений. Приводятся результаты экспериментальных исследований методов на базе данных цветных цифровых изображений широкого класса. Даются рекомендации по использованию методов.
Ключевые слова: снижение размерности, отображение Сэммона, коллекция цифровых изображений.
Введение
Задача представления коллекции цифровых изображений на плоскости в соответствии с визуальными характеристиками встает при построении систем навигации по базам данных изображений, организации просмотра содержимого коллекций и виртуальных галерей, отображении результатов поиска изображений в базах данных. При этом формируемое представление коллекции должно быть понятно пользователю: похожие визуально изображения должны быть расположены рядом друг с другом, непохожие изображения должны располагаться на сравнительно большом расстоянии [21,22].
Центральным вопросом при решении задачи представления коллекции цифровых изображений на плоскости является способ построения отображения в двумерное пространство. Естественный с точки зрения теории распознавания образов и принятый во многих работах по данной тематике [8,9,14,25,16,18,19,24] подход к отображению состоит в извлечении из изображений каких-либо признаков и размещении изображений в соответствии со значениями признаков. Так как размерность пространства признаков может в десятки и сотни раз превышать размерности пространства отображения, то для создания двумерных отображений необходимо применять методы снижения размерности.
Методы снижения размерности обычно подразделяют на линейные и нелинейные. Линейные методы используют дискретный вариант разложения Карунена - Лоэва, называемый также методом главных компонент (PCA - Principal component analysis). В этом методе осуществляется поворот системы координат в исходном пространстве признаков таким образом, чтобы в проекции на новые оси -главные компоненты - дисперсия всего множества точек была максимальна. При этом дисперсия сосредоточена большей частью в первых компонентах, что позволяет рассматривать только их, отбрасывая
остальные. Метод РСА был использован при создании относительно небольшого числа систем [12, 16].
К нелинейным методам снижения размерности относят методы, с помощью которых производится отображение множества векторов многомерного пространства в пространство малой размерности (как правило, двух- или трехмерное) с сохранением, по возможности, расстояний между ними. Все подобные методы пытаются минимизировать некоторую функцию потерь, характеризующую величину рассогласования расстояний между первоначальными и полученными векторами в пространстве малой размерности. В случае, если функцию потерь задают в виде
1
X dj
•X
(dj - )2
(1)
расстояние между объектами i и j,
(здесь d¡J и d¡J
соответственно, в многомерном и двумерном пространстве, N - количество объектов), ее называют ошибкой Сэммона, а соответствующий метод снижения размерности называют методом двумерного отображения Сэммона [6].
Нелинейные методы отображения применяются во многих системах, описанных в литературе [3,4,16,20-22,24].
Среди нелинейных методов, применяемых для снижения размерности, можно выделить отдельный класс алгоритмов, использующих силовые методы укладки графов. Работа этих алгоритмов основана на математических моделях механических процессов. Наиболее известными являются модели Фрух-термана - Рейнгольда [11] и Камада-Кавайи [13].
В [20] выделяется отдельный класс алгоритмов, работающих на дискретной сетке. Очевидным способом получения отображения на дискретную сетку является привязка к ней результата работы, полученного в непрерывном пространстве. Однако в
в =
этом случае могут возникать конфликты, когда несколько изображений должны быть привязаны к одной ячейке сетки. Некоторые стратегии разрешения таких конфликтов предложены в [21].
Одной из важнейших проблем при применении нелинейных методов снижения размерности является высокая вычислительная сложность таких методов. Вследствие этого исследователями в самых различных областях предпринимаются попытки построения методов, имеющих пониженную вычислительную сложность [3,4,7,15,17]. По этой же причине некоторые исследователи используют иерархические структуры, группирующие объекты в соответствии с их характеристиками (кластеризация) [8,14,16,18,19]. В некоторых работах нелинейные методы снижения размерности применяются лишь к подмножествам коллекции изображений [16].
Как видно из приведенного обзора, выбор приемлемого метода снижения размерности представляется важной задачей. В настоящей работе производится сравнение ряда методов нелинейного отображения, минимизирующих ошибку Сэммона (1), применительно к задаче представления коллекций цифровых изображений на плоскости.
1. Описание методов, используемых в работе
В основе всех рассматриваемых в работе методов лежит алгоритм двумерного отображения, описанный, в частности, в [6] и впервые примененный Сэммоном в 1969 году. Данный алгоритм позволяет минимизировать ошибку представления многомерных данных, выражаемую в виде (1).
Работа алгоритма имеет итеративный характер, связанный со следующим рекуррентным соотношением для координат в двумерном пространстве у]к:
У Л ^ +1) = У к ^) +
2 - а N - Л * . .
2 а ^«-Ук«).
1= ^ Л
S d
а 1 *' •< а
Настраиваемый параметр а влияет на скорость работы и сходимость алгоритма.
Следует отметить, что возможно использование двухэтапного метода снижения размерности пространства. В таком методе на первом этапе с помощью дискретного линейного преобразования Кару-нена-Лоэва находится грубое приближение решения. На втором этапе полученное приближение уточняется описанным выше нелинейным методом снижения размерности Сэммона. В ряде работ указывается, что такой двухэтапный метод обладает в среднем более высокой точностью и более быстрой сходимостью [3,16].
Тем не менее приведенный в настоящем разделе алгоритм нелинейного снижения размерности хорошо работает на небольших объемах данных, однако на больших объемах данных возможности применения алгоритма ограничивает вычислительная
сложность. При объеме выборки N и числе итераций, сравнимом с объемом выборки, объем вычислений, требуемый для получения отображения, имеет порядок 0[N3].
1.1. Модифицированный метод снижения размерности с использованием триангуляции
Одним из распространенных способов снижения вычислительной сложности базового метода Сэм-мона является использование триангуляции [15, 17]. В данном методе сначала с использованием базового алгоритма ищется решение для некоторого количества объектов М^. Затем производится последовательное добавление М) объектов с использованием триангуляции. При этом для каждого объекта о1,/ = (М +1).^ объектов выбирается два объекта оа, ок, 1, к = 1.М из числа уже спроецированных с
использованием базового алгоритма, а положение (Ул; У2) объекта о, на плоскости определяется, исходя из соотношений, обеспечивающих точное сохранение расстояний между рассматриваемыми объектами:
Л а = , Л к = 4.
Если выполнение соотношений невозможно, то за искомое положение объекта о1 берется точка
(у«;У/2) на отрезке (уп;Уа2)(уи;Ук2^ для кот°р°й
выполняется: Л= ЛЦЛ* . Если выполнение приведенных соотношений возможно и существует два решения (у^;у'2) и (у2;у,22), то из числа уже спроецированных объектов берется еще один объект о5, 5 = 1.М и искомое решение выбирается исходя из соотношения:
( y«; y i 2) = •
| (y,'i ; УлХесли 14*- d s | ^ | df - d s (У21 ;yiUewuld1 -dj > к2* -dis
где dS и d2 - расстояния от точек (y^;y'2) и
(yil;Уп) д° точки (y*;yS2)-
В противном случае решение (y(1;yi2) единственно.
1.2. Модифицированный метод снижения размерности с использованием линейного
преобразования В рассматриваемом ниже методе [17] ищется линейное преобразование, позволяющее, зная матрицу расстояний между объектами в многомерном пространстве, получать положение объектов на плоскости. Указанное линейное преобразование матрицы расстояний определяется по части объектов, к которым уже был применен базовый метод Сэммона, а затем применяется к матрице расстояний между новыми и уже спроецированными объектами.
Пусть координаты M объектов (M<N), проецируемых базовым методом Сэммона, образуют мат-
рицу У = [ у к ] м. Матрица расстояний между ник =1,2
ми D = | м . Тогда матрица линейного преоб-
] = 1.м
разования V = [у к ] м может быть определена
из
соотношения:
D ■ V = У.
Отображение У' = [ у к ] (N-м} оставшихся
к =1,2
(N - М) объектов можно определить, имея расстояния D' = \dv I (м) между ними и объектами,
]=1..м
которые уже были спроецированы с использованием базового метода Сэммона, а также, зная матрицу линейного преобразования, следующим образом:
У' = D 'х V.
1.3. Метод снижения размерности с использованием стохастического алгоритма аппроксимации
Приведенные в предыдущих разделах алгоритмы нелинейного снижения размерности используют для отображения некоторой части исходного множества объектов базовый метод Сэммона, требующий для получения отображения при объеме выборки м и числе итераций, сравнимом с объемом выборки, проведения вычислений в объеме 0[м3 ]. Учитывая, что экспериментальные исследования [17] показали целесообразность использования в качестве
исходного множества м = у N из общего числа N
объектов, теоретическая оценка сложности рассмотренных методов остается высокой.
Решением проблемы высокой вычислительной сложности может быть алгоритм, использующий аппроксимации приращений координат точек на каждой итерации. При этом, если вычислительная сложность для построения аппроксимационной оценки приращений координат объекта на каждой итерации составляет 0[к], где к << N, то вычислительная сложность всего алгоритма может быть снижена до 0[N2 ].
Среди существующих решений в качестве такой аппроксимации может быть использован подход, предложенный Чалмерсом в работе [7]. В этом подходе на каждой итерации для каждого корректируемого элемента формируется 2 множества. В первом из множеств содержатся элементы, наиболее близкие рассматриваемому в многомерном пространстве. Во втором множестве содержатся элементы, отбираемые на каждой итерации случайным образом. Такой подход был использован для минимизации ошибки, выражаемой в виде
однако он может быть применен и при минимизации ошибки Сэммона (1) (далее будем называть этот метод методом ЧС).
1.4. Комбинированный метод снижения размерности пространства
Еще одним методом, рассматриваемым в настоящей работе, является модифицированный комбинированный метод (МКМ) снижения размерности, предложенный автором настоящей работы [3,4]. Подход, положенный в основу метода, состоит в использовании при снижении размерности результатов иерархической кластеризации в рамках двух-этапной процедуры следующего вида. На первом этапе для всех к кластеров самого верхнего уровня строится двумерное отображение центров этих кластеров. На втором этапе строится к отображений для подкластеров и объектов второго уровня. При этом для построения отображения каждого подкластера расположение координат центров кластеров самого верхнего уровня фиксируется, а производится оптимизация положения на плоскости только объектов, находящихся в рассматриваемом подкластере. Процесс повторяется для третьего уровня иерархии и так далее, пока не будет построено отображение всех объектов.
В работе [3] было показано, что в случае сбалансированного дерева кластеров высотой L = N, когда в каждом кластере оказывается к элементов,
выражение сложности принимает вид О N
1+2 I
(- < )
Результаты экспериментального исследования представленных в этом разделе методов приведены в разделе 2.
2. Экспериментальные исследования
При решении задачи представления коллекции цифровых изображений на плоскости одним из важнейших факторов, влияющих на выбор системы признаков, является понятность пользователю формируемого порядка расположения изображений. Даже довольно изощренная система признаков может оказаться неэффективной, если пользователь системы не понимает, каким образом распределяются изображения на экране. Причиной такого эффекта в значительной степени является потеря информации при проецировании в пространства малой размерности [22]. Вследствие этого подавляющее большинство систем представления (просмотра) коллекций изображений производят кластеризацию или строят двумерные отображения исключительно на основе примитивных признаков. Несмотря на то, что это является их серьезным недостатком, данный недостаток на сегодняшний день не может быть преодолен из-за так называемого семантического провала [10].
В системах поиска и навигации по коллекциям цифровых изображений широкого класса в качестве системы признаков хорошо зарекомендовали себя
2
а
гистограммы цветов. В настоящей работе при построении цветовых гистограмм было использовано цветовое пространство CIE L*a*b* [1], основным преимуществом которого является тот факт, что рассогласование цветов, рассчитываемое как Евклидово расстояние между цветами, соответствует человеческому восприятию.
В рамках проведенных экспериментов были исследованы все методы, описанные в п. 2. При проведении исследования использовались цветные цифровые изображения из коллекции PhotoClipart 2002, содержащей цифровые фотографии различной тематики (люди, животные, техника, искусство, природа и т.п.), а также искусственные 3D сцены. Во время проведения эксперимента из исходной коллекции изображений случайным образом генерировались наборы по 500, 1000 и 2000 изображений и каждый из методов применялся к сгенерированным наборам. Для оценки качества работы алгоритмов в соответствии с критерием (1) рассчитывалось значение ошибки, а также измерялось время функционирования алгоритмов. Работа методов останавливалась, когда положение объектов на плоскости стабилизировалось либо число выполненных итераций достигало максимального значения, выбираемого в соответствии с числом объектов в соответствующей выборке. Результаты проведенных исследований приведены в таблицах 1-3.
Отметим, что время работы всех исследованных методов существенно зависит от конфигурации используемой ЭВМ (используемого процессора, объема оперативной памяти и т.д.). При проведении экспериментов использовался ПК на базе AMD Athlon 1,6 ГГц.
Таблица 1. Анализ методов на наборах по 500 изображений
Таблица 2. Анализ методов на наборах по 1000 изображений
Таблица 3. Анализ методов на наборах по 2000 изображений
Метод Среднее значение ошибки СКО ошибки Среднее время работы, сек
Триангуляция 0,055 0,011 5231
Линейное преобразование 0,041 0,015 5245
Стохастический
алгоритм 0,031 0,012 253
аппроксимации (ЧС)
МКМ 0,032 0,002 38
Из приведенных результатов исследований видно, что наилучшими методами по качеству формируемого отображения являются метод ЧС и метод МКМ. Судя по результатам, можно говорить о приблизительно равном качестве построения отображения коллекции изображений. Указанные методы также имеют существенно меньшее среднее время работы. Кроме того, очевидно, метод МКМ требует существенно меньше времени при большем размере коллекции (1000 и 2000 изображений).
Следует отметить, что для работы метода МКМ требуется выполнение иерархической кластеризации. В качестве метода кластеризации в работе использовался вызываемый в рекурсивном порядке нейросетевой алгоритм WTA, функционирующий на базе нейронной сети Кохонена [2,5]. При этом среднее время, затрачиваемое алгоритмом WTA на кластеризацию данных объемом 500, 1000 и 2000 изображений, составляет 8 сек.,16 сек. и 28 сек., соответственно. Максимальный размер кластеров был выбран равным 23, 32 и 45 объектам в кластере, соответственно трем указанным выше объемам выборки.
Отметим также, что существенным преимуществом метода МКМ является относительно малый размер требуемой оперативной памяти. При применении данного метода требуется хранение лишь k2 расстояний, где k - максимальный размер кластера.
Пример работы метода МКМ для набора из 1000 изображений показан на рис. 1.
3. Заключение
В работе рассмотрены методы снижения размерности пространства признаков в задаче представления коллекций цифровых изображений на плоскости. Проведены экспериментальные исследования рассмотренных методов, показавшие, что метод, основанный на стохастическом алгоритме аппроксимации приращений координат (метод ЧС), а также модифицированный комбинированный метод снижения размерности (МКМ) имеют преимущества по сравнению с другими рассмотренными методами.
В случае, когда при решении прикладной задачи имеется сформированная система иерархически вложенных кластеров или объем данных достаточно велик, использование модифицированного комбинированного метода снижения размерности является бо-
Метод Среднее значение ошибки СКО ошибки Среднее время работы, сек
Триангуляция 0,071 0,014 359
Линейное 0,055 0,006 360
преобразование
Стохастический
алгоритм 0,033 0,007 55
аппроксимации (ЧС)
МКМ 0,034 0,002 13
Среднее СКО ошибки Среднее
Метод значение ошибки время работы, сек
Триангуляция 0,068 0,008 19
Линейное 0,053 0,006 19
преобразование
Стохастический
алгоритм 0,038 0,009 7
аппроксимации (ЧС)
МКМ 0,033 0,004 6
лее предпочтительным, так как данный метод требует для формирования отображения, используя при этом меньшего по сравнению с другими методами времени относительно малый объем памяти.
Рис. 1. Пример представления коллекции изображений
Следует отметить, что приведенные результаты получены на коллекции цветных цифровых изображений широкого класса для одной из множества возможных систем признаков. В связи с этим, возможным направлением дальнейших исследований является анализ качества работы рассмотренных методов для других систем признаков и классов изображений.
Благодарности
Работа выполнена при поддержке российского фонда фундаментальных исследований: проекты №06-01-00616-а, 07-07-97610-р_офи, 08-07-90704-моб_ст, в рамках российско-американской программы «Фундаментальные исследования и высшее образование» (CRDF Project RUX0-014-SA-06) и гранта Президента РФ по поддержке ведущих научных школ (НШ-3086.2008.9).
Литература
1. Атлас цветов /Г.П. Вишняк, В.А. Жуков, Э.Г. Певзнер [и др.] - М.: Экспериментальная типография ВНИИ полиграфии, 1986.
2. Мясников, Е.В. Нейросетевые алгоритмы кластеризации отсчетов цветных изображений /Е.В. Мясников //Перспективные информационные технологии в научных исследованиях, проектировании и обучении (ПИТ-2006). Труды научно-технической конференции с международным участием. Том 2. - Самара, 2006. -С. 118-123.
3. Мясников, Е.В. Разработка метода навигации по коллекциям цифровых изображений /Е.В. Мясников //Труды 9-ой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL'2007, г. Переславль-Залесский, Россия, 15-18 октября 2007. -С. 185-194.
4. Мясников, Е.В. Навигация по коллекциям цифровых изображений на основе методов автоматической классификации /Е.В. Мясников //Интернет-Математика 2007: сборник работ. - Екатеринбург: Изд-во Урал. унта, 2007. - С.144-152.
5. Оссовский, С. Нейронные сети для обработки информации /С. Оссовский - М.:Финансы и статистика, 2002.
6. Фукунага, К. Введение в статистическую теорию распознавания образов /К. Фукунага - М.: Наука, 1979. - 368с.
7. Chalmers, M. A Linear Iteration Time Layout Algorithm for Visualising High-Dimensional Data / M. Chalmers //Proc. IEEE Visualization '96, San Francisco, 1996. -P. 127-132.
8. Chen, J.-Y. Similarity Pyramids For Browsing And Organization Of Large Image Databases. /J.-Y. Chen, C. A. Bouman, and J. C. Dalton. //In Human Vision and Electronic Imaging III, volume 3299 of Proceedings of SPIE, 1998. - P 563- 575.
9. Chen, F. Multi-modal browsing of images in web documents /F. Chen, U. Gargi, L. Niles, and H. Schutze. //In Document Recognition and Retrieval VI, volume 3651 of Proceedings of SPIE, -P. 122-133, 1999.
10. Eakins, J.P. Content-based Image Retrieval / J.P.Eakins, M.E.Graham //A Report to the JISC Technology Applications Programme. Institute for Data Resaerch, University of Nothumbria at Newcastle, 1999.
11. Fruchterman, T. Graph Drawing by Force-Directed Replacement. /T. Fruchterman, E.Reingold. //Software--Practice and Experience 21: - P.1129-1164, 1991.
12. Hiroike, A. Visualization of information spaces to retrieve and browse image data / A. Hiroike, Y. Musha, A. Sugi-moto, Y. Mori. //In Proceedings of the Third International Conference on Visual Information and Information Systems (VISUAL'99), volume 1614 of Lecture Notes in Computer Science, pages 155-162. Springer, 1999.
13. Kamada, T. An Algorithm for Drawing General Undirected Graphs. /T.Kamada, S.Kawai //Information Processing Letters 31: 7-15, 1989.
14. Koskela, M. The PicSOM retrieval system: Description and evaluations / M. Koskela, J. Laaksonen, S. Laakso, and E. Oja //In The Challenge of Image Retrieval. Electronic Workshops in Computing, 2000.
15. Lee, R.C.T. A Triangulation Method for the Sequential Mapping of Points from N-Space to Two-Space. /R.C.T. Lee, J.R. Slagle, H. Blum. //IEEE Transactions on Computers, vol. 26, no. 3, 1977, pp. 288-292.
16. Integrated browsing and searching of large image collections / Z. Peccenovic, M. Do, M. Vetterli and P. Pu. //In Proceedings of the Fourth International Conference on Advances in Visual Information Systems (VISUAL 2000), volume 1929 of Lecture Notes in Computer Science, pages Springer, 2000 - P.279-289.
17. A new method of generalizing Sammon mapping with application to algorithm speed-up. /E. P"ekalska, D. de Ridder, R.P.W. Duin, M.A. Kraaijveld //Proc. ASCI'99, 5th Annual Conf. of the Advanced School for Computing and Imaging. Heijen, The Netherlands, June 15-17, 1999, -P. 221-228.
18. Platt, J.C. PhotoTOC: Automatic Clustering for Browsing Personal Photographs /J.C. Platt, Mary Czerwinski, Brent A. Field //Technical Report. Microsoft Research. February 2002.
19. Platt, J.C. AutoAlbum: Clustering Digital Photographs using Probabilistic Model Merging /J.C. Platt //Proc. IEEE Workshop on Content-Based Access of Image and Video Libraries, 2000 - P. 96-100.
20. Rodden, K. Evaluating Similarity-Based Visualisations As Interfaces For Image Browsing /K. Rodden //Technical Report. University of Cambridge Computer Laboratory, 2002.
21. Evaluating A Visualisation Of Image Similarity As A Tool For Image Browsing /K. Rodden, W. Basalaj, D. Sinclair, K. Wood //In Proceedings of the IEEE Symposium on Information Visualization (InfoVis'99). IEEE, 1999.
22. Rodden, K. A comparison of measures for visualising image similarity /K. Rodden, W. Basalaj, D. Sinclair, K. Wood //In The Challenge of Image Retrieval. British Computer Society Electronic Workshops in Computing, 2000.
23. ANVIL: a system for the retrieval of captioned images using NLP techniques /T. Rose, D. Elworthy, A. Kotcheff, A. Clare, P. Tsonis //In The Challenge of Image Retrieval. Electronic Workshops in Computing, 2000.
24. Rubner, Y. Adaptive color-image embeddings for database navigation /Y. Rubner, C. Tomasi, and L. J. Guibas. //In Proceedings of the Asian Conference on Computer Vision, IEEE, 1998 - P. 104-111.
25. Vendrig, J. Filter image browsing: Exploiting interaction in image retrieval /J. Vendrig, M. Worring and A. W. M. Smeulders //In Proceedings of the Third International Conference on Visual Information and Information Systems (VISUAL'99), volume 1614 of Lecture Notes in Computer Science, Springer, 1999 - P. 147-154.