Оценка метода выявления точечных особенностей изображения в задаче поиска нечетких дубликатов в коллекции изображений

Пименов Виталий Юрьевич

ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА

Сер. 10. 2009. Вып. 3

УДК 004.932.2, 007.52

В. Ю. Пименов

ОЦЕНКА МЕТОДА ВЫЯВЛЕНИЯ ТОЧЕЧНЫХ ОСОБЕННОСТЕЙ ИЗОБРАЖЕНИЯ В ЗАДАЧЕ ПОИСКА НЕЧЕТКИХ ДУБЛИКАТОВ В КОЛЛЕКЦИИ ИЗОБРАЖЕНИЙ

1. Введение. Цели настоящей работы - разработка методики оценки методов выявления точечных особенностей изображения; создание программного комплекса, реализующего метод выявления точечных особенностей изображения и оценка его производительности согласно предложенной методике.

1.1. Актуальность задачи. Поиск нечетких дубликатов изображений является одной из важных задач машинного зрения [1] и в настоящее время привлекает внимание исследователей в области информационного поиска. Это связано с тем, что использование информации о нечетких дубликатах позволяет разрабатывать эффективные алгоритмы для решения задач поиска изображений, поиска новостей [2], отслеживания событий [3], поиска нарушений авторского права [4].

Задача поиска нечетких дубликатов представляет значительный интерес, с точки зрения приложений робототехники. Для осуществления автономной навигации системы технического зрения мобильных роботов должны обладать средствами идентификации пространственных ориентиров среды [5]. Пространственные ориентиры - статические объекты среды, используемые для построения модели среды и локализации робота в среде [5]. Как показано в работах [6, 7], ошибки в идентификации ориентиров, возникающие вследствие сложной формы объектов среды и изменения условий освещения и обзора, приводят к значительным отклонениям в локализации, а также к противоречиям в модели среды. И становится невозможным обеспечить целенаправленное движение робота и выполнение им поставленных задач.

В связи с этим необходимо применение методов обработки изображений, которые позволяют с высокой степенью точности идентифицировать ориентиры среды при наличии рассмотренных выше сложностей.

Одним из классов методов, в настоящее время получивших применение в робототехнических системах, является класс методов выявления точечных особенностей [8-10]. Производительность играет определяющую роль при выборе того или иного метода выявления точечных особенностей для использования в реализуемой системе, потому важной задачей становится оценка производительности методов.

1.2. Подход к решению задачи. Оценки, полученные в рамках реализованных робототехнических систем, являются косвенными, так как формулируются в терминах конкретной системы. В настоящей работе предлагается применить задачу поиска

Пименов Виталий Юрьевич — аспирант кафедры компьютерного моделирования и многопроцессорных систем факультета прикладной математики—процессов управления Санкт-Петербургского государственного университета. Научный руководитель: проф. С. Н. Андрианов. Количество опубликованных работ: 4. Научные направления: машинное зрение, информационный поиск. E-mail: vitaly.pimenov@gmail.com.

нечетких дубликатов изображений в качестве инструмента при проведении оценки методов выявления точечных особенностей изображения.

Преимущества такого подхода состоят в том, что: 1) задача поиска нечетких дубликатов позволяет оценить степень устойчивости идентификации ориентиров среды по отношению к различным преобразованиям (геометрическим и фотометрическим) и, тем самым, определить степень соответствия рассматриваемого метода требованиям прикладной задачи; 2) проведение оценки не требует использования робототехнической системы: ее можно осуществить отдельно, до внедрения метода в систему, что позволяет при проведении экспериментов избежать накладных расходов на перепрограммирование робота, применить языки программирования высокого уровня и вспомогательное программное обеспечение; 3) в рамках задачи поиска нечетких дубликатов изображений возможно использование общепринятых мер качества, таких как точность и полнота [11], что упрощает сравнение методов; 4) достигается независимость оценки от системы, в которой используется рассматриваемый метод, что упрощает перенос результатов на другие системы - так, метод, применяющийся в системе наземной навигации, может быть использован в системе подводной навигации без проведения дополнительных процедур по оценке его производительности; 5) устанавливается важная взаимосвязь между задачами робототехники и информационного поиска.

2. Методология проведения оценки. Оценка метода выявления точечных особенностей изображения может производиться различными способами. В существующих робототехнических системах, оборудованных визуальными сенсорами, оценка проводится в терминах системы. Критериями качества метода служат величины, вычисляемые в процессе функционирования робота в реальном времени [8]: согласованность последовательных измерений, число точечных особенностей, согласованность фактических фазовых переменных робота с оценками, полученными на основе обработки сенсорных данных, и др.

Подобные косвенные критерии в значительной степени связаны с архитектурой робототехнической системы, для оценки которой они применяются. Поэтому, несмотря на то, что их использование в системе управления робота позволяет осуществить замыкание обратной связи по ошибке, а это делается практически во всех экспериментальных системах, задача оценки не теряет своей актуальности.

Оценка метода выявления точечных особенностей изображения, проводимая отдельно от робототехнической системы, должна отвечать на следующие вопросы:

1) насколько устойчив метод к геометрическим преобразованиям изображения?;

2) насколько устойчив метод к фотометрическим преобразованиям изображения?

Важность этих свойств метода диктуется требованиями точности ассоциации данных. Типичными ошибками, возникающими по причине геометрических и/или фотометрических преобразований, являются неверные ассоциации ориентиров и точечных особенностей (ошибки первого рода), а также пропуски ориентиров (ошибки второго рода). Подобные ошибки приводят к возникновению противоречий в модели среды, к потере сходимости ошибки локализации и, как следствие, невозможности обеспечить целенаправленное движение робота в среде и выполнение его задач [6, 7].

Геометрические и фотометрические преобразования - не единственный источник ошибок [5], однако они имеют место в любой задаче обработки изображений в режиме реального времени. Поэтому разработка методики оценки устойчивости идентификации ориентиров по отношению к таким преобразованиям является важной задачей.

В настоящей работе предлагается методика, основанная на применении задачи поиска нечетких дубликатов изображений для оценки качества метода. Использование

данной задачи обосновано тем, что, как правило, характерные условия эксплуатации робототехнической системы заранее известны. Из этого следует возможность подготовки коллекции изображений, соответствующих условиям эксплуатации: отражающей основные геометрические и фотометрические преобразования изображений. Такая коллекция может быть построена на основе видеофильма или фотосъемки, после чего можно поставить задачу поиска нечетких дубликатов, а затем оценить качество ее решения при помощи известных методик оценки методов информационного поиска.

3. Задача поиска нечетких дубликатов изображений. Она включает в себя следующие частные задачи: поиск дубликатов по запросу, сравнение пары изображений, кластеризация коллекции изображений. В настоящей работе, как и в [12], рассматривается задача кластеризации, представляющая наибольший интерес с точки зрения оценки качества метода.

Определение 1 [12]. Два изображения, которые могут быть переведены друг в друга путем элементарных преобразований, таких как поворот, сдвиг, изменение угла обзора, изменение разрешения, изменение масштаба, изменение освещения, называются нечеткими дубликатами.

Естественными нечеткими дубликатами являются фотоснимки и видеокадры одной сцены, сделанные с различных ракурсов и при разном освещении. Кроме того, нечеткие дубликаты возникают при редактировании изображений и создании коллажей.

Внимание к задаче поиска нечетких дубликатов, с точки зрения информационного поиска, возросло с возникновением в 2003 г. семинара TRECVID [13]. Обзор результатов семинара представлен в работе [2]. Сложность задачи обусловлена необходимостью представления изображений в формате, обеспечивающем инвариантность по отношению к потенциально сложным геометрическим и фотометрическим преобразованиям.

Процесс решения задачи состоит из двух основных этапов: построение векторной модели изображения; проведение кластеризации. Для построения векторной модели изображения могут быть использованы глобальные или локальные его свойства.

Глобальные свойства изображения в общем случае не гарантируют эффективности идентификации нечетких дубликатов. Так, с одной стороны, использование цветовых свойств, к примеру матрицы изменения яркости, может приводить к ошибкам в случае изменения условий освещения сцены или применения ряда эффектов [14].

С другой стороны, применение характерных локальных свойств, устойчивых к геометрическим и фотометрическим преобразованиям, представляется более предпочтительной альтернативой.

4. Метод выявления точечных особенностей. Точечные особенности (local interest points, перевод заимствован из работы [15]) являются выделяющимися областями изображений, выявленными в различных масштабах.

В настоящей работе реализован известный метод выявления точечных особенностей, предложенный D. Lowe (см., например, [1]). Ряд существующих исследований подтверждают эффективность данного подхода в задачах поиска нечетких дубликатов и задачах распознавания объектов (см., например, [3, 12, 14, 16]) .

Для установления точечных особенностей разработаны специализированные методы-детекторы. Их обзор и сравнение представлены в работе [1]. Нами использован метод разности гауссианов (difference of gaussian) [1], с помощью которого выявляются области, инвариантные к изменению масштаба и аффинным преобразованиям. Точечные особенности описаны с помощью дескрипторов PCA-SIFT [16], обеспечивающих устойчивость к фотометрическим преобразованиям.

4.1. Алгоритм кластеризации. Для проведения кластеризации был выбран алгоритм QT [17]. Это обосновано простотой программной реализации. Альтернативные решения: пространственно-чувствительное хеширование (locality sensitive hashing) [18] и методы, использующие теорию графов [19].

Атомарная операция алгоритма QT - вычисление расстояния между парой векторов. Алгоритм обладает квадратичной сложностью по атомарной операции. В связи с этим в настоящей работе предложен метод построения индексной структуры для ускорения вычисления расстояния. Разработка нового метода кластеризации не входила в число задач настоящей работы.

4.2. Алгоритм выявления точечных особенностей. В работе использован алгоритм из [1]. Критерием, на основе которого выявляются точечные особенности изображения, является инвариантность к изменению масштаба. Основная процедура алгоритма - построение масштабируемого пространства (scale space) [20-22].

Определение 2 [22]. Построение масштабируемого пространства представляет собой операцию разложения исходного сигнала f : Rn ^ R в семейство постепенно сглаживаемых, упрощающихся версий сигнала {Ttf 11 ^ 0}, удовлетворяющих ряду аксиом, среди которых в контексте рассматриваемой задачи важна инвариантность к изменению масштаба.

Доказано [23], что единственным непрерывным линейным масштабируемым пространством является гауссово, для которого

Ttf = K^2i */>

где Ка - функция Гаусса со стандартным отклонением а; * - операция свертки.

Для выявления точечных особенностей вычисляется разность

D(f )= Kka *f - Ka *f,

где k - постоянная величина.

Выбор такой функции в качестве детектора точечных особенностей обусловлен рядом причин. Разность гауссианов является аппроксимацией масштабно-нормализованного лапласиана гауссиана, а2У2Ка, как показано в работе [1]. На основе экспериментальных данных, полученных в [24], можно утверждать, что экстремумы функции a2'V2Ka являются наиболее стабильными точечными особенностями изображений, инвариантными по отношению к изменению масштаба, в сравнении с экстремумами других функций-детекторов: градиента, гессиана, угловой функции Харриса.

Взаимосвязь можно проиллюстрировать исходя из уравнения теплопроводности

да

которое после замены частной производной на конечную разность, приобретает вид

Kfccr Ка ka — а

аУ2 К„

Нетрудно заметить, что в числителе после этого преобразования оказывается разность гауссианов. В конечном итоге получаем приближенное выражение для масштабно-нормализованного лапласиана гауссиана

о-2У2Ка = -'—(Кка-К<7). к — 1

Так как коэффициент k — 1 является постоянной величиной, он не влияет на расположение экстремумов. Экспериментальные результаты [1, 4, 14-16] подтверждают эффективность применения подобной аппроксимации для выявления точечных особенностей изображения.

Следует отметить, что использование разности гауссианов не требует сложных вычислений: после построения масштабируемого пространства для определения разности гауссианов следует лишь произвести вычитания.

После расчета разностей гауссианов осуществляется поиск экстремумов. Экстремумы определяются путем сравнения яркости соседних точек. Затем отсеиваются точки, имеющие невысокий контраст, так как они чувствительны к возможному шуму. Также отсеиваются точки, расположенные на контурах. (Детальное изложение алгоритмов, используемых при проведении этих операций, см. [1].)

4.3. Представление точечных особенностей. После нахождения экстремумов, инвариантных к геометрическим преобразованиям, необходимо представить их в форме, инвариантной к фотометрическим преобразованиям. Для этого вычисляются дескрипторы точечных особенностей. В настоящей работе использованы дескрипторы PCA-SIFT. Их расчет включает два этапа.

На первом этапе производится расчет дескриптора SIFT (Scale Invariant Feature Transform) [1]. Он представляет собой 128-мерный вектор, сформированный из значений ориентаций градиентов, вычисленных в окрестности точечной особенности.

Для построения дескриптора определяются ориентации и величины градиентов изображения соответствующего масштаба в области размером 4 х 4 пиксела вокруг особенности. Для обеспечения инвариантности относительно изменения ориентации производится преобразование локальных координат. Кроме этого, величины градиентов взвешиваются с помощью гауссовой весовой функции, чтобы акцентировать точечную особенность, для которой рассчитывается дескриптор. Чтобы исключить влияние нелинейных фотометрических преобразований, градиенты, величины которых превосходят экспериментально определенное значение 0.2 [1], исключаются из дальнейшей обработки. Затем ориентации оставшихся градиентов распределяются по дискретной таблице из восьми ячеек и, таким образом, формируется вектор-дескриптор из 4х4х8 = 128 элементов. Обоснование применимости такого типа дескриптора и детальное изложение его расчета приведены в работе [1].

На втором этапе вычисленный дескриптор SIFT подвергается процедуре редукции размерности с помощью метода главных компонент (Principal Component Analysis, PCA). Это подход, предложенный в работе [16] и успешно примененный в [14, 16], позволяет сократить вычислительную сложность алгоритмов сравнения дескрипторов за счет снижения размерности дескриптора (со 128 до 36), без потери точности. После вычисления дескриптора PCA-SIFT дальнейшие операции производятся над 36-мерными векторами-дескрипторами.

5. Алгоритмы сравнения изображений и фильтрации коллекции. Для проведения кластеризации использован алгоритм QT. Атомарная операция этого алгоритма - сравнение расстояния между двумя изображениями. Опыт решения задач поиска нечетких дубликатов [1-4, 14-16] показывает, что при работе с коллекциями изображений большого объема целесообразна разработка специализированных алгоритмов фильтрации коллекции. Такие алгоритмы позволяют значительно снизить число изображений, для которых осуществляется сравнение. Тем самым, независимо от выбранного алгоритма кластеризации, достигается снижение вычислительной сложности.

5.1. Расчет расстояния между изображениями. В рамках рассматриваемой задачи не сформировалось однозначного подхода к введению расстояния между изображениями. Это связано с тем, что разным изображениям соответствует различное число дескрипторов, затрудняя введение единообразной векторной модели изображения.

В связи с этим в настоящей работе применено решение, основанное на предложенном в работе [14] алгоритме взаимно однозначного сопоставления точечных особенностей. Оно заключается в том, что расстояние между изображениями рассчитывается как

где ООБ(1п, 1т) - множество пар точечных особенностей, соответствующих рассматриваемым изображениям, которые являются ближайшими соседями друг друга. Это означает, что пара точечных особенностей (Р, Q) будет включена в множество ООБ(1п, 1т) тогда и только тогда, когда Р ^ Q и Q ^ Р, где ^ обозначает отношение однозначного ближайшего соседства, т. е.

В (2) p(P, Q) - евклидово расстояние между 36-мерными векторами-дескрипторами P и Q. Его использование возможно, так как результатом применения метода главных компонент являются элементы евклидового пространства. Это позволяет сократить число неверных совпадений между дескрипторами, хотя и не исключает их возникновения.

В работе [14] представлена подробная аргументация, обосновывающая преимущества использования симметричного взаимно однозначного соответствия по сравнению с другими подходами: соответствиями один-к-одному без симметрии, многие-ко-многим, многие-к-одному, один-ко-многим.

5.2. Понижение вычислительной сложности. Атомарная операция алгоритма QT состоит в построении множества OOS(In,Im). В свою очередь, эта процедура основана на процедуре поиска для данного дескриптора P G In ближайшего соседа Q G Im. Поскольку число точечных особенностей, выявленных в одном изображении, может достигать нескольких тысяч, вычислительная сложность процедуры поиска ближайшего соседа может оказаться очень высокой.

Для понижения вычислительной сложности прибегают к различным способам предварительной фильтрации множества дескрипторов. В их числе многомерные индексные структуры, в частности пространственно-чувствительное хеширование (locality sensitive hashing) [18], использованное в работе [4], и индексная структура LIP-IS (local interest point index structure) [14], а также методы разделения пространства, например многомерные деревья (KD-tree) [25].

В настоящей работе предлагается новая индексная структура, в основе которой лежит структура прямого индекса LIP-IS. Основная концепция LIP-IS заключается в нормализации и дискретизации дескрипторов.

Индексная структура LIP-IS, предложенная в [14], представляет собой таблицу, в которой 36-мерному вектору дескриптора P ставится в соответствие 36-мерный дискретный вектор H(P) - индексированный дескриптор. Каждая координата H(P) принимает значения от 0 до 8. Для индексирования дескриптора координаты приводятся в диапазон [—1,1], после чего осуществляется дискретизация с шагом Д = 0.25. Таким образом,

(1)

p(P,Q) < p(P, Q'), VQ’ G Im, p(P,Q) <p(P,’ Q), VP ’ G In.

(2)

для дескриптора Р = (р1,... ,р36) координате рі ставится в соответствие координата дискретного вектора кі, вычисляемая по правилу

Ы = Н(Р^ = [^±^\.

Процедура фильтрации заключается в том, что после индексирования всех дескрипторов изображения 1т для сравнения с дескриптором изображения 1п из индексной структуры выбираются лишь те дескрипторы, которые удовлетворяют условию

В (3) М - параметр, определяющий пропускную способность. Он может быть вычислен исходя из значения Д [14], однако здесь принято М = 0.

Фильтрация, осуществляемая подобным способом, может быть реализована на основе простейших битовых операций, что существенно быстрее вычисления евклидового расстояния между векторами. Но для проведения основной фильтрации необходим линейный обход всех дескрипторов, и, таким образом, сравнение двух изображений является квадратичным алгоритмом по операции фильтрации.

Для сокращения вычислительных затрат предлагается использовать как прямой индекс LIP-IS, так и обратный индекс.

Обратный индекс позволяет на основе заданного дескриптора получить список дескрипторов, первые к координаты которых совпадают с соответствующими координатами исходного в терминах функции С(р, д). Таким образом, обратный индекс представляет собой структуру, осуществляющую отображение

Обратный индекс реализован в виде таблицы Т : Т ^ {Р'}, где каждому набору Т = (£і,£2,...,£&) дискретных значений от 0 до 8 поставлен в соответствие список дескрипторов {Р'}. Для каждого Р' из списка {Р'} комбинация значений первых к координат совпадает с набором Т.

Алгоритм применения обратного индекса для заданного дескриптора Р состоит из следующих этапов:

1) вычисление индексированного дескриптора Н(Р) на основе LIP-IS;

2) построение набора Т = (Н1,..., Нк) первых к координат вектора Н;

3) поиск в таблице Т списка дескрипторов {Р'}, соответствующего набору Т;

4) завершение работы алгоритма.

Обратный индекс строится один раз для каждого изображения путем линейного обхода дескрипторов и заполнения описанной таблицы. При проведении экспериментов строился обратный индекс для к = 3, что не приводит к существенному расходу памяти: для каждого изображения необходимо хранить лишь таблицу из 729 столбцов.

Таким образом, предварительная фильтрация состоит в том, что для данного дескриптора на основе обратного индекса определяется множество дескрипторов, первые три координаты которых удовлетворяют условию основной фильтрации.

36

Бгш(Р, Q) = ^2 С(Рі, Ці) > 36 - М,

(3)

где

1, если|Н(ці) - Н(рі)| < 1, 0, в противном случае.

р ^{Р' | с(рі,рі) = 1, с(р2,р2) = 1,..., ср,р) = 1}.

Операция получения дескрипторов из обратного индекса не требует обхода, в отличие от основной фильтрации, что позволяет понизить вычислительную сложность. Согласно экспериментальным результатам, применение обратного индекса позволяет сократить число дескрипторов, участвующих в основной фильтрации, на 40-80%. Использование к > 3 не оправдано, так как не приводит к более существенному сокращению числа дескрипторов, но требует хранения таблицы существенно большего размера (9к столбцов).

5.3. Алгоритм построения множества ООБ(1п,1т). Процедура построения множества ООБ(1п,1т) может быть представлена следующими этапами:

1. Дискретизация координат дескрипторов изображений.

2. Построение обратных индексов для изображений.

3. Для каждого дескриптора Р € 1п:

а) проведение предварительной фильтрации дескрипторов изображения 1т в соответствии с дескриптором Р € 1п;

б) проведение основной фильтрации дескрипторов изображения 1т в соответствии с дескриптором Р € 1п;

в) вычисление евклидового расстояния р(Р, Ql) для каждого дескриптора ^ € 1т, удовлетворяющего условиям фильтрации;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

г) определение дескрипторов ^*} С 1т - ближайших соседей для Р € 1п;

д) если ближайший сосед Q* единственный:

1. проведение предварительной фильтрации дескрипторов изображения 1п в соответствии с дескриптором Q*,

И. проведение основной фильтрации дескрипторов изображения 1п в соответствии с дескриптором Q*,

III. вычисление евклидового расстояния р(Р1, Q*) для каждого дескриптора Р1 € 1п, удовлетворяющего условиям фильтрации,

IV. определение дескрипторов {Р*} С 1п - ближайших соседей для Q*,

V. если ближайший сосед Р* единственный и Р* = Р, пара (Р*^*) добавляется ко множеству ООБ(1п,1т).

4. Завершение работы алгоритма.

5.4. Алгоритм кластеризации. Процедура кластеризации с помощью алгоритма QT состоит из таких этапов:

1. Определение максимального диаметра кластера.

2. Построение кластера максимального размера.

а) Если коллекция не содержит ни одного изображения, переход к шагу 4.

б) Выбор случайным образом изображения I из коллекции.

в) Для каждого изображения 11, отличного от I:

A. построение множества ООБ(1,Г);

B. вычисление расстояния в соответствии с формулой (1);

C. если расстояние меньше максимального диаметра, изображение 11 добавляется к кластеру с центром I.

г) Если кластер с центром I содержит только изображение I, то оно удаляется из коллекции.

д) Если остались изображения, не входящие ни в один из кластеров, переход к шагу 2 а).

е) Нахождение кластера максимального размера - кластера, содержащего наибольшее число изображений. ж) Удаление всех изображений, добавленных к кластеру максимального размера, из коллекции.

3. Повторение шага 2 для уменьшенной коллекции.

4. Завершение работы алгоритма.

6. Постановка эксперимента. Для оценки производительности разработанного метода был проведен эксперимент. Он состоял в кластеризации коллекции изображений с целью построения групп, таких что входящие в них изображения являются нечеткими дубликатами.

Коллекция изображений была подготовлена организаторами семинара РОМИП. Она состояла из 37 925 изображений различных размера и качества. Коллекция была сформирована на основе видеоинформации: рассматривался ряд фрагментов видеофильмов, для каждого из фрагментов в коллекцию добавлялись последовательные кадры - таким образом гарантировалось наличие естественных нечетких дубликатов.

Количество точечных особенностей для одного изображения в коллекции варьировалось от 0 до 11 985. В среднем одно изображение содержало 652 точечные особенности. Следует отметить, что это вдвое меньше, чем в коллекции ТИЕСУГО 2003 [13], которая использовалась при проведении экспериментов в работе [14].

Кластеризация достаточно большой коллекции изображений - вычислительно трудная задача. Поэтому при проведении эксперимента коллекция разделялась на части, которые обрабатывались в параллельном режиме. Это было возможно, так как выбранный для кластеризации алгоритм QT допускает легко реализуемое распараллеливание.

Максимальный диаметр кластера полагался равным 0.2, т. е. изображения I1, добавляемые в кластер с центром I, должны иметь по крайней мере 5 пар дескрипторов в множестве ООБЦ,!).

Оценка проводилась независимым коллективом судей (асессоров), приглашенных организаторами семинара РОМИП. Процедура оценки состояла из следующих этапов:

1. Выбор случайным образом изображения из коллекции.

2. Построение множества изображений, которые были отнесены в тот же кластер, что изображение, выбранное на шаге 1.

3. Добавление в построенное множество всех изображений из временной окрестности изображения образца.

4. Ручной отбор асессором групп нечетких дубликатов в построенном множестве. Асессор мог отобрать до 20 групп. При этом размер группы не ограничивался.

5. Идентификация полученных кластеров «изображениями-маркерами» - изображениями, имеющими «среднюю» временную метку среди элементов кластера.

Каждый асессор выполнял описанную процедуру для 45 случайных изображений. В результате было получено 526 эталонных кластеров, содержащих 3765 изображений.

Для оценки результатов эксперимента вычислялись значения четырех метрик: уровень ошибок первого рода, уровень ошибок второго рода, точность и полнота. Расчет производился путем сравнения эталонного кластера и расчетного кластера, содержащего изображение-маркер.

Пусть С* - множество изображений, входящих в эталонный кластер, С - множество изображений, входящих в расчетный кластер, N - общее число изображений в коллекции.

Тогда расчетные формулы для вычисления метрик примут следующий вид:

уровень ошибок второго рода

уровень ошибок первого рода

N - \С*\

\с*\

Метрики вычислялись отдельно для каждого эталонного кластера, после чего проводилось усреднение. Более подробное описание методики оценки приведено в [26]. Кроме этого, были проведены измерения производительности метода на компьютере с процессором Intel Core 2 Duo 1.83 ГГц и объемом оперативной памяти 2 Гб.

Метод поиска нечетких дубликатов изображений был реализован в виде набора программных модулей, разработанных на языке Java. Это обусловлено удобством разработки и кроссплатформенностью языка. При отладке и тестировании результатов работы метода использовались свободно доступные библиотеки [27, 28], предназначенные для решения схожих задач.

7. Анализ результатов эксперимента. После процедуры оценки, описанной в п. 6, были получены следующие значения мер производительности:

• уровень ошибок первого рода: 2.45 • 10~4;

• уровень ошибок второго рода: 0.36;

• точность: 0.69;

• полнота: 0.63.

Они в целом согласуются с результатами, полученными в работе [14] при оценке схожего метода поиска нечетких дубликатов и методики оценки.

Относительно низкое значение точности объясняется использованием большого радиуса кластера в алгоритме QT: для попадания в кластер изображение среди своих точечных особенностей должно было иметь не менее пяти пар симметрично ближайших соседей с точечными особенностями центра кластера. Это составляет 0.76% от среднего числа точечных особенностей на изображение.

Увеличение порога включения в кластер приводит к существенному приросту точности, однако вызывает потерю полноты. Это объясняется тем, что для 20% всех изображений было выявлено менее 100 точечных особенностей. Подобные показатели связаны с низким качеством изображений.

Кроме того, важным фактором, оказывающим влияние на точность кластеризации, является шаг дискретизации Д, используемый при индексировании координат дескрипторов. Величина шага была выбрана равной 0.25, как в работе [14]. Отказ от дискретизации позволяет повысить точность более чем на 10% [14], однако это приводит к существенному росту вычислительной нагрузки; в настоящей работе не проводились эксперименты без дискретизации и индексирования; результаты, представленные в [14], говорят о потери производительности на один порядок.

Измерения производительности показали следующий результат: сравнение двух изображений со средним числом точечных особенностей 792 занимает 0.009-0.011 с. Результат работы [14] составляет 0.028 с. Так как в [14] измерения проводились на компьютере с более мощным процессором Intel Pentium 4 3 ГГц, то выводы о приросте

производительности не связаны с характеристиками аппаратного обеспечения. С поправкой на то, что среднее число точечных особенностей в изображениях коллекции TRECVID 2003 [13], использованной в работе [14], составляет 1200, получаем, что за счет введения предварительной фильтрации производительность возросла в 1.86 раза.

8. Заключение. В настоящей работе предложена методика оценки методов выявления точечных особенностей изображения на основе задачи поиска нечетких дубликатов в коллекции изображений. Реализованы метод выявления точечных особенностей изображения и алгоритм решения задачи поиска нечетких дубликатов изображений. В основе алгоритма лежит выявление и сравнение точечных особенностей, инвариантных к геометрическим и фотометрическим преобразованиям. Подобные методы сравнительно недавно стали применяться в задачах робототехники и информационного поиска и привлекают внимание все большего числа исследователей. Это связано с тем, что методы, основанные на выявлении точечных особенностей и, в частности, на теории масштабируемого пространства, обладают высокой производительностью, имеют биологическое обоснование [1, 23] и согласуются с моделями обработки сигналов зрительными системами живых организмов [23].

Проведена оценка разработанного метода с помощью предложенной методики. Экспериментальные результаты, полученные в настоящей работе и ряде предшествующих исследований [1-4, 14-16], показывают высокую эффективность использования методов этого класса для решения задач поиска нечетких дубликатов изображений. Следовательно, подобные методы могут быть успешно применены в рамках систем технического зрения мобильных роботов.

Среди направлений дальнейшего развития полученных результатов наиболее значимы следующие:

1) повышение производительности метода для обеспечения эффективности его применения в системах реального времени;

2) разработка методики составления коллекции изображений, отражающей особенности режимов эксплуатации робототехнических систем.

Литература

1. Lowe D. Distinctive Image Features from Scale-Invariant Keypoints // Intern. J. of Computer Vision. 2004. Vol. 60. P. 91-110.

2. Smeaton A. F., Over P., Kraaij W. TRECVID: evaluating the effectiveness of information retrieval tasks on digital video // Proc. of the 12th annual ACM Intern. conf. on Multimedia. 2004. P. 652-655.

3. Wu X., Ngo C.-W., Li Q. Threading and Autodocumenting News Videos // Signal Processing Magazine. 2006. Vol. 23, N 2. P. 59-68.

4. Ke Y., Suthanakar R., Huston L. Efficient Near-Duplicate Detection and Sub-Image Retrieval // ACM Multimedia Conference. 2004. P. 869-876.

5. Durrant-Whyte H., Bailey T. Simultaneous localization and mapping. Pt I // IEEE Robotics & Automation Magazine. 2006. Vol. 13, N 2. P. 99-110.

6. Neira J., Tardos J. D. Data association in stochastic mapping using the joint compatibility test // IEEE Transactions on Robotics and Automation. 2001. Vol. 17, N 6. P. 890-897.

7. Bar-Shalom Y., Fortmann T. E. Tracking and Data Association. Boston: Academic Press, 1988. 366 p.

8. Karlsson N., di Bernardo E., Ostrowski J. et al. The vSLAM Algorithm for Robust Localization and Mapping // Proc. of IEEE Intern. Conference on Robotics and Automation (ICRA). 2005. P. 24-29.

9. Sim R., Elinas P., Griffin M., Little J. J. Vision-based SLAM using the rao-blackwellised particle filter // Proc. of the IJCAI Workshop on Reasoning with Uncertainty in Robotics. 2005. P. 9-16.

10. Ahn S., Choi M., Choi J., Chung W. K. Data Association Using Visual Object Recognition for EKF-SLAM in Home Environment // Proc. of IEEE/RSJ Intern. Conference on Intelligent Robots and Systems. 2006. P. 2588-2594.

11. Cleverdon C. W. The Cranfield tests on index language devices // Proc. of Aslib. 1967. Vol. 19. P. 173-192.

12. Пименов В. Ю. Метод поиска нечетких дубликатов изображений на основе выявления точечных особенностей // Труды семинара РОМИП. СПб., 2008. С. 145-159.

13. TREC Video Retrieval Evaluation. URL: http://www-nlpir.nist.gov/projects/trecvid.

14. Zhao W.-L., Ngo C.-W., Tan H.-K., Wu X. Near-Duplicate Keypoint Identification with Interest Point Matching and Pattern Learning // IEEE Transactions on Multimedia. 2007. Vol. 9, N 5. P. 1037-1048.

15. Кудряшов А. П. Извлечение и сопоставление точечных особенностей // Электрон. науч. журн. «Исследовано в России». 2007. Т. 10. URL: http://zhurnal.ape.relarn.ru/articles/2007/104.pdf.

16. Ke Y., Suthanakar R. PCA-SIFT: A More Distinctive Representation for Local Image Descriptors // Computer Vision and Pattern Recognition. 2004. Vol. 2. P. 506-513.

17. Heyer L. J., Kruglyak S., Yooseph S. Exploring Expression Data: Identification and Analysis of Coexpressed Genes // Genome Research. 1999. Vol. 9. P. 1106-1115.

18. Gionis A., Indyk P., Motwani R. Similarity search in high dimensions via hashing // Proc. of the 25th VLDB Conf. 1999. P. 518-529.

19. Bentley J. L. K-d Trees for Semidynamic Point Sets // Proc. Sixth Annual Symposium on Computational Geometry. 1990. P. 187-197.

20. Lindeberg T. Scale-space theory: A basic tool for analysing structures at different scales // J. of Applied Statistics. 1994. Vol. 21, N 2. С. 224-270.

21. Witkin A. P. Scale-space filtering // Proc. of Intern. Joint Conf. on Artificial Intelligence. 1983. P. 1019-1022.

22. Скурихин А. В. Применение методов масштабируемого пространства в обработке сигналов. URL: http://www.spiiras.nw.ru/rus/conferences/ict/Skurihin110604.ppt.

23. Koenderink J. J. The structure of images // Biological Cybernetics. 1984. Vol. 50. P. 363-396.

24. Mikolajczyk K., Schmid C. An affine invariant interest point detector // Proc. of European Conf. on Computer Vision (ECCV). 2002. P. 128-142.

25. Cazzolato S. J. Mapeo y localization simultaneous en forma robusta basado en vision stereo. Buenos Aires: UBA, 2007. 98 p.

26. Некрестьянов И. С. Результаты для дорожки поиска нечетких дубликатов в коллекции изображений: Приложение к трудам РОМИП’2008. URL: http://romip.ru.

27. Lowe D. SIFT Keypoint Detector. URL: http://www.cs.ubc.ca/ lowe/keypoints/.

28. Ke Y. PCA-SIFT Source Code. URL: http://www.cs.cmu.edu/ yke/pcasift/.

Статья рекомендована к печати проф. В. Ю. Добрыниным.

Статья принята к печати 5 марта 2009 г.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Пименов Виталий Юрьевич

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Пименов Виталий Юрьевич

Local interest point detection method evaluation in the problem of near-duplicate image detection

Текст научной работы на тему «Оценка метода выявления точечных особенностей изображения в задаче поиска нечетких дубликатов в коллекции изображений»