Сравнение методов поиска изображения по содержанию
Т.А. Колупаева,
стажер-исследователь ЦНИиС МГУП имени Ивана Федорова
В данной статье сравниваются различные характеристики сходства для поиска похожих изображений по содержанию: цветовое, текстурное и сходство формы.
В связи с быстрым развитием интернет-приложений и популярности цифровых технологий количество мультимедиа данных, доступных в Интернете, быстро растет. Для обработки такого количества информации нужен ресурс, помогающий осуществить быстрый и качественный поиск необходимых данных.
+ —
- упрощенный способ работы с базой данных изображения по категориям - трудоемкая операция, - неоднозначное выполнение (поиск ограничен только текстовым описанием изображения)
Согласно [1] существует несколько различных характеристик сходств, по которым можно осуществлять поиск:
1. Description-Based Image Retrieval (поиск на сайте Третьяковой галереи) - это традиционный метод, осуществляющий поиск изображения по описанию.
Подготовка баз данных изображения включает в себя два этапа:
- выбирается изображение для включения в коллекцию,
- производится классификация посредством назначения общих категорий и ключевых слов.
Выборка осуществляется при помощи запросов по текстовым атрибутам, которые можно записывать на языке SQL.
2. Content-Based Image Retrieval - это технология, которая помогает организовать архив электронного изображения по содержа-
нию. Поиск изображений на основе содержания является относительно новой прикладной областью, в которой применяются методы компьютерного зрения.
Характеристики сходства изображений можно разделить на три основные группы: цветовое сходство, текстурное сходство, сходство формы.
1. Характеристики цветового сходства
Характеристики цветового сходства позволяют сравнить цветовое содержание одного изображения с цветовым содержанием другого изображения или с параметрами, заданными в запросе. Способ поиска основан на сопоставлении цветовых гистограмм или на использовании цветового макета.
Меры расстояния на основе цветовой гистограммы должны предусматривать оценку сходства двух различных цветов. Система QBIC определяет расстояние следующим образом:
dhtst I О)=(///) -т таш - /О),
где /(/), /(О) - гистограммы изображений /, О, А - матрица сходства.
На рис. 1 показан набор изображений, полученных в результате выполнения запроса с указанием 40% красного, 30% желтого и 10% черного цвета.
Рис. 1. Поиск похожих изображений, используя цветовую гистограмму
2. Характеристики текстурного сходства
Изображения, близкие по характеристике текстурного сходства должны иметь одинаковое пространственное распределение цветов (или значений яркости), но при этом значения цветов (яркости) двух изображений могут не совпадать.
При рассмотрении характеристик текстурного сходства необходимо уточнить два аспекта: представление текстуры и определение сходства с учетом выбранного представления текстуры.
Мера расстояния определяется следующим выражением:
d(I,Q) = т/п^ЦЯ/) -Яа||2,
где 7/) - вектор текстурного описания пикселя /изображения I, а T(Q) -вектор текстурного описания для выбранного пользователем текстурного образца, который используется в запросе.
Пример поиска по текстурному содержанию показан на рис. 2.
Рис. 2. Поиск похожих изображений по текстурному сходству
3. Характеристики сходства формы
Форма не является атрибутом изображения. Понятие формы применимо к некоторой области изображения. При использовании характеристик формы необходимы дополнительные операции обработки, так как перед вычислением характеристик сходства формы требуется выполнить идентификацию областей.
В качестве примера рассмотрим две функции:
1) функция расстояния от точек контура до центра фигуры:
Цы? = (хс - Х5 )2 + (ус - у5)2,
где (хс = Y^xs/N, ус = ^Уз/М) - центр масс контура;
2) углы поворота:
Ь (ы) = (х+1 - х5 )2 + (у5+1 -у5)2,
= (Х-1 - ^ + (^-1 с2 (s) = (Х-1 - Хт+1)2 + (Л-1 - Уs+1)2, Таблица 1
Сопоставление различных характеристик сходства изображений
Преимущества Недостатки Процентное соотношение сходства
Цветовое сходство - возможность достижения сходного цветового содержания - сильно отличается смысловое содержание, - человеческий глаз не фиксирует точное процентное содержание цветов 1/8 = 12,5%
Текстурное сходство - возможность достижения текстурного сходства изображений - изображения должны иметь одинаковое пространственное распределение цветов 4/8 = 50%
Сходство формы - наличие различных методов статистического распознавания образов, - возможность эскизного сопоставления - не является атрибутом изображения, необходимы дополнительные операции 9/24 = 37,5%
Для обеспечения инвариантности относительно поворотов и масштаба, выполняется нормирование величин, а в качестве начальной точки контура берется то расстояние до центра, которое наименьшее, соответственно упорядочиваются элементы векторов.
Применение данного метода рассмотрено на рис. 3.
Рис. 3. Поиск похожих изображений по форме
В табл. 1 рассмотрены преимущества и недостатки различных методов поиска и выведено процентное соотношение сходства, отвечая на два вопроса: совпадают изображения или нет (фотография одного и того же объекта при разных съемках), являются ли эти объекты разными.
При разработке программного продукта для поиска изображений по содержанию необходимо рассмотрение нескольких параметров для получения более точного результата.
Поиск будет зависеть от того, что именно мы хотим получить в результате и какие перед нами стоят цели. Таким образом, можно выделить несколько понятий, подходящих под категорию «похожие изображения» [2]:
1. «Near-duplicates» - изображения фактически одного и того же объекта.
2. Похожие по конфигурации сцены, хотя могут быть и разные по назначению.
3. «Category-level scene classification» - изображения из одного класса сцен.
4. «Category-level classification» - изображения из одного класса объектов.
В зависимости от каждой постановки задачи будет осуществляться поиск по определенным признакам. Например, первая коммерческая система - QBIC компании IBM в 1995 году. Программа использует следующий набор признаков:
• Цветовая гистограмма.
• Набор объектов и их признаков:
- бинарная маска для описания объектов;
- ручная или автоматическая сегментация.
• Выделение контрастных объектов на фоне (музейные экспонаты).
• «Snakes», «заливка» для автоматизированной разметки:
- признаки формы объектов для распознавания;
- площадь, периметр, и т. д.
Пример использования программы (рис. 4, 5).
qjic 1 AYlM' i N I Л RI и
Рис. 4. Интерфейс QBIC
Рис. 5. Результат поиска
Поиск изображения в QBIC осуществляется преимущественно по цветовым характеристикам, однако подобный метод, не отвечает за смысловое содержание изображения. Поэтому в последнее время все большее распространение получают методы поиска по сходствам объектов в отношении друг к другу и по форме. Таким образом, все большее применение нашел метод поиска по «мешку слов» (Bag of words). Результат использования данного метода - практически идентичные изображения. Например, одна и та же сцена с разных ракурсов (см. рис. 6).
Рис. 6. Применение BOW
Чтобы представить изображение с помощью модели BOW оно должно рассматриваться как документ. Исследования в области компьютерного зрения выделили несколько способов обучения модели BOW для изображений, связанных общей задачей. Эти методы можно условно разделить на две категории: генеративные (наивный Байес, Байесовские модели) и дискриминационные (Pyramid Match Kernel) [3]. Общий алгоритм модели будет выглядеть следующим образом [2].
Построение индекса для коллекции изображений:
• Извлечение особенностей.
• Обучение словаря (кластеризация).
• Квантование особенностей по словарю (сопоставление).
• Построение гистограммы частот слов.
• Запись всех «мешков» в каком-то виде.
Поиск изображения:
• Извлечение особенностей.
• Квантование особенностей по словарю (сопоставление).
• Построение гистограммы частот слов.
• Сравнение гистограммы со всеми из индекса.
Метод кластеризации имеет ряд недостатков: игнорирует семантический и пространственные контекст [4]. В настоящее время проходят исследования по улучшению поиска путем добавления в него дополнительных параметров, например, введение дополнительных словарей: геометрического, семантического и контекстного визуального («geometric visual vocabulary, semantic visual vocabulary and contextual visual vocabulary»).
Библиографический список
1. Шапиро Л. Компьютерное зрение / Л. Шапиро, Дж. Сток-ман. - М. : БИНОМ. Лаборатория знаний, 2006.
2. КонушинАнтон. Введение в компьютерное зрение / Антон Конушин // Лекция 10 http://courses.graphicon.ru/main/vision
3. http://en.wikipedia.org/wiki/Bag_of_words_model_in_ computer_vision
4. Modeling spatial and semantic cues for large-scale near-duplicated image retrieval. Shiliang Zhang, Qi Tian, Gang Hua, Wengang Zhou, Qingming Huang, Houqiang Li, Wen Gao.