Научная статья на тему 'Классификация сложных изображений на основе семантического графа понятий'

Классификация сложных изображений на основе семантического графа понятий Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
383
58
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДЕСКРИПТОРЫ ОПОРНЫХ ТОЧЕК / FEATURE DESCRIPTORS / КЛАССИФИКАЦИЯ ИЗОБРАЖЕНИЙ / IMAGE CLASSIFICATION / СЕМАНТИЧЕСКИЙ ГРАФ / SEMANTIC GRAPH

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Казаков М.Г., Крючкова Е.Н.

Описывается метод классификации изображений, основанный на использовании семантических связей между классами и автоматически полученной обучающей выборке. Метод позволяет анализировать сложные изображения путем корректировки результатов классификации семантически близких классов. Приводятся схема работы и применяемые формулы.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Classification of complex images based on semantic graph

Image classification is a complex problem due to classes’ natural variability, possibly visual intersections and due to lacking of sufficient information in visual representation only. Classification methods bases on representing images as a set of visual words and then transforming them into appearance frequency histogram has proved it’s stability in last years. However, such approach is based on usage of a set of separated classifiers trained on some learning sets, and lacking any information about relations between them. Such information can be useful when image being analyzed contains some form of classes’ intersection or instances of more than one class. In that case whole-image classification can become unreliable and some king of post-processing is required. Current work explores the possibility to use information contained in semantic graphs for described problem. With a set of words in natural language as vertices in semantic graphs it is possible to gather connected learning images with usage of search systems like Google. Edges in semantic graph can be used a metric base for verification and correction algorithms which runs after a separated whole-image classification process. It is possible in some cases to combine semantically-close classes when analyzing a complex image and when separated whole-image classification becomes unreliable. Such method is given, with used formulas and results in table form.

Текст научной работы на тему «Классификация сложных изображений на основе семантического графа понятий»

№ 6 (54) 2014

М. Г. Казаков, аспирант Алтайского государственного технического университета, г. Барнаул,

mike.kazakov@gmail.com

Е. Н. Крючкова, канд. физ.-мат. наук, профессор Алтайского государственного технического

университета, г. Барнаул, kruchkova_elena@mail.ru

классификация сложных изображений на основе семантического графа понятий

Описывается метод классификации изображений, основанный на использовании семантических связей между классами и автоматически полученной обучающей выборке . Метод позволяет анализировать сложные изображения путем корректировки результатов классификации семантически близких классов . Приводятся схема работы и применяемые формулы .

Ключевые слова: дескрипторы опорных точек, классификация изображений, семантический граф .

введение

В то время как некоторые задачи распознавания в рамках компьютерного зрения можно считать в той или иной степени разрешенными (как, например, задача локализации конкретного объекта (object detection) или поиска экземпляров объекта — instance recognition), задача классификации изображений (category recognition) (целиком либо по частям) остается крайне тяжелой. Причин тому несколько [1]:

• визуальная изменчивость предметов, относящихся к определенной категории;

• допустимые структурные отличия между предметами, относящимися к одной категории;

• невозможность экстенсивного наращивания обучающей выборки, так как комбинаторный взрыв приводит к переобучению;

• связь между категоризацией объекта и внешним контекстом;

• непонимание, как работают данные механизмы в сознании человека.

Отдельную сложность может представлять то, что возможны ситуации, когда ни один из классов, которым обучена система распознавания, не представлен на анализируемом изображении. В этом случае

система распознавания должна выдать отсутствие имеющихся классов.

Большинство существующих на сегодняшний день механизмов классификации опирается на визуальные особенности изображений (visual features). Базирующиеся на них подходы хорошо зарекомендовали себя в задачах локализации объекта и поиска экземпляров объектов в 1990-х годах [2], в 2000-х годах были сделаны попытки использовать этот же механизм для классификации изображений. Использование данных о визуальных особенностях отличается в различных методах классификации изображений, но можно выделить некий общий алгоритм:

1) составление обучающей выборки изображений, разбитых (labeled) по классам;

2) извлечение визуальных особенностей из обучающей выборки;

3) преобразование полученных данных для дальнейшей работы;

4) использование обработанных данных для анализа очередного входного изображения и принятие решений о принадлежности его к определенному классу.

Из устоявшихся на сегодняшний день подходов к использованию визуальных особенностей можно выделить некоторые группы.

No. 6 (54) 2014

JOURNAL QF APPUED INFORMATICS

Методы, основанные на подходе Bag-of-Words (BoW). В этом случае все визуальные особенности (представляющие собой многомерные векторы) из всей обучающей выборки объединяются в общий массив, который потом кластеризуется на заданное количество центров. Затем оригинальные изображения из обучающей выборки преобразуются в гистограммы, представляющие распределения визуальных особенностей этих изображений по ближайшим центрам вычисленных кластеров. Полученные гистограммы используются для принятия решения о принадлежности анализируемого изображения к определенному классу [3].

Методы, основанные на использовании наивного байесовского классификатора (naive Bayesian nearest neighbor). Этот подход основан на идее, что процесс квантования оригинальных визуальных особенностей, применяемый в методе BoW, снижает их дискриминационную возможность. В данном подходе все визуальные особенности обучающей выборки для каждого класса объединяются в общий массив. При анализе входного изображения для каждой его визуальной особенности ищется наиболее близкая особенность среди каждого из классов. Наиболее похожим классом считается тот, сумма расстояний до ближайших особенностей которого будет минимальна [4, 5, 6].

Среди других методов можно выделить методы, учитывающие взаимное расположение (part-based), и методы, основанные на сегментировании. Однако они обычно являются специализированными для определенных задач и поэтому не рассматриваются в данной работе.

В реальных задачах часто требуется не просто отнести входное изображение к определенному классу, но и локализовать экземпляр этого класса на изображении. Такая задача получила название категоризации через локализацию (categorization by localization) [7]. Для возможности работать с такими условиями задачи вводятся дополнительные требования к обучающей выборке — помимо непосредственно мет-

ки класса для каждого изображения на изображениях выделяется область присутствия этого объекта (ground truth). В подавляющем большинстве случаев она представляется прямоугольником, так как использование других геометрических фигур сопряжено с последующей сложностью обработки. Для категоризации через локализацию производится отдельное обучение различных классификаторов — для выделенных объектов и для окружающего их фона. В дальнейшем при анализе входных изображений используется функция, учитывающая значения обоих классификаторов и достигающая максимума в области предполагаемого расположения экземпляра определенного класса. Задачи, формулируемые как «найти экземпляры класса или их отсутствие», обычно используют именно этот подход.

В обычной практике системы классификации обучаются на специально подготовленной выборке изображений, разбитой по классам (возможно, с отмеченной ground truth). На сегодняшний день существует множество таких библиотек, что позволяет успешно оценивать производительность тех или иных классификаторов на одинаковых наборах изображений. Но в них есть недочеты: подобные библиотеки составляются вручную; представленные в них классы не имеют связей между собой. Это означает, во-первых, сложность в их поддержке и расширении, во-вторых, сложность обработки изображений, содержащих экземпляры различных классов.

В данной работе предлагается пересмотреть постановку задачи и двигаться не от имеющихся библиотек изображений, разбитых по классам, а от представления человека о реальном мире, показанного в виде семантического графа. В этом графе предлагается выделять понятия, имеющие достаточно постоянное визуальное представление, автоматическим образом проводить поиск соответствующих изображений и при анализе входного изображения также учитывать расстояние между понятиями в семантическом графе. Для сбора

№ 6 (54) 2014

выборки обучающих изображений предлагается использовать общедоступные поисковые системы. Таким образом достигается, с одной стороны, независимость от наличия конкретных требуемых классов в имеющихся библиотеках изображений и возможность гибкой подстройки под задачу. С другой стороны, с использованием поисковых систем можно добиться большей связности изображений в классах с представлением человека о понятиях (поисковая выдача ранжируется исходя из семантической релевантности). Также данный подход привносит особенности, касающиеся того, что в обучающей выборке отсутствует информация о расположениях объектов на изображениях (выделить их автоматически не представляется возможным), и следовательно, ее возможно использовать для ответа на вопрос «какой из классов представлен на изображении», но не «какой из классов, если какой-либо из них». В то же время использование связей между классами, представленными в обучающей выборке, позволяет анализировать сложные изображения, в которых могут быть представлены экземпляры разных (вероятно, связанных) классов. Общая схема работы представлена на рис. 1.

семантическое представление понятий

В процессе визуального распознавания объектов человек использует некоторый объем знаний об окружающем

мире — «модель мира». Обобщенная форма представлений о мире может быть с той или иной степенью достоверности извлечена из толковых словарей естественного языка, словарей синонимов и т. п. В распознавании сложных объектов большую роль играют ассоциативные связи между объектами, одной из форм которых являются контекстные ассоциации, когда два объекта встречаются в одном контексте. Идентификация объекта может быть основана на анализе фрагментов, их которых состоит этот объект. В данном контексте под объектом и даже фрагментом мы понимаем некоторое семантическое понятие реального мира. Возникает необходимость в универсальном инструменте представления знаний о мире, позволяющем описывать отношения между объектами.

Введем в рассмотрение семантический граф G = (V, построенный на основе толкового словаря и словаря синонимов, где V — множество всех понятий языка, U — связи между словами, соответствующие отношениям определения, синонимии и ассоциации. В данной работе используется граф, основанный на автоматически построенном на основе лингвистических словарей лексиконе, представленном в [8]. Отношение определения связывает слово с обобщающим его понятием. Ассоциативные связи в графе G являются признаком использования соответствующих понятий в одной словарной статье. Связи синони-

Настройка

Семантический граф

Поисковая Обучение

система классификаторов

Список классов

Классы

Анализируемое

изображение

Связи между

Обучающая

выборка

Классификация

Семантическая корректировка

Обученные

классификаторы

Результаты независимой

классификации

Рис. 1. Общая схема работы системы

81

классами

No. 6 (54) 2014

JOURNAL OF APPLiED iNFORMATiCS

мии являются точным отображением определений из словаря синонимов, однако в нашей задаче они рассматриваются как контекстные ассоциативные связи. Также ис-пытывался граф WordNet, разрабатываемый Принстонским университетом, однако он содержит чрезмерное количество лингвистической информации, что затрудняет его использование для выделения семантических связей [9, 10].

Контекстные связи между объектами можно использовать в качестве отдельных этапов при структурном анализе сложного объекта. При таком подходе любое простое или сложное отношение рассматривается как реализация обобщенного отношения, заданного на упорядоченном множестве понятий. Очевидно, что чем дальше друг от друга в графе G находятся слова, тем менее они связаны, а следовательно, и менее связаны между собой распознанные фрагменты изображения.

Граф G — взвешенный, каждая ассоциативная связь и связь определения имеют вес. Это означает, что можно рассмотреть некоторую окрестность а(Х) понятия X, в которой расстояние от X до любой вершины множества а(Х) не превышает заданной величины. Если вес связей определения превышает вес связей ассоциации, то окрестность а(Х) каждого понятия должна содержать больше обобщающих терминов. Если больший вес имеют ассоциативные связи, то в а(Х) оказываются контекстные ассоциации, что в полной мере соответствует задаче выделения семантически связанных объектов на изображении.

выделение понятий и формирование обучающей выборки

Использование поисковых систем для формирования обучающей выборки сопровождается следующими положительными эффектами [11]:

— поисковая выдача коррелирует с реальным представлением человечества о визуальном представлении понятий, так как

она ранжируется с учетом ссылок и цитирования;

— набор необходимых классов может быть гибко подстроен под каждую конкретную задачу либо подкорректирован в процессе работы;

— отсутствует ручной труд.

Для формирования обучающей выборки используется в данном случае Google Search. Поисковый сервис выдает набор изображений по конкретному запросу. Для каждого выбранного понятия опционально задается слово для запроса в поисковую систему. Это необходимо из-за того, что определенные слова могут иметь совершенно разную выдачу при различных формах этого слова в запросе. Так, например, слово «облако» будет иметь гораздо более релевантную компьютерному зрению выдачу от запроса «облака». Традиционное количество обучающих изображений в задачах классификации может варьироваться в диапазоне от 10 до 30, таким образом, текущий лимит Google Custom Search на 100 первых результатов поискового запроса не привносит ограничений на возможности обучения, что подтверждается результатами полученных confusion matrix ниже. Стоит также отметить, что при таком формировании обучающей выборки у системы отсутствует информация о расположении объектов внутри изображений (так называемый ground truth), и эта выборка не может быть использована для решения задач categorization by localization.

выбор метода работы классификатора

Из упомянутых методов использования визуальных особенностей изображений обучающей выборки были рассмотрены два варианта как наиболее общие: Bag Of Words и Naive Bayesian Nearest Neighbor. Оба они имеют свои достоинства и недостатки.

Для работы с обучающей выборкой, полученной автоматически, классификатор должен обладать в первую очередь устойчивостью результата работы при незначитель-

№ 6 (54) 2014

ных изменениях обучающей выборки — при появлении в выборке «плохих» экземпляров общий результат работы не должен кардинально ухудшаться. Рассмотрим классификаторы в свете поставленной задачи.

Bag of Words. Среди плюсов этой модели — устойчивость ее результатов при незначительных изменениях обучающей выборки. При этом усредняющая суть данного метода хорошо вписывается в подход с автоматически полученной обучающей выборкой. Недостатком является принципиальная проблемность тех ситуаций, когда в анализируемом изображении представлено более одного экземпляра объекта из обучающей выборки либо этот объект представлен частично. Кроме того, модель отличается высокой вычислительной сложностью на этапе обучения, особенно процесса кластеризации исходного набора визуальных особенностей.

Naive Bayesian Nearest Neighbor. Плюсы данной модели — отсутствие этапа обучения и способность работать с объектами, представленными частично. К минусам можно отнести неустойчивость результатов работы относительно изменений обучающей выборки — даже незначительное изменение выборки для одного класса с «плохими» данными способно кардинально ухудшить общую работу системы (что связано с отсутствием этапа квантования); повышенные требования к однотипности обучающей выборки между разными классами (классы, для которых характерно большее количество извлекаемых визуальных особенностей, будут иметь бо'льшие значения классификатора в силу статистических законов). Практика данной работы показала, что эти минусы делают непригодным NBNN для работы с автоматически полученной обучающей выборкой.

извлечение визуальных особенностей и кластеризация

После того как для каждого из классов собрана обучающая выборка, из нее выби-

рается определенное количество изображений для представления класса в процессе кластеризации. В рамках данной работы хорошие результаты были достигнуты при 15 изображениях на один класс: уменьшение этого количества ведет к неоптимальному расположению центров кластеров и снижению репрезентативности впоследствии формируемых гистограмм, увеличение же ведет к возрастанию сложности кластеризации, которая может занимать значительное время. Для предотвращения появления чрезмерного количества визуальных особенностей изображения размером более 2048 х 2048 пропорционально уменьшаются до 1024 по наибольшей стороне.

Визуальные особенности изображений представлены SIFT-дескрипторами [12]. Извлеченные из всех выбранных изображений всех классов дескрипторы (представленные 128-мерными векторами) затем кластеризуются по 1000 кластеров. Увеличение числа кластеров приводит к улучшению дискриминационных свойств гистограмм (гистограммы имеют количество элементов, равное числу кластеров), однако проблемно в части производительности.

обработка обучающей выборки

Для представления классов наборами гистограмм из собранной обучающей выборки этого класса выбирается 50 изображений (зависимость работы от этого числа представлена на рис. 2). Для каждого данного изображения выполняется следующий алгоритм:

— получить визуальные особенности (SIFT дескрипторы);

— установить нулевую гистограмму для этого изображения;

— для каждой визуальной особенности:

■ найти ближайший центр кластера;

■ увеличить значение гистограммы под индексом, равным номеру кластера, на единицу;

— нормировать гистограмму относительно числа кластеров.

No. 6 (54) 2014

JOURNAL of appued infqrmatics

= «

о * 3- s

и

0 CP

О

50 45 40 35 30 25 20 15 10 5 0

5

10

50

15 20 25 30 35 40 45 Количество обучающих изображений в классе Рис. 2. Зависимость работы классификатора от количества обучающих изображений

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В результате все классы представляются набором гистограмм, каждая из которых описывает изображения класса в терминах распределения визуальных особенностей по кластерам. Изначально при использовании метода Bag-of-Words в качестве классификатора применялась функция близости к набору гистограмм (минимальное расстояние), но в дальнейшем было показано, что лучших результатов можно добиться, используя метод опорных векторов (Support Vector Machines — SVM). В данной работе используется SVM: для обучения классификатора определенного класса гистограммы этого класса отмечаются (labeling) единицами, а гистограммы всех остальных классов — нулями и производится поиск разделяющих гиперплоскостей.

качество автоматически сгенерированной обучающей выборки

В табл. 1 приведены данные confusion matrix, по горизонтали идут изображения класса, полученные автоматически (исключая те, что использовались для обучения, для более актуальных значений), по вертикали — результат предположения классификатора для данного класса. Как показывает соотношение чисел на диагонали и по столбцам, качество работы классификатора соизмеримо (хотя и несколько ниже) с работой классификаторов, обученных

84

на выборке, составленной с использованием ручного труда. Данные показатели позволяют использовать автоматическую обучающую выборку для классификации.

классификация изображений

При анализе сложных в части наполнения изображений могут возникать ситуации, когда классификаторы разных классов выдают примерно одинаковые значения. При этом соизмеримые значения могут выдавать как классификаторы классов, реально присутствующих на изображении, так и классификаторы, ложно выдающие высокий результат. При наличии известных семантических связей между классами подобные ситуации можно отдельно обрабатывать, повышая общую релевантность выдачи системы анализа. Основной тезис, на котором основывается дальнейшая логика работы, заключается в том, что при наличии двух семантически близких классов с высокой выдачей их классификаторов эти классы можно объединить в кластер с более высоким значением, нежели у классов по отдельности.

Результат работы классификатора с учетом семантического графа

При переходе к учету семантических связей между классами предлагается также переход от безразмерных значений вы-

№ 6 (54) 2014

Таблица 1

Значения confusion matrix

_а s t- ас о Я о _а

Класс о о О 1-ш <D и о \о 3 ОТ ш :Е ас О

о о 1- CQ < я о О ш \о О О

Стол 100% 18% 6% 4% 13% 0% 0% 0% 0% 20% 6% 8%

Автомобиль 0% 100% 20% 28% 33% 24% 28% 7% 3% 10% 25% 13%

Самолет 9% 45% 100% 8% 20% 0% 28% 20% 3% 17% 6% 0%

Цветок 9% 9% 20% 100% 0% 8% 0% 17% 28% 0% 0% 4%

Колесо 15% 36% 20% 16% 100% 20% 14% 2% 3% 27% 12% 4%

Мост 0% 9% 26% 4% 33% 100% 28% 5% 0% 13% 12% 13%

Небо 3% 9% 0% 8% 13% 12% 100% 7% 82% 3% 12% 0%

Кошка 0% 0% 6% 4% 6% 8% 14% 100% 0% 7% 6% 0%

Облако 6% 0% 26% 4% 6% 8% 71% 10% 100% 3% 0% 0%

Дверь 21% 9% 0% 4% 20% 8% 14% 0% 0% 100% 31% 0%

Окно 12% 0% 6% 4% 13% 8% 14% 10% 0% 37% 100% 30%

Дом 6% 36% 0% 0% 20% 12% 0% 5% 0% 17% 50% 100%

дачи классификаторов к подсчету близких к классу понятий с последующим нормированием. Удобным механизмом для этого является обход графа в ширину от каждого конкретного класса. Обход в ширину учитывает веса ребер (в данной реализации наилучший результат показали значения 0,3 для отношений определения и 0,75 для ассоциативных связей), а также расстояние от класса (демпфирование при прохождении очередного понятия). При прохождении каждого очередного понятия рассчитывается его функция сходства с оригинальным понятием-классом, и когда она становится меньше порогового значения — обход в этом направлении завершается. Для обхода используется алгоритм Дейкстры. Значение близости в очередного смежного понятия а к предыдущему Ь вычисляется по формуле

вь = ва х Е(а, Ь) х Ц ва > Т,

где Е — функция сходства при переходе от одного понятия к другому — получается из словаря понятий, D — константный коэф-

фициент демпфирования при каждом очередном удалении от изначального понятия, Т — пороговое значение похожести с изначальным понятием.

Значение близости оригинального понятия х является фиксированным относительно класса значением: при первоначальном обходе оно принимается за единицу, при обходах с учетом результата работы классификатора оно может быть соответствующим образом скорректировано (таким образом, визуальное соответствие транслируется в обход семантического графа):

х е [0,5; 1,0].

Обозначим множество близостей понятий до понятия, соответствующего классу С,

вС, I < N,

где N — количество понятий в словаре.

Введем функцию так называемой ширины класса, которая будет рассчитываться

-n journal of applied informatics

No. 6 (54) 2014 ' -

как сумма похожестеи всех понятии, которые могут быть достигнуты из понятия соответствующего класса при заданной изначальной степени похожести. Она будет служить основой для сравнения в терминах семантических связей:

N

М (С, х) = Х Б? .

i=1

Так как в семантическом графе понятия располагаются с неравномерной плотностью, требуется система нормирования для каждого отдельного класса, иначе сравнение величин не будет иметь смысла. Базой нормализации принята ширина класса, полученная при обходе со значением близости оригинального понятия, равным единице, — М (С, 1).

Для получения сравнимых величин в терминах понятий (и широт классов) с учетом полученной ранее выдачи г классификаторов классов используется следующее преобразование:

W

Qc =

t \

C, 1 - C - Гтп ■ 0,5 r — r

V max min /

W (C, 1)

этих классов. При этом идет переход от отдельных классов к кластерам классов, изначально состоящих из одних классов, потом, возможно, укрупняющихся за счет объединения. Для определения необходимости объединения классов соотносится их степень пересечения понятий, имеющих ненулевое значение близости, с суммой ширин этих классов, и в случае, если это значение больше некоторого порогового, запускается механизм их объединения:

N , .-

+ SC + 3 SC1 ■ SC

i=1v_

W(Ci, rCi) + W(C2, rC2)

> 1,2.

где гС — результат работы классификатора класса С, гтт — минимальный результат работы всех классификаторов, гтах — максимальный результат работы всех классификаторов.

Таким образом, более близкий, исходя из выдачи классификаторов, класс получит изначальную семантическую близость, равную 1,0, наименее близкий получит изначальную семантическую близость, равную 0,5.

объединение пересекающихся понятий в кластеры

В процессе объединения понятий производится сравнение классов «каждый с каждым» и вычисляется степень пересечения на основе семантических связей и изначальной выдачи классификаторов для

При объединении значениями похожести понятий БС в новом кластере С(С1, С2) принимаются наибольшие значения из оригинальных значений близости:

БС = тах(БС, БС).

Значение нормированной ширины QC объединенного кластера С, полученного из С1 и С2, вычисляется по формуле

ОС = тах ( ОС2 )х

1 + тах( ОС2 )-птп( ОС2 )2

тах ( о2 2 + т'п ( ос2 2

Таким образом, достигается, с одной стороны, плавное увеличение выдачи для связных семантически понятий с высокой выдачей, с другой стороны, коэффициенты подобраны таким образом, чтобы уменьшить вероятность возникновения ситуации, когда близкие семантически понятия с невысокой выдачей в результате получают значения выше изначально правильно классифицированных. После объединения двух понятий в кластер (одно из них уже может являться кластером, полученным на предыдущем этапе, — для алгоритма это не имеет значения) одно из понятий удаляется, и процесс продолжается до тех пор, пока существуют классы со степенью пересечения выше порогового значения.

№ 6 (54) 2014

Таблица 2

Нормированные результаты работы классификаторов

_0

л ас о а О

Класс о О г л о <и с О \о 1 ГС X ас г о

о о ^ еа а о со о К г О К \о о О =1

«

Близость 0,63 0,98 0,90 0,98 0,96 0,94 0,94 0,94 0,97 0,50 0,95 1,00

Таблица 3

Результаты работы после семантической корректировки

О с

л

Класс л о 1-сэ \о О Самолет Цветок т с о г о \о ш Кошка Облако Дверь о X ас О м о Д

о

еа «

Близость 0,04 1,45 0,18 0,98 0,04 0,05 0,03 0,96 0,06 0,95 1,00

Рис. 3. Примеры классифицируемого изображения

Ч..... 87

No. 6 (54) 2014

journal of appued informatics

По окончании процесса объединений выбирается кластер С с наибольшим значением нормированной ширины QC, и он используется в качестве финального результата классификации.

Пример работы можно продемонстрировать на изображении, представленном на рис. 3. После работы классификаторов получены результаты, представленные в табл. 2 (для удобства данные нормированы в диапазоне [0,5; 1], где 1 — наиболее близкий результат).

Наиболее близким в данном случае является класс «дом», что ошибочно. После работы механизма обхода семантического графа, нормализации относительно ширин классов и объединения пересекающихся классов результат преобразуется в представленный в табл. 3.

При этом наибольшее значение близости находится у кластера «автомобиль + колесо», что более релевантно.

Заключение

Представленная модель работы системы классификации позволяет избежать ограничений, налагаемых ручным формированием обучающей выборки, и в то же время увеличивать релевантность результата работы визуальных классификаторов путем семантической корректировки. Система при этом позволяет анализировать сложные изображения, в которых могут встречаться экземпляры взаимосвязанных классов.

Список литературы

1. Szeliski R. Computer Vision: Algorithms and Applications. Springer-Verlang. N. Y., 2010.

2. Lowe D. G. Object Recognition from Local Scale-Invariant Features // The Proceedings of the Seventh IEEE International Conference on Computer Vision, 1999.

3. Csurka G., Dance C., Fan L., Willamowski J., Bray C. Visual categorization with bags of keypoints // Workshop on statistical learning in computer vision, 2004.

4. Boiman O, Shechtman E, Irani M. In defense of Nearest-Neighbor based image classification // IEEE Conference on Computer Vision and Pattern Recognition, 2008.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5. Behmo R., Marcombes P., Dalalyan A., Prinet V. Towards optimal naive Bayes nearest neighbor // European Conference on Computer Vision, 2010.

6. Lowe D. G. Local naive Bayes nearest neighbor for image classification // Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition, 2012.

7. Harzallah H., Jurie F, Schmid C. Combining efficient object localization and image classification // International Conference on Computer Vision, 2009.

8. Крайванова В. А., Кротова А. О, Крючкова Е. Н. Построение взвешенного лексикона на основе лингвистических словарей // Материалы Всероссийской конференции «Знания — Онтологии — Теории», 2011.

9. Miller George A. WordNet: A Lexical Database for English // Communications of the ACM. Vol. 38. 1995.

10. Fellbaum C. WordNet: An Electronic Lexical Database. Cambridge, MA: MIT Press, 1998.

11. Fergus R. and Perona P. and Zisserman A. A Visual Category Filter for Google Images // European Conference on Computer Vision, 2004.

12. Lowe D. G. Distinctive image features from scale-invariant keypoints // International Journal of Computer Vision. 2004. 60 (2).

References

1. Szeliski R. Computer Vision: Algorithms and Applications. Springer-Verlang. N. Y., 2010.

2. Lowe D. G. Object Recognition from Local Scale-Invariant Features. The Proceedings of the Seventh IEEE International Conference on Computer Vision, 1999.

3. Csurka G., Dance C., Fan L., Willamowski J., Bray C. Visual categorization with bags of keypoints. Workshop on statistical learning in computer vision, 2004.

4. Boiman O., Shechtman E., Irani M. In defense of Nearest-Neighbor based image classification. IEEE Conference on Computer Vision and Pattern Recognition, 2008.

№ 6 (54) 2014

5. Behmo R., Marcombes P., Dalalyan A., Prinet V. Towards optimal naive Bayes nearest neighbor. European Conference on Computer Vision, 2010.

6. Lowe D. G. Local naïve Bayes nearest neighbor for image classification. Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition, 2012.

7. Harzallah H., Jurie F. Schmid C. Combining efficient object localization and image classification. International Conference on Computer Vision, 2009.

8. Krajvanova V. A., Krotova A. O, Kruchkova E. N. Postroenie vzveshennogo leksikona na osnove

lingvisticheskih slovarej. Materialy Vserossijskoj kon-ferencii «Znanija — Ontologii — Teorii», 2011.

9. George A. Miller. WordNet: A Lexical Database for English. Communications of the ACM, vol. 38, 1995.

10. Fellbaum C. WordNet: An Electronic Lexical Database. Cambridge, MA: MIT Press, 1998.

11. Fergus R. and Perona P. and Zisserman A. A Visual Category Filter for Google Images. European Conference on Computer Vision, 2004.

12. Lowe D. G. Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision, 2004, 60 (2).

M. Kazakov, Рostgraduate, Altai State Technical University, Barnaul, mike.kazakov@gmail.com.

E. Cruchkova, PhD in Physics & Mathematics, Professor, State Technical University, Barnaul, kruchkova_elena@mail.ru.

Classification of complex images based on semantic graph

Image classification is a complex problem due to classes' natural variability, possibly visual intersections and due to lacking of sufficient information in visual representation only. Classification methods bases on representing images as a set of visual words and then transforming them into appearance frequency histogram has proved it's stability in last years. However, such approach is based on usage of a set of separated classifiers trained on some learning sets, and lacking any information about relations between them. Such information can be useful when image being analyzed contains some form of classes' intersection or instances of more than one class. In that case whole-image classification can become unreliable and some king of post-processing is required. Current work explores the possibility to use information contained in semantic graphs for described problem. With a set of words in natural language as vertices in semantic graphs it is possible to gather connected learning images with usage of search systems like Google. Edges in semantic graph can be used a metric base for verification and correction algorithms which runs after a separated whole-image classification process. It is possible in some cases to combine semantically-close classes when analyzing a complex image and when separated whole-image classification becomes unreliable. Such method is given, with used formulas and results in table form. Keywords: feature descriptors, image classification, semantic graph.

i Надоели баннеры? Вы всегда можете отключить рекламу.