V ОБРАБОТКА ИНФОРМАЦИИ И УПРАВЛЕНИЕ
УДК 004.932.2
М:10.15217/1ззп1684-8853.2016.2.11
АВТОМАТИЧЕСКОЕ АННОТИРОВАНИЕ ИЗОБРАЖЕНИЙ НА ОСНОВЕ ОДНОРОДНЫХ ТЕКСТОВО-ВИЗУАЛЬНЫХ ГРУПП
А. В. Проскурина, аспирант
М. Н. Фаворскаяа, доктор техн. наук, профессор
аСибирский государственный аэрокосмический университет им. академика М. Ф. Решетнёва,
Красноярск, РФ
Постановка проблемы: задача автоматического аннотирования изображений нетривиальна: часто обучающие наборы несбалансированы и содержат неполные аннотации, а между визуальными признаками и текстовым описанием изображения наблюдается семантический разрыв. Существующие методы решают эти проблемы, используя для аннотации нового изображения все обучающие изображения и ключевые слова, в том числе заведомо нерелевантные, что потенциально снижает точность и требует лишних вычислений. При этом используются визуальные признаки большой размерности, что также неэффективно в вычислительном плане. В связи с этим возникает необходимость разработки компактного визуального дескриптора и метода аннотирования тестового изображения с помощью небольшой группы наиболее информативных обучающих изображений. Результаты: разработана методика автоматического аннотирования изображений, основанная на поиске апостериорной вероятности ассоциации ключевого слова с визуальным дескриптором изображения. Получены шесть глобальных дескрипторов, объединенных в один дескриптор, размер которого уменьшен с помощью метода главных компонент до нескольких сотен элементов. Проведенные экспериментальные исследования показали улучшение точности аннотирования на 7 % и отклика на 1 %. Практическая значимость: разработанный компактный визуальный дескриптор и метод автоматического аннотирования изображений на основе формирования однородных текстово-визуальных групп может быть использован в информационно-поисковых системах в сети Интернет для повышения эффективности поиска изображений.
Ключевые слова — автоматическое аннотирование изображений, глобальный визуальный дескриптор, текстово-визуальные группы.
Введение
Поиск изображений в сети Интернет является распространенной функцией, реализация которой в значительной степени полагается на наличие текстового описания. Однако из-за стремительного роста количества изображений аннотирование вручную становится невозможным, а описания, полученные из текста, окружающего изображение на веб-странице, не всегда соответствуют действительности. В связи с этим становится актуальной разработка систем автоматического аннотирования изображений (ААИ), в которых на основе большого количества заранее проаннотированных изображений (обучающих изображений) определяется семантическая модель, автоматически присваивающая новому изображению текстовое описание в виде ключевых слов.
В последние десятилетия были предложены различные подходы к формированию ААИ, наиболее эффективный из которых основан на использовании метода ближайших соседей [1-4]. С его помощью для тестового изображения определяются визуально похожие обучающие изображения (ближайшие соседи), после чего аннотация генерируется путем перемещения ключевых слов от ближайших соседей к аннотируемому изображению. Однако при этом часто наблюдается проблема семантического разрыва — отсутствие
связи между визуальными признаками изображения и его интерпретацией человеком. Также на точность аннотирования сильно влияет несбалансированность обучающей выборки (огромная разница в частоте встречаемости разных ключевых слов) и наличие неполных аннотаций (изображения аннотированы не всеми релевантными ключевыми словами).
Для решения этих проблем был предложен [3] двухпроходный метод K ближайших соседей (2PKNN — 2-Pass K-Nearest Neighbor), в котором для каждого ключевого слова формировалась группа обучающих изображений, соответствующих этому ключевому слову. Из каждой группы выбиралось одинаковое количество наиболее похожих изображений, после чего они использовались для формирования аннотации. Данный метод демонстрирует существенное улучшение полноты аннотирования (изображение описывается с помощью большего количества разных релевантных ключевых слов), однако использование заведомо нерелевантных слов снижает общую точность аннотирования. Также в работе [3] предложен алгоритм вычисления весов, отражающих значимость разных визуальных дескрипторов при сравнении двух изображений. Этот алгоритм повышает эффективность работы метода 2PKNN, однако используемые глобальные признаки требуют значительных вычислительных затрат.
В связи с этим в данной статье предлагается расширенный метод 2PKNN, основанный на однородных текстово-визуальных группах (ОТВ-группах; 2PKNN-HTVG — 2PKNN based on Homogeneous Textual-Visual Groups), в котором точность и быстродействие метода 2PKNN улучшается с помощью предварительного разделения обучающих изображений на ОТВ-группы, лишь небольшое число которых используется для аннотирования тестового изображения. Также для описания изображения предложен компактный глобальный визуальный дескриптор, описывающий характеристики как сцены, так и объектов на изображении.
Математическая модель автоматического аннотирования изображений
Любой метод ААИ предполагает наличие обучающего набора TS, состоящего из изображений и соответствующих им текстовых описаний. Пусть J = {/1, ..., IM} — коллекция изображений, а K = {k1, ..., kN} — словарь, состоящий из N ключевых слов, тогда обучающий набор TS = {(I1, K1), ..., (IM, KM)}, где KM С K. Предположим, что обучающий набор разделен на несколько непересекающихся ОТВ-групп H = {H1, ..., HL}, а выбор ключевых слов в процессе аннотирования тестового изображения A зависит от ассоциации изображения с той или иной группой. Обозначим вероятность ассоциации изображения A с ОТВ-группой H как P(Ht |A). Так же как и в работе [3], введем условную вероятность P;(A | kn) оценки распределения визуального дескриптора изображения для ключевого слова kn внутри группы Hv В этом случае аннотирование изображения моделируется как проблема поиска апостериорной вероятности:
/|\ х- f / I \Pi (AI kn )p (kn )
p(1 a)= x p(H 1 a)H pA
hieh V V '
(1)
где Рк) — априорная вероятность ключевого слова кп внутри ОТВ-группы Н1. Поскольку вероятность Р(А) является константой, то для упрощения в дальнейшем она не будет учитываться.
Наилучшее ключевое слово для тестового изображения А определяется с помощью следующей формулы:
к = а^шахР{кп | А). (2)
п
В качестве аннотации используется О ключевых слов с наибольшей вероятностью Р(кп | А). Значение О выбирается равным среднему значению ключевых слов в описании обучающих изображений ОТВ-группы с наибольшим значением Р(Н1 | А). Таким образом, для аннотирования те-
стового изображения А необходимо оценить вероятности Р(Н1 |А), Рг(А | кп) и Р1(кп). Для этого предлагается метод ААИ, состоящий из двух частей: формирования из обучающего набора ОТВ-групп и использования метода 2PKNN внутри каждой группы.
Формирование однородных текстово-визуальных групп
На первом этапе алгоритма обучения системы ААИ необходимо разделить обучающий набор изображений на ОТВ-группы. Идея заключается в том, что обучающие изображения одной ОТВ-группы формируют контекст для аннотируемого изображения — если изображение отнесено к какой-либо группе, то оно аннотируется из ограниченного набора ключевых слов этой группы. Также предполагается, что тестовое изображение может принадлежать нескольким ОТВ-группам, но их количество ограничивается визуальным сходством. Это позволяет отсеять заведомо нерелевантные ключевые слова, не потеряв релевантных, а также снизить количество обучающих изображений, участвующих в аннотировании. Для этого каждая из ОТВ-групп должна соответствовать двум условиям:
— все изображения одной группы включают «характерные» ключевые слова (ключевые слова, встречающиеся в описании небольшого количества изображений);
— изображения одной группы имеют существенное визуальное сходство. Эта задача решается в два этапа:
1) проводится первичное разделение изображений на группы на основе совместной встречаемости ключевых слов в описаниях изображений;
2) изображения кластеризуются в автоматически определяемое количество ОТВ-групп с использованием текстово-визуальных дескрипторов.
Первичное разделение обучающих изображений
Для первичного разделения изображений необходимо построить взвешенный орграф в = (К, Е), где вершины являются ключевыми словами из словаря К. В этом случае дуга в1 , соединяет ключевые слова к1 и к, если одно или больше обучающих изображений одновременно проаннотировано ключевыми словами к1 и к.. Вес этой дуги wi , определяется по формуле
wi,j =
N (ki ,kj) N (к,) '
(3)
где Щ(кр к) — количество обучающих изображений, имеющих в описании ключевые слова к1 и к, одновременно; Щ(к) — количество обучающих
изображений, проаннотированных ключевым словом kv
Полученный орграф разделяется на группы с помощью быстрого алгоритма [5], показывающего хорошие результаты при небольших вычислительных затратах. Таким образом, ключевые слова, часто встречающиеся совместно или имеющие похожие семантические значения, с большой вероятностью попадут в одну группу. После этого каждое обучающее изображение присоединяется к той группе, ключевые слова которой чаще встречаются в текстовом описании изображения. Подобное разделение обучающей выборки позволяет с минимальными затратами получить инициализацию ОТВ-групп, а также показывает более стабильный результат кластеризации.
Кластеризация обучающих изображений
Для последующей кластеризации обучающей выборки в ОТВ-группы необходимо каждое изображение Im представить в виде тексто-во-визуального дескриптора TVm = (Tm, Vm), где Tm = {i1, ..., tN} — текстовый дескриптор, а Vm = = {vp ..., vZ} — глобальный визуальный дескриптор. Длина текстового дескриптора равна размеру словаря ключевых слов, а его элементы вычисляются с помощью статистической меры TF-IDF (Term Frequency — Inverse Document Frequency):
. in _
tn =
5(kn е Km )
F(n ) '
(4)
где 5(йл е Кт) обозначает наличие/отсутствие ключевого слова в описании изображения 1т (принимает значения 1 и 0 соответственно); ^(й^) — частота встречаемости ключевого слова в обучающей выборке.
Вычисление визуального дескриптора будет подробно рассмотрено ниже. При сравнении двух изображений 11 и I^ с помощью их текстово-визу-альных дескрипторов сходство вычисляется по формуле
Б ( ,ТУу ) = = аБТ (,Т) + (1 -а)ехр( (, V.)); (5)
Е т1п (> 4)
Dt (,t j) =
n=0
N N
x tn x tn
In=0 n=0
(6)
Dv ((,Vj) = j£ ( -vl)2
z=0
(7)
где Бт(-) — косинусная метрика для сравнения текстовых дескрипторов; Оу(-) — евклидово рас-
стояние между визуальными дескрипторами; а — эмпирический коэффициент, изменяющийся в пределах [0, 1].
Чем больше значение .D(TV;, TV^), тем более схожи изображения Ii и I.. Полученные дескрипторы кластеризуются с использованием модификации расширенной самоорганизующейся инкрементальной нейронной сети (ESOINN — Enhanced Self-Organizing Incremental Neural Network) [6], единственный слой которой постепенно подстраивается под структуру входных данных, определяя количество кластеров и их топологию. Модифицированный алгоритм ESOINN включает следующие шаги.
1. Структура нейронной сети инициализируется путем первичного разделения обучающей выборки. Для этого из каждой сформированной группы выбирается по два дескриптора, с помощью которых формируются узлы сети ri Е R. Узлы, принадлежащие одной группе, соединяются связями.
2. На вход сети подается новый текстово-визу-альный дескриптор TV.
3. Определяются два ближайших узла сети (победитель и второй победитель) с помощью формулы (5). Если расстояние между входным дескриптором и победителем или вторым победителем больше соответствующих порогов подобия, то входной дескриптор вставляется в сеть как первый узел нового класса, а алгоритм переходит к шагу 2 для получения нового дескриптора.
Поскольку распределение входных данных заранее неизвестно, то порог подобия st обновляется для каждого узла в отдельности по формуле
: min D (wi,wj),
¡еЩ
(8)
где Щ — набор узлов (соседей), соединенных с узлом Wi — вектор весов узла г1.
В случае если узел не имеет соседей, порог подобия вычисляется с помощью всех узлов сети:
в,- = max D ((,W;).
1 jeR\{i} 1 ''
(9)
4. «Возраст» (числовой коэффициент, при создании новой связи равный 0) всех связей победителя увеличивается на 1, после чего решается вопрос о необходимости создания новой связи между победителем и вторым победителем.
5. Обновляется суммарная плотность победителя. Плотность узла р вычисляется с помощью среднего расстояния С от узла до его соседей:
Рь • (10)
(1 + d,)
Если среднее расстояние от узла до его соседей большое, то количество узлов в этой области
небольшое и плотность будет низкой, и наоборот. В течение одной итерации вычисляется плотность только для победителя. Суммарная плотность узла определяется следующим образом:
ь =1ХХ л, (11)
где д — количество периодов, в которые плотность узла г1 больше 0; Q — количество прошедших периодов обучения (можно вычислить как Q = М/Х, где М — общее количество входных дескрипторов); X — число, обозначающее период обучения сети.
6. Счетчик количества побед узла-победителя гте1п увеличивается на 1, а векторы весов победителя и его узлов-соседей обновляются с помощью входного дескриптора следующим образом:
Д^^п = (ТУ - ™Ып); (12)
итьп
= Т^^--(ТУ - ^ )' ' е ^п. (13)
7. Удаляются все связи, «возраст» которых превышает заранее установленное значение agemax.
8. Если период обучения сети закончен (количество входных дескрипторов кратно периоду сети X), то существующие кластеры разбиваются на подклассы в целях обнаружения перекрывающихся областей, после чего из нейронной сети удаляются узлы, являющиеся шумами. Такими считаются узлы г, имеющие двух или меньше топологических соседей и удовлетворяющие условию следующего вида:
Ь < К (14)
где Ь0 о = {1, 2, 3} — эмпирические коэффициенты, используемые при удалении узлов с двумя топологическими соседями, одним соседом и не имеющих соседей соответственно.
9. Если процесс кластеризации закончен (на вход сети поданы все дескрипторы), то полученные узлы классифицируются по принадлежности к тому или иному кластеру с использованием понятия пути между двумя узлами (узлы г1 и г, связаны путем, если между ними существует непрерывная цепочка связей).
10. Если ESOINN продолжает работу, то переходим к шагу 2 для получения нового входного дескриптора.
После окончательного формирования структуры нейронной сети необходимо ассоциировать обучающие изображения с полученными кластерами, являющимися «скелетом» ОТВ-групп. Вначале для каждого изображения определяется ближайший узел сети с помощью только текстового дескриптора, после чего этот же процесс повторяется с использованием только визуального дескриптора. В случае когда изображение по текстовому и визуальному дескрипторам ассоциировано с разными кластерами, изображение считается шумовым и исключается из обучающей выборки. Это необходимый шаг, поскольку при выполнении алгоритма аннотирования ассоциация тестового изображения А происходит только при помощи визуальных дескрипторов. Пример одной из ОТВ-групп, сформированной посредством базы изображений IAPR-TC12 [7], представлен на рис. 1.
Процесс оценки вероятности Р(Н1 | А) из уравнения (1) включает следующие шаги.
1. Определяется расстояние <!в(Н1, А) между изображением А и ОТВ-группой Н1. Для этого с помощью уравнения (7) вычисляется расстояние между А и всеми узлами 1-го кластера ESOINN и выбирается наименьшее из них.
2. Вычисляется диаметр da(Hnn) ближайшей к изображению A ОТВ-группы Hbest как максимальное расстояние между любыми двумя обучающими изображениями группы.
3. Оцениваются условные вероятности P(Hl | A) с помощью формулы
P (Щ | A) =
exp(-ds(H, A )),
если ds(Hl, A)< da(Hnn ). (15)
0 иначе
4. Условные вероятности P(Hl |A) нормализуются таким образом, чтобы их сумма равнялась 1.
Следует отметить, что эффективность предложенного метода может быть повышена, если вместе с тестовым изображением будут предоставлены некоторые ключевые слова, полученные от пользователей. В этом случае расстояние между новым изображением и ОТВ-группой вычисляется с помощью текстово-визуального дескриптора и уравнения (5).
После разделения обучающего набора на ОТВ-группы каждая из них используется в качестве исходных данных для метода 2PKNN. Пусть J — набор обучающих изображений ОТВ-группы Hl, а Jn С J, п е {1, ..., N — набор, содержащий все изображения группы, имеющие в описании ключевое слово йп. Поскольку изображения набора Jn включают одно общее ключевое слово, будем называть такой набор семантической группой. Так как изображение обычно проаннотировано несколькими ключевыми словами, то оно может принадлежать нескольким семантическим группам. Следует отметить, что ОТВ-группы имеют ограниченный набор ключевых слов и, таким образом, некоторые семантические группы могут быть пустыми.
При аннотировании тестового изображения A из каждой семантической группы Jn с помощью уравнения (7) выбирается Y наиболее похожих изображений, формирующих набор JA п. Таким образом, каждый набор JA п содержит изображения, наиболее информативные при оценке вероятности принадлежности ключевого слова йп тестовому изображению A. В связи с этим в оценке вероятности Pl(A | ) участвуют только изображения из набора JA п:
Р1 (А \)= Е ехР(-Бу (А,Ц))• (16)
11 е^А,п
Полученные условные вероятности нормализуются для того, чтобы их сумма равнялась 1. Поскольку для оценки вероятности каждого ключевого слова используется одинаковое количество изображений, то априорная вероятность Pl(kn) в уравнении (1) одинакова для всех ключевых слов:
Pl (К ) =
1
N (Hi)'
(17)
где N(H) — количество уникальных ключевых слов в текстовом описании изображений ОТВ-группы Hl.
Вычисление глобального визуального дескриптора
В эффективности работы предложенного метода ААИ большое значение имеет точность представления изображений в виде визуальных дескрипторов. Наиболее успешные подходы, предложенные для решения этой проблемы, включают три шага: извлечение из изображений локальных признаков (таких как SIFT [8], SURF [9] и т. д.); формирование словаря визуальных слов; кодирование локальных признаков для формирования глобального дескриптора (например, методами SC [10], LLC [11], VLAD [12]). Рассмотрим их подробнее.
1. На первом этапе изображения описываются с помощью набора локальных признаков X = {x1, ..., xs}, где xi е RD. В работе [13] для классификации изображений был предложен метод быстрого вычисления локальных признаков FDG-SUF, состоящий из двух этапов: вычисления матрицы частей локальных дескрипторов DS и построения с ее помощью набора локальных дескрипторов. На первом этапе все изображение разделяется сеткой на ячейки размером 5x5 пикселов. После этого в каждой из ячеек вычисляются части дескриптора G-SURF [14], которые сохраняются в матрицу DS. На втором этапе по матрице DS перемещается скользящее окно размером 4x4 ячейки. Каждый локальный дескриптор представляет собой объединение частей дескриптора, попавших в скользящее окно. Таким образом, изменяя шаг смещения скользящего окна, можно существенно увеличить количество локальных дескрипторов, извлеченных из изображения, без значительных вычислительных затрат.
2. На следующем шаге формируется словарь визуальных слов VW = {vw1, ..., vws}, где vwi е RD. Для этого с помощью алгоритма ^-средних выбранные случайным образом локальные признаки кластеризуются. Количество кластеров обычно устанавливается в пределах от 16 до 256. Центр масс кластера выбирается в качестве визуального слова vwi.
3. По сформированному словарю локальные признаки кодируются в один глобальный вектор C е RSxD с помощью алгоритма VLAD (Vector of Locally Aggregated Descriptors) [12]. Суть метода заключается в том, что для каждого локального признака xi находится ближайшее визуальное слово NN(xi). После этого для каждого визуального слова накапливается разница c между ним и ассоциированными с ним локальными
признаками. В отличие от оригинального алгоритма, в котором для вычисления разницы используется выражение ЩЩ^) - xi, в этой работе вклад каждого локального вектора уравнивается:
ci =
:NN(
z
VWi - X;
(18)
x; )=vw: vwi xi
После вычислений всех c они нормализуются с помощью L2-нормы и объединяются, формируя глобальный дескриптор размером SxD.
Полученный дескриптор показывает хорошие результаты при классификации изображений по типу сцены. Для вычисления дескриптора, описывающего объекты на изображении, используется такой же алгоритм, однако на первом этапе локальные признаки извлекаются только в особых точках, полученных с помощью матриц Гессе [14].
В работе [15] было показано, что некоторые локальные цветовые дескрипторы, имеющие высокую инвариантность к изменениям интенсивности цветов, могут повысить точность классификации изображений. В этой работе в качестве локальных дескрипторов используются G-SURF, OppG-SURF и RGBG-SURF, вычисленные на изображениях в оттенках серого, цветовых пространствах Opponent и нормализованном RGB соответственно.
Таким образом, каждое изображение описывается с помощью шести глобальных визуальных дескрипторов. Для снижения дальнейших вычислительных затрат все дескрипторы объединяются в один, после чего его размерность сокращается по методу главных компонент (PCA) [16].
Результаты экспериментальных исследований
Для экспериментов использовалась база изображений IAPR TC-12 [7], содержащая 19 627 изображений размером 480x360 пикселов, каждое из которых описано несколькими предложениями. В работе [1] для базы был предложен словарь из 291 ключевого слова, состоящий из наиболее часто встречающихся существительных. Для обучения используется 17 665 изображений, остальные 1962 изображения применяются для тестирования.
С помощью этих изображений проводилось сравнение предложенного метода 2PKNN-HTVG с существующими методами ААИ. Оценка эффективности заключалась в вычислении четырех параметров: средней точности (precision), среднего отклика (recall), F1-меры и количества ключевых слов с положительным откликом (N+):
N CA(к( )
1 "
precision = — X
N(=1 AA(kn )'
(19)
1 N
recall = — X
ЛГ i—l
F1 = 2
_ CA (kn ) N(=1 GT (kn )'
precision x recall precision + recall
(21)
где АА(кп) — количество изображений, автоматически аннотированных ключевым словом кп; СА(кп) — количество изображений, правильно аннотированных ключевым словом кп; вТ(к^) — количество изображений, содержащих в тестовой аннотации ключевое слово кп.
Все вычисления повторялись 5 раз, после чего выбирался лучший результат. Для работы метода 2PKNN-HTVG на разных этапах были установлены следующие параметры.
1. Для формирования каждого словаря визуальных слов из обучающего набора случайным образом выбиралось 200 000 локальных признаков, которые с помощью алгоритма к-средних кластеризовались в 128 кластеров (визуальных слов).
2. Объединенный глобальный дескриптор уменьшался с помощью метода РСА до 256 элементов.
3. При формировании ОТВ-групп текстовый дескриптор изображения имел большее значение (а = 0,75), а параметры сети ESOINN устанавливались следующими: X = 50; agemax = 25; Ь1 = 0,0; Ь2 = 0,1; Ьз = 1,0.
4. Количество изображений У, выбираемых из семантических групп в методе 2PKNN, равнялось двум.
Примеры аннотирования некоторых изображений показаны на рис. 2, а-в.
В таблице приведены полученные числовые оценки эффективности предложенного метода 2PKNN-HTVG. Оценки для существующих методов ААИ взяты из соответствующих статей.
■ Оценка эффективности разных методов ААИ
Метод Точность, % Отклик, % F1-мера N+
MBRM [17] 24 23 23,5 223
JEC [1] 28 29 28,5 250
GS [18] 32 29 30,4 252
TagProp(ML) [2] 48 25 32,9 227
TagProp(aML) [2] 46 35 39,8 266
FastTag [4] 47 26 33,5 280
2PKNN [3] 49 32 38,7 274
2PKNN-ML [3] 54 37 43,9 278
2PKNN-HTVG 61 38 46,8 271
16 Л
ИНФОРМАЦИОННО-УПРАВЛЯЮЩИЕ СИСТЕМЫ Ж № 2, 2016
а)
б)
в)
bush, front, rock, sign, building, night, reflection, boat, building, city, cloud, board, car, fence, grey, wood river, tree, water sky, skyline people, racetrack, racing,
spectator
bush, sign, rock, wood, building, night, river, tree, boat, building, city, cloud, board, car, fence, people, front reflection sky racetrack, racing, spectator
■ Рис. 2. Примеры изображений из базы IAPR-TC12: а — исходные изображения; б — достоверные аннотации изображений; в — аннотации, полученные с помощью метода 2PKNN-HTVG
Анализ результатов, приведенных в таблице, показывает, что предложенный метод эффективнее оригинального алгоритма 2PKNN по точности аннотирования на 7 %. При этом отклик увеличился на 1 % за счет более точного подбора количества ключевых слов в описании аннотируемых изображений.
Заключение
В статье представлен метод автоматического аннотирования изображений, основанный на разделении обучающего набора изображений на ОТВ-группы и аннотировании нового изображения с помощью обучающих изображений небольшого
1. Makadia A., Pavlovic V., Kumar S. A New Baseline for Image Annotation // Proc. 10th European Conf. on Computer Vision, Marseille, France, 2008. Vol. 5304. P. 316-329.
2. Guillaumin M., Mensink T., Verbeek J., Schmid C. TagProp: Discriminative Metric Learning in Nearest Neighbor Models for Image Auto-Annotation // Proc. IEEE 12th Intern. Conf. on Computer Vision, Kyoto, Japan, 2009. P. 309-316.
3. Verma Y., Jawahar C. V. Image Annotation Using Metric Learning in Semantic Neighbourhoods // Proc. 12th European Conf. on Computer Vision, Florence, Italy, 2012. Vol. 7574. P. 836-849.
4. Chen M., Zheng A., Weinberger K. Q. Fast Image Tagging // Proc. 30th Intern. Conf. on Machine Learning, Atlanta, USA, 2013. P. 1274-1282.
5. Blondel V. D., Guillaume J. L., Lambiotte R., Lefebvre E. Fast Unfolding of Communities in Large Networks // Journal of Statistical Mechanics: Theory and Experiment. 2008. Vol. 2008. P10008.
количества визуально похожих ОТВ-групп. Это позволяет при аннотировании сузить поиск наиболее информативных обучающих изображений и тем самым повысить быстродействие и точность аннотирования. Также представлен алгоритм вычисления компактного глобального визуального дескриптора, описывающего как сцену, так и объекты на изображении. Проведенные экспериментальные исследования показали, что использование предложенного метода повышает точность аннотирования на 7 %, а более точный подбор количества ключевых слов в описании увеличивает отклик на 1 %. Следует отметить, что качество аннотирования может быть повышено с помощью предоставленных пользователем неполных аннотаций.
6. Shen F., Ogura T., Hasegawa O. An Enhanced Self-Organizing Incremental Neural Network for Online Unsupervised Learning // Neural Networks. 2007. Vol. 20(8). P. 893-903.
7. IAPR TC-12 Benchmark. http://www-i6.informatik. rwth-aachen.de/imageclef/resources/iaprtc12.tgz (дата обращения: 22.02.2016).
8. Lowe D. G. Distinctive Image Features from Scale-Invariant Keypoints // Intern. Journal of Computer Vision. 2004. Vol. 60(2). P. 91-110.
9. Bay H., Ess A., Tuytelaars T., Gool L. V. Speeded-Up Robust Features (SURF) // Computer Vision and Image Understanding. 2008. Vol. 110(3). P. 346-359.
10. Yang J., Yu K., Gong Y., Huang T. Linear Spatial Pyramid Matching Using Sparse Coding for Image Classification // Proc. IEEE Conf. on Computer Vision and Pattern Recognition, Miami, USA, 2009. P. 1794-1801.
11. Wang J., et al. Locality-Constrained Linear Coding for Image Classification/ J. Wang, J. Yang, K. Yu, F. Lv, T. Huang, Y. Gong // Proc. IEEE Conf. on Computer Vision and Pattern Recognition, San Francisco, USA, 2010. P. 3360-3367.
12. Jegou H., Douze M., Schmid C., Perez P. Aggregating Local Descriptors into a Compact Image Representation // Proc. IEEE Conf. on Computer Vision and Pattern Recognition, San Francisco, USA, 2010. P. 3304-3311.
13. Проскурин А. В. Быстрый локальный дескриптор для категоризации изображений по типу сцены // Решетневские чтения: материалы XIX Междунар. науч.-практ. конф., Красноярск, 10-14 ноября 2015 г. Красноярск, 2015. Т. 2. С. 243-245.
14. Alcantarilla P. F., Bergasa L. M., Davison A. J. Gauge-SURF Descriptors // Image and Vision Computing. 2013. Vol. 31(1). P. 103-116.
15. Favorskaya M., Proskurin A. Image Categorization Using Color G-SURF Invariant to Light Intensity // Procedia Computer Science. 2015. Vol. 60. P. 681-690.
16. Айвазян С. А., Бухштабер В. М., Енюков И. С., Ме-шалкин Л. Д. Прикладная статистика. Классификация и снижение размерности. — М.: Финансы и статистика, 1989. — 607 с.
17. Feng S., Manmatha R., Lavrenko V. Multiple Bernoulli Relevance Models for Image and Video Annotation // Proc. IEEE Computer Society Conf. on Computer Vision and Pattern Recognition, Washington, USA, 2004. Vol. 2. P. 1002-1009.
18. Zhang S., Huang J., Li H., Metaxas D. N. Automatic Image Annotation and Retrieval Using Group Spar-sity // IEEE Transactions on Systems, Man, and Cybernetics. Part B: Cybernetics. 2012. Vol. 42(3). P. 838-849.
UDC 004.932.2
doi:10.15217/issn1684-8853.2016.2.11
Automatic Image Annotation Based on Homogeneous Textual-Visual Groups
Proskurin A. V.a, Post-Graduate Student, [email protected] Favorskaya M. N.a, Dr. Sc., Tech., Professor, [email protected]
aSiberian State Aerospace University named after academician M. F. Reshetnev, 31, Krasnoyarsky Rabochy St., 660037, Krasnoyarsk, Russian Federation
Purpose: The problem of automatic image annotation is not trivial. The training images often contain unbalanced and incomplete annotations, leading to a semantic gap between the visual features and textual description of an image. The existing methods include computationally complex algorithms which optimize the visual features and annotate a new image using all the training images and keywords, potentially reducing the accuracy. A compact visual descriptor should be developed, along with a method for choosing a group of the most informative training images for each test image. Results: A methodology for automatic image annotation is formulated, based on searching for a posteriori probability keyword association with a visual image descriptor. Six global descriptors combined in a single descriptor were obtained. The size of this single descriptor was reduced down to several hundred elements using principal component analysis. The experimental results showed an improvement of the annotation precision by 7% and a recall by 1%. Practical relevance: The compact handle visual method and automatic annotation of images based on the formation of homogeneous textual-visual groups can be used in Internet retrieval systems to improve the image search quality.
Keywords — Automatic Image Annotation, Global Visual Descriptor, Textual-Visual Groups.
References
1. Makadia A., Pavlovic V., Kumar S. A New Baseline for Image Annotation. Proc. 10th European Conf. on Computer Vision, Marseille, France, 2008, vol. 5304, pp. 316-329.
2. Guillaumin M., Mensink T., Verbeek J., Schmid C. TagProp: Discriminative Metric Learning in Nearest Neighbor Models for Image Auto-Annotation. Proc. IEEE 12th Intern. Conf. on Computer Vision, Kyoto, Japan, 2009, pp. 309-316.
3. Verma Y., Jawahar C. V. Image Annotation Using Metric Learning in Semantic Neighbourhoods. Proc. 12th European Conf. on ComputerVision, Florence, Italy, 2012, vol. 7574, pp. 836-849.
4. Chen M., Zheng A., Weinberger K. Q. Fast Image Tagging. Proc. 30th Intern. Conf. on Machine Learning, Atlanta, USA, 2013, pp. 1274-1282.
5. Blondel V. D., Guillaume J. L., Lambiotte R., Lefebvre E. Fast Unfolding of Communities in Large Networks. Journal of Statistical Mechanics: Theory and Experiment, 2008, vol. 2008, P10008.
6. Shen F., Ogura T., Hasegawa O. An Enhanced Self-Organizing Incremental Neural Network for Online Unsupervised Learning. Neural Networks, 2007, vol. 20(8), pp. 893-903.
7. IAPR TC-12 Benchmark. Available at: http://www-i6.infor-matik.rwth-aachen.de/imageclef/resources/iaprtc12.tgz (accessed 22 February 2016).
8. Lowe D. G. Distinctive Image Features from Scale-Invariant Keypoints. Intern. Journal of Computer Vision, 2004, vol. 60(2), pp. 91-110.
9. Bay H., Ess A., Tuytelaars T., Gool L. V. Speeded-Up Robust Features (SURF). Computer Vision and Image Understanding, 2008, vol. 110(3), pp. 346-359.
10. Yang J., Yu K., Gong Y., Huang T. Linear Spatial Pyramid Matching Using Sparse Coding for Image Classification. Proc. IEEE Conf. on Computer Vision and Pattern Recognition, Miami, USA, 2009, pp. 1794-1801.
11. Wang J., Yang J., Yu K., Lv F., Huang T., Gong Y. Locality-Constrained Linear Coding for Image Classification. Proc. IEEE Conf. on Computer Vision and Pattern Recognition, San Francisco, USA, 2010, pp. 3360-3367.
12. Jegou H., Douze M., Schmid C., Perez P. Aggregating Local Descriptors into a Compact Image Representation. Proc. IEEE Conf. on Computer Vision and Pattern Recognition, San Francisco, USA, 2010, pp. 3304-3311.
13. Proskurin A. V. Fast Local Descriptor for Scene Image Categorization. Materialy XIX Mezhdunarodnoi nauchno-prakticheskoi konferentsii "Reshetnevskie chteniia" [Proc. XIX Intern. Scientific Conf. "Reshetnev Readings"]. Krasnoyarsk, 2015, vol. 2, pp. 243-245 (In Russian).
14. Alcantarilla P. F., Bergasa L. M., Davison A. J. Gauge-SURF Descriptors. Image and Vision Computing, 2013, vol. 31(1), pp. 103-116.
15. Favorskaya M., Proskurin A. Image Categorization Using Color G-SURF Invariant to Light Intensity. Procedia Computer Science, 2015, vol. 60, pp. 681-690.
16. Aivazian S. A., Bukhshtaber V. M., Eniukov I. S., Me-shalkin L. D. Prikladnaia statistika. Klassifikatsiia i snizhenie razmernosti [Applied Statistics. Classification and Reduction of Dimension]. Moscow, Finansy i statistika Publ., 1989. 607 p. (In Russian).
17. Feng S., Manmatha R., Lavrenko V. Multiple Bernoulli Relevance Models for Image and Video Annotation. Proc. IEEE Computer Society Conf. on Computer Vision and Pattern Recognition, Washington, USA, 2004, vol. 2, pp. 1002-1009.
18. Zhang S., Huang J., Li H., Metaxas D. N. Automatic Image Annotation and Retrieval Using Group Sparsity. IEEE Transactions on Systems, Man, and Cybernetics. Part B: Cybernetics, 2012, vol. 42(3), pp. 838-849.
18 У ИHФOPMАЦИOHHO-УПPАBЛЯЮЩИE ™CTEMbl
"7 № 2, 201Б