№ 1 (43) 2013
А. С. Голубев, канд. техн. наук, доцент ФГУ ВПО «Владимирский государственный университет» М. Ю. Звягин, канд. физ.-мат. наук, доцент ФГУ ВПО «Владимирский государственный университет»
В. Г. Прокошев, докт. физ.-мат. наук, профессор, первый проректор ФГУ ВПО «Владимирский государственный университет» М. М. Рожков, канд. техн. наук, младший научный сотрудник ФГУ ВПО «Владимирский государственный университет»
Особенности распознавания методом ближайшего элемента в алгоритмах вычисления оценок1
Чрезвычайно важная задача классификации и распознавания образов пока не имеет всеобъемлющего решения. Благодаря развитию вычислительных технологий и математических методов распознавания в ряде конкретных приложений достигнуты впечатляющие результаты, сравнимые, а зачастую даже превосходящие возможности человека (например, автоматическая дактилоскопия). В то же время во многих областях успехи автоматического распознавания далеко не так очевидны.
Введение
Одной из проблемных точек является задача распознавания в условиях небольшого числа эталонов, в предельном случае — при наличии одного-един-ственного эталона [1, с. 161]. Действительно, при указанной постановке задачи невозможно применение статистических моделей, методов кластерного анализа, методов на основе обучения — т. е. наиболее эффективного инструментария теории распознавания образов. Поиск выхода из данной ситуации ведется по различным направлениям, среди которых особо отметим следующие:
• Использование характерных особенностей (строения) распознаваемых объектов, что позволяет провести декомпозицию образа объекта на множество подобразов, ранжировать их по априорной значимости, задействовать статистику на наборах подоб-разов.
1 Исследования проведены в рамках работ по госзаданию «Наука», регистрационный номер 8.3303.2011.
• Синтез дополнительных образов объектов на основе имеющихся эталонов (возможно, с учетом упомянутых особенностей строения объектов указанного типа).
• «Инверсия» исходных данных для принятия решения: вместо набора образов, анализируемых одним алгоритмом, применяется набор алгоритмов, анализирующих один и тот же образ. Подобная идея лежит в основе метода, который в теории распознавания образов известен под названием алгоритмов вычисления оценок, или сокращенно АВО [2, с. 67].
В своих исследованиях, связанных с разработкой некооперативной системы биометрической идентификации человека по изображению лица и напрямую касающихся условий единичного эталона [3, 4, 5, 6], авторские усилия сосредоточены именно на последнем направлении. Это было обусловлено, прежде всего, универсальностью данного подхода по отношению к распознаваемому объекту, а также рядом особенностей, которые будут описаны ниже.
№ 1 (43) 2013
§ §
0
1
I
и
i со
Е
I
SÍ §
12
i ¡
§
0 Ü
Si
S §
1
to о
S3
U
и
о
3
Опыт использования АВО
В настоящей статье рассмотрим одну из проблем, с которой пришлось столкнуться в ходе опытных экспериментов, которые проводились как в лабораторных условиях, так и на реальных объектах массового скопления людей: метро, вокзал, выставочный павильон, проходная университета.
Остановимся подробнее на одном из экспериментов, который фактически являлся первым испытанием системы в реальных условиях. Он проводился на станции метрополитена с интенсивным пассажиропотоком (станция непосредственно примыкает к железнодорожному вокзалу). В ходе испытаний, наряду с обычными пассажирами, через зоны контроля многократно проходили несколько человек, чьи фотографии были предварительно помещены в базу эталонных изображений системы распознавания. Для обеспечения объема, сопоставимого с реальными задачами, в базу также были введены изображения различных людей, взятых из сторонних источников.
Конфигурация смонтированной системы включала три параллельно работающих поста видеонаблюдения (цифровые видеокамеры высокого разрешения). Видеопотоки с них одновременно поступали на сервер обработки, где видеокадры последовательно проходили несколько этапов: выявление лиц, фильтрацию, нормализацию, идентификацию. Обобщенная схема данного процесса представлена на рис. 1.
Применительно к предмету данной статьи наибольший интерес представляет этап идентификации обнаруженного и нормализованного изображения лица относительно базы эталонных изображений. Он осуществлялся в соответствии с подробно рассмотренным далее подходом на основе вычисления оценок и голосования. Вычисление оценок выполнялось набором алгоритмов, которые базируются на различных принципах обработки цифровых изображений и формирования их признаковых представлений. Среди них:
• Текстурные карты Лавса [6]. Набор энергетических карт (интегральных изображений), получаемых при помощи 16 фильтрующих масок специального вида, которые позволяют анализировать характерные особенности входного изображения. Маски Лавса являются производными четырех типов векторов: L5 (level — уровень), E5 (edge — край), S5 (spot — пятно), R5 (ripple — рябь).
• Маски Собеля. Квадратные маски 3x3, которые в совокупности позволяют получить контурное представление изображения. Оно хорошо отражает характерные черты лица.
• Порядковые гистограммы. Построение признакового описания на основе статистических свойств изображения, вычисленных для каждого его сегмента. Позволяет анализировать текстурные (локальные) свойства изображения.
• Дискретное косинусное преобразование. Широко известное преобразование
Рис. 1. Схема функционирования системы распознавания
88 у
№ 1 (43) 2013
дискретного сигнала, позволяющее кодировать сигнал при помощи частотных коэффициентов разложения пространственных волн на множество гармоник. За счет отбрасывания последних (высокочастотных) коэффициентов можно значительно уменьшать размерность анализируемых признаков без существенной потери точности.
• Полиномы Лежандра. Использование полиномиальных базисных функций для вычисления моментов изображения, инвариантных к аффинным преобразованиям. Формирование признакового описания выполняется на основе набора моментов различного порядка.
Существенного положительного эффекта также удалось достигнуть благодаря технологии построения «подпространств атрибутов», подробно описанной ранее в [5], суть которой заключается в следующем.
Для заданных условий испытания (зоны контроля) фиксируется некоторый набор (пакет) деформаций изображений. В частности, применено Гауссово размытие различной интенсивности (величина размытия параметризуется) и выравнивание яркости путем нормализации гистограмм с различной детализацией (параметризуется число карманов гистограммы).
Пакет деформаций применяется как к эталонным изображениям, так и к тестовому снимку, поступающему на распознавание. Таким образом, для каждого объекта (лица) будет получен пакет изображений, включающий одно исходное изображение и несколько деформированных. Каждое изображение пакета подвергается процедуре извлечения признакового описания одним из указанных выше способов — в результате для каждого объекта получаем пакет, состоящий из векторов значений признаков (так называемых атрибутов).
Ключевая особенность технологии заключается в этапе сравнения пакетов атрибутов. Вычисление расстояния между образами производится при помощи специальной метрики, учитывающей пакет в совокупности, а не отдельные векторы. Для
этого каждому образу а ставится в соответствие подпространство, образуемое т векторами его пакета {а1,а2,...,ат}. Для данного подпространства методом Грама-Шмидта строится ортонормированный базис Р = {{ е2,...,вт }:
а2 - (а2,е^е1
1 И' 2 \\а> -^е^еЦ'
= аз -((аз,е1)е1 + (аэ,еЛе2 ) ' 3 ||аз -((аз,е1>е1 + (аз,еЛе2))
где (а,.— скалярное произведение векторов а1 и в..
Затем в качестве расстояния между произвольной парой образов а и Ь принимается величина:
б =
г(ЕаЬ)
г(Еа) • Г (Еь)'
где г(Еа), г(Еь) и г(ЕаЬ) — определители Грама системы векторов Еа, Еь и ЕаЬ = Еа и Еь, соответственно.
Таким образом, величина б характеризует расстояние между подпространствами атрибутов. Дополнительным преимуществом данного предложения является то, что при наличии нескольких эталонов (и/или тестов) для одного и того же объекта их можно использовать вместо пакета деформаций — суть алгоритма от этого не меняется.
Подчеркнем, что все упомянутые принципы носят универсальный характер, т. е. с равным успехом могут быть применены для распознавания изображений произвольных объектов.
Как и ожидалось, проведенные испытания позволили существенно доработать реализованные в системе технические решения и алгоритмы. Среди прочего, испытания поставили ряд новых задач, обусловленных особенностями полученных на практике входных данных, которые значительно отличаются от их аналогов, используемых
со §
§
о §
8
со
со
."и 1
89
а
№ 1 (43) 2013
в лабораторных условиях (каковыми, как правило, являются специализированные базы изображений лиц). Ярко выраженная неоднородность эталонной базы, а также несоответствие условий съемки эталонных и тестовых изображений приводят к эффекту деградации объема базы. Он проявляется в том, что при распознавании кадров из конкретной зоны контроля наиболее «близкими» всегда оказываются эталоны из одного небольшого сегмента базы, в то время как все остальные эталоны фактически оказываются проигнорированными и выпадают из процесса классификации. Как будет продемонстрировано ниже, распознавание в таких условиях методом АВО сопряжено с определенными трудностями.
Таким образом, необходимы механизмы: а) придания исходной эталонной базе ^ по возможности максимальной однородно-| сти (что отчасти решается при помощи тех-о нологии построения подпространств атри-| бутов) и б) нивелирования негативного влия-Ц ния небольшого объема эталонной базы | на корректность результатов метода АВО. * В итоге анализа данных, полученных в ходе | испытаний, авторами сформулирован ряд ¡1 предложений по совершенствованию мето-| дики распознавания, применимых в практика ческих приложениях.
! Формализация задачи
<3
| Классификация в задаче распознавания
'■§ объекта по единичному эталону может быть
| выполнена в рамках двух различных подходов.
ч Классический подход предполагает по-
<5 строение функции F : X ^ D, отображаю-
§ щей универсальное множество распозна-
| ваемых образов X в метрическое множест-
§ во признаков D и введении «порога» распо-
§ знавания eеD. Пусть У с X — множество
^ эталонных образов. Известно, что любой
£ паре эталонных образов соответствуют по-
| парно различные классы распознаваемых объектов (единственность эталонов). Рас-
сэ познаваемому образу (тесту) х е X ставит-
ся в соответствие эталонный образ (распознанный объект) у еУ, обладающий наименьшим расстоянием до х в метрике множества D. При этом расстояние должно быть меньше некоторого фиксированного порога е, иначе тест не считается распознанным. Необходимость введения порога обусловлена требованием выявления объектов, для которых эталонные образы отсутствуют (это требование отличает задачу распознавания от задачи классификации). Выбор значения е представляет основную трудность в рамках классического подхода, так как это значение может быть задано только эмпирически. Кроме того, заметим, что данный подход подразумевает жесткие требования к функции F в том смысле, что образам одного и того же объекта должны быть сопоставлены как можно более «близкие» элементы множества D, т. е. должна выполняться гипотеза компактности подмножеств образов распознаваемых объектов, отображенных на множество признаков.
Другой подход заключается в использовании принципа многофакторного принятия решения, что характерно для метода АВО. Применительно к задаче распознавания изображений по единичному эталону этот подход продемонстрирован в [3]. Его суть заключается в том, что вместо одной «универсальной» функции F предлагается использовать ансамбль функций {{ : X ^ D¡}, i = 1.....п. Таким образом, каждая функция f• задает отношение частичного порядка на множестве X, и для любого теста х е X можно выбрать п последовательностей
эталонных образов {.....у'т}, у'т еУ, / = 1,п,
каждая из которых состоит из т ближайших (в соответствующей метрике) к х эталонов. Решение об отнесении х к тому или иному классу производится на основании анализа этой выборки — например, путем простого голосования. Значение т не фиксируется — оно полностью определяется анализирующим решающим правилом и может варьироваться в пределах от 1 до |У|. Успех
№ 1 (43) 2013
метода основан на предположении о независимости вычисления результата каждой из функций ансамбля {{}.
Преимущество данного подхода заключается в том, что каждая отдельно взятая функция ансамбля может являться относительно слабым классификатором — т. е. не обеспечивать полностью разделение классов в соответствующем отображаемом пространстве признаков D¡. Кроме того, решающее правило, анализирующее выборку
{}'}, не обязательно нуждается в искусственно заданном пороге. Например, правило может принимать решение об отсутствии эталонного образа, если наилучшую оценку получили два или более эталона в выборке. В то же время, если решающее правило каким-либо образом основано на использовании порога, то его значение в значительно меньшей степени, по сравнению с классическим подходом, зависит от влияния внешних факторов. На практике это означает более простую адаптацию системы распознавания под конкретную задачу и заданные условия применения.
Проблема описанного похода классификации возникает в том случае, когда количество эталонных образов становится сравнимым с п (т. е. нельзя слишком сильно увеличить размер ансамбля, либо, что более существенно, нельзя распознавать небольшие множества объектов — как, например, при распознавании алфавитных символов).
В таких условиях элементы выборки {{ } }
с большой вероятностью окажутся согласованными, даже если необходимый эталон отсутствует в Y. Решающее правило в последнем случае будет практически всегда выдавать неверный результат. Это утверждение хорошо демонстрирует предельный случай, когда распознается один класс, т. е. множество Y состоит из единственного элемента у. Поскольку для любого теста все последовательности {у } будут состоять из повторений у, метод всегда приведет к одинаковому
результату — положительному — независи- |
мо от принадлежности теста к объекту. Ц
В канонической формулировке метода ^
АВО данная проблема исключается благо- ^ даря тому, что каждая из функций {{} может
однозначно определять принадлежность |
теста к каждому из распознаваемых клас- ^
сов. Однако для задачи единичного эталона ^
(на каждый класс) это фактически означа- ^
ет введение пороговых значений е, для всех ¡5
функций ансамбля. Очевидно, это сводит <8
на нет все преимущества многофакторного Й подхода по сравнению с классическим.
и
Множество квази-эталонов £
со
Практика применения реальных систем ^ распознавания дает основание сделать вывод о том, что при указанной схеме сравнения целесообразно использование специальных объектов (квази-эталонов), смысл и роль которых подробно объясняется далее. Природа таких объектов, как будет показано в следующем разделе, может быть различной, их же удачный выбор во многом предопределяет успех распознавания.
Итак, введем на множестве X подмножество квази-эталоных образов W, которое по построению должно обладать следующими свойствами. Во-первых, множество квазиэталонных классов С(Щ не должно пересекаться с множеством эталонных классов С(У):
С(V) п С(у) = 0. Во-вторых, \С(V)| >> \С(у)|.
Другими словами, W — это (достаточно большое) множество образов объектов, не являющихся распознаваемыми объектами.
Далее не будет решен вопрос, как можно получить множество W в практических задачах. Рассмотрим, как с помощью данной сущности решается обозначенная проблема построения решающего правила в АВО. Оговоримся, что существует несколько вариантов; продемонстрируем некоторые из них в порядке возрастания сложности.
Вариант 1. Для теста х е X в каждую из последовательностей {у.} , порождае-
№ 1 (43) 2013
§ £
0
1
I
и
i
со
SS %
Si §
л I
5
0
1
Si
S
is I
to о
5
а
U
Ü
о сэ
мую функцией f, включаются только те эталоны, расстояние до которых в метрике множества Dl меньше, чем расстояние до любого элемента множества W. Таким образом, квази-эталоны естественным образом задают пороговые значения е, для каждого x:
е, = mind: (x,w),
' weW ' V '
где d,(x, w) — расстояние между f(x) и f(w).
Смысл данной конструкции заключается в том, что пороговые значения не фиксируются искусственным образом, а получают интуитивно понятное обоснование. Немаловажно, что за счет модификации множества квази-эталонных образов W появляется возможность адаптировать пороговые значения под модель среды.
Вариант 1.1. Предыдущий способ можно сделать более гибким, взяв вместо минимального расстояния — среднее и добавив управляющий коэффициент а:
е, = а-avgd, (x,w), а e R+.
w eW
Вариант 2. Построим для каждого образа x e X (в том числе эталонного) и каждой функции f последовательность Wx, состоящую из элементов множества W, упорядоченных в порядке возрастания расстояния до x. В результате каждому образу
будет сопоставлен набор {W*.....WrX}. Назовем его квази-координатами x. Определим принадлежность теста x к классу эталона y путем сравнения их квази-коорди-нат. Здесь также возможно большое разнообразие вариантов. Например, оставим в каждой i-й квази-координате по одному элементу (первому). Получим два вектора:
{wf.....wxn} и {wy.....wyn}. Составим из них
бинарный вектор bxy = {b(xy} по следующему
правилу: bi равно 1, если wx = wy и 0 в противном случае. Оценкой эталона y для теста x будем считать сумму элементов вектора bxy. Метод можно обобщить, выбирая из каждой -й квази-координаты не по одному,
а по m элементов (1 < m < \W\) и вычисляя оценку как сумму элементов бинарной матрицы {bxy} .
L J mxn
Как показывают авторские исследования, подобные оценки позволяют с успехом решать проблему распознавания на небольшом множестве Y. Для иллюстрации этого утверждения приведем результаты простого эксперимента, проведенного при помощи алгоритма распознавания лиц людей [4]. Исходными данными послужили фотографии, заимствованные из базы Color FERET2, наборы «А» и «В». Для каждого человека в них имеется по одному изображению, таким образом, изображение из одного набора можно использовать как эталон, а из другого — как тест. Эксперимент заключался в следующем:
1. Из всех людей, представленных в базе, случайным образом выбиралось ограниченное множество «распознаваемых объектов» (30 элементов). Их изображения из набора «А» объявлялись эталонными образами.
2. Из оставшихся людей случайным образом выбиралось M человек (M = 100, 200, ..., 600), и их изображения из набора «А» объявлялись квази-эталонными образами.
3. Проводилось испытание на корректность классификации всех тестов распознаваемых объектов из набора «В». Правильным признавался результат корректного сопоставления теста с его эталоном.
4. Проводилось испытание на корректность распознавания тестов объектов, не представленных ни во множестве эталонов, ни во множестве квази-эталонов. Правильным признавался результат «объект отсутствует в базе».
Результаты эксперимента, усредненные по данным ста запусков, представлены в табл. 1. В обоих испытаниях оценка вычислялась на основании ансамбля из 5 функций f.....f5, а решающее правило строилось
по принципу голосования «3 и более голосов». После введения множества квази-эта-
URL: http://www.nist.gov/itl/iad/ig/colorferet.cfm.
92
2
№ 1 (43) 2013
Таблица 1
Результаты распознавания при использовании квази-эталонов
Мощность множества W 100 200 300 400 500 600
Без множества W ошибка I рода 9,20%
ошибка II рода 37,28%
С множеством W ошибка I рода 17,80% 13,87% 12,77% 13,23% 13,20% 13,67%
ошибка II рода 11,40% 7,16% 5,21% 3,86% 3,08% 2,84%
со
I
со
I §
о §
8
со
со
."и
1 со
лонов правило модифицировалось согласно изложенному выше варианту 1.
Прежде всего, авторов интересовал вопрос, насколько квази-эталоны повлияют на изменение ошибок первого и второго рода. Естественно, ожидалось существенное сокращение ошибки второго рода, но при этом, в связи со значительным ростом числа распознаваемых классов, имеется опасность возрастания ошибки первого рода. В итоге суммарный положительный эффект может оказаться незначительным. Однако, как видно из табл. 1, рост ошибки первого рода оказывается сравнительно небольшим (менее 5%), хотя число классов увеличилось с 30 до 630. При этом произошло сокращение ошибки второго рода более чем на порядок (с 37% до менее 3%).
Практическое применение
Вернемся к вопросу о том, каким образом можно получить множество № в практических задачах. Как было сказано, множество квази-эталонов — это образы классов, про которые известно как минимум то, что они не являются распознаваемыми классами. Очевидно, что многие задачи распознавания подразумевают «естественную» интерпретацию множества. Вернемся к популярной в настоящее время задаче распознавания человека по изображению лица. Как правило, она предполагает распознавание некоторой фиксированной целевой группы людей (разыскиваемых лиц, сотрудников конкретной организации) из нефиксированного множества людей, попадающих
в зону контроля. При этом в большинстве случаев достаточно легко сформировать дополнительную базу лиц, которая гарантированно не будет пересекаться с целевой базой. Источником для таких изображений могут послужить: открытые базы данных, размещенные в Интернете; снимки лиц другой целевой группы; изображения, полученные в людном месте, территориально удаленном от зоны контроля и т. д.
В то же время существуют задачи, в которых «естественная» интерпретация квазиэталонного множества либо неочевидна, либо технически сложно реализуема. Эти ситуации представляют наибольший интерес, поскольку предполагают искусственную генерацию квази-эталонов. Рассмотрим следующие варианты такой генерации:
1. Синтез образов на основе обобщенной параметрической модели распознаваемых объектов. Метод применим лишь для некоторых задач, когда все классы можно описать некоторой математической моделью с ограниченным числом параметров. Варьируя их значения, можно сгенерировать необходимое число объектов и затем использовать их образы в качестве квазиэталонов. Создать достаточно точную модель очевидно трудно, но в ряде областей технического зрения — например, в технологических процессах контроля качества — эта задача вполне решаема.
2. Случайная генерация. В этом случае синтезируются не сами элементы м е№, а их отображаемые образы (м) в каждом из множеств Dj. Поскольку каждый из образов, как правило, является вещественным
93
№ 1 (43) 2013
вектором, его компоненты можно задать случайным образом при помощи того или иного распределения. Ограничением данного метода является требование небольшой размерности D(, однако впоследствии это дает возможность применить оптимизационные методы для наилучшего разделения распознаваемых классов.
3. Синтез множества № (либо его отображений (№)) на основе множества эталонов. Фактически данный способ представляет собой применение некоторого параметрического оператора д(к,у) к эталонным образам множества Y. Вариация параметра X позволяет синтезировать несколько квази-эталонов из одного эталонного образа. Например, если Y — это цифровые изображения, то в качестве д можно рассматривать некоторую последователь-^ ность искажений изображения (линейные | или центрированные растяжения, удаление
0 или перестановка частей, введение шума | и проч.). Аналогичный оператор можно при-Ц менять не к самим образам у е Y, а к их ото-| бражениям fj (у).
со
3
1 Заключение
| Таким образом, реализация множества
■» квази-эталоннов осуществима практически
|с в любых задачах. Концептуально данный
| подход близок к идеям расширения эталон-
^ ного множества при помощи синтеза допол-
| нительных образов распознаваемых клас-
'■§ сов, что является попыткой снятия ограни-
| чения единственности эталона. В случае
^ с квази-эталонами это ограничение остает-
4 ся в силе, а в синтезе может вообще отсут-<5 ствовать необходимость за счет естествен-§ ной реализации. Как было показано, такое
множество позволяет кардинальным обра-
§ зом решить проблему ошибки второго ро-
§ да, оставаясь при этом в рамках концепции
^ алгоритмов вычисления оценок без исполь-
Е зования пороговых значений.
| Идея применения ансамблей «слабых классификаторов» для решения задачи
сэ распознавания очень перспективна, причем
не только в условиях единичного эталонного образа. Не случайно этот принцип заложен в основу многих алгоритмов, с успехом применяемых для решения смежных задач (например, обнаружения объекта на изображении). Авторы намерены продолжить исследования по нескольким направлениям с целью, во-первых, усовершенствовать методику учета квази-эталонных образов при вычислении оценок, во-вторых, задействовать как можно больше доступных для распознавания данных и, наконец, расширить набор базовых алгоритмов вычисления оценок.
Список литературы
1. Анисимов Б. В., Курганов В. Д., Злобин В. К. Распознавание и цифровая обработка изображений: учеб. пособие для студентов вузов. М.: Высш. шк., 1983.
2. Журавлев, Ю. И., Рязанов В. В., Сенько О. В. Распознавание. Математические методы. Программная система. Практические применения. М.: Фазис, 2005.
3. Рожков М. М, Прокошев В. Г., Шамин П. Ю. Проблема автоматического распознавания лиц с одним эталонным изображением // Научно-технические ведомости Санкт-Петербургского государственного политехнического университета. Серия «Информатика. Телекоммуникации. Управление». СПб., 2010. № 5.
4. Голубев А. С, Звягин М. Ю., Квасов Д. С., Ко-корин И. Г., Зиновьев И. И., Шамин П. Ю. Аппаратно-программный комплекс автоматической регистрации и биометрической идентификации людей // Материалы XVII Всероссийской научно-методической конференции «Телематика 2010». СПб., 2010.
5. Прокошев В. Г., Рожков М. М., Шамин П. Ю., Голубев А. С. Построение подпространств атрибутов на базе одного эталона для обеспечения устойчивости работы в перспективных системах автоматического распознавания лиц // Прикладная информатика. 2011. № 2 (32). С. 100-107.
6. Рожков М. М. Использование текстурных карт Лавса и дискретного косинусного преобразования в задаче распознавания лиц // Прикладная информатика. 2011. № 1 (31). С. 98-103.