Научная статья на тему 'Совместное использование предварительного обучения и дескрипторов в системе распознавания образов'

Совместное использование предварительного обучения и дескрипторов в системе распознавания образов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
223
35
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ ОБРАЗОВ / PATTERN RECOGNITION / РАСПОЗНАВАНИЕ ЛИЦ / FACE RECOGNITION / ДЕСКРИПТОРЫ / DESCRIPTORS / КОРРЕКЦИЯ ОРТОГОНАЛЬНЫМ К ШУМУ ПРОЕЦИРОВАНИЕМ / CORRECTION BY NOISE ORTHOGONAL PROJECTION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Семин Л.А., Звягин М.Ю., Голубев А.С.

В работе обсуждается возможность улучшения надежности алгоритма распознавания, основанного на двоичных дескрипторах, при помощи оригинальной процедуры предварительного обучения, названной «коррекция ортогональным к шуму проецированием». Данный метод за счет построения специального подпространства признакового описания образов приводит к существенному сокращению внутриклассовых расстояний, но практически не изменяет межклассовые. Таким образом, вероятность корректного разделения классов значительно возрастает.В статье приводится математическая формализация метода, а также результаты экспериментальной реализации на примере алгоритма распознавания лиц.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Семин Л.А., Звягин М.Ю., Голубев А.С.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Using prior training in pattern recognition system based on descriptors

In the publication we discuss the enhancements of image recognition algorithms in two directions. First, we define the binary descriptors of images as a second-lever features for image recognition algorithm. They are constructed by a set of feature extraction functions together with an auxiliary set of «quasi-etalon» image samples. Second, we use a novel prior-learning procedure named «Correction by Noise Orthogonal Projection». By means of building special subspace of image features this method leads to considerable decrease of intra-class distance while inter-class distance is practically unchanged. Thus the probability of valid class partitioning is highly increased.The subspace is built in two steps: 1) localize a feature space partition which contains the majority of intra-class differences; 2) construct an orthogonal complement for the partition. This complement is a target («noise») subspace. To enhance recognition, an input feature descriptor should be projected to the subspace to reduce noise components.The article provides the method’s mathematical formalization and experimental implementation. The implementation is built upon a custom facial recognition system. We compare results of recognition for several image sets, including well-known open face databases along with our own databases captured from security video cameras located at places with high rate of people flow.

Текст научной работы на тему «Совместное использование предварительного обучения и дескрипторов в системе распознавания образов»

5 (53) 2014

Л. А. Семин, аспирант кафедры физики и прикладной математики Владимирского государственного университета, semin.lev@gmail.com М. Ю. Звягин, канд. физ.-мат. наук, доцент кафедры функционального анализа и его приложений

Владимирского государственного университета, muz1953@yandex.ru, А. С. Голубев, канд. техн. наук, доцент кафедры физики и прикладной математики Владимирского государственного университета, andrey.golubev@vlsu.ru,

совместное использование предварительного обучения и дескрипторов в системе распознавания образов1

В работе обсуждается возможность улучшения надежности алгоритма распознавания, основанного на двоичных дескрипторах, при помощи оригинальной процедуры предварительного обучения, названной «коррекция ортогональным к шуму проецированием». Данный метод за счет построения специального подпространства признакового описания образов приводит к существенному сокращению внутриклассовых расстояний, но практически не изменяет межклассовые. Таким образом, вероятность корректного разделения классов значительно возрастает.

В статье приводится математическая формализация метода, а также результаты экспериментальной реализации на примере алгоритма распознавания лиц.

Ключевые слова: распознавание образов, распознавание лиц, дескрипторы, коррекция ортогональным к шуму проецированием.

введение

Исследования авторов статьи по распознаванию образов включали в себя развитие двух различных подходов: использование так называемых «дескрипторов» и использование специализированного предварительного обучения. В целом оба направления являются совершенствованием идей, изложенных в [1], и предназначены для дополнения стандартных алгоритмов. В данной статье будет показан объединенный вариант методики повышения качества распознавания, обладающий преимуществами как первого, так и второго подхода.

1 Исследования проведены в рамках работ по государственному заданию Минобрнауки России, код проекта 2868.

Суть использования дескрипторов [3] заключается в построении для каждой распознаваемой пары образов дескриптора фиксированной длины, компонуемого из результатов взаимодействия данной пары с набором так называемых исходных элементов. Каждый результат по сути представляет собой ответ на вопрос «Являются ли оба элемента пары объектами одного класса?». Таким образом, дескриптор можно представить как последовательность нулей и единиц заданной длины. Преобразуя ее некоторой булевой функцией, определяем финальное мнение системы относительно рассматриваемой пары. Основные преимущества при использовании дескрипторов заключаются, во-первых, в привлечении квазиэталонов (это понятие подробно рассмотрено в [1]) в виде составляющих исходных элементов, во-вторых, в гибкости

№ 5 (53) 2014

настройки за счет выбора решающей булевой функции.

В качестве способа обучения применен разработанный авторами подход, названный «коррекция ортогональным к шуму проецированием». Результат улучшения качества распознавания достигается за счет построения специального подпространства признакового описания образов. Оно строится в два этапа: во-первых, выделяется подпространство признакового пространства, в котором локализована основная часть внутриклассовых различий; во-вторых, строится «специальное подпространство», являющееся ортогональным дополнением к подпространству, выделенному на предыдущем этапе. Вектор признакового описания проецируется на него, т. е. строится проекция. В результате по построению внутриклассовые расстояния между такими проекциями существенно сокращаются. Установлено, и это является ключевым наблюдением, что данное преобразование практически не изменяет межклассовые расстояния. Таким образом, вероятность корректного разделения классов значительно возрастает.

Предлагаемый метод является дополнением к существующим алгоритмам распознавания, поэтому приведем основные понятия, необходимые для описания базового алгоритма и эксперимента. Здесь, как и ранее в [1], в качестве демонстрации будет рассмотрен случай распознавания изображений, в частности фотографий лиц людей. Стоит отметить, что данный подход может быть использован и с другими алгоритмами распознавания.

Терминология

Методика (М) формирования признакового описания — комплексное понятие, включающее в себя последовательность преобразований исходного изображения, которая заканчивается построением некоторого линейного объекта (чаще всего вектора), являющегося точкой метрического простран-

ства. Таким образом, все изображения, обрабатываемые методикой М, могут сравниваться по некоторой метрике.

Исходный элемент (ИЭ) — пара элементов, состоящая из изображения и методики М. Изображение в данной паре является квазиэталоном (это понятие подробно рассмотрено в [1]).

Эталон (Э) — изображение конкретного, заранее известного объекта. В зависимости от типа решаемой задачи эталоны могут храниться в предварительно собранной базе целевых объектов.

Тест (Т) — изображение распознаваемого объекта, для которого требуется найти соответствующий эталон.

Тестовая пара (ТП) — упорядоченная пара изображений, одно из которых является эталоном, другое — тестом. Согласно определению квазиэталонов тестовая пара не может содержать изображения, используемые в исходных элементах. Если тест и эталон являются изображениями одного и того же объекта, то тестовая пара маркируется как «своя», если разных — как «чужая».

Базовый алгоритм распознавания

Базовый алгоритм, на основе которого мы продемонстрируем упомянутые выше методы повышения качества распознавания, основан на классическом подходе извлечения признаковых описаний объектов с последующим их сравнением. Для теста и всех эталонов однотипным образом строятся вектора признаковых описаний. Эти вектора метрически сопоставляются в признаковом пространстве с целью определения ближайшего к тесту эталона — так, в частности, решается задача идентификации объекта, изображенного на тестовом изображении.

Рассмотрим более подробно этапы данного алгоритма.

Нормализация изображений. Входное растровое изображение преобразуется в полутоновое представление. Затем оно

No. 5 (53) 2014

подвергается позиционированию (сдвигу/ повороту) таким образом, чтобы изображенный объект располагался как можно более унифицированно (единообразно). Для случая изображений лиц людей это достигалось смещением трех опорных точек (зрачки глаз и кончик носа) в определенные позиции относительно центра изображения с последующей обрезкой кадра с заданными отступами (от левого глаза — влево, от правого глаза — вправо, от носа — вниз, от линии зрачков — вверх). В заключение изображение масштабируется до фиксированного размера (256 х256 пикселов).

Построение признаковых описаний. Вычисление признаков проводилось в три этапа:

1) построение растровой карты;

2) переход к частотному представлению;

3) формирование вектора признаков.

В качестве растровой карты использовалось либо само нормализованное изображение, либо результаты его обработки различными фильтрами, например масками Лавса или Собеля. Переход к частотному представлению производился с помощью двумерного дискретного косинусного преобразования растровой карты.

Формирование вектора признаков выполнялось путем диагонального обхода пикселов частотного портрета растровой карты начиная с левого верхнего угла в порядке, проиллюстрированном на рис. 1, с выборкой заданного количества первых элементов и исключением нулевого (углового) элемента.

Пропуск нулевого элемента соответствует исключению из рассмотрения средней яркости изображения (а это помеховый фактор — тест и эталон могут иметь разную среднюю яркость, если сняты в разных условиях освещения). Ограничение количества выбираемых элементов позволяет не учитывать высокие частоты. Для реальных (не высококачественных студийных) фотоизображений они имеют крайне низкое соотношение сигнал-шум, и в большинстве случаев

X У У У X X X

у '4 ж У X X X X

л У X X X X X

у X X X X X X

У X X X X X X X

X X X X X X X X

X X X X X X X X

X X X X X X X X

Рис. 1. Порядок выборки элементов для вектора признаков

их использование негативно сказывается на надежности распознавания.

Сравнение и поиск ближайшего элемента. Как было указано, использован метрический подход для определения степени близости признаковых описаний. В качестве метрики была выбрана величина синуса угла между векторами признаковых описаний изображений. При определении того, какому из эталонных лиц соответствует тестовое изображение лица, выбирается эталон, которому соответствует наименьшее значение синуса угла (а значит, и меньшее значение самого угла) между вектором его признакового описания и вектором признакового описания тестового изображения.

Результаты базового алгоритма. Следует заметить, что базовый алгоритм распознавания изображений лиц, построенный в соответствии с описанным подходом, в зависимости от выбора растровой карты и размерности вектора признакового описания показывает результаты, сопоставимые с общедоступными алгоритмами, реализованными в открытых библиотеках, например в популярной библиотеке OpenCV.

В табл. 1 приведены сравнительные результаты, полученные для наборов изображений из баз ColorFERET [4] и PIE [5]. Здесь

№ 5 (53) 2014

использованы следующие обозначения алгоритмов:

• Eigen Face — алгоритм «собственные лица» из библиотеки OpenCV (функция cv::createEigenFaceRecognizer). Данный алгоритм основан на методе главных компонент и является одним из самых простых алгоритмов распознавания лиц;

• Fisher Face — алгоритм «лица Фишера» из библиотеки OpenCV (функция cv:: createFisherFaceRecognizer). В основе данного алгоритма лежит линейный дискрими-нантный анализ, предложенный Р. Фишером (так называемый линейный дискриминант Фишера);

• LBPH (Local Binary Pattern Histograms) — алгоритм «гистограммы локальных двоичных шаблонов» из библиотеки OpenCV (функция cv::createLBPHFaceRecognizer). Данный алгоритм использует оператор двоичного кодирования окрестности каждого пикселя, который учитывает относительную яркость периферийных пикселей окрестности;

• БА-1 — простейшая версия описанного базового алгоритма, где в качестве растровой карты используется само нормализованное изображение;

• БА-2 — модификация базового алгоритма, в которой в качестве растровой карты используется фильтр на основе оператора Собеля (данный фильтр был рассмотрен наряду с несколькими другими стандартными фильтрами и показал в среднем один из лучших результатов).

В качестве показателей качества распознавания в ячейках таблицы приведен процент тестовых изображений, для которых ближайшим оказался верный эталон. В качестве наборов эталонов для базы изображений ColorFERET использовался набор «FA», а для базы PIE — набор «gallery». Наборы тестовых изображений указаны в столбцах табл. 1.

Можно констатировать, что в ситуации единичного эталона базовый алгоритм обеспечивает уровень качества, сравнимый с библиотечными алгоритмами, а при правильном выборе способа формирования растровой карты — и превосходящий их.

Однако очевидно, что для практического применения данный уровень качества является неудовлетворительным. Для повышения качества работы алгоритма предлагается организовать коррекцию признаковых описаний, позволяющую минимизировать внутриклассовые различия.

коррекция признаковых описаний ортогональным к шуму проецированием

Обозначим через (3,},/ = 1,..., N некоторую совокупность имеющихся в нашем распоряжении изображений (не будем пока оговаривать, являются они тестами или эталонами, — на данном этапе это не имеет значения). Образуем из этих изображений множество всех возможных пар ((33,, 3¡)}. Пару (3,, 3j) отнесем к типу «свои», если выполнено следующее условие: изобра-

Таблица 1

Сравнение алгоритмов распознавания на стандартных наборах изображений по критерию «процент тестов, ближайших к своему эталону»

Алгоритм ColorFERET Dup1, % COIOFERET DUP2, % píe illum, % piE Light, %

Eigen Face 18,4 9 4 10,9

Fisher Face 19,6 8,5 17,2 36,3

LBPH 28,2 18,5 11,4 23,8

БА-1 27,6 19 20,8 47,8

БА-2 34,7 40,8 27,1 55,7

v 53

-n JOURNAL OF APPLIED INFORMATICS

No. 5 (53) 2014 ' -

жения, которые ее образуют, принадлежат одному и тому же распознаваемому классу. В нашей конкретизации задачи изображения лиц принадлежат одному и тому же человеку, естественно, что все пары (3,, 3,) должны быть отнесены к типу «свои». В противном случае пару отнесем к типу «чужие». Таким образом, {(33,, 3у)} представляется как непересекающееся объединение двух подмножеств Р1 (свои) и Р2 (чужие).

Методикой извлечения признаков (просто методикой) М назовем отображение изображения 3 в некоторый вектор атрибутов А, т. е. М(3) = А. При этом в качестве 3 могут быть использованы как исходные изображения, так и их производные, т. е. изображения, обработанные различными фильтрами. Для извлечения признаков можно применять различные процедуры — например, как было описано, выполнить дискретное косинусное преобразование всего изображения или его участков и выбрать некоторую часть коэффициентов; нормировать полученный вектор и т. д. Иными словами, мы ограничиваем понятие признакового описания как некоторого вектора.

Итак, каждая методика трансформирует совокупность изображений {3,} в совокупность векторов определенной длины {А,} (признаковых описаний). На множестве пар {(А,, А1)} может быть введена метрика D. Следует отметить, что D может иметь как универсальный характер (например, быть метрикой L1, L2 и т. п.), так и учитывать индивидуальные особенности применяемой методики извлечения признаков М. Однако при любых условиях паре векторов атрибутов ставится в соответствие некоторое положительное число. Оно может быть использовано для моделирования такой ключевой характеристики, как «степень схожести» изображений в паре. Следует отметить, что указанная характеристика является весьма сложным понятием. Она может быть комплексной, опираться как на несколько различных метрик, так и на неметрические параметры.

В статье мы исследуем возможности усиления именно метрического подхода. Пусть {(А,, А1)} произвольная пара атрибутов, представляющих тип «свои»; {(Ак, А,)} — пара, представляющая тип «чужие». Метрика как инструмент разделения классов надежна, если всегда выполняется условие D(А1, А1) < D(Ak, А]). В этом случае задача сводится к выбору подходящего порога, разделяющего классы. К сожалению, в реальности достигнуть этого удается далеко не всегда (в частности, для распознавания лиц это практически невозможно). Однако следует стремиться как можно лучше сепарировать свои и чужие пары путем выбора наиболее подходящей методики и метрики. Одним из критериев качества здесь может быть отношение среднего расстояния между признаковыми описаниями своих пар к среднему расстоянию между признаковыми описаниями чужих пар, которое желательно минимизировать:

•I у )D( A ■ A •I ) D( A ■ Л

^ min.

Для улучшения данного отношения можно попытаться скорректировать методику путем дополнительной обработки векторов признакового описания, которая в среднем уменьшала бы расстояния между признаковыми описаниями своих пар, сохраняя расстояния между признаковыми описаниями чужих пар практически неизменными.

Для большинства часто используемых метрик значение расстояния между векторами уменьшается при уменьшении их покомпонентных разностей. В частности, если эти покомпонентные разности равны нулю, то векторы равны, а расстояние между ними нулевое. По сути, именно разность векторов признакового описания пары и представляет интерес. Итак, назовем «вектором дефекта пары» разность векторов признакового описания пары. Если это «своя» пара, то разность квалифицируется как «шум». Из совокупности «своих» пар образуется множество векторов дефектов F («совокуп-

№ 5 (53) 2014

ный шум»). В частности, в него входит и нулевой вектор, что вполне естественно, так как он соответствует своей паре из любых двух идентичных изображений. Итак, «совокупный шум», порожденный некоторым множеством своих пар, состоит из всех векторов

F = ( - Ау;(Д., Ау) е

Далее следует упаковать «совокупный шум» F в некоторое подпространство не очень большой размерности, обозначим его Р. Именно оно должно аккумулировать в себе основную часть нежелательной информации. Достигаем мы этого традиционными методами, при помощи выделения набора главных компонент {}, V = 1,..., в совокупности Р. Подразумевается, что {} состоит из взаимно ортогональных векторов единичной длины; их количество в является внешним параметром и зависит от ситуации. Именно {} образует базис подпространства Р. Обозначим через L ортогональное дополнение к Р; это и есть упомянутое ранее «специальное подпространство». Пусть А — вектор из пространства признаков, для его ортогонального проецирования в L используется стандартная формула

А' = А-I ^ А,0 • V.

Данная операция и есть искомая проекция. Важно подчеркнуть, что А может представлять собой как вектор признаков конкретного фото, так и вектор дефекта пары фото.

Очевидно, что данная процедура проецирования позволяет существенно снизить расстояния между признаковыми описаниями своих пар — по крайней мере, тех, которые использовались в процессе построения проектора. Будет ли положительный эффект от данной процедуры в целом? Ответ на этот вопрос зависит от влияния: во-первых, на расстояния между признаковыми описаниями чужих пар, во-вторых, на расстояния между признаковыми описаниями своих пар, не использованных при построении проектора.

Применение коррекции совместно с дескрипторами

Авторами были получены результаты использования дескрипторов в процессе распознавания базовым алгоритмом [3]. Суть данного процесса заключается в следующем:

1) фиксируется набор методик (М};

2) фиксируется база исходных изображений лиц людей, в которой каждому человеку соответствует не менее двух различных изображений. Этот набор делится на два непересекающихся множества — основное и вспомогательное — так, что изображения одного человека могут присутствовать только в одном из них. В основном множестве для каждого человека выбирается по одному изображению, которые объявляются эталонами (е}, остальные — тестами (}. Во вспомогательном множестве для каждого человека также выбирается по одному изображению, и они объявляются квазиэталонами (//};

3) из методик {М} и квазиэталонов случайным образом строится множество исходных элементов ((М,/)};

4) из тестов и эталонов строится множество тестовых пар {(,е)}. Среди них есть как «свои» пары ^ и е относятся к одному человеку), так и «чужие» ^ и е — это изображения разных людей). Два этих типа пар позволяют вычислять два типа ошибок распознавания;

5) каждая тестовая пара анализируется при помощи множества исходных элементов. Для этого с помощью методики М каждого исходного элемента вычисляется расстояние между его квазиэталоном и обоими изображениями тестовой пары. Если расстояние до эталона оказывается меньше, чем до теста, т. е. D (М (/), М (е)) < D (М (/), М (()), то в дескриптор тестовой пары добавляется 1, в противном случае — 0. Таким образом, для каждой тестовой пары формируется двоичный дескриптор длины |((М,/)}}

6) дескриптор тестовой пары обрабатывается решающей функцией — в частности, мы применяли пороговую функцию, относящую тестовую пару к типу «свои» (положи-

No. 5 (53) 2014

тельная идентификация теста t на соответствие эталону e) в том случае, когда число единиц в дескрипторе не меньше некоторой величины d. В противном случае пара классифицируется как «чужая».

Мы расширили объем данных, участвующих в эксперименте, и включили в процесс описанную в данной статье методику коррекции атрибутов. Источниками исходных изображений выступали следующие базы:

• FERET — уже упомянутая общедоступная база лиц людей, снятых в фиксированных лабораторных условиях;

• PIE — также упомянутая общедоступная база, специально подготовленная в лабораторных условиях, в частности с целью испытаний алгоритмов в условиях существенно неоднородного освещения;

• LWF — общедоступная база «Labeled Faces in the Wild» [6], состоящая из изображений лиц людей, обнаруженных на фото-и видеоматериалах в сети Интернет;

• FDB/V — база изображений, полученная авторами с использованием камеры видеонаблюдения при естественном перемещении людей внутри помещения в условиях искусственного освещении. Объем базы составляет 976 эталонов и 387 тестов;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

• FDB/M — база, полученная авторами в ходе испытаний на железнодорожном вокзале при недостаточной освещенности;

• FDB/S — база, полученная авторами с использованием видеокамер в ходе испытаний в павильоне метрополитена. 974 эталона, 350 тестов.

Данные о количестве сформированных конструкций приведены в табл. 2.

Изображения, использованные в исходных элементах, не повторялись. Методика для каждого элемента выбиралась случайным образом из пула, содержащего 9 дифференцированных методик. Более подробно они описаны в [2].

Для построения «своих» пар были использованы уникальные эталоны для каждой базы. В качестве теста выбиралась фотография того же лица из той же базы случайным образом из множества имеющихся. На базе этого же эталона формировались одна или несколько «чужих» пар. Для этого к нему подбиралась случайным образом фотография постороннего лица из той же базы.

Порог d в данном случае подбирается таким образом, чтобы минимизировать ошибку второго рода, т. е. не допустить случаев, когда система ошибочно классифицирует пары как «свои». В целом подход с использованием порога позволяет решать различные задачи и обеспечивает гибкость настройки уровней ошибок первого и второго рода.

Таблица 2

Количество сформированных ИЭ и ТП

Набор изображений Количествово ИЭ Количествово ТП типа «свои» Количествово ТП типа «чужие»

FERET 400 400 4 000

PIE 400 885 885

LWF 400 3 624 3 624

FDB/M 400 494 494

FDB/S 400 350 350

FDB/V 400 387 387

ПРИКЛАДНАЯ ИНФОРМАТИКА /-

' № 5 (53) 2014

Для получения сравнимого результата по каждой базе эксперимент проводился дважды: в первом проходе алгоритм распознавания не использовал коррекцию атрибутов при вычислении расстояний; во втором случае выполнялась коррекция. На рис. 2 приведено выраженное в процентном отношении количество верных ответов отдельно по «своим» и «чужим» парам.

Результаты эксперимента показывают, что на некоторых наборах изображений можно достичь значительного увеличения количества правильных ответов, выдаваемых системой, благодаря использованию описанной методики обучения совместно с ранее разработанным алгоритмом использования дескрипторов.

Безусловно, метод успешно проявил себя на базах изображений FERET, FDB/S,

FERET

PIE

50% -

0%

50%

0%

50%

0%

LWF

98,84% 100,00%

FDB/S 95,43%

98,00%

Тип 1 («свои»), без коррекции Тип 1 («свои»), с коррекцией

100%

50% -

100,00%

0%

100%

50% -

0%

100%

50%

0%

FDB/M 96,55% 100,00%

73,43%

FDB/V

97,93% 100,00%

Тип 2 («чужие»), без коррекции Тип 2 («чужие»), с коррекцией

Рис. 2. Результаты корректного распознавания тестовых пар двух типов

No. 5 (53) 2014

FDB/V, т. е. на половине из всех участвующих в тестировании, что можно считать хорошим результатом. На изображениях из этих наборов уменьшились обе ошибки, причем иногда существенно.

На базах LWF и PIE метод уменьшил ошибку второго рода (на PIE до 0% вместо 19% без использования обучения), но только за счет повышения ошибок первого рода данные результаты можно назвать удовлетворительными, так как общий процент правильных ответов остался примерно на том же уровне.

На базе FDB/M были получены весьма неожиданные, но тем не менее, неплохие результаты: ошибка первого рода уменьшилась со 100 до 3,5%, хотя ошибка второго рода увеличилась с 0 до 26,5%. Таким образом, если до внедрения обучения в процессе распознавания все пары из этой базы классифицировались как «чужие» (что фактически означало неработоспособность алгоритма), то после коррекции атрибутов изображения стали распознаваться достаточно надежно.

Заключение

Результаты эксперимента, проведенного на различных наборах изображений, показывают, что метод коррекции ортогональным к шуму проецированием позволяет повысить качество распознавания в среднем в половине случаев, не допустив при этом его ухудшения в других. Авторы собираются далее проводить исследования в области обучения и использования дескрипторов в системах распознавания.

В частности, планируется построить «репрезентативный» набор искажений, соответствующий большинству следующих ситуаций реальной эксплуатации:

— вариации ракурса;

— проекционные (перспективные) искажения;

— собственные шумы источника изображения;

— дефекты фокусировки;

— динамическое смазывание при съемке подвижных объектов;

— вариации освещения;

— погодные факторы (осадки, туман) и т. д.

Для этого имеющийся материал будет классифицирован по типам искажений и дополнен специально отснятым с учетом требуемых условий. По полученным типизированным наборам изображений будут построены соответствующие наборы корректирующих векторов. Мы полагаем, что они окажутся универсальными для большинства типичных случаев применения, т. е. сохранится их эффективность в различных условиях и не потребуется повторное обучение под каждую новую зону контроля.

В области использования дескрипторов планируется совершенствование булевой функции, формирующей итоговое мнение системы относительно пары. Также предметом для изучения остается формирование исходных элементов и методик вычисления расстояний между фотографиями. Планируется также изучить возможность использования нескольких отвлекающих эталонов в исходных элементах.

Список литературы

1. Голубев А. С. Особенности распознавания методом ближайшего элемента в алгоритмах вычисления оценок // Прикладная информатика. 2013. № 1. С. 18-25.

2. Рожков М. М. Система неадаптивного распознавания образов в условиях ограниченного количества информации: монография. Владимир: Издательство Владимирского государственного университета, 2011. — 120 с.

3. Семин Л. А. О построении дескрипторов и настройки системы для распознавания образов // «Актуальные проблемы естественных и математических наук»: материалы международной заочной научно-практической конференции (04 марта 2013 г.). Новосибирск: Издательство «СибАК», 2013. С. 31-35. — 128 с.

4. The Color FERET Database. URL: http://www.nist. gov/itl/iad/ig/colorferet. cfm.

№ 5 (53) 2014

5. PIE Database, CMU. URL: http://www.ri.cmu.edu/ research_project_detail. html? project_id=418.

6. Labeled Faces in the Wild. URL: httpY/vis-www. cs.umass.edu/lfw/index.html.

References

1. Golubev A. S. Osobennosti raspoznavaniya met-odom blizhayshego elementa v algoritmakh vy-chisleniya otsenok. Prikladnaja informatika, no. 1, (2013), pp. 18-25.

2. Rozhkov M. M. Sistema neadaptivnogo raspoznavaniya obrazov v usloviyakh ogranichennogo kolich-estva informatsii. Vladimir: Izdatel'stvo Vladimirskogo gosudarstvennogo universiteta, 2011. — 120 p.

3. Semin L. A. O postroenii deskriptorov i nastroyki sistemy dlya raspoznavaniya obrazov. Aktual'nye problemy estestvennykh i matematicheskikh nauk: materialy mezhdunarodnoy zaochnoy nauchno-prakticheskoy konferentsii. Novosibirsk: SibAK, 2013, рр. 31-35.

L. Semin, Postgraduate, Vladimir State University named after Alexander and Nikolay Stoletovs, Physics and Applied Mathematics department, semin.lev@gmail.com

M. Zvyagin, PhD in Technique, Associate Professor, Vladimir State University named after Alexander and Nikolay Stoletovs, Functional Analysis and Its Applications department, muz1953@yandex.ru

A. Golubev, PhD in Physics & Mathematics, Associate Professor, Vladimir State University named after Alexander and Nikolay Stoletovs, Physics and Applied Mathematics department, andrey.golubev@vlsu.ru

using prior training in pattern recognition system based on descriptors

In the publication we discuss the enhancements of image recognition algorithms in two directions. First, we define the binary descriptors of images as a second-lever features for image recognition algorithm. They are constructed by a set of feature extraction functions together with an auxiliary set of «quasi-etalon» image samples. Second, we use a novel prior-learning procedure named «Correction by Noise Orthogonal Projection». By means of building special subspace of image features this method leads to considerable decrease of intra-class distance while inter-class distance is practically unchanged. Thus the probability of valid class partitioning is highly increased.

The subspace is built in two steps: 1) localize a feature space partition which contains the majority of intra-class differences; 2) construct an orthogonal complement for the partition. This complement is a target («noise») subspace. To enhance recognition, an input feature descriptor should be projected to the subspace to reduce noise components.

The article provides the method's mathematical formalization and experimental implementation. The implementation is built upon a custom facial recognition system. We compare results of recognition for several image sets, including well-known open face databases along with our own databases captured from security video cameras located at places with high rate of people flow. Keywords: pattern recognition, face recognition, descriptors, correction by noise orthogonal projection.

i Надоели баннеры? Вы всегда можете отключить рекламу.