Построение модификаций и анализ свойств структурных описаний при распознавании изображений

Гороховатский В.А.; Власенко Н.В.; Полякова Т.В.

УДК 004.934

В.А. ГОРОХОВАТСКИЙ, д-р техн. наук, проф., зав. каф., Харьковский институт банковского дела университета банковского дела Национального банка Украины, Харьков,

Н.В. ВЛАСЕНКО, канд. техн. наук, преп., Харьковский национальный экономический университет им. С. Кузнеца, Харьков, Т.В. ПОЛЯКОВА, канд. техн. наук, асс., Харьковский национальный автомобильно-дорожный университет, Харьков

ПОСТРОЕНИЕ МОДИФИКАЦИЙ И АНАЛИЗ СВОЙСТВ СТРУКТУРНЫХ ОПИСАНИЙ ПРИ РАСПОЗНАВАНИИ ИЗОБРАЖЕНИЙ

Обсуждаются принципы построения, трансформации и свойства модификаций для структурных описаний изображений в виде множества характерных признаков. Приведены результаты экспериментов по оцениванию достоверности и помехозащищенности предложенных методов, которые в плане достоверности и быстродействия лучше известных методов. Ил.: 2. Библиогр.: 8 назв.

Ключевые слова: характерный признак, структурное описание, трансформация, достоверность, помехозащищенность.

Постановк проблемы и анализ литературы. В современных системах компьютерного зрения получили практическое применение структурные методы распознавания визуальных объектов, описание которых представлено в виде множества характерных признаков (ХП) [1

- 4]. ХП - это числовой вектор z е Rn фиксированной размерности n , рассматриваемый совместно с его координатами (x, у). Каждый вектор z содержит информацию о функции яркости изображения в локальной окрестности точки (x, у) и формируется специальными методами, например, SURF [2]. Конечное множество векторов {z} образует описание изображения, его элементы обладают рядом важных для распознавания свойств, таких как инвариантность к геометрическим преобразованиям анализируемого объекта в поле зрения, а также равенством 1 модуля вектора z . Эти свойства позволяют рассматривать все множество векторов {z} как подмножество векторного пространства

{Z} С Rn.

В результате описание Z анализируемого изображения приобретает вид конечного множества Z = {zt, xt, yt , где s - его мощность.

Учитывая разнородный состав множества Z , его можно рассматривать как объединение двух множеств Z = {z}\J{(x,y)}, где {z} отражает информацию о функции яркости объекта и в общем случае есть мультимножество, множество координат {(х, у)} содержит пространственную информацию о взаимосвязи элементов {z}. Процедура распознавания объекта сводится к сопоставлению полученного описания Z с некоторым эталонным описанием Z (j) из класса j на основе вычисления некоторой меры подобия описаний $[Z, Z (j)] и оптимизации значения этой меры на конечном множестве классов j = 1,J [4]. В самом общем виде классификация есть отображение ЭТ: Z ^ {Z(j)}, где {Z(j)}J=1 - конечное множество

эталонных описаний (база изображений). Отображение ЭТ , как правило, реализуется путем решения задачи оптимизации

c(Z) = arg opt S[Z, Z(/)], (1)

je[1,..,J ]

где 9е R1 - мера подобия, c(Z) - функция получения класса объекта.

Следуя теории метрических пространств [5] и соотношению {z} е Rn, для элементов z, z2 е {z} можно задать произвольную метрику р(z1, z2), которая определяет расстояние для пары произвольных

конечных вещественных векторов в пространстве Rn , в результате чего появляется возможность оценить в теоретическом аспекте эквивалентность, а в практическом плане - близость двух векторов на основе условия p(zi, z2) <8z, где 8z - некоторый порог (параметр) точности. Исходя из этого, на основе сравнения составляемых элементов можно рассмотреть также метрическое пространство для множеств

Z\ Z2 путем введения $[Z\ Z2] как метрики для конечных множеств. Однако более практичным для объектов-изображений в условиях действия помех есть применение мер подобия $[Z\ Z2], которые подсчитывают нормированное число эталонных элементов в анализируемом описании (голосование), на основе чего по максимуму функции подобия выбирается наиболее подходящий класс изображения.

Цель исследования - анализ свойств и эффективности применения модификаций систем структурных признаков при инвариантном распознавании изображений в компьютерном зрении.

Задачи работы состоят в модернизации систем признаков на основе исходного структурного описания, сравнительной оценке их эффективности с традиционными подходами, экспериментальном исследовании предложенных методов для баз изображений.

Системы признаков на основе множества ХП. Исходя из сути информационного разделения элемента описания (zi, х1, у1) на вектор ъг-инвариантного описания локальной окрестности и координаты (хг, у)

центра этой окрестности, целесообразно рассмотреть следующие пути построения, обобщения и сопоставления признаковых описаний:

- на основе множества векторов-дескрипторов {zj};

- на основе множества координат {хг-, yi};

- на основе гибридного представления с одновременным включением ^г-} и {хг-, у1} .

В работе [6] применено преобразование множества {хг-, yi} координат описания к множеству {у*, д*, Л*} пространственных

структур (ПС), у *, д*, л* е К1, отражающих геометрическое расположение точек {xi, у{} между собой внутри описания. Значения ук, дк, Лк вычисляются несложным путем как решение системы линейных уравнений с учетом координат точки и базиса из трех неколлинеарных точек. Эти признаки получили название "аффинные инварианты" [1]. Их вычисление можно представить некоторой функцией ^ преобразования множеств {а} = {у*, д*, л* } = Р{х^, уг} . ПС а = (у*, д*, л* ) геометрически закрепляет положение точки описания в пространстве других точек, превращая описание во множество "гроздей" из четверок ХП (один признак представлен в базисе трех других, рис. 1).

Применение аппарата ПС способствует повышению достоверности распознавания за счет включения в процесс распознавания информации о пространственных связях элементов описания. В основном это достигается за счет снижения вероятности "ложной тревоги", т.к. отдельные элементы структурных описаний разных изображений и даже группы элементов могут быть близкими между собой [6]. В то же время при применении ПС признаков возникает проблема сокращения объема полученного синтезированного пространства, т.к. мощность множества {а} = {у*, д*, л* } оказывается значительно большей, чем исходного множества {хг, yi}. Максимальное число признаков ПС непосредственно может быть оценено через исходное число ХП в описании через число

сочетаний. Другим недостатком рассмотренных методов можно считать некоторое снижение помехоустойчивости в случае действия пространственных помех, искажающих отдельные ХП описания. Из-за включения помеховых ХП в интегрированное описание структуры произойдет искажение и вновь созданного структурного элемента.

Рис. 1. Иллюстрация схемы формирования {а}*

Однако следует отметить, что рассмотренные недостатки нельзя считать критическими, т.к. объемом нового описания можно управлять параметрически (строить столько структур из возможного объема, сколько нужно). Кроме того, процедуру построения структур также можно адаптировать к прикладной задаче. Снижение же помехозащищенности к пространственным помехам, как показывают эксперименты [7], компенсируется увеличением устойчивости к аддитивному шуму за счет большей агрегации данных. Поэтому с применением ПС появляется возможность адаптивного выбора нужного числа признаков для обеспечения высокого уровня эффективности распознавания в условиях допустимого уровня помех разных типов.

Комбинирование путей 1 и 2 при построении признаковых описаний приводит к гибридным представлениям в обработке [6, 7], причем пространственные признаки здесь могут выбираться как из исходного множества {(zi, х^, у1)} , так и из преобразованного {у*, д*, л* } в ПС. Основная идея агрегирования состоит в вычислении значения некоторой комбинированной меры подобия между двумя "партнерскими" описаниями фактически из разных пространств. Исследованы следующие способы комбинирования:

- логическая обработка или анализ значений мер подобия в двух пространствах (геометрия и дескрипторы ХП), например, с использованием двух различных порогов для значений подобия, что устанавливает наличие логической связи между подобиями;

- последовательная модель сопоставления, когда один из типов признаков используется как основной при принятии решения, а второй играет роль контроля или подтверждения; например, находится минимум значения метрики по одному типу признаков, а по второму проверяется

условие удовлетворения порогу; из-за простоты построения эта модель получила наибольшее применение на практике;

- ассоциативная модель сопоставления, в которой фигурирует совместное использование пространственно-атрибутивных признаков в единой мере, например, в виде расстояния между элементами ^, &'дВ

описаний А, В

Р(^А, V ) = 1 [Ра (а,А, адВ ) + Р^ (^, zqB )] > (2)

которое есть метрикой как линейная комбинация метрик; применение ассоциативной модели предполагает, что для всех геометрических признаков, построенных для одного ХП, используется одно и то же значение ее дескриптора; значения метрик ра, р^ в (2) обычно нормируются к отрезку [0, 1] для исключения преобладания одной из них.

Следует отметить, что применение сложных комбинированных мер в разнотипных пространствах несколько усложняет процедуру вычисления подобия в целях классификации, однако, как показывают эксперименты, ее применение оправдано в условиях помех [6, 7], т.к. помехозащищенность комбинированных подходов оказывается выше, чем при применении одного из пространств. Каждая из рассмотренных моделей описаний из некоторого пространства признаков допускает трансформации в виде сжатия, фильтрации элементов, перехода в другие более эффективные пространства и т.д. путем преобразования описания вида [8]

Т: г ^ 2Т, (3)

где Т - отображение трансформации; 1т - трансформированное описание.

Отображение Т строится таким образом, чтобы описание 1т обладало новыми, более совершенными свойствами по сравнению с I в плане качества распознавания. Обычно качество характеризуется такими показателями, как вероятность правильного распознавания,

достоверность, помехозащищенность, быстродействие [4, 6]. Наши исследования показали, что в отдельных случаях трансформированное описание 1т может быть получено в виде числового вектора V с целыми компонентами, например, в результате ортогонального разложения первоначального описания в некотором базисе [8].

Рассмотрим преобразование, связанное с разложением по семейству прямоугольных базисных функций, в качестве которых применим дискретные функции Уолша (ФУ). Преобразуем описание путем умножения матриц

U = г * A , (4)

где А - матрица Адамара размера п х п, включающая п векторов ФУ w1,...,wn. Осуществим классификацию элементов 2 по максимуму

квадрата их значений из матрицы и2, в результате получим распределение 5 элементов описания 2 по т априорно заданным классам, связанным с конкретными номерами ФУ. Сформируем сжатое

*

описание и в агрегированном виде как вектор целых чисел

т

и = (их,..,ит), ^и} = 5 , (5)

] =1

где элементы иу - число векторов ХП, отнесенных к классу у [8].

Учитывая, что эталоны классов могут содержать в своем составе разное число ХП, на практике часто необходимо осуществить нормировку

описания (5): и у = и у / 5 , что гарантирует выполнение соотношения

т

X иу = 1.

у=1

Последовательность трансформации исходного описания 2 в

*

процессе сжатия можно формализовать как 2 ^ и ^ и или в функциональном виде

*

и = ^^[2]], (6)

где ¥ - преобразование к пространству функций Уолша, ¥2 -классификация элементов в этом пространстве.

Предложенный метод трансформирует исходное описание в виде матрицы размера 5 х п к вектору из т числовых значений, причем выбор т << п существенно снижает вычислительные затраты особенно при больших значениях числа 5 , которое в практических задачах иногда достигает 200 - 1000. Важным преимуществом при этом есть то, что преобразование множества эталонных ХП к сжатому виду выполняется

один раз на предварительном этапе и в целом не влияет на общее время классификации.

Для каждой из рассмотренных моделей описания в процессе классификации необходимо применение соответствующих мер подобия описаний на предмет установления их близости или эквивалентности. Для описаний в виде множества это будет мера сопоставления множеств, для описаний в виде вектора - мера для сопоставления векторов. Для векторов обычно используется подходящая метрика (в частности, для детекторов SIFT и SURF применяется евклидово расстояние), а для множеств - метрика или мера подобия в виде числа голосов эквивалентных элементов [4]. Примерами мер для множеств могут быть метрики Танимото, Xаусдорфа , а также большое разнообразие мер на основе подсчета схожих и несхожих элементов. Для объемных описаний в виде множества XQ часто целесообразно применение преобразований сжатия [4, 6]. Схема построения модификаций структурных описаний, включая разнообразие мер для их сопоставления, показана на рис. 2.

Результаты экспериментальных исследований. Как показали результаты компьютерного моделирования, предложенные модификации признаковых пространств обеспечивают преимущественные показатели при классификации [7]. Эффективность проведения классификации для конечного числа классов в конкретном пространстве признаков (контрольная выборка) может быть оценена на основе значения критерия достоверности

B = »m / »0 , (7)

где $0 - значение максимального элемента матрицы подобия для всех эталонов, которое соответствует априорно заданному эталону, -максимум значения подобия с другими эталонами (недиагональные элементы матрицы подобия). Величина (7) непосредственно отображает степень различимости объектов в рассматриваемой базе изображений с применением выбранной системы признаков и связана с оценкой вероятности правильного распознавания. Чем меньше значение В , тем увереннее работает метод распознавания с конкретными данными. Как показало компьютерное моделирование для фиксированной базы изображений, значение критерия В при применении традиционного метода голосования (независимые XQ) достигает значения В = 0,8, в то время как для предложенного метода на основе ПС величина 0 = 0,02 . Такое низкое значение критерия В для разработанного метода

подтверждает его высокий показатель правильной классификации в эксперименте.

Рис. 2. Схема построения модификаций структурных описаний

В другом эксперименте исследовалась устойчивость методов с использованием ПС относительно действия пространственных помех, модель формирования которых состояла в преобразовании координат ХП в пределах окрестности +3 с некоторой вероятностью р. Эксперименты показали, что вероятность правильной классификации, которая подсчитывалась на основе отношения числа правильных ответов к общему числу экспериментов, для модифицированного метода с использованием ПС снижается не так быстро, как для традиционного. Так при р = 0,35 она составила значения 0,9 для разработанного метода и 0,8 для традиционного. Этот факт говорит о достаточно высоких показателях функционирования предложенных подходов на основе применения ПС.

Проведен сравнительный эксперимент по классификации для базы домашних животных [8], в котором признаковое описание представлено в пространстве 8 ФУ. Для сопоставления проведены также эксперименты

и для метода голосования, порог эквивалентности двух ХП выбран равным 0,16 (1% от максимума значения евклидовой метрики). Предложенный метод построения информативного описания на основе ортогонального пространства ФУ (4) - (6) имеет несомненное преимущество в плане помехозащищенности перед традиционным голосованием. До уровня аддитивной помехи, характеризуемой значением дисперсии ст2 = 0,02, эффективность методов примерно одинакова (вероятность правильного распознавания выше 0,94), далее с увеличением ст2 кривая вероятности для разработанного метода выше, и при ст2 = 0,03 вероятности составляют 0,8 и 0,6 соответственно. Высокая устойчивость к шуму обусловлена прежде всего интегральными свойствами ФУ. В то же время быстродействие разработанного метода существенно выше: сравнительное время классификации одного

изображения составило 0,03 с и 0,95 с соответственно, т.е. более чем в 30 раз лучше (компьютер Intel Core2 Duo 2,67 ГГц).

Выводы. Модифицированные методы построения и сопоставления структурных описаний визуальных объектов за счет учета пространственных геометрических соотношений и преобразования к векторному описанию обеспечивают лучшую достоверность распознавания и существенное сокращение объема вычислений по сравнению с традиционным подходом на основе голосования. Применение комбинированного анализа на основе объединения разных признаковых пространств еще в большей степени улучшает характеристики распознавания в базах изображений.

Предложенные модифицированные системы признаков целесообразно применять для прикладных задач, требующих тщательного анализа особенностей изображений, когда традиционные методы не дают результата в плане достоверности. Другим направлением есть использование структурных методов в системах реального времени.

Впервые проведен анализ принципов построения и свойств систем структурных признаков, в основе которых лежит применение пространственных связей между ХП и агрегирование описания в векторное представление. На примерах моделирования процесса классификации с применением разработанных систем признаков для реальных изображений получено экспериментальное подтверждение эффективности предложенных методов. Практически важным есть получение предпочтительных характеристик распознавания в плане достоверности и быстродействия по сравнению с известными методами,

что говорит о целесообразности развития и применения предложенных модификаций в задачах компьютерного зрения.

Перспективы исследования состоят в анализе применений разработанных методов для объемных баз изображений.

Список литературы: 1. Шапиро Л. Компьютерное зрение I Л. Шапиро, Дж. Стокман. -М.: БИНОМ. Лаборатория знаний, 200б. - 752 с. 2. By H. SURF: Speeded Up Robust Features I H. By, A. Ess, T. Tuytelaars, L. Gool II Computer Vision and Image Understanding (CVIU). -200В. - № llO (3). - P. 34б-359. 3. Szeliski R. Computer Vision: Algorithms and Applications I R. Szeliski. - Springer. - 2010. - 979 p. 4. Гороховатский В.А. Структурное распознавание изображений на основе моделей голосования признаков характерных точек I В.А. Гороховатский, Е.П. Путятин ^ Реєстрація, зберігання і обробка даних. - 200В. -Т. 10. - № 4. - С. 75-В5. 5. Колмогоров А.Н. Элементы теории функций и функционального анализа I А.Н. Колмогоров, С.В. Фомин. - М.: Наука, l976. - 544 с. б. Gorokhovatskiy V.A. Geometrical Invariant Features Peculiar for the Methods of Structural Classification of Images I V.A. Gorokhovatskiy, T.V. Poliakova II Telecommunications and Radio Engineering. - 2012. -№ 71 (17). - P. 1557-15б4. 7. Полякова Т.В. Анализ и сжатие структурных описаний на основе геометрических инвариантных признаков I Т.В. Полякова ^ Прикладная радиоэлектроника. - 2012. - Т. 11. - N° 3. - С. 417-420. S. Власенко Н.В. Построение информативных компактных описаний и классификация объектов путем представления в ортогональном базисе IН.В. Власенко ^ Бионика интеллекта. - 2013. - №l (8O). - С. 93-9В.

Bibliography (transliterated): 1. Shapiro L. Komp'juternoe zrenie I L. Shapiro, Dzh. Stokman. -M.: BINOM. Laboratorija znanij, 200б. - 752 s. 2. By H. SURF: Speeded Up Robust Features I H. By, A. Ess, T. Tuytelaars, L. Gool II Computer Vision and Image Understanding (CVIU). -200В. - № llO (3). - P. 34б-359. 3. Szeliski R. Computer Vision: Algorithms and Applications I R. Szeliski. - Springer. - 2010. - 979 p. 4. Gorohovatskij V.A. Strukturnoe raspoznavanie izobrazhenij na osnove modelej golosovanija priznakov harakternyh tochek I V.A. Gorohovatskij, E.P. Putjatin ^ Reєstracija, zberigannja і obrobka danih. - 2008. - T. 10. - № 4. - S. 75-В5. 5. Kolmogorov A.N. Jelementy teorii funkcij i funkcional'nogo analiza I A.N. Kolmogorov, S.V. Fomin. - M.: Nauka, 197б. - 544 s. б. Gorokhovatskiy V.A. Geometrical Invariant Features Peculiar for the Methods of Structural Classification of Images I V.A. Gorokhovatskiy, T.V. Poliakova II Telecommunications and Radio Engineering. - 2012. - № 7l (l7). - P. 1557-15б4. 7. Poljakova T.V. Analiz i szhatie strukturnyh opisanij na osnove geometricheskih invariantnyh priznakov I T.V. Poljakova II Prikladnaja radiojelektronika. - 2012. - T. 11. - № 3. -S. 417-420. S. Vlasenko N.V. Postroenie informativnyh kompaktnyh opisanij i klassifikacija ob"ektov putem predstavlenija v ortogonal'nom bazise I N.V. Vlasenko II Bionika intellekta. -2013. - № l (8O). - S. 93-98.

Поступила (received) 26.03.2014

Статью представил д-р техн. наук, проф., зав. каф. информационных технологий и мехатроники ХНАДУ Никонов О.Я.

Gorokhovatskiy Vladimir, Dr.Sci.Tech, Professor

Kharkiv Institute of banking of the University of banking of the National bank of Ukraine

Ave. Peremohy 55, Kharkiv, Ukraine, б1174

tel.Iphone: (057) 33б-05-б4, e-mail: [email protected]

ORCID ID: 0000-0002-7В39-б223

Vlasenko Natalia

Kharkiv National University of Economics

Ave. Lenina 9, Kharkiv, Ukraine, 61166

tel./phone: +38 (057) 702-06-74, e-mail: [email protected] ORCID ID: 0000-0002-2560-9854

Poliakova Tatiana, asst.

Kharkiv National Automobile and Highway University Str. Petrovskogo 25, Kharkiv, Ukraine, 6l002 tel./phone: +38 057 7073774, e-mail: [email protected] ORCID ID: 0000-0002-2857-8897

Построение модификаций и анализ свойств структурных описаний при распознавании изображений Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Гороховатский В. А., Власенко Н. В., Полякова Т. В.

Похожие темы научных работ по математике , автор научной работы — Гороховатский В. А., Власенко Н. В., Полякова Т. В.

Formation of modifications and properties analysis of structural description in image recognition

Текст научной работы на тему «Построение модификаций и анализ свойств структурных описаний при распознавании изображений»