УДК 519.688
Вестник СПбГУ. Сер. 1. 2012. Вып. 1
ИССЛЕДОВАНИЕ СВОЙСТВ МОМЕНТНЫХ ИНВАРИАНТОВ В ЗАДАЧАХ АНАЛИЗА ИЗОБРАЖЕНИЙ
М. Ю. Пахнушева
С.-Петербургский государственный университет, аспирант, [email protected]
Введение
Анализ изображений является важной проблемой, возникающей при решении задач обработки текста, автоматизации бытовых устройств, контроля качества и многих других приложений задач идентификации образов. При решении таких задач прибегают к технике выделения признаков объекта, способных описать его особенности и свойства независимо от масштаба, смещения и поворота.
Идея нахождения инвариантных признаков воплощена в подходах, использующих различные формализмы: от эллиптических Фурье дескрипторов до ортогональных полиномов Лежандра и Церника [1—14]. Авторы показывают, что анализ мо-ментных инвариантов оцифрованных образов некоторых геометрических форм может обеспечить уверенную индикацию соответствия образа и прообраза по малости евклидовых расстояний между их точками в пространстве инвариантов.
В 1962 году были предложены 7 признаков, инвариантных относительно переноса, поворота, отражения и масштабирования, основанных на моментах [4]. В дальнейшем эти идеи были развиты в [5], где авторы рассмотрели аффинные моментные инварианты. Обзор методов выделения инвариантов, основанных на моментах, предложен в [3]. Интересные результаты получены, например, в [6-10].
Применение метода моментных инвариантов на практике обнаружило зависимость результата идентификации от уровня детализации, заданного при оцифровке или создании изображения, выявило необходимость проведения исследования, позволяющего обозначить подробность пикселизации образа, при которой погрешность вычисления инвариантов не будет искажать результаты решения задачи идентификации. В данной работе проводится анализ зависимости идентификационных свойств инвариантов от качества изображений и типа исходных объектов, что позволяет выработать рекомендации для решения определенного круга задач.
Общая теория
Определение 1.1. Двумерным моментом порядка (р + д) непрерывной функции /(ж, у): Д2 —>■ К является
Применяя это определение к монохромному изображению с яркостями пикселей S{x,y), можем определить растровые моменты изображения.
© М. Ю. Пахнушева, 2012
оо оо
— оо —оо
Определение 1.2. Растровым двумерным моментом порядка (р+ q) изображения S с яркостями пикселей S(x, у) является
mpq = ^2^2xpyqS(x,y).
х у
Определение 1.3. Под растром будем понимать прямоугольную матрицу, соответствующую изображению S, элементы которой определяются как значения яркости S{x,y).
Определение 1.4. Расстоянием между растрами S и S\ размера L*Iv является
ь к
i=i j= i
Значения S(x, у) зависят от того, каким образом происходила оцифровка. В данной работе рассматривались черно-белые изображения фигур. Если для каждого пикселя обозначить через qxy площадь накрытия его фигурой, то S(x,y) определялись следующим образом: 1, если qxy ^ 50%; 0, если qxy < 50% (рис. 1).
Рис. 1.
Определение 1.5. Центральным двумерным моментом порядка (р + q) непрерывной функции f(x,y): В? —> R является
/СО /*СО
/ (ж - ж)р(у - y)qf{x, y)dxdy,
- со J — со
где ж = mio/moo, У = m0i/mm.
Аналогично дискретному представлению обычных моментов можно определить двумерный центральный момент изображения.
Определение 1.6. Растровым центральным двумерным моментом порядка (р + q) изображения S с яркостями пикселей S(x,y) является
hq = ~ ~ y)qs(x>y)>
X у
где ж = тю/тоо, У = m0i/m00-
Рассмотрим fj,pq] они, очевидно, не зависят от сдвигов. Если рассматривать изменение масштаба с коэффициентом а, то изменение значений центральных моментов происходит следующим образом:
/ _ 7
A ipq а (¿pqi
(1)
где 7 = р + </ + 2. Если определить г)рч как
_ Муд
'1рч — 7/2 ' Моо
то они будут инвариантны относительно переноса и масштаба.
В [4] были предложены 7 независимых признаков, инвариантных относительно переноса, поворота, отражения и масштабирования, основанных на двумерных моментах
м, = (г/20 + Г/02), М2 = (Г]20 ~т)2 +4г?и, Мз = (*?30 - З7712)2 + (3*721 - *7оз)2, М4 = (?7зо + г/12)2 + (г/21 + ??оз)2,
м5 = (?730 — З7712) (*730 + ??12)[(?730 + ^12)2 — 3(г/21 + ??оз)2] + + (3*721 - *7оз)(?721 +'Поз)[3(*7зо + тг)2 - (г/21 + г/оз)2},
Ме = ('Г/20 ~ -??02) [(г/30 + Г/12)2 - (г/21 + ??03)2] +
+4*7и(*7зо + г/12)(*721 + ??оз), м7 = (3*721 -г/оз)(то +г/12)[(то +Г112)2 — 3(*721 + *?оз)2]-— (г/30 + 3*712)(*721 + г/оз)[3(*7зо +??12)2 - (г/21 +??оз)2]-
Затем идеи выделения моментных признаков были развиты в [5], где были предложены инварианты относительно обобщенных аффинных преобразований вида
и = ао + а\х + а^у,
V = Ъ0 + Ъ\х + Ъ2у.
Авторы рассмотрели способ получения аффинных моментных инвариантов, с помощью которого можно получить, например,
2
Ц 20М02 — Мц
11 = -4-,
Моо
7- МзоМоз ~ 6^зо^21М12МЗО + 4^30^12 + 4^21^03 - 3М21М12 ^ = --То-, (2)
Р00
^20(^21^03 — М12) ~~ Ри(рзоРоз — Р21Р12) + ^02(^30^12 — М21)
-¿3 = -7-•
Моо
Определение 1.7. Подробностью растра будем называть количество ячеек растра, приходящихся на единицу линейного размера изображения.
Например, при подробности растра, равной 1, квадрат размером 20 на 20, размещенный на растре 100 на 100, будет иметь координаты (0; 20), (20; 0). При увеличении подробности в 5 раз этот же квадрат будет располагаться на растре 500 на 500 и иметь координаты (0; 100), (100; 0).
После того, как для некоторого изображения й* вычислены инварианты ... ,рп (п = 7 для (1), п = 3 для (2)), можно рассмотреть вектор (р\,... ,рп). Множество изображений ¿>1, ¿>2, ¿>3,... порождает множество векторов Р = {Р\, Р2, Рз, ■ ■ ■ }, Рг = (р\,... ,ргп), г = 1, 2, 3,...
Расширим теперь понятие изображения: под изображением будем понимать вектор инвариантов, вычисленный как по (1), так и по (2).
Для двух изображений и можно вычислить расстояние р{Р^г, Р^2) как евклидово расстояние между соответствующими им векторами и Р^2. Последнее позволяет проводить простейшую идентификацию на основании евклидовой близости изображений.
О влиянии подробности растра
Методы идентификации, основанные на вычислении расстояний непосредственно между растрами, не эффективны по ряду причин: они трудоемки и имеют порядок сложности 0(п2), что затрудняет вычисления для больших изображений; такой подход требует точного совпадения образов — результат будет зависеть от сдвигов и поворотов, т.е. аффинных преобразований исходного объекта, что является нежелательным эффектом для идентификации. Поэтому исследования стараются проводить в пространстве векторов-инвариантов, что решает проблемы и зависимости от аффинных преобразований, и трудоемкости одновременно.
Действительно, следуя [5], для ряда фигур (которые часто используют для сопоставимости результатов) можно получить матрицу взаимных расстояний (табл. 1).
Таблица 1. Матрица взаимных расстояний
• ■ т А
• 0.00000 0.00061 0.00799 0.00292
* 0.00061 0.00000 0.00738 0.00231
0.00802 0.00740 0.00003 0.00509
г 0.00292 0.00230 0.00507 0.00001
Однако применение данной теории на практике имеет некоторые особенности. Результаты теории алгебраических инвариантов получены для случая функций, определенных в К2. Инварианты в теории выражены интегралами по фигурам, имеющим непрерывные контуры. Фактически, для их расчета используется сеточный метод, что влечет за собой появление погрешности дискретизации, и аффинные инварианты (1) и (2) для объектов, подверженных преобразованиям с погрешностью (т.е. слабо неаффинным), перестают быть инвариантами.
Повторение опытов этих авторов [5] для тех же форм в разнообразных условиях расчета или включение в рассмотрение других форм приводит иногда к ухудшению соответствия. Например, разброс значений первого инварианта М\ (наиболее значимого) для одной и той же цифры, размещаемой на весьма подробных растрах от 72 до 300 (пикселей на характерный размер), может достигать 100%. В то же время, можно указать частные случаи, в которых М\{0) и М\{9) отличаются на 4%.
Эти наблюдения указали на необходимость проведения отдельного исследования, направленного на изучение зависимости погрешности вычисления инвариантов от подробности растра.
Элементы такого анализа рассмотрены в задачах о покрытиях [11], существуют также работы последних лет, направленные на анализ ошибок, связанных с растеризацией: [12] —обзорная работа, [13] —построение теоретических оценок погрешностей для моментов, [14] — анализ погрешностей инвариантов, представленных в [4] и [5] применительно к прямоугольнику с центром в начале координат.
Примечательно, что в [14] анализ проводился алгебраическими методами, рассмотренная фигура — прямоугольник, поэтому использованная прямоугольная сетка
не позволяет получить статистическую полноту описания динамики погрешностей в общем случае.
В данной работе для более развернутого анализа используются два подхода, сочетающие в себе элементы всех перечисленных работ: вычислительные опыты и статистическое моделирование.
В процессе работы с инвариантами была отмечена одна их особенность — малость абсолютных величин. Поэтому в дальнейшем в таблицах значений будем дополнительно указывать порядок приведенных значений.
Перейдем к подробному изложению.
Вычислительные опыты
Вычислительные опыты состояли из серий экспериментов, в которых использовались разные типы изображений. Для более строгой классификации фигур введем понятие коэффициента латичности фигуры.
Определение 1.8. Под коэффициентом латичности фигуры Р будем понимать величину периметра нормализованной по площади фигуры (т. е. такой, что площадь равна единице) = Р(Р*).
Данное понятие позволяет проводить первичную классификацию изображений как плотные и неплотные фигуры. Для инвариантов, являющихся интегральными признаками, коэффициент латичности является существенным параметром: для низ-колатичных фигур он помогает уменьшить влияние низкой подробности растра на результаты вычислений. Высоколатичные фигуры являются, как правило, штриховыми, и в этом случае коэффициент латичности выступает в качестве меры штриха.
В вычислительных опытах были проведены две серии экспериментов и рассмотрены изображения двух типов: плотные фигуры и штриховые. В качестве плотных фигур были выбраны геометрические фигуры произвольных форм, а в качестве штриховых — рукописные арабские цифры, взятые из естественного документа.
Геометрические фигуры
Для исследования были выбраны следующие геометрические фигуры:
• ■ Т шА
circle ellipse spot square T trapez triangle
Случай растра подробности 65. В данной серии экспериментов фигуры рассматривались на растре низкой подробности. Цель экспериментов — выяснить степень погрешности инвариантов (1) и (2), а также возможности идентификации при данной подробности. Обозначим набор исходных фигур для растра низкой подробности через 7, а набор фигур, полученный из 7 путем поворотов и сдвигов, через 71.
Приведем матрицы евклидовых расстояний между фигурами 7 и 71 в пространствах инвариантов (табл. 2 и 3).
В таблицах выделены минимальные значения в каждом столбце. Минимальное расстояние между изображениями может быть истолковано как идентификация соответствия фигур из 71 и 7. Из полученных результатов следует, что для данных
Таблица 2. Расстояния между 7 и 71, вычисленные по (1)
circle 1 ellipse 1 spot 1 square 1 Tl trapeze 1 triangle 1
circle 0.02043 0.09262 0.14415 0.03800 0.09381 0.05267 0.18739
ellipse 0.05759 0.01466 0.06628 0.04025 0.03407 0.02609 0.10985
spot 0.04842 0.02887 0.07744 0.03106 0.02863 0.01685 0.12140
square 0.00957 0.08168 0.13311 0.02684 0.08256 0.04146 0.17652
T 0.07879 0.03834 0.06341 0.06269 0.00542 0.04986 0.10461
trapeze 0.02358 0.04932 0.10051 0.00606 0.05232 0.00877 0.14415
triangle 0.06401 0.01663 0.06140 0.04662 0.02151 0.03219 0.10483
Таблица 3. Расстояния между 7 и 71, вычисленные по (2)
circle 1 ellipse 1 spot 1 squares Ti trapezi trianglei
circle 0.00002 0.00011 0.00292 0.00056 0.00875 0.00115 0.00298
ellipse 0.00003 0.00006 0.00287 0.00051 0.00870 0.00110 0.00293
spot 0.00336 0.00326 0.00046 0.00282 0.00537 0.00222 0.00040
square 0.00058 0.00049 0.00232 0.00004 0.00815 0.00055 0.00238
T 0.00997 0.00988 0.00707 0.00943 0.00124 0.00884 0.00701
trapeze 0.00101 0.00092 0.00189 0.00047 0.00772 0.00012 0.00195
triangle 0.00288 0.00278 0.00004 0.00234 0.00585 0.00175 0.00008
множеств изображений при подробности растра 65 мы можем успешно идентифицировать 57.14% объектов с помощью инвариантов (1) и 85.7% объектов с помощью инвариантов (2). На примере данных множеств показан еще один аспект, связанный с вопросом идентификации, а именно разделимость исходного множества. Ошибка идентификации во втором случае является следствием того, что точки, соответствующие пятну и треугольнику, в исходном множестве были слишком близки. Отметим, что (2) обладают свойством инвариантности относительно аффинных преобразований. Это означает, что круг и эллипс должны являться одним и тем же объектом с точки зрения (2). Поэтому разделимость круга и эллипса во втором случае является скорее ошибкой, чем верным результатом.
Случай растра подробности 300. В данной серии экспериментов рассматривались изображения на растре высокой подробности. Обозначим набор исходных фигур для растра высокой подробности через Г, а набор фигур, полученный из Г путем поворотов и сдвигов, через 1%
Полученные результаты показывают, что как с помощью (1), так и с помощью (2) мы можем идентифицировать 100% изображений Г и 1% Здесь отмечено, что круг и эллипс, являющиеся одним и тем же объектом с точки зрения аффинных преобразований, перестали различаться в пространстве (2).
Цифры
Для следующей серии опытов были рассмотрены рукописные арабские цифры. Набор исходных изображений (обозначим Д) представлен на рис. 2.
Исходные чережи были оцифрованы с различной степенью подробности, в первом случае 72, а во втором — 300. В данных экспериментах были рассмотрены по 16 образцов каждой цифры, затем вычислялись значения инвариантов (1) и (2) для каждого изображения. Цель работы — проследить, как влияет подробность исходных данных на получаемые значения инвариантов. Для данного множества изображений были подсчитаны инварианты (1) и (2). Разброс значений первого (наиболее значимого) инварианта М\ для цифр подробности 72 и 300 представлен в табл.4.
Рис. 2.
Таблица 4. Разброс значений Мх, %
подробность 0 1 2 3 4 5 6 7 8 9
72 61 136 67 95 60 60 66 54 91 54
300 60 47 60 34 48 41 42 33 63 41
Непосредственно из результатов следует, что для некоторых цифр разброс инварианта изменился в несколько раз. Это связано как с видом самой цифры, так и с особенностями ее написания разными людьми. Кроме этого отмечено, что значения инвариантов испытывают выраженное смещение с увеличением подробности растра.
На примере рассмотренных изображений отмечено также, что для высоколатич-ных фигур инварианты имеют больший разброс, и это отражается на результатах идентификации.
Статистическое моделирование
Для более систематического анализа динамики погрешностей инвариантов была поставлена задача статистического анализа. Рассмотрены фигуры общей формы — многоугольники. В роли фигур выступали прямоугольник и треугольник (как простейший многоугольник, растеризация которого проходит по пути, существенно отличающемуся от растеризации прямоугольника). Рассмотрение треугольника позволяет определенно ввести в опыты со статистическим моделированием частичные ячейки, что расширяет класс допустимых образов. Этим преодолеваем известные из литературы рамки подходов к анализу погрешностей растеризации и получаем возможность наблюдать более полную картину динамики погрешностей. Исследование динамики погрешностей проводилось методом Монте-Карло.
Величины, которые изменялись при моделировании: подробность растра (рассмотрены три варианта: 10, 50 и 100), угол поворота фигуры (угол являлся случайной величиной, равномерно распределенной на интервале (0;27г)), положение на растре (Хо + хе\ У + уе), где (Хо; Уз) — заданная для растра некоторая центральная координата, а хе и уе — случайные величины, равномерно распределенные на (0; 1).
Для каждого растра проведено s = 300 моделирований положения фигуры, вычислены соответствующие значения инвариантов и растровая площадь фигуры.
По полученным данным вычислялись следующие значения: выборочное среднее mean = Hl+H2J ; стандартное отклонение <т = ^J— mean)2, средняя
квадратичная ошибка MSE = ^ — Н)2, где Н — точное значение характери-
стики, вычисленное по формулам.
Для краткости приведем значения, полученные для М\ (табл. 5).
Таблица 5
Квадрат Треугольник
Инвариант N = 10 N = 50 N = 100 N = 10 N = 50 N = 100
Mi [ю-4] expected mean а VMSE 400 1663.8074 0.000310 0.000422 10000 1666.5537 0.000038 0.000040 40000 1666.6328 0.000009 0.000010 200 1925.6297 0.001595 0.002465 5000 1943.6906 0.000174 0.000189 20000 1944.1923 0.000054 0.000059
Регуляризация пространства инвариантов
В каждом из типов инвариантов (1) и (2) можно уверенно выделять подклассы инвариантов, сопоставимых по величине. Например, в (1) это будут М1-М2. Другие имеют существенно меньшие значения. «В себе» они заметно различны для различных фигур, но мало влияют на значение евклидова расстояния между точками и бесполезны для идентификации. Семимерное пространство (1) в евклидовой метрике является тонким, фактически трехмерным слоем, что затрудняет идентификацию по близости точек.
Определение 1.9. Будем считать непаритетными те инварианты, вклад которых в евклидову метрику меньше или сопоставим с ошибкой (дисперсией) каждого из паритетных.
Таким образом, классификация сводится к парным сравнениям. И в общем виде алгоритм выделения паритетных инвариантов будет иметь вид:
1) первый рассматриваемый инвариант предполагается паритетным;
2) для нового инварианта вычисляется его математическое ожидание и сравнивается с дисперсией паритетных;
3) на основании определения новый инвариант добавляется в класс либо паритетных, либо непаритетных;
4) пересматриваются инварианты в классе паритетных, в результате некоторые могут быть переведены в класс непаритетных;
5) переход к 2).
На указанном примере непаритетные среди (2) будут и /3, а среди (1) будут М3-М7. Лишь паритетные инварианты служат основой для идентификации по евклидовой метрике.
Близость «в себе» порядков величин значений конкретного непаритетного инварианта приводит к идее введения порядковых функций, специфичных для инвариантов. Их можно было бы применить для растяжения слоя в соответствующем направлении и эффективного увеличения размерности пространства паритетных инвариантов. Было показано [15], что в некоторых случаях такое преобразование позволяет перевести часть непаритетных инвариантов в класс паритетных и улучшить результаты идентификации.
Выводы
Основываясь на проведенном анализе влияния подробности растра исходных изображений на получаемые значения инвариантов, можно сформулировать следующие утверждения.
1. Порядки значений инвариантов зависят от типа рассматриваемых изображений и величины их латичности.
2. Существенно смещение оценок инвариантов, хорошо видимое при статистическом моделировании. Оно зависит от подробности растра, уменьшаясь при ее увеличении (строки 1 и 2 в таблице).
3. Понимая идентификацию как достижение минимума евклидовой метрикой, получаем, что основное значение для идентификации имеют первые инварианты из (1) и из (2).
4. В некоторых случаях регуляризация пространства инвариантов позволяет улучшить результаты идентификации.
Литература
1. Gurevich I. В., Koryabkina I. V. Comparative Analysis and Classification of features for image Models // Pattern Recognition and Image Analisys. 2006. Vol. 16. N3. P. 265-297.
2. Гуревич Г. Б. Основы теории алгебраических инвариантов. М.; JL, 1948.
3. Ruberto С., Morgera A. Moment-based techniques for Image retrieval // 19th International Conference on Database and Expert Systems Application. DEXA, 2008.
4. Ни M. Visual Pattern Recognition by Moment Invariant // IRE Trans. Inf. Theory. 1962. Vol. 8. P. 179-187.
5. Flusser J., Suk T. Pattern recognition by affine moment invariants // Pattern Recognition. 1993. Vol.26. N1. P. 167-174.
6. Hatem M. R., Abou-zeid, Akrem S. El-ghazal, Ammer A. Al-khatib. Computer Recognition of Unconstrained Handwritten Numerals // Circuits and Systems. 2003. MWSCAS'03. Proceedings of the 46th IEEE International Midwest Symposium.
7. Muharrem Mercimek, Kayhan Gulez nad Tarik Veli Mumcu Real object recognition using moment invariant // Sadhana. 2005. Vol.30. Part 6.
8. Ы Y. Applications of moment invariants to neurocomputing for pattern recognition // Electronics Letters. 1991. Vol.27. Issue 7. P. 587-588.
9. Rahtu E., Salo M., Heikkil J., Flusser J. Generalized affine moment invariants for object recogn // Pattern Recognition. 2006. ICPR 2006. 18th International Conference on Vol. 2. P. 634637.
10. Flusser J., Suk T. Character Recognition by Affine Moment Invariants // Comuter Analysis of Images and Patterns (Lecture Notes in Computer Science. Vol. 719). Berlin: Springer, 1993. P. 572-577.
11. Кендалл M., Моран 77. Геометрические вероятности. M.: Наука, 1972.
12. Teh С.-Н., Chin R. On Image Analysis by the Methods of Moments // IEEE transactions on pattern analysis and machine intelligence. 1988. Vol. 10. N4.
13. Liao S. X., Pawlak M. On Image Analysis by moments // IEEE transactions on paLtern analysis and machine intelligence. 1996. Vol. 18. N 3.
14. Gouda I. Salama, A. Lynn Abbott. Moment Invariants and Quantization Effects // IEEE Computer Society Conf. on Computer Vision and Pattern Recognition. 1998. P. 157-163.
15. Жигалко E. Ф., Пахнушева M. Ю. О регуляризации пространства инвариантов // Обозрение прикл. и промышл. матем. 2009. Т. 16. Вып. 6. С. 1062-1064.
Статья поступила в редакцию 26 октября 2011 г.