УДК 004.931
Инварианты в задачах распознавания графических образов
Зуй Тхань Нгуен
Кафедра информационных технологий Российский университет дружбы народов ул. Миклухо-Маклая, д. 6, Москва, Россия, 117198
Рассматривается задача анализа и выбора информативных признаков, являющихся яркостными и геометрическими инвариантами. Предложен аналитический обзор работ, в которых поднималась проблема построения инвариантов и решались практические задачи. В числе инвариантов к мультипликативным и аддитивным преобразованиям яркости рассмотрены коэффициент корреляции, нормализованная гистограмма, некоторые отношения особых отрезков линий и углы. Рассмотрены как простейшие геометрические, так и интегральные инварианты, устойчивые к аффинным преобразованиям, а также к преобразованиям растяжения. Среди всех геометрических инвариантов выделяются инварианты Ии, интерес к которым не ослабевает и в настоящее время. Поскольку в первоисточниках отсутствуют доказательства утверждений об инвариантности, то большое внимание уделяется проверке на некоторых моментах инвариантности к часто употребляемой операции поворота. Рассмотренные признаки можно использовать для решения задач распознавания графических образов, измерения расстояний, анализа сложных сцен. Предполагается, что в дальнейшем на основе яркостных и геометрических инвариантов будут решены задачи распознавания лиц человека. Статья предназначена для широкого круга аспирантов и инженеров, занимающихся задачами распознавания графических образов в различных приложениях.
Ключевые слова: изображение, графический образ, распознавание, яркостные инварианты, инвариантные моменты, аффинные преобразования, растяжения.
1. Введение
В задачах распознавания графических образов желательно иметь такие характеристики изображения, которые не зависели бы от масштаба, ориентации и качества анализируемого снимка. Такие характеристики называют инвариантами. Широкое распространение получили яркостные и геометрические инварианты изображений [1,2]. Инварианты полезны тем, что способны при определённых условиях выступать в роли существенных признаков, передающих характерные особенности изображения. Они позволяют проводить корректное сравнение изображений подвергнутых, преобразованиям, что увеличивает вероятность получения правильного решения. Это могут быть, например, аффинные преобразования, растяжения, изменения яркости и контрастности.
Инвариантный подход к распознаванию является одним из немногих подходов, допускающих точную математическую постановку задачи и позволяющих вырабатывать понятия классов объектов. Инварианты обладают способностью к обобщению, что является необходимым атрибутом искусственного интеллекта, например искусственных нейронных сетей [3].
Разобьём множество всех изображений объектов на снимке или множестве снимков, представляющих интерес, на непересекающиеся классы таким образом, чтобы каждый класс состоял из всех таких изображений, которые отличаются друг от друга лишь преобразованием указанной группы. Задача распознавания заключается в том, чтобы для произвольного изображения объекта на снимке определить, к какому классу он относится.
Задачу математически можно было бы решать путём построения полной системы инвариантов от изображений объектов относительно преобразований группы, значения которых постоянны в пределах каждого класса и различны для любых двух разных классов. Однако, следует отметить, что реальное распознавание объектов усложняется тем, что инварианты объектов, на самом деле, вследствие влияния различных факторов, например помех, могут флуктуировать, они являются
Статья поступила в редакцию 18 ноября 2015 г.
«субинвариантами». В этой связи в качестве методов распознавания приходится привлекать вероятностные подходы и специальные метрики сравнения инвариантов, например метрику Евклида-Махаланобиса [4].
В некоторых случаях авторы оригинальных работ не приводят необходимых доказательств, подтверждающих инвариантность предложенных характерных признаков. Таким образом, утверждение об инвариантности носит характер гипотезы и требует перепроверки.
2. Яркостные инварианты изображений
Цифровое изображение обычно является результатом дискретизации непрерывной функции f(x, у) и хранится в компьютере в виде двумерного массива 1(г, j), где г = 0,1,2,..., Nx — 1 и j = 0,1, 2,... ,Ny — 1. Каждый элемент этого массива представляет собой пиксель с интенсивностью I(i, j), изменяющейся в диапазоне от 0 до L — 1. Величина L обычно является степенью двойки (например, 64, 256) и называется глубиной изображения [5].
Пусть исходные изображения представлены в формате JPEG и цветовой модели RGB. Для дальнейшей работы часто достаточно воспользоваться полутоновым изображением (изображением в градациях серого) [6]. Согласно стандарту ITU-R BT.601 яркость отдельного пикселя в таком случае определяется по формуле z = 0.56 G + 0.33 R + 0.11В, где R, G и В представляют собой компоненты вектора в пространстве RGB.
По отношению к мультипликативным изменениям яркости инвариантами выступают следующие соотношения [1]:
Вшгп Вшах
Вт,ах Вср Вср
где Втin, Втах, Вср — соответственно минимальное, максимальное и среднее значения яркостей изображения, В) = ^ — Вср\.
г,0
В случае аддитивного преобразования, инвариантами являются
В В , В В .
Инварианты по отношению к аддитивному и мультипликативному преобразованию можно получить следующим образом:
Втах Вmín, Втах + Втгп 2Вср.
Коэффициент корреляции, часто используемый для сравнения изображений, имеет вид
1R(ВьВ2)= <В',В2 > , iR( 1 2) \\В1 \\\\В2\\ ,
где В = \Вij\ — матрица яркостей пикселей, (г,j = 0,1,...п), < В1,В2 >= ,])В2(г,j) — скалярное произведение двух матриц (г,j G R), \\В\\ — i з _
норма матрицы В, \\В\\ = Y1 В2(г, j).
У i,3€R
Для того, чтобы корреляционный коэффициент был инвариантом к аддитивным и мультипликативным преобразованиям, используют формулу
1R (В1,В2 )= <В1,В2 > , 1R ( 1 2 ) \\В1 \\\\В2\\ ,
где Вк (г) = Вк (г) — Вк, где Вк — среднее арифметическое яркостей изображения.
Коэффициент корреляции вычисляют при наложении одного изображения на другое, причём сравнение происходит по соответствующим пикселям.
3. Геометрические инварианты изображений
Как отмечалось ранее, геометрические инварианты — это такие характеристики изображения, которые не зависят от масштаба, ориентации, качества снимка. Рассмотрим задачу получения инвариантов по отношению к аффинным преобразованиям.
3.1. Простейшие геометрические инварианты
Инвариантами к операции плоского поворота изображения объекта являются площадь 5 и длина контура изображения Ь.
Пусть (х,у) — центр изображения, с!таХ1 dmin — максимальное и минимальное значения расстояний до границы изображения, как показано на рис. 1.
Рис. 1. Пояснения к задаче построения геометрических инвариантов
Тогда инвариантами к операции масштабирования и поворота являются: —ш
а — угол между dm■m и dmax,
Ь
2Б
Опишем вокруг отдельного изображения окружность, тогда инвариантом к повороту и масштабированию будет отношение ——, где 5 — площадь изображения, — площадь описанного круга.
На свойстве подобия окружностей может быть построен метод сравнения и распознавания сложного изображения. Для этого отдельные изображения представляются совокупностью вписанных в него кругов. Таким образом, паре (эталонное и тестируемое изображение) сопоставляется вектор, компонентами которого являются радиусы и координаты центров соответствующих кругов. Исходя из этого можно найти расстояние между изображениями.
Яркостные и геометрические характеристики могут быть связанными. Будем рассматривать функцию яркости изображения как стационарный случайный процесс [7]. В этом случае искомыми признаками для каждого снимка будут служить числовые характеристики случайного процесса. К наиболее часто используемым признакам относятся яркостные характеристики, такие как гистограмма распределения значений яркости на изображении. Составим нормализованную гистограмму для каждого исходного изображения:
, , Щ ) = — >
п
шах
где Пг — количество пикселей яркости (интенсивности) = 0,...,Ь - 1), п — общее число пикселей в изображении, Ь — количество градаций. Величина является оценкой вероятности появления пикселя с интенсивностью Zi. Следовательно, выполняется условие нормировки:
Е ры=1.
к=0
Нормализация гистограммы позволяет избежать зависимости результатов распознавания от масштабирования.
3.2. Коэффициенты тейлоровского разложения
В работе [8] определяются и исследуются четыре дифференциальных инварианта точки изображения относительно изменения масштаба и поворота. Будем предполагать, что функция яркости /(х,у) дважды дифференцируема, тогда справедливо разложение Тейлора второго порядка с центром в произвольной точке области (рис. 2). Предположим, что снимок подвергся преобразованию (повороту и растяжению).
Рис. 2. Прямоугольная сетка дискретного изображения
Рассмотрим разложение функции / (х,у) с центром в точке (2, 2). Если найти значение данного разложения в узлах сети согласно рис. 2 и приравнять их данным , то в результате получим систему из 9 уравнений на 6 неизвестных коэффициентов тейлоровского разложения. В матричной форме можно записать: А * X = Р, где X — столбец неизвестных коэффициентов а, р1, р2, Ь11, 612, 622; ^ — столбец значений функции в узлах /22, /12, /21, /23, /32, /11, /13, /зз, /31.
Матрица А равна
А =
1 0 0 0 0 0 \
1 -Л1 0 Л? 2 0 0
1 0 -^2 0 Л2 2 0
1 0 0 Л2 2 0
1 Л1 0 Л? 2 0 0
1 -Л1 -^2 Л? 2 Л2 2
1 -Л1 Л? 2 Л2 2
1 Л1 Ъ2 Л? 2 Л2 2
1 Л1 -Ь,2 Л? 2 л2 2 /
Решая систему по методу наименьших квадратов, получим
X = А-1 *Г,
где псевдообратная матрица А-1 равна
/5 2
п п
л-1 =
0 - ёк 0
2
"3h? 2
"3h|
"3h|
V
2 2 2 1 1 1 1
9 9 9 9 9 9 9
0 0 1 1 1 1 1
6hi 6hi 6hi 6hi 6hi
1 1 0 1 1 1 1
6h2 6h2 6h2 6h2 6h2 6h2
2 2 1 1 1 1 1
3h? 3h? 3h1 2 3h1 3h? 3h? 3h?
3hJ 0 Щ 0 3h2 0 12 2 Щ 12 Щ 2
4hih2 4hih2 4hih2 4hih2
0 __^
u д k _ с и _
1
3h2
/
Теорема. Для квадратичной функции f(x, у) формула X = А-1 * F даёт точные .значения коэффициентов тейлоровского разложения второго порядка с центром в данной точке.
Следствие. Для квадратичной функции f(x, у) эта формула позволяет вычислить точные значения инвариантов. Аналогичные исследования выполнены в работах [9-11].
0
0
3.3. Инвариантные моменты
Значительных успехов достигла теория инвариантных моментов, основанная на поиске интегральных инвариантов. Математиком Ни в работах [2, 12] были предложены семь моментов, инвариантных к группе аффинных преобразований. Можно показать методом прямой подстановки соответствующих преобразований и коэффициентов в выражения для моментов и эквивалентных преобразований, что выражения, полученные Ни, действительно являются инвариантами к операции сдвига и масштабированию.
Доказательство инвариантности к операциям сдвига не представляет затруднений. Проверка инвариантности моментов к операции масштабирования содержится в работе [13].
Покажем на нескольких примерах, что моменты Ни(т,1, т2, ...т?) являются инвариантами к операции поворота изображения вокруг начала координат. Для этого будем пользоваться выражением для центральных моментов бинарного изображения:
1 М _ _ трч = - х)р( ш - у)ч,
¿=1
где р + д ^ 3, (хi, у¿) — искомая точка изображения, (х, у) — центр изображения, N — число точек изображения.
а. Проверка инварианта т1:
1 * _ _
т1 = то2 +т20 = -^^[(хн - х)2(yi - у)2].
¿=1
Подставив соответствующее преобразование поворота точек изображения вокруг начала координат на угол, получим
1 N
mi = N£
i=1
(, . / cos a \ , . ( cos a V.
(xi Vi) • - (x y) . +
у4 \ — sma J \ — sin a J 1
+ ((* *)(™а) - (х Ю( sin(M)2
у4 7 у cosa J 4 7 у cosa J J
Достаточно воспользоваться следующим утверждением,
(а Ь) ( COSa + ((а Ь) ( Sina = а2 + б2 у — sin a J J y y cosa J J
и рассмотреть выражение в квадратных скобках sin a sin a
(, . / cosa \ . . / cosa . . [(Xi Уг){ — sm a) — (Х ^Ч-^ ~ П +
+ ((* У— (х y)(c'ina)) ==
cos a cos a
= ((х — Х Уг — V ( —claa )) + ((х — Х Уг — V ( consaa ))
= (Х{ -Х)2 + (Уг - у)2.
Таким образом, выражение в скобках является инвариантом, что и требовалось доказать.
Ь. Проверка инварианта т2:
Ш2 = (Ш20 — Ш02)2 + 4m?!
(jf £ [(X* — X)2 — (Уг — У)2^ + ^j £ [(X* — X) (Уг — У)])
Утверждение 1.
а 6)^ ^osn^a )) —(у (а ansa )) = (а2—b2)(cos2a—ún2a)—4ob sina cosa.
Рассмотрим выражение по частям. Первая часть выражения:
1 N
Ш20 — т02 = j Е ¿=1
. ( cosa \ ._ _. ( cosa \ (x¿ yí) • — (X у)\ .
— sin a — sin a
(, sina \ ,__./ sina
— [(х ^ cosa J — (X y)
cos a cos a
2
Ш20 — m-02 =
N
-y
N ^
i=1
((х X Уг — Ъ ( —cosnaa )) — ((х X Уг — Ъ ( cora ))
1
N
' N
[((x» — X)2 — (Ví — y)2)(cos2a — sin2a) — 4(x¿ — X)( yi — y) sina cosa
2
(т20 - то2)2 = г м
N 2
X
^ [((х» - х)2 - (Уг - у)2)(сов2а - вт2а) - 4(х» - х)(уг - у) в1
г=1
— у) втасова
((хг - х)2 - (уг - у)2)(сов2а - вт2а) - 4(х» - х)(уг - у) вт а сов а
(хг - х)2 - (уг - у)2 (сов2а - вт2а)2-
—\ 2
22
- 8
(хг - х)2 - (Уг - у)2 (сов2 а - вт2а)2 сов а вт а(хг - х)(Уг - у) +
-л 2
+16
(х{ - х) (уг - у) сов2авт2а
Рассмотрим вторую часть:
(-1 ё
\ i=1
4т21 =4 Л(хг -х) (Уг -■■
( м
\г=1
4 (Л . / сов а \ ._ _. / сов а N42 (£ .^а) - (х -вт 1 ,х
/. . /вт а\ /вт а\ 4 4 2
х (хг Уг) - (х у)\
у4 7 усов ау 4 ' усовау
сов а - уг вта - х сов а + у вт а) (х» вт а + ^ сов а - х вт а - у сов а)
N
= —2 ( ^ ^ - х сов а - (Уг - у) вт а) (хi - х) вт а + (уг - у) сов а ) =
чг=1
/ N (Е'
\г=1
—2 I / .¿(х* - х сов а - (Уг - у) вт а) (хi - х) вт а + (уг - у) сов а
( М Е
\г=1
= ДТ2 I ((х» - х)2 сов а в1па - (хг - х)(Уг - у) вт2 а +
/ N Е
\г=1
+ (хг х)(Уг - у) сов2 а - (уг - у)2 совавта)) =
= —2 I ^ ^ - х)2 - (Уг - у)2 сов а вта + (х» - х)( уг - г/)(сов2 а - вт2 а)) ) =
/ м Е
\г=1
У
= —2 ' ^ [((х^ - х)2 - (Ш - У)2)2 сов2 а а +
+ 2((хí - х)2 - (уг - у)2) сов а вт а(х» - х)(у1 - у)(сов2 а - вт2 а)+
+ (хг - х)2(Уг - |7)2(сов2а - вт2а)2]) .
2
х
2
2
2
2
2
Собирая обе части, получим
1 N -У
N ^
i=l
(xi — х) — (yi — у) (cos2a — sin2«)2 —
8
(xi — x)2 — (yi — y)2 (cos2« — sin2«)2 cos a sin a(x^ — x)(yi — y)+
—\2
22
16
+
(x^ — x)2 (yi — y)2cos2asin2a 4(x» — x)2 — (yi — y)2)2 cos2asin2a+ 8((x» — x)2 — (yi — yf) cos a sin a(xi — x)(yi — |/)(cos2a — sin2a)+
4(x» — x)2( yi — y)2(cos2a — sin2a)2 = _ 2 p ^ (xi — x) — (yi — y) (cos2a — sin2a) + 4cos2asin2a
+
+
(xi — x)2 (yi — y)2 4(cos2a — sin2a)2 + 16cos2asin2a
2
—\2
2
(xi — x)2 — (yi — yf
+ 4
(xi — x)2( yi — yf
X
, 2 • 2 \ 2 a 2-2
(cos a — sin a) + 4cos asm a
(x — x)2 — (yi — yf
+4
(xi — x)2( yi — y)2 ) (cos2a + sin2a)
—\ 2
(xi — x)2 — (yi — y)
—\ 2
+4
(xi — x)2( yi — y)
—\ 2
Что и требовалось доказать.
Аналогично проводится проверка для других моментов, что требует несколько большего объёма преобразований. Эти доказательства в настоящей работе не приводятся ввиду их громоздкости.
4. Заключение
В статье выполнен обзор работ, который позволил выявить несколько полезных инвариантов к преобразованиям яркости и аффинным преобразованиям. Показано, что в качестве инвариантов могут выступать как очень простые признаки, так и сложные интегральные признаки, которые являются более устойчивыми к различным помехам. К их числу можно отнести коэффициенты тейлоровского разложения изображения и инварианты Ни. Для двух моментов Ни продемонстрирована их инвариантность к операции поворота. Работа выполнена в рамках проекта Программы фундаментальных исследований ОНИТ 1 РАН «Интеллектуальные информационные технологии, системный анализ и автоматизация».
Литература
1. Путятин Е. П., Аверин С. И. Обработка изображений в робототехнике // Машиностроение. — 1990. — Т. 320. — С. 1-320.
2. Wong R. Y., Hall E. L. Scene Matching with Invariant Moments // Computer Graphics and Image Processing. — 1978. — Vol. 9, No 8. — Pp. 16-24.
3. Шмидт А. А. Инвариантные методы в теории распознавания изображений // Дисс. на соиск. учен. степени к.ф.-м.н. — 1984. — Т. 164. — С. 1-164.
4. Хачумов М. В. Расстояния, метрики и кластерный анализ // Искусственный интеллект и принятие решений. — 2012. — Т. 9, № 1. — С. 81-89.
5. Theodoridis S., Koutroumbbas K. Pattern Recognition. — 2003.
6. NTSC. — http://en.wikipedia.org/wiki/NTSC.
x
(
2
2
7. Сойфер В. А. Методы компьютерной обработки изображений // Физматлит. — 2003.
8. Самарина О. В., Славский В. В. Инварианты изображения относительно поворотов и растяжений // Вестник СамГУ. - Естественнонаучная серия. — 2007. — Т. 10, № 9/1(59). — С. 128-137.
9. Peter J. O. Equivalence, Invariants, and Symmetry // Cambridge University Press. — 1995.
10. Walker K. N., Cootes T. F., Taylor C. J. Locating Salient Facial Features Using Image Invariants. Medical Biophysics. — UK, 1998.
11. Gouet M. V., Montesinos P., Pele D. Stereo Matching of Color Images Using Differential Invariants. — International Conference on Image Processing, 1999.
12. Hu M. K. Visual Pattern Recognition by Moment Invariants // IRE Transactions on Information Theory. — 1962. — Vol. 8. — Pp. 179-187.
13. Абрамов Н. С., Фраленко В. П. Определение расстояний на основе системы технического зрения и метода инвариантных моментов // Информационные технологии и вычислительные системы. — 2012. — № 4. — С. 32-39.
UDC 004.931
Invariant in the Pattern Recognition Duy Thanh Nguyen
Department of Information Technology Russian Peoples' Friendship University 6, Miklukho-Maklaya str., Moscow, Russia, 117198
Consider the problem analysis and selection of informative features, which are the luminance and geometric invariants. An analytical overview of the works, which raises the problem of constructing invariants and solve practical problems. Among the invariants to the multiplicative and additive transformations brightness discussed the correlation coefficient, the normalized histogram of some special relationship of line segments and angles. It is considered as the simplest geometric and integral invariants resistant to affine transformations, as well as the transformation strain. Among all geometric invariants allocated invariants Hu, in which interest is not waning and now. Since there is no evidence in the original sources of the invariance of the allegations, the great attention is paid to checking on some points invariance to rotation of frequently used operations. The above features can be used for solving problems of pattern recognition, distance measurement, analysis of complex scenes. It is expected that in the future on the basis of brightness and geometric invariants will be solved the problem of recognizing individual rights. This article is intended for a wide range of post-graduate students and engineers involved in pattern recognition tasks in various applications.
Key words and phrases: image, graphical image, recognition, brightness invariants, invariant moments, affine transformations, stretching.
References
1. E. P. Putyatin, S. I. Averin, Image Processing in Robotics, Mechanical engineering 320 (1990) 1-320, in Russian.
2. R. Y. Wong, E. L. Hall, Scene Matching with Invariant Moments, Computer Graphics and Image Processing 9 (8) (1978) 16-24.
3. A. A. Schmidt, Invariant Methods in the Theory of Image Recognition, Diss. on soisk. scientists. PhD degree. Physics and Mathematics 164 (1984) 1-164, in Russian.
4. M. V. Khachumov, Distances, Metrics and Cluster Analysis, Artificial Intelligence and Decision Making 9 (1) (2012) 81-89, in Russian.
5. S. Theodoridis, K. Koutroumbas, Pattern Recognition, Elsevier Academic, 2003.
6. Ntsc.
URL http://en.wikipedia.org/wiki/NTSC
7. V. A. Soifer, Methods of Computer Image Processing, FIZMATLIT, 2003, in Russian.
8. O. V. Samarin, V. V. Slavskii, Image Invariants with Respect to Rotations and Dilations, Vestnik of SSU. — Natural Science Series 10 (9).
9. P. J. Olver, Equivalence, Invariants, and Symmetry, 1995.
10. K. N. Walker, T. F. Cootes, C. J. Taylor, Locating Salient Facial Features Using Image Invariants. Medical Biophysics, Manchester University, UK, 1998.
11. M. V. Gouet, P. Montesinos, D. Pele, Stereo Matching of Color Images Using Differential Invariants., International Conference on Image Processing.
12. M. K. Hu, Visual Pattern Recognition by Moment Invariants, IRE Transactions on Information Theory 8 (1962) 179-187.
13. N. S. Abramov, V. P. Pavlenko, Distances Based Vision System and Method of Invariant Moments, Information technology and computer systems (4) (2012) 3239, in Russian.