МОДЕЛИРОВАНИЕ В ИНФОРМАТИКЕ
УДК 004.93'1:004.932
Р. И. Ш у в а л о в
РАСПОЗНАВАНИЕ ОБРАЗОВ НА ЦИФРОВЫХ ИЗОБРАЖЕНИЯХ НА ОСНОВЕ ТЕОРИИ ИНВАРИАНТОВ
Рассмотрена задача распознавания образов на цифровых изображениях и определения их положения, ориентации и масштаба относительно заданной системы координат. Описан метод решения этой задачи на основе вычисления инвариантов. Приведен алгоритм решения задачи.
E-mail: [email protected]
Ключевые слова: распознавание образов, цифровые изображения, инварианты, параметры геометрических преобразований.
В прикладных областях, связанных с цифровой обработкой изображений (дистанционное зондирование Земли, медицина, астрономия, системы компьютерного зрения), актуальна задача распознавания образов на изображениях и определения их положения, ориентации и масштаба относительно заданной системы координат [1]. Формализуем эту задачу следующим образом.
Даны два изображения, относительно которых предполагается, что:
1) изображения информативны (т. е. неоднородны и неизотропны);
2) одно изображение может быть получено из другого путем сложного преобразования, являющегося суперпозицией трансляции, поворота, масштабирования и наложения случайного шума:
/2 (X, yt ) = fi ((x cose-y sine) 5 + Ax, (x sine +y cose) 5 + Ay ) + ^( xt, yt);
(1)
(s cos в -s sine
5 sine s cose 0 0
Ут 1
J
Ax V x )
Ay 1
У
V1J
где / (х, у), /2 (, у{) — пара исходных изображений; в — угол
поворота второго изображения относительно первого; ^ — коэффициент растяжения (сжатия) второго изображения относительно первого; (Ах, Ау)т — вектор параллельного переноса второго изображения относительно первого; ] — реализация случайного шума.
Требуется проверить при заданном уровне значимости гипотезу о том, что два изображения значительно перекрываются (изображают большей частью одну и ту же сцену) и связаны функциональным преобразованием (1). В случае установления факта наличия функциональной связи оценить ее параметры (т. е. Ах, Лу, в, s).
Цифровое изображение. Изображение — функция двух аргументов f (х, у), определенная в некоторой замкнутой ограниченной
двумерной области П^ №2. Область П называется полем зрения и
обычно представляет собой прямоугольник П = |(х, у) е №2 :
0 < х < X, 0 < у < У). Если функция f является скалярной, то значение этой функции в любой точке (х, у) называют яркостью. Если величины х, у и f принимают лишь конечное число дискретных значений, то говорят о цифровом изображении. Цифровой обработкой изображений называется обработка цифровых изображений с помощью цифровых вычислительных машин (компьютеров). Цифровое изображение состоит из конечного числа элементов, каждый из которых расположен на конкретном месте и принимает определенное значение. Эти элементы называются элементами изображения, или пикселями — от англ. pixel (picture element).
Распознавание образов. Снятому физическому объекту на цифровом изображении соответствует некоторая группа изображающих его пикселей. Эта группа пикселей называется образом объекта. В более широком смысле образом объекта можно назвать любой хорошо определенный набор измерений характеристик этого объекта. Под распознаванием образов понимается отнесение данного образа к одному из ограниченного числа дискретных классов. Каждый класс обычно соответствует некоторому физическому объекту. Поэтому распознать заданный объект на изображении значит определить, может ли этот объект при некоторых условиях съемки дать заданный образ на изображении. Распознавание предполагает наличие априорной базы моделей образов распознаваемых объектов. В качестве модели образа может использоваться вектор числовых характеристик. Обнаружение образа объекта на изображении представляет собой статистическую задачу проверки гипотез, решение которой сводится к построению статистического критерия, позволяющего по выборочным данным отдавать предпочтение одной из конкурирующих гипотез. Гипотеза о наличии образа принимается, если различие между модельным и фактическим описанием (с учетом преобразования определенного вида, параметры которого предстоит оценить в случае принятия гипотезы) мало (ниже предвычисленного порога) и объяснимо погрешностями и шумом.
Основные причины сложности автоматического распознавания образов на изображениях:
• наличие в предъявленном образе случайного шума и искажений;
• заслонение одних объектов другими (нарушение однозначности и непрерывности отображения при формировании изображения);
• различие условий съемки (масштабирование, поворот, сдвиг, искажение формы образов или яркостного портрета);
• вычислительная ресурсоемкость.
Инварианты. Один из подходов к распознаванию образов основан на теории инвариантов. Он состоит в том, чтобы сравнивать с моделью не предъявленный образ, а некоторый набор характеристик, инвариантных по отношению к возможным преобразованиям, которые отличают наблюдаемый образ от его модели. Инвариантный подход предполагает три этапа: извлечение числовых характеристик, вычисление инвариантов и корреляция вычисленного инвариантного образа с модельным образом. Одно из преимуществ такого подхода заключается в легкости построения модели образа. Построение модели представляет собой вычисление набора инвариантов по одному предъявленному образу. При этом не требуется проводить измерения над распознаваемым объектом. Другое преимущество состоит в том, что инварианты могут быть использованы как индексы. Измеренное значение инварианта, являясь индексом, позволяет обращаться к модели по этому индексу за одну операцию без необходимости перебора всех имеющихся моделей. Если инвариантов много, индекс многомерный. Время распознавания не зависит от числа моделей. Инвариантное описание объектов является компактным. Основная трудность заключается в том, чтобы для заданного объекта найти инварианты возможных условий его съемки.
Инвариантом называется функция вектора характеристик, которая имеет одно и то же значение для всех преобразований этого вектора характеристик, составляющих группу [2]:
I(I) = I [т(1) ),
где I — инвариант; / — вектор характеристик; Т(•) е G — преобразование вектора характеристик, входящее в группу преобразований G.
Архитектура системы распознавания образов, использующей теорию инвариантов, имеет следующий вид:
1. Выделение характеристик, т. е. контуров, границ, характерных точек.
2. Группирование характеристик, относящихся к одному объекту (сегментация).
3. Вычисление вектора инвариантов по каждой группе характеристик.
4. Формулирование статистической гипотезы о принадлежности наблюдаемого образа соответствующему классу (о близости вычисленного вектора инвариантов к вектору инвариантов, задающему соответствующий класс).
5. Проверка статистической гипотезы против альтернативы. Спектр Фурье—Меллина. Согласно свойствам преобразования
Фурье, спектры Т^, изображений /1, /2 связаны уравнением
F2 (®x, ®y )
exp(-./2^(Дшх +byay)) f cosd-ay sin0 cox sind + ay cos0^
-2-Fi -' - ■
s ^ s s J
(2)
Переход к логарифмически-полярным координатам
0,
= exp (p)cos <p;
x
а = exp (p)sin^ и взятие амплитуды от правой и левой частей уравнения (2) дает F2 [ер cos^, epsinp)=1 F1 (e^"ln s cos (0 + p), ep~ln s sin (0 + <p));
F2-LP (A 9) = SiF1—LP (P~ ln S, в + (P), (3)
где F2_lp и F1-lp — спектры F2 и F1, представленные в логарифмически-полярных координатах.
Соотношение (3) показывает, что поворот на угол 0 и масштабирование с коэффициентом s являются сдвигами вдоль соответствующих осей в логарифмически-полярной системе координат. Взятие преобразования Фурье от функции FLP дает так называемый спектр Фурье—Меллина, инвариантный относительно циклического сдвига, поворота и растяжения (сжатия). Некоторые свойства преобразования Фурье—Меллина [3] указаны в табл. 1.
Таблица 1
Свойства преобразования Фурье—Меллина
Пространственная область Область спектра Фурье—Меллина
Поворот на угол (р Циклический сдвиг на величину Ав = (р
Масштабирование в s раз Сдвиг на величину A log p = —s
Итак, спектр Фурье—Меллина является инвариантным по отношению к преобразованию (1), если параметры Ах, Ау и ^ не очень велики, и его можно использовать для распознавания образов на цифровых изображениях [1, 3—8].
Алгоритм решения задачи. Приведем алгоритм решения задачи. 1. Взвешивание отсчетов внутри каждого изображения в соответствии с их удаленностью от центра (аподизация):
а(х, у) = а(х, у(х - х0, у -у0 ), Ъ (х, у) = Ъ (х, у(х - х0, у-у0), (х, у)еП, П = {(х, у)е №2 : 0 < х < X, 0 < у < г},
х0 -
X Y
, Уо = —
_ 2 _ _ 2 _
где а(х, у), Ъ(х, у) — пара взвешенных изображений; а(х, у), Ъ (х, у) — пара исходных изображений; (х, у) — весовая функция, придающая центральным пикселям изображения больший вес, чем пикселям, расположенным на периферии; (х0, у0 ) — файловые координаты центра каждого изображения; П — поле зрения; X, У — ширина и высота исходных изображений, выраженные в пикселях; — операция округления вниз до ближайшего целого числа.
В качестве весовой функции можно использовать одну из оконных функций, приведенных в табл. 2:
/ ч 2жп 4жп
'[п) = с0 - с1 СОБ-
w I
N -1
+ c2 cos
N -1
n = 0, N -1.
Таблица 2
Некоторые оконные функции
Оконная функция со с1 С2
Прямоугольная 1 0 0
Ханна 0,5 0,5 0
Хэмминга 0,53836 0,46164 0
Блэкмана (а = 0,16) (1 -а)/2 0,5 а/ 2
2. Умножение каждого изображения на функцию (-1)х+у, для того чтобы нулевая частота вычисляемого на следующем этапе спектра Фурье оказалась в центре:
а0 (х, у) = (~1)х+у а (х, у), Ъ0 (х, у) = (-1)х+у Ъ (х, у).
3. Дополнение изображений а0, Ь° нулями во избежание ошибок перекрытия спектров [9] и для приведения размеров изображений к виду 2" (п — натуральное число).
4. Двумерное быстрое преобразование Фурье (БПФ) изображений пары:
A (ах, ^ ) = F [.i0 (x, y)], B (®x, ®y) = F [¿0 (x, y)
(®x, ®y) S = {(®x, ®y У
• -Q <0 <Q -Q <0 <Q
_ x _ x' y _ y _ y
где A(а>х, 0у), 5 (ax, 0у) — спектры изображений; F [•] — оператор БПФ.
5. Фильтрация верхних частот:
А(ах, 0y) = А(0Х, 0^)Н(ах, ау), В, ау) = В, ау)я, 0у).
Например, может быть использован фильтр со следующей передаточной функцией:
H {ах, 0у) = (l - cos^0x cos^0y) (2 - cos^0x cos^0y
-0,5 <0x, 0y < 0,5.
6. Пересчет амплитуды спектра Фурье каждого из изображений в логарифмически-полярную систему координат:
А (Л Ф) = |А (®х (л (P), ®у (л 0>))|,
В (л <р) = |В (®х (у0, (p), Оу (л 0>)) , (А р)еР, Р = {(р, 2: 0 <p<log^Q^ToJ, ,
0x = qp cos
- „р
(oy - qr sin (p,
где q — основание логарифма (выбирается в зависимости от требуемой точности).
Так, при фиксированном исходном размере R = + Q2y и заданном коэффициенте изменения числа отсчетов Я для определения q получаем уравнение log R = ÁR.
Алгоритм перехода к логарифмически-полярной системе координат таков. Задаем равномерную прямоугольную сетку на Р; последовательно заполняем ее узлы, вычисляя для каждого узла (р, точку
и определяя значения
A(®x, ®y) и B(®x, ®y)
линеи-
нои интерполяциеи.
7. Повторное двумерное БПФ изображений пары (вычисление спектров Фурье—Меллина):
А (тх, ту ) = Р [А (л 0>)], в (тх, ту ) = Р [в{Р, 0>)], (тх, ту М,
М = [{тх, ту )е №2 : - Мх < тх < Мх, - Му < ту < Му }.
8. Формулирование и проверка статистической гипотезы о равенстве спектров Фурье—Меллина А (тх, ту ), В (тх, ту ) изображений
а(х, у), Ь(х, у). Если различие спектров Фурье—Меллина оказывается статистически значимым, то алгоритм прекращает свою работу — изображения не перекрываются.
9. Перемножение спектров Фурье—Меллина и нормализация произведения:
С ( mx, my )
A (mx, my )B* (mx, my )
A (mx, my )B (mx, my)
где — знак комплексного сопряжения.
10. Обратное преобразование Фурье от результата:
D (р, <р) = F 1 С [mx, my )
11. Поиск абсолютного максимума изображения D (р, путем
перебора его элементов. Получение оценок угла поворота и коэффициента растяжения (сжатия) второго изображения относительно первого:
[#, s] = argmax D (р, ср).
12. Компенсация масштаба и поворота второго изображения.
13. Оценивание сдвига (Ax, Ар У второго изображения относительно первого путем двумерной корреляции (с вычислением свертки
на основе свойств БПФ) компенсированного (на шаге 12) второго изображения с первым.
14. Компенсация сдвига второго изображения относительно первого, если необходимо.
Заключение. Описано решение задачи распознавания образов на цифровых изображениях методами теории инвариантов. В качестве набора инвариантов рассмотрен спектр Фурье—Меллина, слабо изменяющийся при повороте, небольших изменениях масштаба и смещениях образа относительно фона на цифровом изображении. Приведен алгоритм распознавания образа объекта и определения его положения, ориентации и масштаба относительно заданной системы координат на изображении.
СПИСОК ЛИТЕРАТУРЫ
1. Мясников Е. В. Определение параметров геометрических трансформаций для совмещения портретных изображений // Компьютерная оптика. - 2007. -Т. 31, № 3. - С. 77-82.
2. Ab d all ah S. M. Object recognition via invariance: PhD thesis. Sydney: The University of Sydney, 2000.
3. Ayyalasomayajula P., Grassi S., Farine P. - A. Low complexity RST invariant image recognition using Fourier-Mellin Transform // 19th European Signal Processing Conf. (EUSIPCO 2011), Barcelona, Spain, Aug. 29 - Sept. 2, 2011.
4. Wisetphanichkij S., Dejhan K. Fast fourier transform technique and affine transform estimation-based high precision image registration method // GESTS Int'l Trans. Computer Science and Engr. - 2005. - Vol. 20. - N 1. - P. 179-191.
5. Sheng Y., Arsenault H. Experiments on pattern recognition using invariant Fourier-Mellin descriptors // J. Opt. Soc. Am. - 1986. - A/Vol. 3. - N 6. -P. 771-776.
6. Reddy B., Chatterji B. An FFT-based technique for translation, rotation, and scale-invariant image registration // IEEE Transactions on Image Processing. Aug. 1996. - Vol. 5. - N 8. - P. 1266-1271.
7. M c G u i r e M. An image registration technique for recovering rotation, scale and translation parameters // NEC Research Institute, Princeton NJ, 1998.
8. Abdelfattah R., Nicolas J., Tupin F. Interferometric SAR image coregis-tration based on the Fourier-Mellin invariant descriptor // IEEE. - 2002. - P. 13341336.
9. Гонсалес P., Вудс P. Цифровая обработка изображений. - M.: Техносфера, 2005.
Статья поступила в редакцию 03.07.2012.