Метод стягивающихся оболочек для восстановления рукопечатных символов

Пиманкин Д.А.; Кисельман Б.А.

ИНФОРМАТИКА И СИСТЕМЫ УПРАВЛЕНИЯ

УДК 004.932

Д.А. Пиманкин, Б.А. Кисельман

МЕТОД СТЯГИВАЮЩИХСЯ ОБОЛОЧЕК ДЛЯ ВОССТАНОВЛЕНИЯ РУКОПЕЧАТНЫХ СИМВОЛОВ

Нижегородский государственный технический университет им. Р.Е. Алексеева

Предложен адаптивный метод восстановления искаженных бинарных изображений, основанный на последовательном уменьшении среднего расстояния между объектом и его оболочкой. Показана возможность его применения для восстановления рукопечатных символов.

Ключевые слова: оптическое распознавание символов, восстановление изображений, морфологическая обработка, метод стягивающихся оболочек.

Введение

Задача оптического распознавания символов вообще и рукопечатных (написанных от руки печатных символов), в частности, состоит в поиске соответствия между символом и образцами (шаблонами), что зачастую существенно затруднено искажениями входных бинарных изображений. Искажения могут проявляться в виде шумов, разрывов линий и т.д. [3, 4].

Определим изображение двумерной функцией fx, у) пространственных координат x и у. Значение функции в каждой точке, задаваемой парой координат, соответствует интенсивности изображения в этой точке. В цифровом представлении координаты x и у принимают дискретные значения: x = 0, 1, ..., M - 1, у = 0, 1, ..., N - 1. M и N - соответственно высота и ширина изображения в пикселях. В дальнейшем будем вести речь лишь о бинарных изображениях, поэтому будем считать, что fix, у) в каждой точке её определения может принимать лишь два значения: 1 для объекта и 0 для фона.

Рис. 1. Пример искажения изображения при условии F' с F

Поставим в соответствие каждому пикселю изображения точку p, = (x,, у,).

Определим множество точек F = {p, : i = 1, 2, ..., KFиf(pi) = 1}, соответствующих единичным пикселям изображения. Очевидно, что мощность этого множества KF < M • N.

Под искаженным будем понимать некоторое изображение f(x, у). Определим множество точек F' = {p, : i = 1, 2, ..., KF' и f(pl) = 1}, соответствующих единичным пикселям искаженного изображения. Будем рассматривать лишь случай F' с F (и, соответственно, KF' < KF). При этом случай F' = F (KF' = KF) означает отсутствие искажений.

Пример подобного искажения приведен на рис. 1.

Устранение искажений методами морфологической обработки

Задачей восстановления изображения является нахождение некоторой функции g(x, y), наиболее близкой в некотором смысле к функции fx, y). Определим множество точек G = [pi : i = 1, 2, ..., KG и g(pt) = 1}, соответствующих единичным пикселям восстановленного изображения g(x, y).

На практике для восстановления бинарных изображений (устранения шумов, разрывов линий и т. д.) рукописных и рукопечатных символов часто используют морфологическую обработку [1, 9]. Основу морфологических методов восстановления составляют операции дилатации и эрозии [11]. Дилатация изображения A по примитиву (структурному элементу) S определяется следующим образом: A Ф S = [z : (S)z П A Ф 0}. Эрозия изображения A по примитиву S определена как A Ф S = [z : (S)z е A }. Производной от операций дилатации и эрозии является операция замыкания, определенная как A • B = (A Ф B) Ф B.

Специфика задачи анализа и восстановления изображений рукописных и рукопечатных символов состоит в учёте теоретически бесконечного множества вариантов написания одного и того же символа.

Существенным недостатком применения морфологического замыкания для восстановления является то, что сложно заранее найти размер и форму оптимального примитива для этой операции, также тяжело проводить адаптацию под конкретные элементы символа.

Результат применения операции замыкания к искаженному бинарному изображению символа X приведен на рис. 2. Для восстановления использовался структурный элемент в виде окружности.

X X

а) б) в)

Рис. 2. Результат применения операции замыкания к искаженному изображению:

а - исходное изображение; б - после замыкания с окружностью радиусом 11; в - после замыкания с окружностью радиусом 21

Как видно из рис. 2, результат применения операции замыкания существенно зависит от примитива, по которому проводится замыкание. В данном примере использовались примитивы в виде окружностей различного диаметра по причине инвариантности их к повороту. Можно увидеть, что чем больше радиус окружности, тем лучше сглаживание краев. В то же время происходят сильные искажения в окрестности угловых точек - сглаживание углов. Построение морфологических фильтров, оптимально восстанавливающих изображение, является нетривиальной задачей [5-7].

Метод стягивающихся оболочек

В данной работе предлагается альтернативный метод восстановления поврежденных изображений.

Определим множество точек H = [pi: i = 1, 2, ..., KH}, соответствующих всем пикселям изображения. Тогда KH = M • N. Очевидно, что F' е F е H.

Метод основан на представлении изображения символа в следующей форме:

к

g=н - иа, (1)

i=0

х

где Qi - множество точек, ограниченных некоторой окружностью в системе координат 0ху.

Построим выпуклую оболочку множества точек F' - наименьший выпуклый многоугольник P, такой, что каждая точка pi е F' находится либо на границе многоугольника P, либо в его внутренней области. Обозначим множество точек, ограниченных многоугольником P, как CH, при этом F' ^ CH ^ H. Построение выпуклой оболочки производим одним из быстрых методов, например, методом сканирования по Грэхему (Graham's scan), методом обхода по Джарвису (Jarvis's march), методом декомпозиции (devide-and-conque method) и др. [10]. В силу специфики входных данных (дискретность координат и плотность расположения точек) часть точек можно быстро отбросить, тем самым ускорив работу алгоритма.

Пусть многоугольник P имеет L вершин (p1, p2, ..., pL). Обозначим lij = (pi, pj) стороны многоугольника. Любой из отрезков Ц можно представить как дугу окружности бесконечного радиуса. С учетом этого перепишем формулу (1) следующим образом:

K

g=н - uq = н - иа - UQ=сн - UQ

(2)

=l+i

=l+1

где Qi, i = 1, 2, ., L - множества точек, ограниченных окружностями бесконечного радиуса (окружностями, вырожденными в прямые), при этом Qi П F' = {0}, i = 1, 2, ..., L.

Рассчитаем преобразование расстояний (distance transform) для изображения символа. Значение преобразования расстояний в каждой точке равно наименьшему евклидову расстоянию от этой точки до ненулевого (в данном случае единичного) пикселя [8]:

d (p ) = min

qteF

p - q\\), p е H.

(3)

На рис. 3 приведено изображение символа W (слева) и рассчитанной для него нормированной функции d(x, у) (справа).

W

Рис. 3. Изображение символа Ш (слева) и соответствующей ему функции й(х, (справа)

Поставим в соответствие каждой линии l величину w как меру среднего евклидова расстояния между символом и линией:

w =

| d (x, y )dl

l_

J dl

(4)

Обозначим ^ах линию с максимальным значением w ^шах).

Пусть QL+l - множество точек, ограниченных окружностью, проходящей через концы линии ^ах - точки A, B и некоторую третью точку C е F', при этом QL+l П F' = {0}. Точку С выберем из условия максимизации |QL+1 П CH\.

Найдем координаты центра и радиус окружности, проходящей через точки A, B и C. Как известно, уравнение такой окружности записывается следующим образом:

L

1

det

x2 + У2 x У

x2 + У12 x1 У1 1

x2 + У22 x2 У 2 1

x32 + Уз2 x3 Уз b

= 0.

(5)

Площадь треугольника ABC

(

S =1 • det 2

x

V x3

у Л

У 2 1 Уз 1

(6)

Найдем x0 и y0 - координаты центра окружности:

^„2

x„ =--det

0 4S

xi + У1 У1 1

x2 + Уг У2 1 x32 + Уз2 Уз 1

1 ,

У0 =---det

0 4S

^x2 + У12 x1 1

x22 + У22 x2 1

x32 + У32 x3 1

(7)

(8)

Радиус окружности

r = V(x0 - x1 )2 +(У0 - У1)'

(9)

Найденная окружность делится точками А и В на две дуги. Пусть точка В лежит в направлении обхода оболочки по часовой стрелке от точки А. Тогда обозначим за АВ дугу, такую, что для любой точки С е АВ можно записать

(б - А)-(с - В)< 0. (10)

Здесь векторное произведение у1 • у2 интерпретируется как определитель матрицы:

V х v = det

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

x1 x2 ^

V У1 У2

= x^2 - x2 У1 =-V2 х V1

(11)

Точка С делит дугу АВ на две дуги АС и СВ.

Итак, Qi найдено, после этого выполняется следующее преобразование:

GM = Gt - Qi

(12)

После этого для каждой из новых дуг (АС и СВ) рассчитывается и и проводится следующая итерация. Одна итерация алгоритма представлена на рис. 4.

Рз

Рис. 4. Деление сегмента рр на сегменты рр и рр

Здесь выпуклая оболочка множества ¥' (показана сплошной линией на рис. 4, слева) образована точкамирьр2, ...,р7. Часть окружности, проходящей через точкирьр2 ир8 показана пунктирной линией. На данном шаге отрезокрр переходит в две дугирр ир8р2.

Предлагаемый метод заключается в последовательном приближении к изображению символа по мере стягивания его оболочки (метод стягивающихся оболочек, МСО). При этом на каждом шаге проявляется все больше и больше мелких элементов.

Последовательное приближение символа Ж дано на рис. 5.

В простейшем случае алгоритм повторяется пока > wthr, где wthr - заранее заданный фиксированный порог. Однако значительно лучших результатов можно достичь, адаптивно изменяя порог wthr.

Один из вариантов адаптации заключается в том, что каждому сегменту оболочки (каждой дуге) изначально присваивается некоторый уникальный идентификатор - Ю. В ходе работы алгоритма, при делении сегмента на два и более Ю сохраняется для большей части сегмента, т.е. для части, имеющей большую длину. Например, для рассмотренного случая точек А, В и С Ю сегмента АВ сохраняется для сегмента АС если АС / АВ > Т (Т = 0.5 ... 1). В случае, если АС / АВ < Т и ВС / АВ < Т, каждой новой дуге присваивается новый Ю. В ходе работы алгоритма для сегментов, сохраняющих один и тот же Ю продолжительное время, используется более низкие значения порога wthr. Такая адаптация является наиболее простой. На практике можно отслеживать изменения не только длины сегмента, но и угла его наклона, значения w и т.д.

Рис. 5. Последовательное приближение изображения символа "W" его оболочками

Экспериментальные исследования

Для испытаний использовались искаженные бинарные изображения символов размером 512^512 пикселей. Для восстановления применялся алгоритм с использованием двух порогов: wthr1 = 4.5 и wthr2 = 0.25. Низкий порог применялся для дуг со временем жизни Ю более J итераций, высокий - для дуг со временем жизни Ю менее J итераций.

Результаты восстановления символов с различными топологическими свойствами [2] (число Эйлера для символа X равно 1, для символа A - 0) при помощи операции замыкания и предлагаемого метода приведены на рис. 6.

а)

б)

в)

/ \ / \ / \

г;

д)

е)

Рис. 6. Сравнение результатов восстановления:

а, г - искаженные изображения; б, д - изображения, восстановленные при помощи операции замыкания (г = 17); в, е - изображения, восстановленные при помощи МСО

Таким образом, предлагаемый метод более эффективно устранил дефекты, при этом сохранилась форма в окрестностях угловых точек.

Выводы

Представленный метод позволяет рассматривать изображение в различных масштабах детализации. Сначала изображение грубо представляется описывающей выпуклой областью. С каждой новой итерацией мы имеем все более детальное представление изображения.

Алгоритмическая реализация допускает достаточно гибкую настройку в зависимости от специфики входных данных. Преимущества метода:

• во-первых, на каждом шаге известна вся предыстория, мы можем активно управлять дальнейшим процессом - адаптировать его под конкретный элемент обрабатываемого символа путем изменения порогов;

• во-вторых, метод не использует понятие связности пикселей, так как работает уже не с самими пикселями, а с точками на плоскости.

Недостатком метода является существенно меньшая скорость работы по сравнению, например, с выполнением морфологического замыкания. Введение ряда приближений и «послаблений», возможно, позволит сократить вычислительные затраты.

Библиографический список

1. Donggang, Yu. Reconstruction of broken handwritten digits based on structural morphological features / Donggang Yu, Hong Yan // Pattern Recognition. 2001. 34(2). P. 235-254.

2. Gonzalez Rafael C. Digital Image Processing, 3rd edition / Rafael C. Gonzalez, Richard E. Woods // Pearson/Prentice Hall. 2008.

3. Jyotirmoy Banerjee. Contextual Restoration of Severely Degraded Document Images / Jyotirmoy Banerjee, Anoop M. Namboodiri, C. V. Jawahar // IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2009). 2009. P. 517-524.

4. Roy, K. A System for Joining and Recognition of Broken Bangla Numerals for Indian Postal Automation / K. Roy, U. Pal and B. B. Chaudhuri // 4th Indian Conference on Computer Vision, Graphics and Image Processing. 2004. P. 581-586.

5. Serra, J. Image Analysis and Mathematical Morphology / J. Serra. - New York: Academic Press 1982.

6. Shih, F. Y. Image Processing and Mathematical Morphology: Fundamentals and Applications // CRC Press. 2009.

7. Shih, F. Y. Image Processing and Pattern Recognition: Fundamentals and Techniques // IEEE Press. 2010.

8. Szeliski R. Computer Vision // Algorithm and Applications. September 3. 2010 draft.

9. Worapoj Peerawit. The Utilization of Closing Algorithm and Heuristic Information for Broken Character Segmentation / Worapoj Peerawit, Warat Yingsaeree and Asanee Kawtrakul // IEEE conference on Cybernatics and Intelligent Systems (CIS2004). Singapore. 2004.

10. Кормен, Томас Х. Алгоритмы: построение и анализ: [пер. с англ.] / Томас Х. Кормен [и др.]. - 2-е изд. - М.: Издательский дом "Вильямс". 2009.

11. Шапиро, Л. Компьютерное зрение: [пер. с англ.] / Л. Шапиро, Дж. Стокман. - М.: Бином. Лаборатория знаний. 2006.

Дата поступления в редакцию 28.04.2011

D.A. Pimankin, B.A. Kiselman

THE METHOD OF CONSTRICTING HULLS FOR DEGRADED HANDPRINTED CHARACTERS RECONSTRUCTION

Proposed an adaptive method for reconstructing of corrupted binary images, based on a successive decrease in the average distance between the object and its hull. The possibility of its application for the reconstruction of handprinted characters is demonstrated.

Key words: optical character recognition, image reconstruction, morphological processing, method of constricting hulls.

Метод стягивающихся оболочек для восстановления рукопечатных символов Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Пиманкин Д. А., Кисельман Б. А.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Пиманкин Д. А., Кисельман Б. А.

THE METHOD OF CONSTRICTING HULLS FOR DEGRADED HANDPRINTED CHARACTERS RECONSTRUCTION

Текст научной работы на тему «Метод стягивающихся оболочек для восстановления рукопечатных символов»