Научная статья на тему 'Распознавание структурированных символов на основании методов морфологического анализа'

Распознавание структурированных символов на основании методов морфологического анализа Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
531
91
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Афонасенко А. В.

Рассматривается технология распознавания структурированных символов на основании методов морфологического анализа. Разработанный метод позволяет повысить надежность распознавания в условиях изменения масштаба, ориентации и проективных преобразований символов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Распознавание структурированных символов на основании методов морфологического анализа»

клонение оценки сто=2,3.10~6 е.Д./сут., для Южного оценка а=—0,000811 е.Д./сут., стандартное отклонение оценки сга=5,2.10~6 е.Д./сут. В обоих случаях о/Х Да, поэтому погрешность оценивания а следует считать равной Да.

Таким образом, в Северном полушарии общее содержание озона за 1998-2005 гг. уменьшилось в среднем на 1,222 е.Д./год, т. е. на 0,38 %±0,01 % по

отношению к среднему значению. В Южном полушарии существует тенденция к уменьшению ОСО на 0,296 е.Д./год, т. е. на 0,10 %±0,01 % по отношению к среднему значению. Применение сингулярного спектрального анализа позволило существенно повысить точность выделения тренда.

Работа выполнена при поддержке РФФИ, грант № 07-01-00326

СПИСОК ЛИТЕРАТУРЫ

1. Главные компоненты временных рядов: метод «Гусеница» / Под ред. Д.Л. Данилова и А.А. Жиглявского. - СПб.: Прес-ском, 1997. - 308 с.

2. Голяндина Н.Э. Метод «Гусеница» SSA: анализ временных рядов. - СПб.: СПб ун-т, 2004. - 74 с.

3. Бриллинджер JI. Временные ряды. Обработка данных и теория. - М.: Мир, 1980.- 536 с.

4. http://www.gistatgroup.com

5. Toskutov A., Istomin I.A., Kuzanyan К.М., Kotlyarov О.Г. Testing and Forecasting the Time Series of the Solar Activity by Singular SpectrumAnalysis //Nonlinear Phenomena in Complex Systems. -2001. -V. 4. - № 1. - P. 47-51.

6. Кашкин В.Б., Баскова A.A. Исследование неравномерности вращения Земли с помощью сингулярного спектрального анализа // Вестник Красноярского государственного университета. Физ.-мат. науки. - 2006. - № 7. - С. 53-60.

7. Марпл-мл. C.JI. Цифровой спектральный анализ и его приложения. - М.: Мир, 1990. - 586 с.

8. Александров А.Л., Израэль Ю.А., Кароль И.Л., Хргиан А.Х. Озонный щит Земли и его изменения. - СПб.: Гидрометиздат, 1992.-287 с.

9. http://jwocky.toms.gsfc.nasa.gov.

Поступила 05.07.2007г.

УДК 004.9312

РАСПОЗНАВАНИЕ СТРУКТУРИРОВАННЫХ СИМВОЛОВ НА ОСНОВАНИИ МЕТОДОВ МОРФОЛОГИЧЕСКОГО АНАЛИЗА

A.B. Афонасенко

Томский государственный университет E-mail: anuta8181@mail.ru

Рассматривается технология распознавания структурированных символов на основании методов морфологического анализа. Разработанный метод позволяет повысить надежность распознавания в условиях изменения масштаба, ориентации и проективных преобразований символов.

Распознавание изображений структурированных (печатных) символов обеспечивает решение ряда научных и прикладных задач при идентификации объектов различной природы. Современные методы распознавания символов используются для решения широкого круга задач, офисных (электронная подпись, расшифровка сообщений, распознавание текста и др.), так и специализированных задач, распознавание изображений маркировки на поверхностях различных объектов и др. При регистрации изображений наибольшие искажения, влияющие на результат распознавания, вносят аффинные и проективные искажения. Они существенно снижают надежность распознавания методами, используемыми в современных системах распознавания печатных символов (например, FineReader, Readiris, ScanSoft OmniPage, CuneiForm и др.). На сегодняшний момент выделяют три основных подхода для решения задачи распознавания символов: структурный, признаковый и шаблон-

ный [ 1-6]. Каждому из этих методов присущи свои достоинства и недостатки.

Шаблонные методы [1] сравнивают изображение символа со всеми имеющимися в базе системы шаблонами. Наиболее подходящим шаблоном считается тот, у которого будет наименьшее количество точек, отличных от исследуемого изображения. Шаблонные методы хорошо распознают дефектные символы (разорванные, склеенные), но основной недостаток шаблонных методов - невозможность распознать шрифт, хоть немного отличающийся от заложенного в систему (размером, наклоном или начертанием).

Признаковые методы [2-4] наиболее распространены. В их основу положено упрощающее предположение, что можно анализировать не все изображение символа, а только набор признаков, вычисленных по изображению. Подразумевается, что значения признаков несут достаточно информации о символе. Однако слабым местом призна-

кового подхода является то, что распознаванию подвергается не сам символ, а некоторый набор признаков, что может привести к неправильному распознаванию символов.

Структурные методы [5, 6] хранят информацию не о поточечном написании символа, а о его топологии (эталон содержит информацию о взаимном расположении структурных элементов символа). При этом становится неважным размер распознаваемой буквы-образа и шрифт, которым она напечатана. Но главным недостатком в данном случае являются большие ресурсные затраты требующиеся для реализации данного метода, поскольку при структурном подходе в изображении символов ведется построение скелета, вычисление определенных форм округлостей, угловых и линейных соотношений, пропорций между продольными и поперечными линиями, а также определение пробелов и др.

Для всех трех методов свойственна неполнота и ограниченность условий применения. В этой связи возникает необходимость разработать метод распознавания символов, базирующийся на применении признаков инвариантных к аффинным и проективным преобразованиям. В качестве инвариантных признаков предлагается использовать топологические особенности символов, которые извлекаются при помощи методов морфологического анализа формы изображения.

Морфологический анализ формы изображений, базирующийся на теории множеств, интегральной геометрии, анализе выпуклых функций, стереологии и геометрической теории вероятностей, был разработан J. Serra и Ю.П. Пытьевым в 60-е годы XX в. [7, 8]. Он позволяет дать количественное описание особенностей геометрической структуры.

Рассмотрим двоичный сигнал на рис. 1. Двоичные сигналы могут быть представлены с помощью множеств. Например, изображение на рис. 1 представляет двоичный сигнал, в котором область белого фона выражена через 0, а заштрихованная зона через 1. Этот сигнал может быть представлен множеством X точек, соответствующих заштрихованной зоне.

пактное множество малого размера и простой формы (например, ¿-мерная сфера). Множество В называется структурирующим элементом (СЭ). Пусть X±b={x±b:xeX] выражает векторный перенос Хна ±ЬеЕ. Фундаментальными морфологическими операторами для множеств являются наращение (dilation) © и эрозия (erosion) О ОХ с помощью В [7], которые определяются как

Х®В = (JA' + й = {x + b :xel and be B}i

be в

jffiS = = {z : (Btz)cl}.

b^B

Другие операторы могут быть определены как комбинации эрозии и наращения. Например, два дополнительных фундаментальных оператора -размыкание ° и замыкание 'X с помощью В [7] определяются как

л и (Л о//)::•::/;,'. X • В = (X ® В)ОВ. (1)

Ддя иллюстрации геометрического поведения этих операторов необходимо рассмотреть такие двумерные множества, как множество X и СЭ В, показанные на рис. 1, штриховые области соответствуют внутренности множеств, сплошная черная линия обозначает границы преобразуемых множеств, а пунктирная линия - границу исходного множества точек X. Этот рисунок иллюстрирует, что центр СЭ располагается на границе преобразуемого множества, эрозия приводит к уменьшению множества X, а наращение - к его увеличению. Размыкание подавляет острые выступы и прорезает узкие перешейки в X, тогда как замыкание заполнят узкие заливы и малые отверстия, и таким образом X°B<^XciX,B.

Для обнаружения пиков и долин, рис. 1, используются морфологические преобразования генерация пиков Р(Х) и генерация долин D(X) [7], которые определяются следующим образом Р(Х)=Х-(Х о В).

D(X) = (X»B)-X.

(2)

Пики

Наращение Замыкание Долины

Рис. 1. Эрозия, наращение, размыкание и замыкание, генерация пиков и генерация долин множества точекX с помощью структурирующего элемента В

Пусть Хс:Е есть множественное представление двоичного входного сигнала и пусть В^Еесть ком-

Иллюстрация работы данных преобразований представлена на рис. 1.

Представим изображение символов в виде множества X точек, соответствующих заштрихованной зоне рис. 2. Пусть а - ширина символа, Ь - высота символа.

Применим операцию замыкание (1) к множеству X на рис. 2, а, с помощью СЭ В размером [2/Зй,2/Зй] и рассмотрим результат на рис. 2, б. Области, выделенные серым цветом, назовем соответственно, область 1 - «верхний залив» (ВЗ), 2 -«правый залив» (ПЗ), 3 - «нижний залив» (НЗ), 4 -«левый залив» (ЛЗ), 5 - «озеро» (О). Затем применим операцию генерация долин (2) к исходному множеству Хрис. 2, а. Таким образом, области, выделенные серым цветом на рис. 2, б, есть не что иное, как результат операции генерации долин

(рис. 2, в). Обозначим «заливы» двумя штрихами на части контура залива, которая не примыкает к символу (рис. 2, г) (очевидно, что на контуре «озера» штрихов не будет). Так же введем определение «пролива» (П) как области, которые имеют не примыкающие контуры к символу с нескольких сторон. Таким образом, для ВЗ штрихи будут сверху, для ПЗ - справа, для НЗ - снизу, для ЛЗ - слева, рис. 2, г, для П - с нескольких сторон.

1,

В Г

Рис. 2. Выделение «заливов» и «озер»: а) исходное изображение символов, б) результат операции замыкание с помощью В размером [2/За,2/ЗЬ], в) результат операции генерация долин с помощью В размером [2/За,2/ЗЬ], г) «заливы» и «озеро»

Для формализации этой системы обозначений введем вектор признаков х, состоящий из признаков, характеризующих количество: х, - ВЗ, х2 - ПЗ, х3 - НЗ, х4 - ЛЗ, х5 - О, х, - П, который далее назовем вектором первичных признаков.

Ш ti»

А Б в г

д Е ж 3

и К л м

Н О п р

С т У ф

X Ц ч ш

щ э ь ы

t

г Ф v

I

э

ъ ю я

а б

Рис. 3. «Заливы» и «озера» прописных букв русского алфавита: а) исходное изображение, б) «заливы» и «озера»

Рассмотрим класс неискаженных символов (рис. 3, а) и соответствующее им изображение с «заливами», «озерами» и «проливами» (рис. 3, б), полученными в результате применения генерации

Таблица 1. Разбиение на подклассы множества прописных букв русского алфавита

№ Я f2 h fa

X Подкласс x Подкласс x Подкласс x Подкласс

1 001010 А,Д 001010 А, Р 001010 А 000000 Г, т

2 010010 Б 010010 Б, Ь 010010 Б, Р 100000 ц

3 010020 В 010020 В 010020 В 010000 г, с

4 000000 г, т 001000 г, п 010000 Г, С 001000 г, л, п

5 020000 Е 111110 Д 111110 Д 000100 э

б 212100 Ж 020000 Е 020000 Е 000010 О, Р, ь,ъ

7 010100 3 212100 Ж 212100 Ж 101000 и, н,ч,л

8 101000 И, Н,Ч 010100 3 010100 3 100100 У

9 111000 К 101000 И, Н,Л 101000 И, Н,Ч 100010 ь

10 001000 Л, П 111000 К 111000 К 011000 т

11 102000 М 102000 м 001100 Л 010100 3

12 000010 О, Р, Ь,Ъ 000010 О 102000 м 010010 Б, Р, Ь

13 010000 С 010000 с 000010 О 001100 т, л

14 100100 У 001100 т 001000 п 001010 А, Д,Р

15 000020 Ф 100100 У 011000 т 000011 ы

16 111100 X 111120 ф 100100 У 111000 к

17 100000 ц 111100 X 111120 ф 110100 ц

18 200000 ш, щ 110100 ц 111100 X 101010 ю

19 000100 э 200000 ш 201000 ц 010110 ъ

20 000011 ы 210100 щ 200000 ш 001110 я

21 101010 ю 000100 э 301000 щ 111100 X

22 001110 я 000011 ы 000100 э 111110 д

23 010110 ъ 100010 ь 200000 ш, щ

24 101010 ю 000011 ы 020000 Е

25 001110 я 010110 ъ 000020 Ф

26 101010 ю 102000 м

27 001110 я 010020 в

28 201000 ц

29 111120 ф

30 210100 щ

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

31 212100 ж

32 301000 щ

долин (2) к рис. 3, а. Вектор признаков л* разбивает набор символов класса ^ на подклассы символов указанных в табл. 1.

Из табл. 1 видно, количество, полученных в результате операции генерации долин, «заливов», «озер» и «проливов», их взаимное расположение и отношения являются уникальными признаками для каждого символа. Следовательно, данное описание символов может быть использовано в качестве признаков при распознавании символов.

Исходя из технологических условий регистрации, угол поворота при фиксации изображений не превышает 25° (относительно вертикали). В связи с этим введем еще два класса изображений. Классы 1\, - изображения символов, повернутых на 25° вправо и влево соответственно относительно вертикального положения (табл. 1). При повороте изображения от 0 до 10 и от 10 до 25°, как в левую сторону, так и в правую, признаки для классов Рх и Щ,

соответственно, остаются неизменными.

Для неизвестной ориентации изображения символов определим класс Р4 следующим образом. Перепишем все значения вектора признаков л* из классов /',, и соответствующие им подклассы в класс 3|, затем в классе объединим подклассы, имеющие одинаковые вектор признаки л* (табл. 1).

Из табл. 1 видно, что при использовании выше описанных признаков в подклассы ¥ь находящиеся на строках под номерами 1,3,4,6,7,12,13,14,23 попадает несколько символов, обозначим полученные подклассы соответственно Р/, Р6', Рц 1 -Оз ' ^"м ' -^23 '•

Для определения к какой из букв относятся полученные признаки, введем вторичный вектор признаков у (вычисляется после определения, к какому из подклассов Л| относится распознаваемый символ), состоящий из следующих признаков: у1 - отношение НЗ к ВЗ, ^=0 при отношении <0,5, ух=1 при отношении, —>1, ух=2 при отношении >1;

у2 - отношение ПЗ к О, у2=0 при отношении <0,5,

у2= 1 при отношении >0,5; $ - отношение НЗ к ЛЗ, у3=0 при отношении <1, у3= 1 при отношении >1;

у4 - отношение высоты О к высоте символа, у4= 1 при отношении -^0,5, у4= 1 при отношении

уь - количество «заливов» и «озер», после применения операции генерация долин к исходному изображению с использованием структурирующих элементов в форме отрезка, длиной равного высоте символа, располагающимися под углами 45 и 135° к оси абсцисс, и проведения логического сложения с результатами выполненной ранее операции генерации долин (пример представлен на рис. 4), ^принимает значение равное количеству «заливов» и «озер»;

у6 - отношение в ВЗ количества пикселей серого цвета в 1-ой строке к количеству серых пикселей во 2-ой строке, количества пикселей серого цвета во 2-ой строке; к количеству серых пикселей в 3-ей строке и так далее до последней строки, в которой есть серые пиксели ВЗ. у6= 0 при плавном возрастаний отношений, у6= 1 при резком скачке в отношениях или почти при равных отношениях;

у7 - расположение О относительно середины символа, у7=0 при О, располагающемся в верхней части символа, у-,=1 при О, располагающемся в нижней части символа;

- количество «заливов» и «озер», после применения операции генерация долин к исходному изображению с использованием структурирующего элемента в форме отрезка, длиной равного высоте символа, располагающегося под углом 45° к оси абсцисс, принимает значение равное количеству «заливов» и «озер»! у9 - количество ВЗ после применения операции генерация долин к исходному изображению с использованием структурирующего элемента в форме отрезка, длиной равного высоте символа, располагающегося под углом 135° к оси абсцисс, Л принимает значение равное количеству ВЗ;

ум - отношение площади НЗ к площади прямоугольника, описывающего символ, у10=О при отношении <0,5, у№= 1 при отношении >0,5; уп - отношение площади ПЗ к площади прямоугольника описывающего символ, ухх=0 при отношении <0,5, ухх=\ при отношении >0,5.

х - данный признак не вычисляется.

- I

Г

I I

II II

к ^

в

Рис. 4. Получение дополнительных признаков: а) исходное изображение; б) результат операции генерация долин; в) результат логического сложения результатов операции генерация долин к исходному изображению, В размером [2/За,2/ЗЪ], и рис. 4, б

Данный вектор признаков разбивает набор символов на подклассы символов, указанных в табл. 2.

Из табл. 2 видно, что вычислив вторичный вектор признаков у, однозначно можно определить, к

А д ▲ 1 г ч

Г т V

Л п X 1

ш щ II II

ь ъ к

а б

Таблица 2. Разбиение множества символов на подклассы по вторичному вектору признаков у

Класс Подкласс У Класс Подкласс У

F: Г X X X X 1 X X X X X X h■ Г X X X X X X X X X X 0

Т X X X X 2 X X X X X X С X X X X X X X X X X 1

FV Г X X X X X X X X 0 0 X Fü Б X 1 X X X X X X X X X

Л X X X X X X X X 1 X X Р X 0 X X X X 0 X X X X

П X X X X X X X X 0 1 X Ь X 0 X X X X 1 X X X X

Fe О X X X 1 X X X X X X X Fp: Т X X 0 X X X X X X X X

Р X X X 0 X X 0 X X X X Л X X 1 X X X X X X X X

Ь X X X 0 2 X 1 X X X X Рц А X X X X X X X 2 X X X

Ъ X X X 0 3 X 1 X X X X Д X X X X X X X 3 X X X

F' И 1 X X X X 0 X X X X X Р X X X X X X X 1 X X X

H 1 X X X X 1 X X X X X F-B Ш X X X X 2 X X X X X X

Ч 0 X X X X X X X X X X щ X X X X 4 X X X X X X

Л 2 X X X X X X X X X X

какому символу относится распознаваемое изображение.

Из табл. 1 и 2 видно, что такие признаки, как количество полученных в результате операции генерации долин, «заливов», «озер» и «проливов», их взаимное расположение и отношение являются уникальными признаками для каждого символа. Следовательно, данное описание символов может быть использовано в качестве инвариантных признаков к аффинным и проективным преобразованиям при распознавании символов.

Таким образом, в качестве признаков данный метод использует топологические особенности символов, при этом вычисляется меньшее количество признаков, чем в структурных методах распоз-

СПИСОК ЛИТЕРАТУРЫ

1. Багдонас А. Читающее устройство «РУТА 701» // Автоматизация ввода письменных знаков в электронно-вычислительные машины: Докл. научно-техн. совещ. - Вильнюс, 1968. -С. 96-121.

2. Абрамов, Е.С.Моделирование систем распознавания изображений (на примере печатных текстов): Дис.... канд. техн. наук. -М., 2006. -234 с.

3. Горлов Д.В. Распознавание изображений на основе признаков, инвариантных к сдвигу, вращению, масштабированию: Авто-реф.... канд. техн. наук. - Красноярск, 2002. - 20 с.

4. Андреев C.B. Алгоритмическое обеспечение прототипа устройства считывания паспортов и виз / C.B. Андреев, A.B. Бондаренко, В.И. Горемычкин, A.B. Ермаков, С.Ю. Жел-тов. [Электронный ресурс]: [научная электронная библиотека ИПМ РАН]. Режим доступа: http://www.keldysh.ru/pa-pers/2003/prep46/prepr2003_46.html

навания. Предложенный метод не чувствителен к изменениям масштаба и к таким деформациям символов, как аффинные и проективные преобразования, до тех пор, пока отдельные элементы символа не будут перекрывать друг друга.

Разработанный метод распознавания символов может быть использован как при распознавании изображений маркировки на поверхностях различных объектов, полученных с помощью систем автоматизированного ввода информации через различные типы цифровых фото- и видеокамер, так и для решения типовых офисных задач, связанных с распознаванием печатных символов.

Работа выполнена при финансовой поддержке РФФИ, проект № 06-8-00751.

5. Фу К. Структурные методы в распознавании образов. - М.: Мир, 1977. - 319 с.

6. Котович Н.В. Распознавание скелетных образов / Н.В. Кото-вич, О.А. Славин. [Электронный ресурс]. Режим доступа: http://ocrai.narod.ru/skeletrecognize.html

7. Маргос П., Серра Дж. Морфологические системы для обработки многомерных сигналов // Труды Института инженеров по электротехнике и радиоэлектронике. - 1990. - Т. 78. - № 4. -С. 109-132.

8. Пытьев Ю.П. Задачи морфологического анализа изображений // Математические методы исследования природных ресурсов Земли из космоса / Под ред. В.Г. Золотухина. - М.: Наука, 1984. - С. 41-83.

Поступила 01.10.2007г.

i Надоели баннеры? Вы всегда можете отключить рекламу.