Научная статья на тему 'Сегментация изображений рукописного текста на основе субполосного анализа'

Сегментация изображений рукописного текста на основе субполосного анализа Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
271
35
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
HANDWRITTEN TEXT / IMAGE PROCESSING / IMAGE SEGMENTATION / HANDWRITTEN TEXT SEGMENTATION / HWR / SUBBAND ANALYSIS / РУКОПИСНЫЙ ТЕКСТ / ОБРАБОТКА ИЗОБРАЖЕНИЙ / СЕГМЕНТАЦИЯ ИЗОБРАЖЕНИЙ / СЕГМЕНТАЦИЯ РУКОПИСНОГО ТЕКСТА / СУБПОЛОСНЫЙ АНАЛИЗ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Жиляков Е. Г., Черноморец А. А., Ефимов Н. О.

В работе предложен метод сегментации изображений сканированного рукописного текста на слова. Метод основан на использовании математического аппарата субполосного анализа и позволяет для заданного изображения разделить области фона и области, занимаемые текстом. Использование значений энергии фрагмента изображения, соответствующего заданной области пространственных частот, в качестве весового коэффициента позволяет точнее локализовать слова, мелкие объекты и артефакты для зашумленных изображений. Работоспособность метода подтверждают представленные результаты вычислительных экспериментов, проведенных в среде Matlab.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

HWR TEXT SEGMENTATION BASED ON SUBBAND ANALYSIS

In the article we introduced method of word handwritten text segmentation. One of the major problems for successful text recognition (in the sense of small probability of errors of the first and second type) is the complexity (sometimes even the impossibility) of segmentation handwritten text into characters. At the same time, handwriting images have the periodicity propertyfor same author, the main characteristics of handwriting, the size and character of writing symbols, words and lines are preserved. For analyze quasi-periodic and periodic details on the image, adequately use frequency representations. Analysis of the frequency space from the standpoint of partitioning into subintervals is called subband analysis. Using subband mathematical apparatus allows to separate background areas and the areas of text for given image. Using accurate image energy parts values in the given subareas of spatial frequencies as weight factor allows to accurate localize words, small objects and artifacts for noisy images. The efficiency of the method is confirmed by presented results of computational experiments conducted in the Matlab software package.

Текст научной работы на тему «Сегментация изображений рукописного текста на основе субполосного анализа»

УДК 004.932.75

DOI 10.18413/2411-3808-2019-46-1-181-190

СЕГМЕНТАЦИЯ ИЗОБРАЖЕНИЙ РУКОПИСНОГО ТЕКСТА НА ОСНОВЕ СУБПОЛОСНОГО АНАЛИЗА

HWR TEXT SEGMENTATION BASED ON SUBBAND ANALYSIS

Е.Г. Жиляков, А.А. Черноморец, Н.О. Ефимов E.G. Zhylyakov, A.A. Chernomorets, N.O. Efimov

Белгородский государственный национальный исследовательский университет, Россия, 308015, г. Белгород, ул. Победы, 85

Belgorod National Research University, 85 Pobedy St, Belgorod, 308015, Russia

E-mail: [email protected], [email protected], [email protected]

Аннотация

В работе предложен метод сегментации изображений сканированного рукописного текста на слова. Метод основан на использовании математического аппарата субполосного анализа и позволяет для заданного изображения разделить области фона и области, занимаемые текстом. Использование значений энергии фрагмента изображения, соответствующего заданной области пространственных частот, в качестве весового коэффициента позволяет точнее локализовать слова, мелкие объекты и артефакты для зашумленных изображений. Работоспособность метода подтверждают представленные результаты вычислительных экспериментов, проведенных в среде Matlab.

Abstract

In the article we introduced method of word handwritten text segmentation. One of the major problems for successful text recognition (in the sense of small probability of errors of the first and second type) is the complexity (sometimes even the impossibility) of segmentation handwritten text into characters. At the same time, handwriting images have the periodicity property- for same author, the main characteristics of handwriting, the size and character of writing symbols, words and lines are preserved. For analyze quasi-periodic and periodic details on the image, adequately use frequency representations. Analysis of the frequency space from the standpoint of partitioning into subintervals is called subband analysis. Using subband mathematical apparatus allows to separate background areas and the areas of text for given image. Using accurate image energy parts values in the given subareas of spatial frequencies as weight factor allows to accurate localize words, small objects and artifacts for noisy images. The efficiency of the method is confirmed by presented results of computational experiments conducted in the Matlab software package.

Ключевые слова: рукописный текст, обработка изображений, сегментация изображений, сегментация рукописного текста, субполосный анализ.

Keywords: handwritten text, image processing, image segmentation, handwritten text segmentation, HWR, subband analysis.

Введение

К настоящему времени накопилось большое количество цифровых изображений рукописного текста: сканированные книги, офисные документы, персональные записи (например, различные заявления, расписки) и пр. Представление в цифровом виде существенно упрощает задачу хранения рукописных текстов и предоставления доступа к ним

различных пользователей. Однако данное представление имеет ряд недостатков: затруднены возможности ориентирования по тексту, невозможны операции поиска по тексту и др.

Для решения этих задач в настоящее время принято осуществлять процедуру распознавания текста - перевод изображений рукописного текста в текстовые данные. Однако для успешного (в смысле малого количества ошибок) распознавания необходимо структурировать входные данные. Для изображений текста таким структурированием является сегментация [Hochulia et al., 2018], то есть процесс разделения цифрового изображения на несколько частей. Первым этапом является сегментация текста на строки [ Quang Nhat Vo et al., 2018], вторым - сегментация строк на слова [Thontadari, Prabhakar, 2016] и третьим - сегментация слов на символы [Munish et al., 2017; Benafia et al., 2017].

Исследования по сегментации рукописного текста ведутся с середины XX века и по настоящее время [Mathivanan et al., 2017; Borah, 2015]. Существующие подходы к сегментации, как правило, основываются на анализе яркости элемента изображения [Parashuram, Chandrashekar, 2018; Борисов, 2018] (строк, слов), определении связных областей [Ефимов, 2018], использовании диаграмм Вороного [Препарата, Шеймос, 1989] и пр. Разработан ряд подходов и решений, достигающих высокой точности [Oendrila et al., 2018] в некоторых, строго заданных случаях (после длительного обучения для одного автора, для любого автора в случае раздельного написания каждого символа, для одного варианта написания каждого символа и т. д.). Однако в настоящее время не существует универсальной системы, способной автоматически производить сегментацию рукописного текста на символы, что связано с высокой вариативностью написания текстов. В процессе письма даже у одного автора изменяются различные характеристики почерка [Bhowmik et al., 2018], такие как наклон слов, строк, разгон, связность, размеры одинаковых слов и т. д.

Вместе с тем изображения рукописного текста обладают свойством квазипериодичности - для одного автора сохраняются основные характеристики почерка, размер и характер написания символов, слов и строк. Для анализа квазипериодических и периодических деталей на изображении адекватным является представление изображений в области пространственных частот (ПЧ) [Жиляков, Ефимов, 2015].

В рамках данной работы используется субполосный анализ, когда свойства объектов описываются с позиций разбиения области ПЧ на подобласти, что позволяет отразить свойство концентрации энергии фрагмента [Буханцов, Дружкова, 2018] в подмножестве подобластей ПЧ, совокупная площадь которых составляет малую долю частотной плоскости [Жиляков, Ефимов, 2018]. Как следствие, возможно разделить фрагменты текста от фрагментов фона, выделить высокоэнергетические области текста и осуществить сегментацию изображения рукописного текста на слова.

Определим цифровое изображение как двумерную функцию Ф = (Д^), i = 1,2,...,N. к = 1,2, ...,М.„ где i, к - координаты на плоскости, fik - интенсивность изображения в заданной точке.

Под частотным представлением функции fiJc понимается выражение [Семенов,

2007]:

где] - мнимая единица, F^(u,v) - частотная характеристика, под которой обычно понимают трансформанту Фурье изображения Ф,

аргументы (та, v) называют пространственными частотами (ПЧ),

(it, v) G Vln, V2rr = {(«, i?) | — тт < и < ir, —л: < v < тг}.

Следующее соотношение представляет собой аналог равенства Парсеваля, которое связывает энергии (нормы) функций, заданных в дискретных отсчетах, и значения их трансформант Фурье, и является одним из основных положений теории преобразований на основе ортогональных базисов [Черноморец, 2017]:

где Узг- подобласть пространственных частот (11114),

где 8=1, 2, ..., Б; г=1, 2, ..., К

В контексте субполосного анализа и синтеза соотношение (4) целесообразно представить в виде:

где || Ф||:- энергия изображения Ф:

я л;

IIФ11=

-II

fi

к '

г=1t=i

Интегралы вида (6) будем называть значениями энергии изображения, попадающей в соответствующие ППЧ. Тогда величина Р<„,(Ф):

ЦФ||:

(S)

представляет собой долю энергии изображения, которая позволяют судить о ее сосредоточенности в выбранном интервале ППЧ Узг вида (5).

Соотношения (7) и (8) можно выразить через субполосные матрицы [Жиляков Черноморец, 2009]:

Е„ = Ь-(АвФВГФТ),

&(А3ФВгФт)

^(Ф) =

(т(ФФг) '

(9) (10)

где «1г» означает след матрицы, «Т» - операция транспонирования матрицы, Ф - матрица исходного изображения, А3, Вг - субполосные матрицы,

А3 — {я^Д, 1,п — 1,2,...,Л/; Вг — т = 1,2, элементы которых вычисляются

на основании следующих соотношений:

Описание метода

Покажем, что на основании анализа распределения значений частей энергии (9) по подобластям (5) пространственных частот возможно осуществить сегментацию изображения рукописного текста на фон и области, содержащие текст. Результаты выполнения основных шагов метода проиллюстрируем на примере сегментации изображения, приведенного на рисунке 1.

Рис. 1. Исходное изображение рукописного текста Фразмерностью 392x1488 Fig. 1. Original HWR image Ф^, size 392x1488

Осуществим инверсию анализируемого изображения для того, чтобы наибольшая интенсивность пикселей соответствовала тексту, а наименьшая - фону. Обозначим полученное изображение как Ф0, размерностью N± X N2 (рисунок 2).

ß-g^-nP'-md' ¿? .¿s

/^эи^ .

Рис. 2. Инвертированное изображение рисунка 1 Fig. 2. Inverted image for figure 1

Обозначим размеры окна анализа: Nt ^-¡„d; количество частотных интерва-

лов N.

для

каждой

оси:

В используемом примере

N.

1 wind

,

1 wiiiri

= 12, — И2 — 3. Согласно выражениям (11, 12) рассчитаем субполосные матрицы А1,А2 для заданных параметров окна анализа. Область изображения Ф0, размерностью N1 X будем именовать фрагментом, подразумевая разбиение исходного изображения на множество таких областей.

Для оценки энергетических характеристик фона необходимо выделить на исходном изображении некоторый, заранее известный участок фона (например, интерактивно, на усмотрение оператора) (рисунок 3). Для сформированной области в дальнейшем

будут рассчитаны энергетические характеристики фона и пороговое значение, на основа-

нии которого принимается решение о принадлежности фрагмента изображения к фону либо тексту. Размерность области должна быть не менее ЗЛ/^^^ X ЗЛ/2 ^-¡«сь тс*

есть включать в себя достаточное количество фрагментов для адекватной оценки энергетических характеристик фона.

¿г

¿.ttfsm.c .

¿гг/cc.t i»«*v«srt%v

Рис. 3. Область фона hiif0n для рисунка 2 Fig. 3. Part of background Inifan for figure 2

Выделим в области Im

f on

все возможные подобласти размерности чвтл х тп<1 перемещая окно указанной размерности в данной области. Обозначим множество выделенных областей

Для каждой области, принадлежащей согласно выражению (9) вычислим зна-

_ _

чения частей энергии s — 1 — 1 ,...,Д2 в соответствующих ППЧ.

Определим порог к0 как среднее значение энергии фона по всем ППЧ и всем обла-

стям из Z

- : . •

h — Е

(13)

что позволяет при решении различных задач сегментации текста определить практически все фрагменты, содержащие текст. Возможные ошибки будут скорректированы далее, в рамках предлагаемой реализации метода.

Сформируем множество фрагментов изображения Ф0 размерностью

Ну х к=1,2,.. ,,К, где К - количество сформированных фрагментов.

Для каждого объекта, принадлежащего согласно выражению (9) вычислим

4п

т +С

значение энергии Е с во всех ППЧ вида (5).

Если значение энергии фрагмента превышает порог Ь0 хотя бы для одного

частотного интервала, фрагмент считается текстовым (содержащим текст). Множество текстовых фрагментов обозначим как 1=1,2,...,Т, где Т - количество текстовых

фрагментов.

Для каждого прямоугольного текстового фрагмента из имеющих одинаковую

размерность отобразим границу (рисунок 4). Так как области фрагмен-

тов пересекаются, то соответствующие прямоугольные границы также наложены друг на друга.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 4. Сегментация фрагмента исходного изображения на фон и текстовые фрагменты Fig. 4. Original image segmentation into background and text fragments

Изображение на рисунке 4 иллюстрирует сегментацию изображения рукописного текста на текстовые фрагменты и фон. Однако текстовые области, как видно на рисунке 4 для буквы «д», обладают существенным перекрытием, особенно для объектов разных строк. Также помарка на исходном изображении (рисунок 4, область у левой границы) отнесена к множеству текстовых фрагментов.

Для корректировки указанных ошибок сегментации и более точного определения областей текста для каждого фрагмента 21влГ предлагается ввести весовой коэффициент, пропорциональный энергии данного фрагмента:

Kesf =

Е „Т

text

(14)

'tPJCf

где Е2т ^ - среднее значение энергии всех текстовых фрагментов.

Сформируем маску размерностью г = = 1, ...,ДГ2. Значе-

ние элемента формируется как сумма весов всех текстовых фрагментов

которым принадлежит пиксель (обозначим как множество 1=1,...,Ь - количество

элементов множества):

Im

(U) = J%=1Ves

text text

(15)

Отделим граничные текстовые фрагменты от фрагментов, непосредственно содержащих символы на основании соответствующих значений энергии. Сумма весовых коэффициентов (15) для фрагментов, содержащих непосредственно символы, образует маску

■ :.-'-: :

Im

(U)

mask pnnjfe (w) > pnnsk

,

(16)

где 1ттазк - среднее значение по всем элементам маски (14). Результат визуализации маски 1т,„азк2 представлен на рисунке 5.

Рис. 5. Визуализация маски I'mriiask-Z. черным цветом обозначен фон, белым - области с максимальной концентрацией энергии Fig. 5.1ттпзкг visualization, black color indicate background, white - area with higher energy

concentration

Сформируем бинарную маску 1тп,„азк bin (рисунок 6), используя следующее условие:

Im

mask Ъ

■ =Р'

to,

Immask2(U) > о, '"»выимО'/) = 0.

Рис. 6. Бинарная маска Imjnask bin Fig. 6. Binary mask 1т,пазк_ъы

Осуществим фильтрацию исходного изображения путем его поэлементного умножения с маской hri,„ask bin. Результат представлен на рисунке 7.

Рис. 7. Результат фильтрации исходного изображения Ф¿^ маской 1т„1Пзк bi Fig. 7. Result of Фfiltration with mask Im,na3k bin

На изображении, являющемся результатом фильтрации (рисунок 7), осуществим поиск и выделение связных областей (рисунки 8), например, используя встроенную функцию bwlabeln среды MatLab [Гонсалес и др., 2006] с параметром связности 8.

Рис. 8. Результат сегментации исходного изображения текста Ф-^ъ на слова Fig. 8. Result of Ф^ word segmentation

На рисунке 9 приведено изображение рукописного текста размерностью 2062x1500, содержащее 182 фрагмента в виде слова, частью которого является изображение (рисунок 8):

5ис. 9. Результат сегментации изображения рукописного текста на слова Fig. 9. Result of HWR image word segmentation

Результаты, представленные на рисунках 8 и 9, иллюстрируют, что предлагаемый метод позволяет осуществить сегментацию изображений рукописного текста на слова, причем имеется возможность выделить небольшие символы, например, знаки препинания, черточки над буковой «й» и т. п. Преимуществом метода является возможность подстройки параметров (размер окна анализа, значение весового коэффициента, количество ППЧ) с учетом особенностей заданного изображения рукописного текста (группы изображений текста одного автора).

Заключение

В работе предложен метод сегментации изображений сканированного рукописного текста на слова. Предлагаемый метод позволяет отделить области текста от фона на основе математического аппарата субполосного анализа, отфильтровать различные артефакты изображения (помарки текста, искажения сканирования и пр.) и выделить слова без предварительной сегментации текста на строки. Для рисунка 9 вероятность ошибочной сегментации составляет менее 0.04 (6 ошибок из 182 слов). Ошибки сегментации, как правило, вызваны особенностями написания текста (различные чернила, характеристики почерка - размах, связность, наклон и т. д.) и особенностями сканирования (разрешение сканирования, различные артефакты). Регулируя размер окна анализа и весовой коэффициент для текстового фрагмента, можно точно подстроить предлагаемый метод под решаемую задачу.

Список литературы References

1. Hochulia A.G., Oliveiraa L.S., Britto A.S., Sabourinc JrbR. 2018. Handwritten digit segmentation: Is it still necessary? Pattern Recognition, 78.

2. Quang Nhat Vo, Soo Hyung Kim, Hyung Jeong Yang, Guee Sang Lee. 2018. Text line segmentation using a fully convolutional network in handwritten document images.IET Image Processing, 12(3).

3. Thontadari C., Prabhakar C.J. 2016. Scale Space Co-Occurrence HOG Features for Word Spotting in Handwritten Document Images. International Journal of Computer Vision and Image Processing, 6(2).

4. Munish Kumar, Jindal M.K., Sharma R.K. 2017. A Novel Technique for Line Segmentation in Offline Handwritten Gurmukhi Script Documents. National Academy Science Letters, 40(4 D).

5. Ali Benafia, Smaine Mazouzi, Benafia Sara. 2017. Handwritten Character Recognition on Focused on the Segmentation of Character Prototypes in Small Strips. International Journal of Intelligent Systems and Applications(IJISA), 9(12).

6. Mathivanan P., Ganesamoorthy B., Maran P. 2014. Watershed algorithm based segmentation for handwritten text identification. ICTACT Journal on Image and Video Processing, 4(3).

7. Sagarika Borah. 2015. Segmentation of Assamese Handwritten Characters based on Projection Profiles. International Journal of Computer Applications, 130(17).

8. Parashuram B, Chandrashekar G. 2018. Identification and classification of historical kannada handwritten document images using GLCM features. International Journal of Advanced Research in Computer Science. 9(1).

9. Борисов Е.С. Сегментация изображения текста. Дом-страница Евгения Сергеевича Борисова. Available at: http://mechanoid.kiev.ua/cv-text-image-segmentator.html (accessed: 17.10.2018).

Borisov E.S. Segmentaciya izobrazheniya teksta. Home-page Evgeniya Sergeevicha Borisova. URL: http://mechanoid.kiev.ua/cv-text-image-segmentator.html (Data obrashcheniya: 17.10.2018) (in Russian).

10. Ефимов Н.О. 2018. Процедура сегментации изображений рукописного текста на слова в задачах прецедентной идентификации. Электронные информационные системы, 3(18): 69-80.

Efimov N.O. 2018. Procedure of handwritten text segmentation in the tasks of precedential identification. Electronic information systems, 3(18): 69-80 (in Russian).

11. Препарата Ф., Шеймос М. 1989. Вычислительная геометрия: Введение. М.: Мир, 295.

Preparata F., Shamos M.,1989. Computational geometry: An introduction. Springer-Verlag, 295.

12. Жиляков Е.Г., Ефимов Н.О. 2018. Распознавание фрагментов рукописного текста. Характерные частотные интервалы. Информационные технологии, 24(7): 481-486.

Zhylyakov E.G., Efimov N.O. 2018. Handwritten text fragment recognition. Typical subband intervals. Informaton technologies. 24(7): 481-486 (in Russian).

13. Семенов Ю.А. 2007. Алгоритмы телекоммуникационных сетей. В 3 частях. Часть 1. Алгоритмы и протоколы каналов и сетей передачи данных. М.: Бином. Лаборатория знаний, 640.

Semenov, Yu.A. 2007. Algoritmy telekommunikacionnyh setej. V 3 chastyah. Chast' 1. Algorit-my i protokoly kanalov i setej peredachi dannyh. M.: Binom. Laboratoriya znanij, 640 (in Russian).

14. Черноморец А.А. 2017. Субполосные модели и вариационные методы обработки изображений земной поверхности: диссертация... доктора Технических наук: 05.13.17. Черноморец Андрей Алексеевич; [Место защиты: ФГАОУВО Белгородский государственный национальный исследовательский университет].

Chernomorec A.A. 2017. Subpolosnye modeli i variacionnye metody obrabotki izobrazhenij zemnoj poverhnosti: dissertaciya... doktora Tekhnicheskih nauk: 05.13.17. Chernomorec Andrej Ale-kseevich; [Mesto zashchity: FGAOUVO Belgorodskij gosudarstvennyj nacional'nyj issledovatel'skij uni-versitet] (in Russian).

15. Жиляков Е.Г., Черноморец А.А. 2009. Вариационные алгоритмы анализа и обработки изображений на основе частотных представлений: Монография. Белгород: Изд-во ГИК, 146.

Zhilyakov E.G., Chernomorec A.A. 2009. Variacionnye algoritmy analiza i obrabotki izobrazhenij na osnove chastotnyh predstavlenij: Monografiya. Belgorod: Izd-vo GIK, 146 (in Russian).

16. Гонсалес Р., Вудс Р., Эддинс С. 2006. Цифровая обработка изображений в среде Matlab. М.: Техносфера, 616.

Gonzalez R., Woods R., Eddins S. 2006. Digital Image Processing Using MATLAB. MHE, 609.

17. Буханцов А.Д., Дружкова И.В. 2018. Исследование модицифицированного метода кодирования в субполосы монохромного изображения. Научные ведомости БелГУ. Сер. Экономика. Информатика. 45(2): 385-393.

Buhancov A.D., Druzhkova I.V. 2018. Issledovanie modicificirovannogo metoda kodirovaniya v subpolosy monohromnogo izobrazheniya. Nauchnye vedomosti BelGU. Ser. Ehkonomika. Informatika. 45(2): 385-393.

18. Жиляков Е.Г., Ефимов Н.О. 2015. О субполосном анализе изображений. Научные ведомости БелГУ. Сер. История. Политология. Экономика. Информатика. 1(198): 385-393.

Zhilyakov E.G., Efimov N.O. 2015. O subpolosnom analize izobrazhenij. Nauchnye vedomosti BelGU. Ser. Istoriya. Politologiya. Ehkonomika. Informatika. 1(198): 385-393.

19. Bhowmik S., Malakar S., Sarkar R., Basu S., Kundu M., Nasipuri M. 2018. Off-line Bangla handwritten word recognition: a holistic approach. Neural Computing and Applications, 1 -16.

20. Oendrila S., Anandarup R., Swapan K. Paruia, Bhattacharya U. 2018. An HMM framework based on spherical-linear features for online cursive handwriting recognition. Information Sciences, 441.

i Надоели баннеры? Вы всегда можете отключить рекламу.