Научная статья на тему 'Метод сегментации изображения для распознавания печатных документов'

Метод сегментации изображения для распознавания печатных документов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
473
106
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОБРАБОТКА ИЗОБРАЖЕНИЙ / PROCESSING OF IMAGES / ПЕЧАТНЫЙ ДОКУМЕНТ / PRINTED DOCUMENT / СЕГМЕНТАЦИЯ ИЗОБРАЖЕНИЯ / SEGMENTATION OF THE IMAGE / АНАЛИЗ СТРАНИЦЫ / THE ANALYSIS OF PAGE

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Коробейников Анатолий Григорьевич, Хоанг Зянг, Кузнецова Светлана Николаевна, Троников Игорь Борисович, Семенов Вениамин Александрович

Представлены существующие методы распознавания печатных документов, указаны их основные недостатки. Разработан метод многошкальной сегментации на базе динамической локальной карты связи изображения для получения иерархического дерева блоков документов, имеющих сложную структуру.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Коробейников Анатолий Григорьевич, Хоанг Зянг, Кузнецова Светлана Николаевна, Троников Игорь Борисович, Семенов Вениамин Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Method of Segmentation of the Image for Recognition of Printed Documents

In work methods of recognition of printed documents are briefly considered, their basic lacks are shown. Manyscales segmentations on the basis of a dynamic local card of communication of the image the method is developed for reception of a hierarchical tree of blocks of documents.

Текст научной работы на тему «Метод сегментации изображения для распознавания печатных документов»

3. Яковлев Н. Н. Жизнь и среда: Молекулярные и функциональные основы приспособления организма к условиям среды. Л.: Наука, 1986.

4. Мелик-Гайназян И. В. Информационные процессы и реальность. М.: Наука, 1998. 192 с.

5. Корнеев В. В., Маслович А. И. и др. Распознавание программных модулей и обнаружение несанкционированных действий с применением аппарата нейросетей // Информационные технологии. 1997. № 10.

6. Котенко И. В. Модели противоборства команд агентов по реализации и защите от распределенных атак „Отказ в обслуживании" // Тр. междунар. конф. IEEE AIS'03 и CAD—2003. М.: Физматлит, 2003. Т. 1. С. 422—428.

7. Гриняев С. Н. Интеллектуальное противодействие информационному оружию. М.: СИНТЕГ, 1999.

8. Mayers G. J. Advances in computer architecture. 2nd ed. NY: Jonh Willey & Sons, 1982.

9. Нестерук Г. Ф., Осовецкий Л. Г., Нестерук Ф. Г. О применении нейро-нечетких сетей в адаптивных системах информационной защиты // „Нейроинформатика — 2005": Мат. VII Всерос. науч.-техн. конф. М.: МИФИ (ТУ), 2005. Ч. 1. С. 163—171.

Сведения об авторах Андрей Вячеславович Суханов — ЗАО „ЭВРИКА", Санкт-Петербург;

E-mail: avsuhanov@eureca.ru Александр Изотович Крылов — ЗАО „ЭВРИКА", Санкт-Петербург;

E-mail: a_krylov@eureca.ru

Рекомендована кафедрой Поступила в редакцию

безопасных информационных технологий 13.05.08 г.

УДК 004.932

А. Г. Коробейников, Хоанг Зянг, С. Н. Кузнецова, И. Б. Троников, В. А. Семенов

МЕТОД СЕГМЕНТАЦИИ ИЗОБРАЖЕНИЯ ДЛЯ РАСПОЗНАВАНИЯ ПЕЧАТНЫХ ДОКУМЕНТОВ

Представлены существующие методы распознавания печатных документов, указаны их основные недостатки. Разработан метод многошкальной сегментации на базе динамической локальной карты связи изображения для получения иерархического дерева блоков документов, имеющих сложную структуру.

Ключевые слова: обработка изображений, печатный документ, сегментация изображения, анализ страницы.

Процесс преобразования документов, хранимых в традиционной форме (на бумажных носителях), в цифровой вид включает следующие этапы: распознавание, извлечение строк и символов, дискретизацию, бинаризацию, подавление шумов, блок-сегментацию.

Цель настоящей работы состоит в решении одной из задач, возникающих при обработке изображения для последующего распознавания, — сегментации изображения. В настоящее время большинство исследований в области распознавания текста ориентируется на поиск алгоритмов для распознавания элементов букв и диакритических знаков. Процесс сегментации исследован мало и поэтому методы сегментации, описанные в литературе [1—9], не в полной мере удовлетворяют потребностям разработчиков программного обеспечения распознавания текста.

Сегментация изображения (разделение текстовой и графической информации) — одна из важных составляющих оптического распознавания текста. Сегментация включает в себя геометрический и логический анализ обрабатываемого компьютером изображения страницы.

Геометрический анализ позволяет определить максимально однородные области и их виды (текст, таблица, графическое изображение). Задача логического анализа — выявление структуры страницы, типа каждого текстового блока (заголовок, сноска, колонки, основной текст) и определение соподчиненности и взаимного расположения этих блоков [1].

Методы сегментации и анализа страницы разделяются на три основные группы: нисходящие, восходящие и гибридные [2].

К нисходящим методам относятся неравномерное размазывание [4], проекции профиля [5], белые потоки [6], преобразование Фурье [7] и т.д. Сначала находится самый высокий уровень структур (обычно это колонки или графика). Затем колонки разбиваются на параграфы, параграфы — на строки и т. д. Процесс продолжается до тех пор, пока не будет достигнут самый низкий уровень — символы. Эти методы могут использоваться, если имеется информация о макете страницы.

К классу восходящих относятся методы анализа связных компонентов [1], неравномерного сглаживания [4], наращивания областей [3] и нейронные сети [8]. Работа метода связных компонентов начинается с поиска минимальных элементов (например, пиксела), которые затем комбинируются и образуют связные компоненты. Дальше из этих компонентов создаются символы, слова, фразы, параграфы и колонки. На первый взгляд, этот подход более гибкий, но на практике он мало используем из-за накапливающихся на каждом этапе обработки ошибок.

Метод неравномерного сглаживания [4] достаточно популярен и часто используется в сочетании с другими методами. Изображение сканируется горизонтально и(или) вертикально, затем цвет небольших фоновых областей (пятен) заменяется на цвет изображения (текста). В результате получается эффект размытия, при котором объединяются (сливаются) символы и элементы документа. Эффект размытия используется и в других методах профильной проекции, группирования связных компонентов, нейронных сетей и т. д. Главный недостаток метода — необходимость определения порогового значения контрастности изображения Если значение I мало, размытие может быть недостаточным для получения ожидаемого эффекта. На практике значение I обычно определяется эмпирическим путем или через приблизительную оценку расстояния между текстовыми блоками, строками или размера шрифта печатных символов.

Среди известных гибридных методов — метод „X—7-дерево", разработанный Наги [9]. Документ сегментируется на большие блоки путем горизонтального и вертикального разрезания. Затем для каждого блока этот процесс повторяется. Особенность метода состоит в том, что строение полученного дерева соответствует логической структуре документа. Основный недостаток — вынужденное допущение, что текстовые блоки имеют прямоугольную форму и хорошо разделяются полосами.

В настоящей работе предлагается разработанный авторами метод многошкальной сегментации страницы на базе понятия „Динамическая локальная карта связи" (ДЛКС).

Динамическая локальная карта связи изображения является результатом трансформации изображения в матрицу, размер которой равен размеру изображения, следовательно, ДЛКС можно считать эквивалентной исходному изображению. ДЛКС строится следующим образом: если в исходном изображении пиксел черный (цвет текста), то элемент матрицы принимает значение „0". В противном случае элементу матрицы присваивается значение, равное расстоянию между двумя соседними пикселами исходного изображения. В качестве расстояния можно выбрать минимальный или средний вертикальный или горизонтальный размер. Далее ДЛКС преобразуется в изображение (картинку) с множеством оттенков серого цвета путем нормализации полученной матрицы со значением элементов от 0 до 255. На рис. 1 представлен пример ДЛКС (а — исходное изображение, б — ДЛКС изображения серого оттенка, в — ДЛКС изображения после бинаризации).

Размер каждого ненулевого пиксела в ДЛКС соответствует размеру ближайшего локального зазора между двумя черными пикселами исходного изображения. Если выполнить бинаризацию ДЛКС с пороговым значением I, то все пикселы меньше I принимают значение 0. Эти пикселы, объединившись друг с другом, образуют блоки (текстовые или графические).

а)

б)

в)

И'0"%& а : Ии;и

НивС 4

:!07 Ж

<-'Кгк г; И Г.,., |„1,:г пЬеш 0»г1-1) (Мае.: Сгаатш!-!)! <1<

аНап. ГМЫ'и С.!| К Г !Мм: Гшогалш!-!' с1й rt.li> тйи с!го 1ауаг ыпу.

Кс ОгсГИ Ои^нмч «ЛИиг. Тишй ЬАр Ыммй, 1гао га дйга иЫ&и

■ пЬипе сб 14114 '.=|"1Л1|> (ист Ь'тЬ 3.-1-2Ы. В Ял Цп с1ю иб. ¿яи

ж вСА Ив ЛИ jirji.1u.iit ЛЫН к-А» пЬйт Ргееегз. ЦИек пйе ОК <1£

Н1аИ 3.4-3

п, шт > \ 100

Рис. 1

Путем бинаризации исходное изображение разбивается на блоки. Чем меньше пороговое значение I, тем больше количество блоков.

Если I = 255, то все пикселы ДЛКС будут черными и все изображение будет представлять собой один блок, определяемый как корневой. Далее производится бинаризация с пороговым значением меньше I < 255, в результате получаются дочерние блоки. Если процесс повторить для каждого блока, то получим последовательность разделения исходного документа на блоки (дерево). Корневой блок будет разбит на некоторые блоки нижнего уровня, каждый из получаемых блоков в свою очередь будет разбит на блоки более низкого уровня. Блоки одного уровня можно „привязать" к относительной системе координат (можно использовать, ' например, координаты ограничивающих прямоугольни-

ков для определения упорядоченных положений).

Была разработана методика исследования порогового значения. С этой целью было отсканировано 15 печатных документов разного качества с различными типами изображения. Для каждого полученного изображения была построена диаграмма зависимости количества связных компонентов (блоков) от порогового значения (рис. 2).

Оказалось, что количество блоков изменяется дискретно. Иначе говоря, в некоторой окрестности порогового значения I количество блоков изменяется незначительно или вообще не изменяется. В окрестности I = 0 количество блоков всегда велико, но очень быстро уменьшается до некоторого уровня. Это свойство можно использовать для нахождения нижней границы порогового значения t. Еще один интересный результат экспериментов — количество пиков всегда находится в окрестности 25, хотя документы, используемые в экспериментах, относятся к различным областям. Значения, находящиеся между пиковыми, могут быть пороговыми.

50

0 25

255 t

Рис. 2

Блоки документа сегментируются в иерархическом порядке. Сначала необходимо выбрать совокупность пороговых значений (эксперименты показали, что 10 пороговых значений достаточно для сегментации всех документов). Минимальное значение t выбирается из условия резкого изменения количества блоков. Процесс повторяется для всех интервалов с соответствующими пиковыми значениями.

Путем бинаризации с помощью минимального порогового значения генерируются блоки высшего уровня. Далее для каждого блока выполняется бинаризация с использованием следующего порогового значения из совокупности. В результате этого процесса получается иерархическое дерево сегментации, пример которого приведен на рис. 3 (а — исходное изображение, б — результат сегментации и фильтрации).

Рис. 3

Таким образом, использование матрицы ДЛКС позволяет решать задачу обработки изображения, преобразуемого в электронный вид.

Работа выполнена при поддержке Российского фонда фундаментальных исследований в рамках гранта № 07-07-00310.

список литературы

1. Jain A., Yu B. Document representation and its application to page decomposition // On Pattern Analysisand Machine Intelligence. 1998. N 3. С. 294—308.

2. Okun O., Doermann M. Page Segmentation and Zone Classification: The State of the Art. LAMP-TR-036 (Technical Report). University of Maryland, 1999. 22 p.

3. Jain A. Fundamentals of digital image processing. Prentice Hall, 1990. 421 p.

4. Wong K. Y., Casey R. G., Wahl F. M. Document analysis system // IBM Journal of Research and Development. 1982. Vol. 26, N 6. P. 647—656.

5. Wang D., Srihari S. Classification of newspaper image blocks using texture analysis // Computer Vision, Graphics, and Image Proc. 1989. Vol. 47. P. 327—352.

6. Pavlidis T. and Zhou J. Page segmentation by white streams // Proc. 1st Int. Conf. Document Analysis and Recognition (ICDAR). Int. Association Pattern Recognition. 1991. P. 945—953.

7. Hose M. and Hoshino Y. Segmentation method of document images by two-dimensional fourier transformation // System and Computers in Japan. 1985. Vol. 3. P. 16—20.

8. Tan C. and Zhang Z. Text block segmentation using pyramid structure // SPIE Document Recognition and Retrieval. San Jose, USA, 2001. Vol. 8. P. 297—306.

9. Nagy S. G. Stoddard andS. Document analysis with expert system // Proc. of Pattern Recognition. 1985. P. 31—33.

Сведения об авторах

Анатолий Григорьевич Коробейников — Санкт-Петербургский государственный университет информационных технологий, механики и оптики, кафедра проектирования компьютерных систем; E-mail: Korobeynikov_A_G@mail.ru

— Санкт-Петербургский государственный университет информационных технологий, механики и оптики, кафедра проектирования компьютерных систем

— Санкт-Петербургский государственный университет информационных технологий, механики и оптики, кафедра проектирования компьютерных систем

— Санкт-Петербургский государственный университет информационных технологий, механики и оптики, кафедра проектирования компьютерных систем

Вениамин Александрович Семенов — Санкт-Петербургский государственный университет информационных технологий, механики и оптики, кафедра проектирования компьютерных систем; E-mail: veny-semenov@yandex.ru

Светлана Николаевна Кузнецова

ХоангЗянг

Игорь Борисович Троников

Рекомендована кафедрой проектирования компьютерных систем

Поступила в редакцию 25.03.08 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.