Научная статья на тему 'Сегментация изображения для распознавания печатных документов'

Сегментация изображения для распознавания печатных документов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1107
164
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОНФЕРЕНЦИЯ / CONFERENCE / РАСПОЗНАВАНИЕ СИМВОЛОВ / IMAGE RECOGNITION / СЕГМЕНТАЦИЯ ИЗОБРАЖЕНИЯ / IMAGE SEGMENTATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Хоанг Зянг, Коробейников Анатолий Григорьевич

Разработан алгоритм многошкальной сегментации на базе динамической локальной карты связи (ДЛКС) изображения для получения иерархического дерева блоков документов, имеющих сложную структуру (присутствие рисунков, пятен, текстовых символов разных шрифтов и т.д.).

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Хоанг Зянг, Коробейников Анатолий Григорьевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

IMAGE SEGMENTATION FOR RECOGNITION OF PRINTED DOCUMENTS

This paper describes the newly developed multiscale algorithm for document segmentation, based on the Dynamic Local Connectivity Map (DLCM). Using this algorithm we can extract the hierarchical tree of document blocks with a complicated structure (presence of pictures, sports, text in different fonts and so on)

Текст научной работы на тему «Сегментация изображения для распознавания печатных документов»

бот. При реализации комплекса необходимо использовать современные вычислительные средства со специально разработанным программным обеспечением.

К достоинствам данного решения можно отнести такие качества, как мобильность (наземная часть может переноситься даже одним человеком), точность выполняемых расчетов, относительную дешевизну оборудования, а также использование оборудования, которое имеется в свободной продаже на рынке авиационных приборов. К недостаткам комплекса можно отнести необходимость выполнения геодезической привязки во время развертывания на аэродроме.

Представляется целесообразным изготовление опытного образца в ближайшее время и его введение в эксплуатацию после завершения соответствующих испытаний.

Литература

1. Радиотехнические системы: Учебное пособие для вузов по спец. «Радиотехника» / Под ред. Ю.М. Казаринова. - М.: Высш. шк., 1990. - 496 с.

2. ГЛОНАСС. Принципы построения и функционирования. / Под ред. А.И. Перова, В.Н. Харисова. - Изд. 3-е, перераб. - М.: Радиотехника, 2005. - 288 с.

3. Соловьев Ю.А. Системы спутниковой навигации. - М.: Эко-Трендз, 2000. - 270 с.

4. Соловьев Ю.А. Спутниковая навигация и ее приложения. - М.: Эко-Трендз, 2003. -326 с.

5. ЯТСА/БО-253А

Саута Александр Олегович Поляков Владимир Иванович

— Санкт-Петербургский государственный университет информационных технологий, механики и оптики, аспирант, demosito@gmail.com

— Санкт-Петербургский государственный университет информационных технологий, механики и оптики, кандидат технических наук, доцент, v_i_polyakov@mail.ru

УДК 004.93

СЕГМЕНТАЦИЯ ИЗОБРАЖЕНИЯ ДЛЯ РАСПОЗНАВАНИЯ ПЕЧАТНЫХ ДОКУМЕНТОВ

З. Хоанг, А.Г. Коробейников

Разработан алгоритм многошкальной сегментации на базе динамической локальной карты связи (ДЛКС) изображения для получения иерархического дерева блоков документов, имеющих сложную структуру (присутствие рисунков, пятен, текстовых символов разных шрифтов и т.д.). Ключевые слова: конференция, распознавание символов, сегментация изображения.

Введение

Хотя коммерческое программное обеспечение для распознавания печатных документов давно появилось и достигло высокой точности, все оно представлено закрытыми системами, используемые в них алгоритмы скрываются.

Как известно, процесс преобразования документов, хранимых в традиционных форматах (газета, книга и т.д.), в текстовый вид производится через многие этапы (дискретизация, бинаризация, подавление шумов, блок-сегментация, извлечение строк и символов, распознавание и т.д.). Цель данной работы - решить одну из задач, встречающихся при обработке изображения для распознавания, а именно - задачу сегментации изображения. В данный момент большинство исследований в области распознавания текста

ориентируется на поиск хороших алгоритмов для распознавания символов разных языков. Процесс сегментации мало исследуется, и методы сегментации, описанные в литературе, недостаточно подробны и/или имеют недостатки при применении.

Сегментация изображения - один из важных этапов в системе оптического распознавания текста. Цель этого этапа - выделение на введенном документе той области, в которой представлен текст, и отделение текстовой информации от графической. Сегментация включает в себя геометрический и логический анализ макета страницы. Геометрический анализ определяет максимально гомогенные области и их классификации (текст, таблица, изображение, фигуры и т. д.). Задача логического анализа - определение схемы страницы, типа каждого текстового блока (заголовок, логотип, сноска, колонки, основный текст), а также определение связи и порядка этих блоков [1].

1. Краткий обзор методов сегментации и анализа страницы

Методы сегментации и анализа страницы разделяются на 3 главные категории -нисходящие, восходящие и гибридные [2].

При применении нисходящих методов сначала находится самый высокий уровень структур (обычно это колонки и графика), потом колонки разбиваются на параграфы, параграфы - на строки, и т.д. Процесс продолжается до тех пор, пока не достигается самый нижний уровень - символы. При использовании этого подхода необходима априорная информация о макете страницы. К этой категории также относятся неравномерное размазывание [4], методы проекции профиля [5], белые потоки [6], преобразование Фурье [7] и т.д.

Восходящие методы начинаются с поиска минимального элемента (например, пиксель). Затем пиксели комбинируются и формируют связные компоненты. Дальше из этих компонентов создаются символы, слова, фразы, параграфы и колонки. На первый взгляд, это более гибкий подход, но на практике он трудно применим из-за накапливания ошибок каждого этапа обработки. К этой категории относятся такие методы, как метод анализа связных компонентов [1], метод неравномерного сглаживания [4], метод наращивания областей [3] и нейронные сети [8].

Среди известных методов интересен метод «Х-У дерево», разработанный Наги (№§у) [9],. В этом методе документ сегментируется через многошаговый процесс, и в результате строится дерево вложенных прямоугольных блоков. Сначала документ сегментируется на большие блоки путем горизонтального и вертикального разрезания. Дальше этот процесс повторяется для каждого блока. Особенность этого метода - полученное дерево соответствует логической структуре документа. Основный недостаток метода - допущение, что текстовые блоки имеют прямоугольную форму и хорошо разделяются прямоугольными полосами.

Метод неравномерного сглаживания [4] популярен и часто используется вместе с другими методами. В основном это - простая обработка изображений, которая выполняется следующим образом: изображение сканируется горизонтально и (или) вертикально, и цвет небольших фоновых областей изменяется на цвет изображения (цвет текста). В результате получается эффект размытия, при котором объединяются близкие символы, элементы документа. Это служит основанием и для других методов, таких как профильная проекция, группирование связных компонентов, нейронные сети и т.д. Главная недостаток метода - определение порогового размера малой области, цвет которой необходимо обновить. Если этот размер слишком маленький, размытие может быть недостаточным, чтобы получить ожидаемый эффект. На практике этот размер обычно определяется эмпирическим путем или через приблизительную оценку размеров зазора между текстовыми блоками, строками или размера шрифта печатных символов. Вычисление этих параметров также является недостатком других методов сегментации.

2. Разработанный метод

В данной работе разработан метод многошкальной сегментации страницы с использованием понятия динамическая локальная карта связи (ДЛКС).

ДЛКС изображения является результатом трансформации изображения в матрицу, размер которой равен размеру изображения. ДЛКС можно представлять как изображение. ДЛКС строится следующим образом: в каждой позиции пикселя исходного изображения элемент матрицы принимает значение 0, если пиксель черный (текстовый цвет). В противном случае элементу матрицы присваивается значение, равное расстоянию между двумя соседними черными пикселями в исходном изображении. В качестве расстояния можно выбрать минимальное или среднее значение вертикального и горизонтального измерения. Эксперименты показывают, что лучший результат получается при использовании минимального значения вертикального и горизонтального расстояния. Далее ДЛКС преобразуется в изображение оттенков серого цвета путем нормализации полученной матрицы так, чтобы ее элементы имели значения в интервале от 0 до 255. На рис. 1 представлен пример отображения ДЛКС.

Каждый ненулевой пиксель в ДЛКС представляет собой размер ближайшего локального зазора между двумя черными пикселями исходного изображения. Если выполнить бинаризацию ДЛКС с пороговым значением I, то все пиксели, имеющие значение меньше I, принимают значение 0. Эти пиксели, объединившись друг с другом, создают блоки (текстовые или графические). Так как ДЛКС - изображение серого оттенка, то любой пиксель может принимать значение от 0 до 255.

Бинаризация на каждом из этих значений разбивает исходное изображение на блоки. Чем меньше пороговое значение I, тем больше количество блоков. Если I = 255, все пиксели ДЛКС будут черными, а все изображение - одним блоком, который определяется как корневой блок. Далее производится бинаризация с пороговым значением меньше 255, и тогда получаются дочерние блоки. Если процесс повторяется для каждого блока, то в результате получается дерево разделения исходного документа. Корневой блок разбивается на некоторые блоки нижнего уровня. Каждый из получаемых блоков, в свою очередь, разбивается на блоки более низкого уровня. Блоки одного уровня можно упорядочить с помощью их относительного положения. Можно использовать, например, позиции ограничивающих их прямоугольников для определения их упорядоченных положений.

а б в

Рис. 1. Пример ДЛКС-изображения: а - исходное изображение; б - ДЛКС-изображение серого оттенка; в - ДЛКС-изображение после бинаризации

3. Результаты и их обсуждение

3.1. Исследование свойств порогового значения

Как было сказано выше, мы имеем 256 возможных выборов для пороговых значений. Поскольку процессы преобразования исходного изображения в ДЛКС и бинаризации - тяжеловесные, выполнение бинаризации со всеми возможными разными пороговыми значениями занимает большое вычислительное время. Поэтому возникает задача выбора потенциальных пороговых значений.

При анализе этой задачи было просканировано 15 печатных документов из разных источников (в том числе научные статьи, газеты, книги). Для каждого полученного изображения была построена диаграмма зависимости количества связных компонентов (блоков) от порогового значения (рис. 2).

количество блоков (n)

75

50

25

0

пороговое значение (í)

0 100 255

Рис. 2. Зависимость количества блоков от порогового значения

количество 60 пикселов (к)

30

пороговое значение (í)

Рис. 3. Распределение значений пикселей ДЛКС

Оказалось, что количество блоков не изменяется непрерывно. Иначе говоря, в некоторой окрестности порогового значения I количество блоков изменяется незначительно или вообще не изменяется. Другой вывод из диаграммы - в начале (в окрестности I = 0) количество блоков всегда велико, но очень быстро уменьшается до некоторо-

0

го разумного значения. Это свойство можно использовать для нахождения нижней границы порогового значения t.

Второе исследование - это построение диаграммы распределения расстояний. Так как значения пикселей ДЛКС прямо связаны с расстояниями, то было вычислено распределение значений пикселей ДЛКС (рис. 3). Из диаграммы видно, что расстояния распределяются неравномерно и существуют некоторые пиковые значения.

Еще один интересный результат из экспериментов - количество пиков всегда находится в окрестности 25 значений, хотя документы, используемые в экспериментах, относятся к различным областям. Значения, находящиеся между пиковыми значениями, могут быть пороговыми.

3.2. Построение иерархического дерева сегментации Блоки документа сегментируются в иерархическом порядке. Сначала необходимо выбрать набор пороговых значений t. Эксперименты показывают, что 10 пороговых значений достаточно для сегментации всех документов. Первое пороговое значение в наборе - это минимальное пороговое значение, при котором наблюдается резкое уменьшение количество блоков (см. рис. 2). В экспериментах это значение всегда находится в окрестности 50. Потом выбирается минимальное значение, находящееся между пиковыми значениями и большее первого порогового значения, в качестве потенциального порогового значения. Если в окрестности этого значения наблюдается резкое изменения количества блоков, то это значение подходит для порогового значения. Процесс повторяется для всех долин между пиковыми значениями.

Бинаризации с помощью минимального значения из набора пороговых значений генерирует блоки высшего уровня. Дальше для каждого блока выполняется бинаризация, используя следующее пороговое значение из набора. В результате этого процесса получается иерархическое дерево сегментации, пример которого приведен на рис. 4.

а б

Рис. 4. Пример многошкальной сегментации: а - исходное изображение; б - результат сегментации и фильтрации

Заключение

На основе обзора методов сегментации и анализа страницы при решении задач оптимального распознавания текста представлен разработанный авторами метод многошкальной сегментации страницы на базе понятия «Динамическая локальная карта связи» Приведены результаты использования этого метода.

Литература

1. Jain A., Yu B. Document representation and its application to page decomposition // Pattern Analysisand Machine Intelligence. - 1998. - № 3. - C 294-308.

2. Okun O., Doermann, Pietikainen M. Page Segmentation and Zone Classification: The State of the Art. LAMP-TR-036 (Technical Report). - University of Maryland, 1999.

3. Jain A. Fundamentals of digital image processing. - Prentice Hall, 1990. - 421 a

4. Wong K.Y., Casey R.G., Wahl F.M. Document analysis system // IBM Journal of Research and Development. - 1982. - V. 26. - №6. - Р. 647-656.

5. Wang D., Srihari S. Classification of newspaper image blocks using texture analysis // Computer Vision, Graphics, and Image Processing. - 1989. - V. 47. - C 327-352.

6. Pavlidis T., Zhou J. Page segmentation by white streams // Proceedings of 1st International Conference Document Analysis and Recognition (ICDAR), International Association Pattern Recognition, 1991. - Р. 945-953.

7. Hose M., Hoshino Y. Segmentation method of document images by two-dimensional fourier transformation // System and Computers in Japan. - 1985. - V. 3. - C. 16-20.

8. Tan C., Zhang Z. Text block segmentation using pyramid structure // SPIE Document Recognition and Retrieval, San Jose, USA. - 2001. - V. 8. - C 297-306.

9. Nagy S.S.G., Stoddard S. Document analysis with expert system // Proceedings of Pattern Recognition in Practice II, 1985. - Р. 31-33.

ХоангЗянг

Коробейников Анатолий Григорьевич

— Санкт-Петербургский государственный университет информационных технологий, механики и оптики, аспирант, giangdebug@yahoo.com

— Институт земного магнетизма, ионосферы и распространения радиоволн им. Н.В. Пушкова, зам. директора, доктор технических наук, профессор, Korobeynikov_A_G@mail.ru

УДК 681.4

ВЛИЯНИЕ ВНЕШНИХ ВОЗДЕЙСТВИЙ НА DC-КОЭФФИЦИЕНТ МАТРИЦЫ ДИСКРЕТНО-КОСИНУСНОГО ПРЕОБРАЗОВАНИЯ В ПОЛУТОНОВЫХ ИЗОБРАЖЕНИЯХ Н.Н. Прохожев, О.В. Михайличенко, А.Г. Коробейников

Цель работы - постановка и анализ результатов экспериментов, проводимых с целью выявления влияния различных внешних воздействий на коэффициент отображающий общую яркость блока (DC-коэффициент) матрицы дискретно-косинусного преобразования (ДКП) в неподвижных полутоновых изображениях. Целью анализа устойчивости DC-коэффициентов является определение их теоретической пригодности для использования в качестве основы для разработки стеганографических алгоритмов повышенной устойчивости. В качестве внешних воздействий используются JPEG сжатие с потерями, гауссовский белый шум, масштабирование и фильтрация.

Ключевые слова: стеганография, алгоритмы частотной области, DC-коэффициенты.

Введение

Стеганографические алгоритмы, производящие встраивание скрываемой информации в частотную область изображений, получили широкое распространение в силу некоторых выгодных отличий от остальных стеганографических алгоритмов. К сильным сторонам данного вида алгоритмов, прежде всего, следует отнести возможность

i Надоели баннеры? Вы всегда можете отключить рекламу.