Научная статья на тему 'Адаптивное выделение символов рукописного текста'

Адаптивное выделение символов рукописного текста Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
626
65
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Горошкин Антон Николаевич

Рассмотрен метод сегментации изображений рукописного текста на отдельные текстовые зоны. Описан метод сегментации текстовых зон на отдельные символы при помощи адаптивной процедуры подстройки выделяющей ячейки. Также рассмотрен метод определения угла поворота изображения.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Горошкин Антон Николаевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Adaptive allocation of symbols of the hand-written text

The method of hand-written text images segmentation on separate text zones is considered. The method of text zones segmentation on separate symbols with using adaptive procedure of allocating cell tuning is resulted. And also the method of image rotation angle definition is considered.

Текст научной работы на тему «Адаптивное выделение символов рукописного текста»

4. Потапов, В. И. Математическое моделирование тепловых и электромагнитных процессов при электрошла-ковом переплаве / В. И. Потапов, Н. А. Игизьянова // Теория и технология металлургического производства : регион. сб. науч. тр. / Магнитогор. гос. техн. ун-т. Магнитогорск, 2006. С. 231-236.

5. Ячиков, И. М. Моделирование электромагнитных процессов в ванне дуговых печей постоянного тока / И. М. Ячиков, И. В. Портнова, В. Н. Манагаров // Новые программные средства для предприятий Урала / Магнитогор. гос. техн. ун-т. Магнитогорск, 2004. С. 115-122.

V. I. Potapov, N. A. Igizjanova, N. D. Demidenko

MATHEMATICAL MODELLING OF ELECTROMAGNETIC PROCESSES IN THE ELECTRODE-SLAG BATH SYSTEM UNDER ELECTROSLAG REMELTING

It is investigated electromotive forces in the slag bath of the mould in the process of direct current electroslag remelting (ESR). The mathematical model describing electromagnetic processes under ESR is based on Maxwell’s equations. The way of solving is the method of finite differences realised in the algorithm of Visual Basic. A program allowing calculations on the PC by given formulas has been created. The problem has been considered in the axially symmetric formulation. The calculations of the electromagnetic processes in the slag zone of the mould allows acquiring values of the so-called electromotive forces influencing the ESR to a great extent.

УЦК 681.3

А. Н. Горошкин

АДАПТИВНОЕ ВЫДЕЛЕНИЕ СИМВОЛОВ РУКОПИСНОГО ТЕКСТА

Рассмотрен метод сегментации изображений рукописного текста на отдельные текстовые зоны. Описан метод сегментации текстовых зон на отдельные символы при помощи адаптивной процедуры подстройки выделяющей ячейки. Также рассмотрен метод определения угла поворота изображения.

При распознавании рукописных символов на изображениях в статическом режиме (offline) важную роль занимает обнаружение зон, содержащих рукописные знаки, а также сегментация изображений зон на отдельные символы. Для обнаружения зон очень часто используют метод гистограмм. Для этого изображение последовательно сканируется построчно, при этом количество пикселей в строке суммируется и строится гистограмма. Затем производится анализ гистограммы на максимумы и минимумы. Максимальное значение показывает вероятное расположение строки, содержащей символы. Данный подход эффективен в случае, если строки расположены горизонтально. Если же строки расположены не горизонтально, то необходимо многократное сканирование в различных направлениях и выбор такого направления, которое обеспечивало бы максимально выраженные максимумы и минимумы на полученной гистограмме. Это накладывает существенные вычислительные ограничения и требует больших ресурсов машинного времени и памяти. Автором предложен метод, основанный на обнаружении текстовых зон при помощи морфологической обработки с последующим обнаружением связанных областей. Кроме того, данный метод позволяет определить ориентацию входного изображения, что существенно упрощает процедуру распознавания, тем самым увеличивая эффективность системы распознавания, а также обеспечивает сегментацию изображений текстовых зон на отдельные изображения символов.

Метод обнаружения и сегментации текстовых зон условно можно разделить на следующие этапы (рис. 1):

- предварительную обработку (устранение шумов, бинаризация);

- морфологическую обработку (операции расширения и сжатия);

- обнаружение связанных областей и построение текстовых зон;

- определение угла поворота текстовых зон относительно горизонтального направления и поворот изображения;

- сегментацию полученных текстовых зон на отдельные символы при помощи адаптивной процедуры подстройки выделяющей ячейки.

Изображение входного документа подвергается предварительной обработке, где осуществляется наложение сглаживающих фильтров и последующая бинаризация изображения, после чего бинарное изображение подвергается морфологической обработке, при которой происходят последовательные операции расширения и сжатия. Цалее выполняется обнаружение связанных областей и построение текстовых зон. Затем осуществляется нормализация изображения, т. е. вычисляется угол поворота текстовых зон относительно горизонтального направления, а также средний угол поворота всего изображения входного документа, и происходит поворот изображения входного документа. Заключительным этапом является сегментация текстовых зон на отдельные символы при

помощи адаптивной процедуры подстройки выделяющей ячейки. Рассмотрим каждый из этапов более подробно.

Изображение входного документа

обнаружение связанных областей и построение текстовых зон

і Г

Нормализация

определение угла поворот изображения

поворота на угол

6<А j ) =

Рис. 1. Метод обнаружения и сегментации текстовых зон

На этапе предварительной обработки для устранения помех на изображении применяются различные методы фильтрации. Наиболее простыми являются сглаживающие фильтры: линейный и медианный. Линейный сглаживающий фильтр работает следующим образом: находится среднее арифметическое значение всех элементов рабочего окна изображения, после чего это среднее значение становится значением среднего элемента. Медианный фильтр основывается на нахождении медианы, т. е. среднего элемента последовательности в результате ее упорядочения по возрастанию (убыванию) и присваиванию найденного значения только среднему элементу. Поскольку изображение с рукописными символами чаще всего представляет собой двухцветное изображение, то целесообразно преобразовать его к бинарному виду, чтобы в последующем можно было применить более простые методы морфологической обработки. Цля приведения изображения к бинарному виду можно использовать ряд методов, к которым относятся метод преобразования на основе анализа гистограммы распределения

яркоети элементов изображения, метод бинаризации по площади и метод пороговой бинаризации. Авторам ие-пользуетея метод пороговой бинаризации, обладающий выеоким быетродейетвием и в елучае выеококонтрает-ных изображений ничем не уетупающий другим методам. При пороговой бинаризации приевоение значения выходному элементу выполняетея по формуле

[0, ес^и A(i, j) < P,

[l, ес^и A(i, j) > P,

где A(i, j) - значение яркоети элемента иеходного изображения; Q(i, j) - значение бинарного изображения; P - значение порога.

На этапе морфологичеекой обработки оеущеетвляет-ея поеледовательное применение операции раеширения и ежатия (рие. 2). В морфологичееких алгоритмах уча-етвуют цифровые изображения, заданные функциями f(x, y) и b(x, y), гдеДх, y) - иеходное изображение (рие. 2, а); b(x, y) - изображение примитива. Тогда операция раеширения f по b определяетея как

(f ® b)(s, t) = max(f(s - x, t - y) +

+b(x, y)|(s - x, t - y) e Df (x, y) e Db},

где Df и Db - облаети определений изображений f и b еоответетвенно; s и t - едвиги координат по оеям Xи Y. Аналогичным образом определяетея операция ежатия f по b:

(f и b)(s, t) = min(f s + x, t + y) -

- b(x, y) | (s + x, t + y) e Df; (x,y) e Db},

где Df и Db - облаети определений изображений f и b еоответетвенно; s и t - едвиги координат по оеям Хи Y.

В качеетве изображений примитива в операции рае-ширения предлагаетея иепользовать маеки аппертурой 3 х 5, 3 х 7 и выше, предетавляющие еобой матрицы, ео-етоящие из единиц, в результате чего контуры еимволов, етоящие близко друг к другу, будут евязаны в общий контур и тем еамым получитея зона, еодержащая текет. Далее применяетея операция ежатия, обеепечивающая егла-живание внешних краев евязанных облаетей (рие. 2, б). В качеетве примитива беретея маека апертурой 3 х 3. Эти операции могут оеущеетвлятьея поеледовательно не-еколько раз для более эффективного елияния в общие облаети, выбираемого эмпиричееким путем для еоответ-етвующих примитивов операций. Так, например, теети-рование показывает, что для маеки аппертурой 3 х 5 необходимо выполнить в ереднем 3 операции раеширения и ежатия, а для маеки аппертурой 3 х 7 доетаточно 1-2 операций, поеле чего оеущеетвляетея еканирование изображения и маркировка облаетей принадлежащих евя-занным облаетям е учетом окружающих маркеров (рие. 2, в). В качеетве окружающих маркеров раеематри-ваетея маркер вышеетоящего пикееля и пикееля елева. Еели выше етоящий пикеель имеет маркер, то текущий пикеель при еканировании изображения маркируетея аналогичным маркером. В противном елучае текущий пикеель маркируетея маркером, который имеет левый от текущего пикеель. Еели же левый пикеель не имеет маркера, то текущий пикеель маркируетея еледующим номером маркера. На оеновании полученных маркеров

строится таблица связности маркированных областей. В нашем случае при сканировании изображения и установке маркеров определяется связность областей с одинаковыми маркерами и осуществляется связывание маркированных областей в общую текстовую зону с пометкой данной зоны индексом (рис. 2, г).

г

Рис. 2. Построение общих текстовых зон: а - исходное изображение; б - выделение изображений зон; в - маркировка областей; г - связывание областей в текстовые зоны

Предположим, что строки текстовых символов расположены параллельно друг другу (максимальный угол отклонения - около 3е). В данном случае можно определить средний угол наклона текстовых зон относительно горизонтальной линии и таким образом вычислить угол поворота всего изображения, что обеспечит более качественную сегментацию текстовых зон на отдельные символы. Цля этого вычисляются центры масс изображений текстовых зон и дальних отстоящих точек и вычисляются углы поворота изображений текстовых зон:

ЛЩ.= atan((y. - у. )/(х. - х. )),

■-'г 4 47 гт у гс' у гт гс'''

где Л!/а. - угол поворота г-й текстовой зоны; х. , у. - координаты дальней отстоящей точки г-й текстовой зоны; х , ус - координаты точки центра масс г-й текстовой зоны. Соответственно угол поворота всего изображения находится по среднеарифметическому углов текстовых зон:

Л1/а = !Л1/а. / п, где Л!/а - угол поворота изображения; Л!/а. - угол поворота г-й текстовой зоны; п - общее число текстовых зон.

Таким образом определяются зоны, содержащие текст и угол поворота изображения. Затем изображение поворачивается на вычисленный угол и найденные зоны выделяются прямоугольной областью. Происходит наложение этих областей на первоначальное изображение и осуществляется сегментация выделенных текстовых зон, для чего изображение подвергается повторной морфологической обработке с целью выделения возможного ядра каждого символа в группе символов. Цля этого зона, содержащая большую часть изображения текстовых символов, делится на две части средней горизонтальной линией (рис. 3). Изображения верхней и нижней части зоны подвергаются морфологической процедуре расширения с примитивами размерности 3 х 3 (рис. 4).

б

Рис. 3. Операция расширения для групп символов: а - исходное изображение; б - после операции расширения

0 0 0

0 0 0

0 1 0

0 1 0

0 0 0

0 0 0

а б

Рис. 4. Примитивы морфологической операции расширения: а - для верхней части зоны; б - для нижней части зоны

В результате такой процедуры получается расширенное изображение группы символов, в которых внутренние области символов наиболее насыщены (ядра), при этом межсимвольные расстояния остаются практически неизменными (рис. 5). Затем среди информативных зон ищутся самые наименьшие зоны (предположительно одиночные символы союзов и предлогов) и вычисляется среднее значение размера ячейки для нескольких типов символов (строчные, прописные и строчные с хвостиком: «в», «б», «д», «у» и т. д.). Цалее на оставшиеся группы символов накладывается полученная выделяющая ячейка. По умолчанию накладывается ячейка для строчного типа символов, так как данные символы, как правило, составляют большую часть документа.

Предположим, что написание текста идет слева направо. В этом случае для определения границы символа на правой границе выделяющей ячейки ищется локальный минимум плотности точек изображения текстовых

символов (на рис. 5 большим прямоугольником показана выделяющая ячейка, меньшим прямоугольником выделена область, внутри которой ищется локальный минимум плотности точек изображения).

Рис. 5. Сегментация текстовых зон

Пусть 1М(1, у) - изображение группы символов, где г = 1, 2, ..., НО;у = 1, 2, ..., WG, здесь НО - высота группы символов, WG - ширина группы символов. Вычислим массив средних значений яркости пиксельных столбцов в изображении группы символов:

SG_COL(j) = sumг(1M(i, у)) / НО,

где г = 1, 2, ..., НО.

Цалее в этом массиве найдем номера столбцов, которые входят в текущую область на правой границе выделяющей ячейки и для которых значения элементов мас-

сива минимальны. Сделаем предположение о том, что эти столбцы представляют собой местоположение связующего символы элемента и происходит коррекция выделяющей ячейки до этого местоположения, а также закраска цветом фона границы выделяющей ячейки. В результате получаются новые параметры выделяющей ячейки, которые заносятся в таблицу для дальнейших операций, и происходит сегментация изображения текстовых зон на отдельные зоны содержащие символы. Последующие параметры выделяющей ячейки (длина, ширина) выбираются как средние между всеми параметрами ячеек, занесенных в таблицу. Таким образом происходит сегментация изображений групп символов на отдельные символы и получается набор сегментированных изображений, которые в дальнейшем могут быть использованы в системе распознавания.

Предложенный выше метод адаптивного выделения символов рукописного текста может эффективно применяться в различного рода системах распознавания и анализа документов, содержащих изображения рукописных символов и текста. Кроме того, этот метод позволяет осуществлять определение угла поворота изображения документа и тем самым обеспечивать дополнительную коррекцию изображения. В настоящее время ведется апробация метода в составе автоматизированного комплекса распознавания документов, содержащих рукописные символы и текст.

A. N. Goroshkin

ADAPTIVE ALLOCATION OF SYMBOLS OF THE HAND-WRITTEN TEXT

The method of hand-written text images segmentation on separate text zones is considered. The method of text zones segmentation on separate symbols with using adaptive procedure of allocating cell tuning is resulted. And also the method of image rotation angle definition is considered.

УЦК 681.3

И. А. Капчинский, А. С. Кузнецов, А. В. Штенцель

ПРИНЦИПЫ ФОРМИРОВАНИЯ МУЛЬТИВЕРСИОННОГО ПРОГРАММНОГО КОМПЛЕКСА

Рассмотрена методология мультиверсионного программирования, гарантирующая, что ошибки одной из версий не приведут к нарушению процесса управления сложными объектами, к которым предъявляются жесткие требования по надежности и автономности функционирования.

Программные средства, использующиеся в системах управления и информационных системах, обладают всеми свойствами сложных систем: они содержат большое количество (сотни и тысячи) компонентов - модулей, тесно взаимодействующих в процессе решения общей целевой задачи. Программный комплекс (ПК) имеет единую цель функционирования - обработку информации и принятие решений для управления объектами. Цля обеспечения взаимодействия компонентов в едином комплексе широко используются иерархические структуры с несколькими уровнями группирования и подчиненности модулей, каждый из которых имеет свою целевую задачу и спе-

цифический частный критерий качества, как правило не совпадающий с критерием эффективности всего комплекса. Однако частные критерии качества модулей и групп программ играют подчиненную роль относительно критериев качества всего ПК и должны способствовать получению их допустимых или экстремальных значений.

Иерархическая структура широко используется при анализе критериев качества всего ПК и его частей. Создание сложных систем с заданными характеристиками при ограниченных ресурсах требует проведения определенного комплекса мероприятий для достижения поставленной цели, получившего название «проект». Целенаправ-

i Надоели баннеры? Вы всегда можете отключить рекламу.