Научная статья на тему 'РАЗРАБОТКА АЛГОРИТМА СЕГМЕНТАЦИИ РУКОПИСНОГО ТЕКСТА С ИСПОЛЬЗОВАНИЕМ МАСКИ'

РАЗРАБОТКА АЛГОРИТМА СЕГМЕНТАЦИИ РУКОПИСНОГО ТЕКСТА С ИСПОЛЬЗОВАНИЕМ МАСКИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
114
14
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
CЕГМЕНТАЦИЯ РУКОПИСНОГО ТЕКСТА / ИСПОЛЬЗОВАНИЕ МАСКИ / УДАЛЕНИЕ ФОНА ИЗОБРАЖЕНИЯ / SEGMENTATION OF HANDWRITTEN TEXT USING A MASK / REMOVING THE BACKGROUND IMAGE

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кобенко Вадим Юрьевич, Фролов Святослав Олегович, Талалаев Владимир Ильич

В работе освещается проблема выделения рукописного текста на изображении для последующего распознавания. Приводится описание широко распространенных методов сегментации, позволяющих решить данную проблему: метод цветового анализа изображений, бинарная сегментация изображений методом фиксации уровня, а также метод выделения и анализа контуров. Предложен алгоритм сегментации текста, основанный на использовании маски исходного изображения, позволяющий существенно упростить сегментацию текста на изображениях с немонотонным фоном. Также производится сравнительный анализ методов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Кобенко Вадим Юрьевич, Фролов Святослав Олегович, Талалаев Владимир Ильич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DEVELOPMENT OF ALGORITHM FOR SEGMENTATION OF HANDWRITTEN TEXT USING MASKS

The work highlights the problem of extracting handwritten text on the image for further recognition. Describes common methods of segmentation, allowing to solve this problem: method of color image analysis the binary image segmentation method of fixing level, as well as, a method for the separation and analysis of circuits. The proposed algorithm for text segmentation based on the use of the mask of the original image to simplify the segmentation of text in images with a non-monotonic background. Also the comparative analysis methods is done.

Текст научной работы на тему «РАЗРАБОТКА АЛГОРИТМА СЕГМЕНТАЦИИ РУКОПИСНОГО ТЕКСТА С ИСПОЛЬЗОВАНИЕМ МАСКИ»

УДК 004.932.4

DOI: 10.25206/1813-8225-2020-172-47-52

В. ю. КОБЕНКО С. О. ФРОЛОВ В. И. ТАЛАЛАЕВ

Омский государственный технический университет, г. Омск

РАЗРАБОТКА алгоритма СЕГМЕНТаЦИИ РУКОПИСНОГО ТЕКСТА С ИСПОЛЬЗОВАНИЕМ МАСКИ

В работе освещается проблема выделения рукописного текста на изображении для последующего распознавания. Приводится описание широко распространенных методов сегментации, позволяющих решить данную проблему: метод цветового анализа изображений, бинарная сегментация изображений методом фиксации уровня, а также метод выделения и анализа контуров. Предложен алгоритм сегментации текста, основанный на использовании маски исходного изображения, позволяющий существенно упростить сегментацию текста на изображениях с немонотонным фоном. Также производится сравнительный анализ методов.

Ключевые слова: cегментация рукописного текста, использование маски, удаление фона изображения.

Введение. В задачах оптического распознавания объектов на изображении основой успешного распознавания является качество обрабатываемого изображения. В связи с этим вероятность успеха напрямую зависит от алгоритмов предобработки изображения, позволяющих решать такие задачи, как повышение контрастности, восстановление поврежденных изображений, подавление шумов, выделение фона и т.д.

В настоящий момент существует несколько алгоритмов, позволяющих в той или иной степени решать поставленную задачу.

Обзор существующих аналогов.

1. Цветовой анализ изображений.

Данный метод является наиболее простым и может быть применим как к цветным изображениям, так и к изображениям в градациях серого, в которых объект сегментации имеет высокую контрастность по отношению к фону изображения.

Основа метода заключатся в представлении изображения в виде некоторой цветовой модели, например, RGB, в которой исходное изображение разбивается на 3 канала: красный, зеленый и синий, соответственно, или HSV — тон, насыщенность, значение и т.д.

Рассмотрим структуру дискретного цветового изображения в RGB представлении.

Цветовая модель изображения имеет следующий вид:

M[f(m, n)] = {р0 [x0(m), Уо(п),со (r(l), flM,b(l))J

p1[x1(m), y1(n),c1(r(l), g(l),b(l))]

(1)

Pk k(m), y4(n),c4 (r(l), g(l), b(l))]},

где M — массив пикселей; [f(m,n)] — функция расположения пикселей на изображении; p — пиксель, состоящий из трех цветов (красный, зеленый, синий); x и y — индексы строки и столбца положения пикселя в матрице изображения; c — код цвета; r — красный цвет; g — зеленый цвет; b — синий цвет; l — уровень градации цвета; k — количество пикселей в изображении.

Для решения задачи выделения объектов на цветных дискретных изображениях методом цветового анализа предлагаются следующие алгоритмы:

— определение наличия чистых цветов по шкале RGB;

— разделение исходного изображения на два (серое и чисто цветное);

— снижение числа градаций цвета путем смещения градаций к нижнему уровню, среднему уровню, верхнему уровню или определенному уровню цвета без потерь пикселей данного цвета;

— поиск областей скопления пикселей выбранного цвета на изображении путем использования спиральной развертки;

— выявление контура цветного объекта в выбранной области.

Рассмотрим работу метода цветового анализа изображения. Алгоритм работы представлен на рис. 1.

В используемом алгоритме можно выделить 6 основных пунктов. После загрузки исходного изображения (пункт 1) необходимо определить параметры фрагмента сегментации (пункт 2). В данном случае фрагментом сегментации будет являться зеленый кубик.

Определим соотношения RGB-составляющих в выбранном фрагменте. Для удобства визуального представления воспользуемся возможностями встроенной функции «imtool» [1], входящей в со-

47

Рис. 1. Блок-схема алгоритма цветового анализа изображений

Пункты 5 и 6 являются необязательными и используются в случае необходимости получения фрагмента сегментации в исходном виде. В таком случае полученную маску необходимо поэлементно умножить на исходное изображение и в случае необходимости изменить цвет фона.

Главными достоинствами данного метода являются простота и наглядность.

Основными недостатками являются: необходимость хорошей различимости фрагмента сегментации изображения по отношению к фону и побочным объектам, необходимость ручной настройки параметров для получения качественного результата, а также невозможность применения метода к бинарным изображениям.

2. Бинарная сегментация изображений методом фиксации уровня.

Данный метод был введен американскими математиками Стэнли Ошером и Джеймсом Сетьяном в 80-е годы прошлого века. Он стал популярным во многих дисциплинах, таких как компьютерная графика, обработка изображений, вычислительная геометрия, оптимиьецля, вычисльтлльная гитроди-намика и вычислительная биофизика.

Метод фиксации уз овня неявно преобразует контур (в двух измерениях) или поверхность (в трех измекениях), и сколь муя фужцию болит высокой размерности, называемую функцией фиксации уровня ф(м, t).

Преобразованный контур или поверхность можно получить каккривую Л)мД) = Тв(м,t) = 0} [Я].

Блок-схема алгоритма представиеуа нн р=С; 2.

Перед начаутх р»тбохко алаориттгапроизсодится загрузка исходного изобраоиеиих I, л тхкжо хртво-дится инициалмзацие основных пеыеменных, таких как исходная моска т; порог Г; ошиОке е; )яслт исе-раций N; число итерациИ дея леяесчетс карты рас-стоя ний, ITS.

Далее слкдмет тевчисяени- с->п^нк1-:и}:[Я[ данных по фокммле:

в (0)

СВ) =в s и |] иЦ

Функция D(I),по сути,упрнвм=ст в=тм соемента-цией, сжимас шш расширпя модель в зависимости от посадания пикоеля в диасасоai (Xs а- s,X п s- [2].

Производхые в^]^1[пе1сля-1с[тс[1 вычитанием сдвинутых матриц функции ф. Дад двух измпрений требуем, d, dп\

ется только

d пе =

-2]:

и »с^цп.- D-7 с и с-]-

с;м =

(С+ип) и ]с)вН-

(3)

D-м = -

2 \

и ). (п ) ифФ ) >ф ) -

Вылислнние нормалей к+ и к производятся ко флр муле:

Рис. 2. Блок-схема бинарной сегментации изображений методом фиксации уровня

став пакета Image Processing Toolbox программного обеспечения Matlab, и оценим яркость пикселей по 3-м каналам.

После определения параметров фрагмента сегментации осуществляется выделение фрагмента (пункт 3) путем изменения соотношения основных цветов. После чего формируется маска изображения (пункт 4).

(сп-2

D_

2

сф

(с;С

Dпе п D+

(сне-2-

Се_

с-^+с; 2

d :

(с--2-

Dие п 1С2

■(4)

Изменение вида вектора F с точностью до параметров позволяет направлять и изменять линию уровня р азличным образом [2].

2

п

н

F = aD(l ) + (1 -a)V

V

|Vф|

(5)

где а — весовой параметр, задаваемый пользователем; V • -3- — сзодний чаен кривизны функции

зо

ф, который будзт сохранять эту функцию гладкой.

Вычисление градиента ЗТ определяется в зависимости от того, являетса лз рл ]у > Ь ]или р.; ь н Ь [2]:

бфт

уф = 'шах 112 . (6)

и Уф min рассчитываются по формулам [2]:

7 Фк V]

о0ее пм-D е ,оД 0 max ^D- ,о)0

0еепо-Ту+,о)0 оттоНТ[,о)0

Пдпо-тепк т min НД^О-0

^mm-T6 П) -I- min ^m*,}-

Производит изеесиет фуикции уровня (рис. 3):

ф(е е 3t ) = ф(t )еие • f -Уф.

шумами.ЦельюКанни было разработать оптимальный алгоритм обнаружения края, который уменьшал бы вероятность обнаружения ложных краев и выдавал острые края [4].

Детектор границ Canny является оптимальным методом, т.к. имеет ряд преимуществ:

— обеспечивает хорошее обнаружение края;

— чёткий отклик;

— обеспечивает хорошую локализацию (рис. 4).

Алгоритм детакторт границ Canny.

1. Ослабление шумов с помощью размытия.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Перед началом непосредстве нной обраб-т ки изо -бражения необхофимо избавитьоя от шума. Шум на изображении устраняется п°тем придене—ия операции свертки исходного изображения Image(i, j) с фильтром Гаусса G, применение которого приводит к сильному размытию ипо брожения. -езультат сглаживания представляется формутой (5) и описывается выражением:

(7)

[2]

(8)

F-i, j) = G • Imaffe-U).

(9)

Преимуществ— =спользования этого метода состоит в пом- тто топологические изменения, такие как слияние п раеделение контура или поверхности, решаютсянеявно.

Недое—а=кпои являются значительные временные затраты, г^'^а ко е не возможность обработки бинарных изображений.

3. Выделениа = сталио контуров.

Данный мгтод в -ннооном применяется в случае, если объект сегментации существенным образом не выделяется на фа не оо цнету или имеет сложную раст]наску, т.е. -о случаях, когда применение методов цветового атализа и биеарной сегментации не даст хороших реоулотатов. В этом случае можно попробовать трамеуить ьовод выдекенит и анализа контуров.

Особенность оанноно меоодо зоключается в выделении границы ооъента сегментации на изображении. Гранисо — ото моотн с резким назменением градиента яркости. Проск границы ножет быть осуществлен с помощью оетодов Сапоу, Sobel, Prewitt, или Roberts [3]. Среди поедотаолео[ных детекторов наибольшую популярность получил метод выделения границ anny.

В 1986 г. Джон Ф. Канни разработал алгоритм обнаружения краев для изображений, искажённых

2. Вычисление градиента.

Суть данннго эаапа заплюнаатзе ]г опраделенил мест, в которых изманение уровня интенгивностн оттенков сенопо макпивслсно. Дпнвыа ста можно обнаружить щви лопощл гнадлпнвз изоИражсние, который вычисгетоя д]я о и ] иаправлени] .

Вычисление зрндпентпв в направления] i и j определяется формулзми (с) и представляется в виде [5]:

G = ее, • —о, у

и G— = D—

—(i, j),

(10)

где G = Т— — г—адиента! в р—нраолении i и j соот-

ветственно;

d =

-1 -о -1

и D[ =

1 0 1 о о о -1 -0 -1

опера-

торы Собеля в направлениях i и j соответственно.

3. Подавление не мая симумов.

Границы изображениябудут проходить в точках, в которых градиент находится на максимальном уровне. Таким образом, все точки не в максимуме должны быть подавлены. Подавление не максимумов выполняется для сохранения всех локальных максимумовв градиентном изображении, что приводит к получению тонких краев [6].

4. Пороговаяфильтрация.

Пороговая фильтрация применяется для подавления шумов, созданных в результате подавления не максимумов. С целью улучшения качества фильтрации применяют два порога.

Выходной сигнал после подавления не максимумов по-прежнему содержит локальные максимумы,

Рис. 3. Пример использования бинарной сегментации изображений методом фиксации уровня

Рис. 4. Блок-схема алгоритма, используемого в детекторе Canny

Рис. 5. Пример использования метода выделения контуров

Рис. 6. Блок-схема алгоритма

созданные шумом. Для улучшения качества фильтрации используют не один, а два порога tH и tL [7].

Если G > tL пиксель не является границей.

Если G > tH пиксель является границей.

Если t > G > tH и любой из соседних пикселей в зоне 3x3 имеет градиент выше, чем tH, то пиксель является границей.

Также данный метод позволяет осуществить проверку получившихся линий-границ на соответствие различным геометрическим контурам. Данную проверку можно осуществить, используя метод Хафа (Hough Transform). Подробнее о методе анализа контуров и методе Хафа описано в [3, 8] (рис. 5).

Достоинства: возможность применения в изображениях, когда объект сегментации существенным образом не выделяется на фоне по цвету или имеет сложную раскраску, высокая адаптивность с помощью регулировки параметров и низкая чув-ствительносмь к шуму.

Недостатком является большуя вычислительная сложность, а также сложность применения в случае, когда фон не ввуется моноуоряым.

Предлагаемый аугеячшм сегменчации. Предлагаемый способ решения данной проблемы заключается в использовании маски исходного изображения. Блок-схема предлагаемого алгоритма представлена на рис. 6.

Загрузка изображения и маски.

Реализуем данный алгоритм сегментации в системе Matlab. В качестве исходного изображения будет выступать отска ированный фрагмент тетрадного листа с рукописным текстом, представленный на рис. 7а. Под маской в данном случае понимается исходное изо бражение без рукописного текста (рис. 7б).

Поиск различий маски и изображения.

На данном этапе необходимо осуществить поиск различий чсходнмго мзобм ажения и маски путем алгебраического вычитания:

Diff (i. j) о Image (i. j) и Mask(i. j).

(11)

Рис. 7. а — исходное изображение; б — маска

Устранение шума.

Так как маска не идеально повторяет фон исходного изображения, в связи с этим на полученном изображении наблюдается болыпое количество шумов и линий, не пр едназнаменных для сегментации. Для фильтнеции еолеченного изображения воспользуемся усредняющим (медиальным) фильтром, который выполняет среднюю фильтрацию изображения в двух измерениях, где каждый выходной пиксель содержит среднее значение в 3x3 окружении соответствующего пикселя во входном изображении [1].

Для устранения оставшихся шумов воспользуемся операцией эрозии. Операция максимальной эрозии изображения заключается в преобразовании локального максимума евклидового расстояния на изображении [1].

Формирование новой маски изображения.

Полученное изображение имеет разрывы в местах прохождения линий клеток. Одним из вариантов решения проблемы является использование функций интерполяции фона, как описано в статье [9].

В данной статье рассматривается наиболее простой метод решения данной проблемы, заключающийся в использовании получившегося изображения в качестве новой маски.

Для формирлвания нлвой маски воспользуемся операцией свертки полученного изображения с матричным фильтром наращивания размерностью 5x5:

F(i. j) о

м м м м м

м м б м м

м б б б м

м м б м м

м м м м м

Diff (i, j)

Формирование готового изображения.

Далее, производится поэлементное умножение элементов, полученной маски, на исходное изображение. В связи с тем, что сформированная маска несколько шире необходимого нам фрагмента, то в результате умножения на полученном изображении будут наблюдаться части элементов фона исходного изображения.

Данный эффект можно устранить, профильтровав полученное изображение медиальным фильтром.

В заключение необходимо осуществить вычисление дополнения изображения для восстановления цветов (фон — белый, текст — черный) (рис. 8).

Сравнение результатов работы алгоритмов сегментации.

1. Цветовой анализ изображений.

Разложим исходное изображение (рис. 7а)

на RGB-составляющие. На основании произведённого разложения видно, что написанный текст имеет ярко выраженную синюю составляющую. Произведем цветовую селекцию с помощью приложения Matlab «Color Thresholder» [10] (рис. 9).

С помощью бегунков подбираем параметры так, чтобы остался только рукописный текст. После устранения шумов медиальным фильтром получаем готовое изображение (рис. 10).

2. Бинарная сегментация изображений методом фиксации уровня.

Применим бинарную сегментацию изображений методом фиксации уровня. В данном случае можно ограничиться применением в качестве порога плоскость с заданным уровнем, поскольку сегментируемый фрагмент хорошо различается на общем фоне изображения, как показано на рис. 11.

С целью улучшения качества фрагмента сегментации, уровень выставляемого порога выбирается таким образом, чтобы обеспечить максимальную сохранность сегментируемого фрагмента. В связи с этим на получившемся изображении наблюдаются шумы. Для устранения шумов воспользуемся медиальным фильтром (рис. 12).

3. Сравнение результатов работы алгоритмов сегментации.

В качестве эталона для последующего анализа воспользуемся алгоритмом обработки изображений, используемым в методе цветовой селекции, поскольку данный метод показал наилучшие качество сегментируемого фрагмента.

Произведем сравнительный анализ работы двух алгоритмов. Результат подсчёта идентичных пикселей, т.е. пикселей, имеющих идентичное значение и находящихся на идентичных позициях, показал, что сравниваемые изображения совпадают на 99,02 %. Таким образом, предложенный метод показывает результат, сопоставимый с уже зарекомендованными методами сегментации.

в ЪащОХ Wta. lyuuL c£>ru,i цитр^л ? t ко (jxku^cu^-ifiu /

Рис. 8. Конечный результат преобразований

Рис. 9. Гистограммы и диаграмма рассеяния исходного изображения

Ъат^сис

№ tO, 7K.CU-L

?

0&, , КО tjp&tsCfre.I Ш-falls

Рис. 10. Готовое изображение

Рис. 11. Результат сегментации в ЭБ-представлении

в

Q&-

Хст^ал. ) ко

7KZUL ¿W*

Рис. 12. Результат применения метода бинарной сегментации изображений с фиксацией уровня

Заключение. Предложен алгоритм сегментации текста, основанный на использовании маски исходного изображения. Данный метод позволяет существенно упростить процесс сегментации текста на изображениях с немонотонным фоном. Предложенный метод позволяет работать с RGB изображениями; с изображениями в оттенках серого, имеющими низкую контрастность; а также с бинарными изображениями. Кроме того, процесс обработки изображений может осуществляться в автоматическом режиме.

На основании проведенного сравнительного анализа можно сделать вывод, что изображения, полученные в результате работы алгоритмов, совпадают

более чем на 99 %. Это говорит о том, что предлагаемый алгоритм показывает результат, сопоставимый с уже хорошо зарекомендовавшими себя методами сегментации.

Из недостатков данного метода можно выделить необходимость наличия маски исходного изображения, большое количество операций для получения нужного фрагмента изображения, а также чувствительность к повреждению сегментируемого фрагмента.

Библиографический список

8. Гайдуков Н. П., Савкова Е. О. Применение преобразования Хафа для распознавания текста // Информатика и компьютерные технологии. 2012. C. 136 — 140. URL: http:// ea.donntu.org/handle/123456789/ 15585 (дата обращения: 20.03.2020).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

9. Firas A. Jassim. Image Inpainting by Kriging Interpolation Technique // World of Computer Science and Information Technology Journal (WCSIT). 2013. Vol. 3, no. 5. P. 91-96.

10. Создание маски изображения, используя Color Tresholder. URL: https://docs.exponenta.ru/R2019b/images/ image-segmentation-using-the-color-thesholder-app.html (дата обращения: 20.03.2020).

1. Список функций Image Processing Toolbox. URL: https://hub.exponenta.ru/post/spisok-funktsiy-image-processing-toolbox152#bwmo-rph (дата обращения: 20.03.2020).

2. Бинарная сегментация изображений методом фиксации уровня (Level set method). URL: https://habr.com/ru/ post/332692/ (дата обращения: 20.03.2020).

3. Горитов А. Н., Яковленко С. И. Выделение на изображении низкого разрешения параметрически задаваемых объектов // Доклады Томского государственного университета систем управления и радиоэлектроники. 2017. № 2. С. 88-90. DOI: 10.21293/1818-0442-2017-20-2-88-90.

4. Canny J. A Computational Approach to Edge Detection // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1986. No. 6. P. 679-698. DOI: 10.1109/TPAMI.1986.4767851.

5. Rashmi, Kumar M., Saxena R.Algorithm and technique on various edge detection: A survey // Signal & Image Processing: An International Journal (SIPIJ). 2013. No. 3. P. 65-75. DOI: 10.5121/sipij.2013.4306.

6. Saini S., Kasliwal B., Bhatia S. Comparative Study of Image Edge Detection Algorithms. 2013. URL: https://arxiv.org/ abs/1311.4963 (дата обращения: 20.03.2020).

7. Prasad R., Sresh S. A Review on Edge Detection Algorithms // International Journal of Mechanical Engineering and Computer Applications. 2016. No. 1. P. 7-11.

КОБЕНКО Вадим Юрьевич, доктор технических наук, доцент (Россия), профессор кафедры «Электроника».

SPIN-код: 9011-1591

AuthorID (SCOPUS): 55674672100

ResearcherID: D-7342-2013

ФРОЛОВ Святослав Олегович, магистрант гр. ЭНм-191 факультета элитного образования и магистратуры.

ТАЛАЛАЕВ Владимир Ильич, магистрант гр. ЭНм-191 факультета элитного образования и магистратуры.

Адрес для переписки: svyatoslav.frolov.97@mail.ru

Для цитирования

Кобенко В. Ю., Фролов С. О., Талалаев В. И. Разработка алгоритма сегментации рукописного текста с использованием маски // Омский научный вестник. 2020. № 4 (172). С. 47-52. DOI: 10.25206/1813-8225-2020-172-47-52.

Статья поступила в редакцию 27.05.2020 г. © В. Ю. Кобенко, С. О. Фролов, В. И. Талалаев

i Надоели баннеры? Вы всегда можете отключить рекламу.