Научная статья на тему 'Оптимизированный подбор фильтров при оптическом распознавание символьной информации'

Оптимизированный подбор фильтров при оптическом распознавание символьной информации Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
207
31
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
OCR / оптическое распознавание текста / фильтры / метрики / OCR / optical character recognition / filters / metrics

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Щеглов Дмитрий Сергеевич, Горячкин Борис Сергеевич, Пьянзин Станислав Александрович

OCR (оптическое распознавание символов) – это использование технологии для распознавания печатных или рукописных текстовых символов внутри цифровых изображений физических документов, таких как отсканированные бумажные документы. Базовый процесс распознавания включает в себя изучение текста документа и перевод символов в код, который можно использовать для получения информации о данных

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Щеглов Дмитрий Сергеевич, Горячкин Борис Сергеевич, Пьянзин Станислав Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

OPTIMIZED FILTER SELECTION FOR OPTICAL RECOGNITION OF SYMBOL INFORMATION

OCR (optical character recognition) is the use of technology to distinguish printed or handwritten text characters inside digital images of physical documents, such as a scanned paper document. The basic process of OCR involves examining the text of a document and translating the characters into code that can be used for data processing

Текст научной работы на тему «Оптимизированный подбор фильтров при оптическом распознавание символьной информации»

ОПТИМИЗИРОВАННЫЙ ПОДБОР ФИЛЬТРОВ ПРИ ОПТИЧЕСКОМ РАСПОЗНАВАНИЕ СИМВОЛЬНОЙ ИНФОРМАЦИИ

OPTIMIZED FILTER SELECTION FOR OPTICAL RECOGNITION OF

SYMBOL INFORMATION

УДК-004

Щеглов Дмитрий Сергеевич, студент, МГТУ им. Н.Э. Баумана, Россия, г. Москва

Горячкин Борис Сергеевич, кандидат технических наук, МГТУ им. Н.Э. Баумана. Россия, г. Москва

Пьянзин Станислав Александрович, студент, МГТУ им. Н.Э. Баумана, Россия, г. Москва

Scheglov Dmitry Sergeevich, [email protected] Goryachkin Boris Sergeevich, pianzin. [email protected] Pyanzin Stanislav Alexandrovich, [email protected]

Аннотация: OCR (оптическое распознавание символов) - это использование технологии для распознавания печатных или рукописных текстовых символов внутри цифровых изображений физических документов, таких как отсканированные бумажные документы. Базовый процесс распознавания включает в себя изучение текста документа и перевод символов в код, который можно использовать для получения информации о данных.

Abstract: OCR (optical character recognition) is the use of technology to distinguish printed or handwritten text characters inside digital images of physical documents, such as a scanned paper document. The basic process of OCR involves examining the text of a document and translating the characters into code that can be used for data processing.

Ключевые слова: OCR, оптическое распознавание текста, фильтры, метрики

Keywords: OCR, optical character recognition, filters, metrics 1. Введение

Распознавание текста в изображениях - это активная область исследований, которая пытается разработать компьютерное приложение с возможностью автоматического считывания текста с изображений. В настоящее время существует огромная потребность хранить информацию, имеющуюся в бумажных документах, в машиночитаемой форме для

последующего использования. Один простой способ хранения информации из этих бумажных документов в компьютерной системе - сначала отсканировать документы, а затем сохранить их в виде изображений. Однако, чтобы повторно использовать эту информацию, очень трудно читать отдельное содержимое и искать содержимое в этих документах построчно и пословно. Сложные задачи: характеристики шрифта символов в бумажных документах и качество изображений. Из-за этих проблем компьютер не может распознавать символы во время их чтения. Таким образом, существует необходимость в механизмах распознавания символов для выполнения анализа изображений документов, который преобразует документы в бумажном формате в электронный формат.

В этой статье мы рассмотрели и проанализировали различные методы распознавания текста по изображениям. Целью данной обзорной статьи является обобщение известных методов для выбора оптимального фильтра.

2. Существующие метрики (методы) распознавания

Под анализом текста на изображениях обычно понимают три главных метода.

• Сравнение с заранее подготовленным шаблоном;

• Распознавание при помощи самообучающихся алгоритмов, в том числе при помощи нейронных сетей;

• Распознавание с использованием критериев, распознаваемого объекта. Поговорим более подробно о первом методе.

Метрика - некое условное значение функции, которое определяет положение объекта в пространстве. Таким образом, если два объекта находятся близко друг от друга, то они похожи (например, две буквы К написанные разным шрифтом), то метрики для таких символов будут совпадать или быть очень похожими. Метрика Хэмминга - метрика которая показывает, на сколько сильно объекты не похожи между собой.

Следовательно, для того чтобы понять какая буква изображена нужно найти ее метрику со всеми готовыми шаблонами. И тот шаблон, чья метрика окажется наиболее близкой к 0 будет ответом.

3. Разработка метода (метрики)

Был разработан метод, способный распознавать текст. Метод может распознавать буквы английского и французского алфавита, нижнего и

верхнего регистра. Для распознавания, изображения нужно положить непосредственно в сам метод.

3.1 Сегментация

Изображение в большей части выглядит следующим образом.

Germany is at the heart of Europe., and the heart of Germany, Thuringia!

Рисунок 1. Изображение до этапа сегментации

Так как этап обнаружения опущен (об этапах распознавания мы поговорим в следующем разделе), то для процесса сегментации принята следующая логика.

Подразумевается, что предложения в тексте находятся в горизонтальном положении и никак не пересекаются друг с другом. Тогда этап сегментации не составит труда.

Находится медианное значение расстояния между двумя буквами в слове. Дальше изображение разбивается на строки путем поиска целых белых полос. Далее эти полосы делятся на слова путем поиска белых полос определенной ширины. И наконец выделенные слова передаются на заключительный этап, и они делятся на Буквы. Таким образом, на выходе этапа сегментации мы имеем весь текст, представленный изображениями букв этого текста.

Germany i|slat|the

heart|of Europe,

and the heart|of

Germany, Thuringia

Рисунок 2. Изображение после этапа сегментации

Перед распознаванием, изображение нормализуется и подстраивается до размеров шаблонов, которые мы подготовленных нами заранее.

Далее наступает сам процесс распознавания.

3.2 Распознавание

В основе распознавания лежит метрика Хэминга.

После этапа сегментации мы получили некое множество символов. Так же мы имеем некие шаблоны символов (базу), каждый из которых переведен в байты. Затем каждый символ, который мы так же перевели в байты, циклически сравниваем с символом из базы. А, то есть мы сравниваем байты этих символов и если байты одного символа будут равны байтам символа из шаблона, то этот шаблон и есть искомый символ.

Все буквы, такие как «I» «i» «Н» «о» «О» «X» «х» «1» полностью соответствуют шаблону, а значимые пиксели распределены равномерно по всему изображению, поэтому было принято вынести их в отдельный класс, что привело к сокращению перебору всех метрик, согласно экспериментам, примерно в 6 раз. Такие же действия были проведены и с другими буквами. В среднем уменьшение перебора получается примерно в 4 раза.

Далее для каждого класса мы создаем свой собственный шаблон, в котором будем искать нужный нам символ. При разработке шаблонов использовался шрифт «Times New Roman», поэтому, если распознаваемый текст будет написан таким шрифтом, то в результате глубокого анализа и многочисленных проведенных экспериментов, распознавание имеет точность 98 процентов. При изменении шрифта, точность упадет до 72 процентов.

4. Этапы распознавания, виды фильтров и их анализ

При распознавании символов на изображении можно выделить следующие этапы

• Обнаружения

• Фильтрация

• Сегментация

• Распознавание

Фильтрация изображения необходима для получения полезной информации из визуальных данных в виде матрицы пикселей.

В этот этап помещены методы, позволяющие выделить на изображениях необходимые области, без их анализа. Наибольшая часть этих методов применяет какое-то единое преобразование ко всем точкам изображения. На

уровне фильтрации анализ изображения не производится, но точки, которые проходят фильтрацию, можно рассматривать как области с особыми характеристиками.

• Бинаризация по порогу

• Корреляция

• Фильтрации функций

• Фильтрации контуров

• Медианный фильтр

Так как цель работы выявить оптимальный фильтр или совокупность фильтров, то проведем сравнительный анализ каждых из них.

Для того, чтобы провести сравнительный анализ всех этих фильтров прогоним исходное изображение через них в нашем методе.

Мы получим результат в виде %, который показывает нам количество распознанных букв в предложении.

Фильтры Результат распознавания

Бинаризация по порогу 91,6%

Корреляция 75%

Фильтрации функций 83,3%

Фильтрации контуров 95,8%

Медианный фильтр 100%

Таким образом, мы видим, что Медианный фильтр дает наилучшие результаты, если мы наше изображение перед его распознаванием прогоним через него.

5. Оптимизация

В главе выше мы получили результат распознавания после прогона через них. С целью оптимизации этапа фильтрации возможно использование не одного, а множество фильтров. Используя средство подбора, попытаемся найти подходящую пару фильтров, в которой результат распознавания будет наилучшим.

У нас есть 5 фильтров:

• Бинаризация по порогу (1)

• Корреляция (2)

• Фильтрации функций (3)

• Фильтрации контуров (4)

• Медианный фильтр (5)

Получим следующие пары фильтров:

• 1-2, 1-3, 1- 4, 1-5

• 2-1, 2-3, 2-4, 2-5

• 3-1, 3-2, 3-4, 3-5

• 4-1, 4-2, 4-3, 4-5

• 5-1, 5-2, 5-3, 5-4

В результате у нас получилось 20 пар фильтров, через каждую из которых мы прогоним наше изображение.

После каждого прогона было выявлено что наилучшими парами стали пары:

4-5 (Фильтр контуров - Медианный фильтр)

5-1 (Бинаризация по порогу - Медианный фильтр) 4-1 (Фильтр контуров - Бинаризация по порогу)

Все эти пары дали 100% распознавания буква - символьной информации. 6. Вывод

В следствии проведения опытов было показано, что при прогоне изображения через медианный фильтр, его распознавания было 100%, в отличие от других. Но так - же стоит заметить, что процент распознавания после прогона, через Фильтр контуров, составляет 95,8%, но в совокупности с медианным фильтром он будет 100%. Тоже самое мы можем заметить и с фильтром - Бинаризация по порогу. А если взять оба этих фильтров в совокупности, то процент распознавания так же будет 100%.

Исходя из этого мы можем сделать вывод, что наилучшим фильтром, через который мы прогнали наше изображение перед его распознаванием -это медианный фильтр, а так же пара фильтров - Фильтр контуров + Медианный фильтр, Бинаризация по порогу + Медианный фильтр, Фильтр контуров + Бинаризация по порогу.

Литература

1. D. Karatzas, S. R. Mestre, J. Mas, F. Nourbakhsh, and P. P. Roy, "ICDAR2011 robust reading competition-challenge 1: reading text in born-digital images

(web and email)," in Document Analysis and Recognition (ICDAR), 2011 International Conference on. IEEE, 2011, pp. 1485-1490.

2. Karatzas D. et al. ICDAR 2015 competition on robust reading //2015 13th International Conference on Document Analysis and Recognition (ICDAR). -IEEE, 2015. - С. 1156-1160.

3. Квасников В.П., Дзюбаненко А.В. Улучшение визуального качества цифрового изображения путем поэлементного преобразования // Авиационно-космическая техника и технология 2009 г., 8, стр. 200-204

4. Арлазаров В.Л., Куратов П.А., Славин О.А. Распознавание строк печатных текстов // Сб. трудов ИСА РАН «Методы и средства работы с документами». — М.: Эдиториал УРСС, 2000. — С. 31-51.

5. Богданов В., Ахметов К. Системы распознавания текстов в офисе. // Компьютер-пресс — 1999 №3, с.40-42.

6. Павлидис Т. Алгоритмы машинной графики и обработки изображений. М:, Радио и связь, 1986

Literature

1. D. Karatzas, S. R. Mestre, J. Mas, F. Nourbakhsh, and P. P. Roy, "ICDAR 2011 robust reading competition-challenge 1: reading text in born-digital images (web and email)," in Document Analysis and Recognition (ICDAR), 2011 International Conference on. IEEE, 2011, pp. 1485-1490.

2. Karatzas D. et al. ICDAR 2015 competition on robust reading / / 2015 13th International Conference on Document Analysis and Recognition (ICDAR). -IEEE, 2015. - Pp. 1156-1160.

3. Kvasnikov V. P., Dzyubanenko A.V. Improving the visual quality of digital images by element-by-element conversion / / Aviation and space technology and technology 2009, 8, p. 200-204

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4. Arlazarov V. L., Kuratov P. A., Slavin O. A. Recognition of lines of printed texts / / proceedings Of the ISA RAS "Methods and means of working with documents", Moscow: editorial URSS, 2000, Pp. 31-51.

5. Bogdanov V., Akhmetov K. text recognition Systems in the office. // Computer-press-1999 #3, p. 40-42.

6. Pavlidis T. Algorithms of machine graphics and image processing. M:, Radio and communications, 1986

i Надоели баннеры? Вы всегда можете отключить рекламу.