Научная статья на тему 'ОПТИМИЗАЦИЯ МЕТОДИКИ РАСПОЗНАВАНИЯ ОБРАЗОВ ПЕЧАТНЫХ ТЕКСТОВ'

ОПТИМИЗАЦИЯ МЕТОДИКИ РАСПОЗНАВАНИЯ ОБРАЗОВ ПЕЧАТНЫХ ТЕКСТОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
37
10
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
УСТРОЙСТВО ВОСПРИЯТИЯ / ПРЯМОУГОЛЬНАЯ МАТРИЦА ИЗ ЭЛЕМЕНТОВ ЗАПОМИНАЮЩЕГО УСТРОЙСТВА ПК / ТИП ПЕЧАТНОГО ОБРАЗА / ПРОГРАММА ДЛЯ ПК / КОД ПЕЧАТНОГО ОБРАЗА / ИДЕАЛЬНЫЙ КОД / РАЗЛИЧЕНИЕ ТИПА ПЕЧАТНОГО ОБРАЗА / ОЧЕРЧИВАНИЕ / ИЗОБРАЖЕНИЕ ОБРАЗА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Пинт Э.М., Петровнина И.Н., Еличев К.А., Скороходов В.А.

Различные устройства, построенные на основе существующих методик различения типов образов печатных текстов, дают возможность различать конфигурацию букв и цифр только одного шрифта. Созданное устройство вводит напечатанные знаки с носителя в прямоугольную матрицу, состоящую из элементов запоминающего устройства персонального компьютера (ПК). На основе разработанной методики создана программа для ПК, в соответствии с которой изображение каждого печатного образа, начиная с начальной точки, очерчивается по определенным направлениям частей фигуры изображения. Создается код печатной фигуры в виде ряда направлений. При этом из кода выбрасываются нерешающие направления и остается только ряд решающих направлений, несущих необходимую информацию об определенном печатном образе. По этому ряду определенная конфигурация печатной буквы или цифры различается среди остальных конфигураций. Рассмотрена возможность оптимизации программы для ПК, реализующей созданную методику различения образов печатных букв и цифр. Новое устройство дает возможность различать типы печатных образов разнообразных шрифтов, несмотря на определенные изменения положения элементов формы образа, на их размеры и наличие определенных дефектов печати.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Пинт Э.М., Петровнина И.Н., Еличев К.А., Скороходов В.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

OPTIMIZATION OF METHOD FOR PRINTED TEXTS IMAGE RECOGNITION

Various devices built on the basis of existing methods for distinguishing types of printed text images make it possible to distinguish between the configuration of letters and digits in only one font. The inventive device introduces printed characters from a carrier into a rectangular matrix consisting of elements of a personal computer memory device (PC). On the basis of the developed technique a PC software was created, according to which the image of each printed image from the starting point, is outlined in certain directions of parts of the image figure. The code of the printed figure is generated in the form of a series of directions. In this case, non-decisive directions are thrown out of the code and only a number of decisive directions are left, which carry the necessary information about a certain printed image. For this series, the configuration of the print letter or digit differs among the other configurations. The possibility of optimizing the software for PC, implementing the created method of distinguishing images of printed letters and digits is considered. The new device makes it possible to distinguish types of printed images of different fonts, despite certain changes in the position of the elements of the shape of the image, their dimensions and the presence of certain defects in the printing

Текст научной работы на тему «ОПТИМИЗАЦИЯ МЕТОДИКИ РАСПОЗНАВАНИЯ ОБРАЗОВ ПЕЧАТНЫХ ТЕКСТОВ»

ТЕХНИЧЕСКИЕ НАУКИ

05.20.00 Процессы и машины агроинженерных систем

УДК 621.374

DOI 10.36461^.2021.60.3.002

ОПТИМИЗАЦИЯ МЕТОДИКИ РАСПОЗНАВАНИЯ ОБРАЗОВ ПЕЧАТНЫХ ТЕКСТОВ

Э.М. Пинт, канд. техн. наук, профессор; И.Н. Петровнина, канд. техн. наук, доцент; К.А. Еличев, канд. техн. наук, доцент; В.А. Скороходов

Федеральное государственное бюджетное образовательное учреждение высшего образования «Пензенский государственный университет архитектуры и строительства», г. Пенза, Россия, тел. 89273644971, е-mail: irisha-vas@yandex.ru

Различные устройства, построенные на основе существующих методик различения типов образов печатных текстов, дают возможность различать конфигурацию букв и цифр только одного шрифта. Созданное устройство вводит напечатанные знаки с носителя в прямоугольную матрицу, состоящую из элементов запоминающего устройства персонального компьютера (ПК). На основе разработанной методики создана программа для ПК, в соответствии с которой изображение каждого печатного образа, начиная с начальной точки, очерчивается по определенным направлениям частей фигуры изображения. Создается код печатной фигуры в виде ряда направлений. При этом из кода выбрасываются нерешающие направления и остается только ряд решающих направлений, несущих необходимую информацию об определенном печатном образе. По этому ряду определенная конфигурация печатной буквы или цифры различается среди остальных конфигураций. Рассмотрена возможность оптимизации программы для ПК, реализующей созданную методику различения образов печатных букв и цифр. Новое устройство дает возможность различать типы печатных образов разнообразных шрифтов, несмотря на определенные изменения положения элементов формы образа, на их размеры и наличие определенных дефектов печати.

Ключевые слова: устройство восприятия, прямоугольная матрица из элементов запоминающего устройства Пк, тип печатного образа, программа для ПК, код печатного образа, идеальный код, различение типа печатного образа, очерчивание, изображение образа._

Введение

Задача надежного различения печатных образов (букв, цифр) разнообразных шрифтов актуальна до настоящего времени. Создана программа для ПК, которая реализует новую методику различения печатных букв и цифр. Усовершенствованная программа дает возможность различать печатные буквы и цифры с высокой степенью достоверности, используя ПК.

К настоящему времени существует шесть методик различения типов печатных образов. Gayer A. V. [1] предлагает изображение печатного образа сравнивать с

разработанными трафаретами и шаблонами образов, вырезанными на диске. По данным работ [2-4] печатные буквы и цифры различаются с использованием определенных отметок или стилизованной формы изображения образов. Согласно работам [5-8] для различения типов образов анализируется форма образов, т.е. определяется количество прямых и кривых элементов формы, учитываются наличие выпуклостей, впадин изображения формы, взаимное расположение элементов формы и т.д. (рис. 1).

Рис. 1. Вид элементов формы образов

Методика Franken M. [9] основана на определении темной части изображения буквы (цифры) в определенном месте носителя информации. По методике Lee S.-G. [10] определяется закон изменения проекции площади фигуры образа при проектировании ее на горизонтальную или вертикальную оси (рис. 2).

Рис. 2. Закон изменения проекции площади фигуры цифры при проектировании ее на горизонтальную ось

Наконец, в соответствии с Noordeen A. [4] ЭВМ обучается по определенному алгоритму распознаванию типов образов. Для различения каждого печатного образа, изображение которого заносится в запоминающее устройство ЭВМ, проводятся определенные плоскости, которые разделяют определенный тип образа относительно другого типа, после чего лишние плоскости или части плоскостей выбрасываются. Предпринимались и другие попытки по постоянному самообучению ЭВМ различать типы печатных букв и цифр [11-12].

Анализ существующих методик различения типов печатных букв и цифр показал, что их реализация позволяет различать типы букв и цифр только в пределах определенного шрифта. Созданная усовершенствованная методика дает возможность ПК различать типы печатных букв и цифр разнообразных шрифтов, несмотря на разные в установленных пределах размеры элементов образа, на определенные изменения положений элементов изображения и наличие некоторых дефектов изображения.

Методы и материалы

Разработанное устройство включает воспринимающую часть и персональный

компьютер. Воспринимающая часть считывает изображение напечатанного знака с оригинала путем создания ряда электрических импульсов, поступающих в определенном порядке в прямоугольную матрицу, состоящую из ячеек запоминающего устройства ПК. Заполненным ячейкам матрицы соответствуют элементарные участки изображения образа.

После проведения исследований были найдены основные признаки печатных букв и цифр. Ими оказались направления частей формы букв и цифр. Была найдена определенная совокупность этих направлений, достаточная для установления конфигурации печатных образов анализируемых шрифтов.

Найденная совокупность направлений включала в себя восемь направлений, идущих по окружности под углом 45о друг относительно друга. Каждое направление совокупности обозначалось определенным номером [13-14]. По созданной программе для ПК в соответствии с найденной совокупностью направлений происходит очерчивание формы изображения буквы или цифры, находящегося в запоминающем устройстве ПК, начиная с концевой точки буквы (цифры). По программе для ПК, начиная с заполненной ячейки матрицы, соответствующей концевой точке изображения буквы (цифры), соседние заполненные ячейки матрицы опрашиваются с целью нахождения так называемого решающего направления, входящего в найденную совокупность направлений.

Решающее направление устанавливалось числом заполненных ячеек, которое оказывалось больше, чем число ячеек, составляющих максимальную ширину частей изображения образа. Соответственно заданному алгоритму программы, совершался переход с помощью определенного двоичного числа на соседнюю заполненную ячейку в найденном решающем направлении, фиксируя при этом номер решающего направления и т.д. Затем процесс повторялся. В результате образовывался код печатного образа, состоящий из ряда номеров решающих направлений. Этот код получался путем очерчивания по решающим направлениям формы изображения буквы (цифры).

Если при исследовании заполненной ячейки матрицы выявлялось несколько решающих направлений, то наблюдалась развилка, и адрес заполненной ячейки запоминался. Происходил переход на соседнюю ячейку по решающему направлению с наименьшим номером, а затем на сосед-

нюю ячейку, начиная с развилки, по другому решающему направлению и т.д.

Возникали случаи, когда при переходе от одной части изображения к другой выявлялось нерешающее направление, так называемая сумма, где количество заполненных ячеек было меньше, чем у решающего направления. Тогда, для того, чтобы очерчивание не прерывалось, происходил переход на ту соседнюю ячейку, где сумма заполненных ячеек больше, а при одинаковых суммах - на соседнюю заполненную ячейку в направлении с наименьшим номером.

Полученный код печатной буквы (цифры) состоял, главным образом, из номеров решающих направлений, а также из номеров определенных нерешающих направлений.

Для того, чтобы ширина частей образа не оказывала влияния на определение типа образа, ячейки, составляющие лишнюю ширину частей образа, освобождались от заполнения по определенным правилам.

Принятый код печатного образа по установленным правилам сокращался в результате исчезновения направлений из кода, которые возникали из-за изменения положения частей формы образа, из-за имеющих место помех, украшений формы и т.д.

Затем сокращенный код печатного образа сопоставлялся с идеальными кодами. Для каждой конфигурации печатного образа был составлен идеальный код, то есть ряд направлений, получаемый при очерчивании по направлениям частей идеально напечатанного контура образа. При таком сопоставлении подсчитывалось количество не-совпавших номеров для каждого идеального кода, и по меньшему количеству несовпадений номеров устанавливалась конфигурация печатного символа [13-15].

Результаты

В процессе эксперимента проводился анализ двух компьютерных шрифтов. При этом у одного шрифта печатные буквы и цифры имели дополнительные украшения формы, а у букв и цифр другого шрифта они отсутствовали.

В результате исследований была выбрана совокупность направлений, отражающая важнейшие признаки печатных образов, которые устанавливались после очерчивания формы образа и по которым различались типы букв и цифр. Было найдено число ячеек прямоугольной матрицы запоминающего устройства ПК с учетом размеров заглавных букв и цифр, и вероятных смещений по вертикали и горизонтали изображений образов (32*32 ячеек).

Наконец, были установлены следующие определенные правила для ликви-

дации содержимого ячеек, составляющих излишнюю толщину частей конфигурации фигуры.

Вначале предполагалось при перемещении от одной ячейки к другой по решающему направлению стирать содержимое соседних заполненных ячеек, расположенных по нерешающим направлениям. Однако, это правило оказалось неприемлемым для некоторых букв (цифр). Например, (рис. 3, а) в процессе очерчивания буквы «Д» от развилки (пунктирная линия) при переходе из ячейки т16П12 в направлении «2» на ячейку т17П13 ликвидируется содержимое заполненных ячеек т^7Пи и т1зпю в направлении «4» и содержимое ячеек т^7Пп и т18П12 в направлении «3».

Это приводит к тому, что левая часть буквы «Д» остается неочерченной, то есть не все признаки буквы «Д» фиксируются. Аналогично для буквы «Д» другого шрифта (рис. 3, б) переход из ячейки тмпю в направлении «2» на ячейку т15Пи вызывает ликвидацию содержимого ячеек в направлениях «3» и «4», и левая часть буквы «Д» не очерчивается.

Чтобы избежать отмеченных явлений, т.е. для полного очерчивания букв (цифр), алгоритм разработанной программы для ПК был улучшен следующим образом.

На основе результатов исследований установлена закономерность ликвидации содержимого заполненных ячеек, составляющих излишнюю ширину частей формы образа:

• при переходе по направлениям «2», «4», «6», «8» осуществляется ликвидация содержимого заполненных ячеек по направлениям «1» и «5», что исключает лишнюю ширину наклонных линий образа,

• при переходе по направлениям «3» и «7» осуществляется ликвидация содержимого заполненных ячеек по направлениям «1» и «5», что исключает лишнюю ширину вертикальных линий образа,

• при переходе по направлениям «1» и «5» осуществляется ликвидация содержимого заполненных ячеек по направлениям «3» и «7», что ликвидирует лишнюю ширину горизонтальных линий образа.

Таким образом, содержимое заполненных ячеек нерешающих направлений ликвидируется. Примером использования предложенной закономерности стирания ячеек является очерчивание всей буквы «Д», охватывая ее левую часть (рис. 4).

При использовании предложенной закономерности ликвидации излишней толщины частей образа, некоторые конфигурации одного и того же по смыслу образа очерчивались по-разному.

б

Рис. 3. Очерчивание буквы «Д» разных шрифтов. п - перекрестие (развилка); XX- ячейки, стираемые в процессе очерчивания от ячейки с наименьшим номером; XX-ячейки, стираемые в процессе очерчивания от перекрестия

Рис. 4. Очерчивание букв «Д» разных шрифтов

Например, в процессе очерчивания буквы «Р» (рис. 5, а) для ячейки т1эПб выявляются сразу три одинаковые суммы заполненных ячеек по нерешающим направлениям «1», «3», «4». Переход на соседнюю

заполненную ячейку должен происходить по направлению «1». При этом ликвидируется содержимое заполненной ячейки т14Пб, и дальнейшее очерчивание будет происходить от развилки т8П2. Из

результатов исследований, представленных на рис. 5, б следует, что очерчивание несколько отличного изображения буквы «Р» будет происходить без развилки по всем элементам изображения буквы. Аналогичное явление также могло наблюдаться в знаках: «3», «0», «Э», «2», «9». Во избежание подобной ситуации был предложен следующий дополнительный алгоритм действий: в том случае, если встречаются одинаковые суммы заполненных ячеек по четвертому и первому направлениям,

должен совершаться переход на соседнюю заполненную ячейку по четвертому направлению. Во всех остальных случаях установленная закономерность выполняется. Как видно из рис. 5, в с учетом дополнительного правила очерчивание несколько отличных по форме букв «Р» совпадает

На рис. 6, 7 приведены изображения в матрице ПК букв шрифта без украшений и шрифта с украшениями, а также очерчивание букв..

Рис. 5. Очерчивание букв «Р»

Рис. 6. Изображения в матрице ПК букв шрифта без украшений

и их очерчивание

Рис. 7. Изображения в матрице ПК букв шрифта с украшениями

и их очерчивание

Заключение

Для различения типов печатных букв (цифр), на основе соответствующих исследований был усовершенствован алгоритм программы для ПК. Использование улучшенной методики позволило производить полное очерчивание фигур по установленным направлениям, образуемым частями

изображения образов и с высокой достоверностью и большим быстродействием различать разработанным устройством конфигурацию печатных образов, независимо от шрифта, от изменений в установленных пределах размеров изображения образов, положений элементов формы образов и от определенных дефектов печати.

Литература

1. Gayer A. V., Chernyshova Y. S., and Sheshkus A. V., «Effective real-time augmentation of training dataset for the neural networks learning», in Eleventh International Conference on Machine Vision (ICMV 2018), 11041, 1104111, International Society for Optics and Photonics (2019).

2. Zhang X., Zhao J., and LeCun Y., «Character-level convolutional networks for text classification», in Advances in neural information processing systems, 2015, р. 649-657.

3. Seema A., Rajeshwar D. Pattern Recognition in an Electronic Reader // International Journal of Computer Science and Telecommunications, 2012, v. 3, № 8, р. 25-29.

4. Noordeen A., Kannan K., Ravi H., Venkatraman B., and Milton R., «Hierarchical ocr for printed tamil text», in Eleventh International Conference on Machine Vision (ICMV 2018), 11041, 110411G, International Society for Optics and Photonics (2019).

5. Gladilin S., Nikolaev D, Polevoi D., and Sokolova N., «Study of multilayer perceptron accuracy improvement under fixed number of neuron», Informatsionnye tekhnologii I ychislitelnye sis-temy, 2016, № 1, р. 96-105.

6. Koch G., Zemel R., and Salakhutdinov R., «Siamese neural networks for one-shot image recognition», in ICML deep learning workshop, 2015, № 2.

7. Tafti A. P., Baghaie A., Assefi M., Arabnia H. R., Yu Z., and Peissig P., «Ocr as a service: an experimental evaluation of google docs ocr, tesseract, abbyy finereader, and transym», in International Symposium on Visual Computing, 2016, р. 735-746, Springer.

8. Cuan B., Idrissi K., and Garcia C., «Deep siamese network for multiple object tracking», in 2018 IEEE 20th International Workshop on Multimedia Signal Processing (MMSP), 2018, № 1-6.

9. Franken M. and van Gemert J. C., «Automatic egyptian hieroglyph recognition by retrieving images as texts», in Proceedings of the 21st ACM international conference on Multimedia, 2013, р. 765-768, ACM.

10. Lee S.-G., Sung Y., Kim Y.-G., and Cha E.-Y., «Variations of alexnet and googlenet to improve korean character recognition performance», Journal of Information Processing Systems, 2018, № 14 (1).

11. Woodford C. Last updated: 30.12.2018, URL: explainthatstuff.com/how-ocr-works.html.

12. Woodford C. Last updated: 11.11.2018. URL: explainthatstuff.com/how-ocr-works.html.

13. Пинт Э.М., Петровнина И.Н., Романенко И.И., Еличев К.А. Система восприятия и передачи изображений печатных символов с оригинала в матрицу запоминающего устройства компьютера, определяющего типы символов. Инженерный вестник Дона, №1, 2019. URL: ivdon.ru/magazine/archive/n1y2019/5591.

14. Пинт Э.М., Петровнина И.Н., Еличев К.А. Анализ формы печатных знаков для выделения существенных признаков и определения знаков компьютером. Нива Поволжья. Пенза: ПГАУ, 2018, № 3, с. 112-119.

15. Пинт Э.М., Петровнина И.Н., Романенко И.И., Еличев К.А. Исследование изображений печатных знаков разных шрифтов с целью выявления признаков, необходимых и достаточных для распознавания знаков компьютером. Инженерный вестник Дона, 2018, № 2, URL: ivdon.ru/ru/magazine/archive/N2y2018/4848.

UDC 621.374

DOI 10.36461/NP.2021.60.3.002

OPTIMIZATION OF METHOD FOR PRINTED TEXTS IMAGE RECOGNITION

E. M. Pint,, Candidate of engineering sciences, Professor; I. N. Petrovnina, Candidate of Engineering Sciences, Associate Professor; K. A. Yelichev, Candidate of Engineering Sciences, Associate Professor; V. A. Skorokhodov

Federal State-Funded Educational Institution of Higher Education Penza State University of Architecture and Construction, Penza, Russia, tel. 89273644971, e-mail: irisha-vas@yandex.ru

Various devices built on the basis of existing methods for distinguishing types of printed text images make it possible to distinguish between the configuration of letters and digits in only one font. The inventive device introduces printed characters from a carrier into a rectangular matrix consisting of elements of a personal computer memory device (PC). On the basis of the developed technique a PC software was created, according to which the image of each printed image from the starting point, is outlined in certain directions of parts of the image figure. The code of the printed figure is generated in the form of a series of directions. In this case, non-decisive directions are thrown out of the code and only a number of decisive directions are left, which carry the necessary information about a certain printed image. For this series, the configuration of the print letter or digit differs among the other configurations. The possibility of optimizing the software for PC, implementing the created method of distinguishing images of printed letters and digits is considered. The new device makes it possible to distinguish types of printed images of different fonts, despite certain changes in the position of the elements of the shape of the image, their dimensions and the presence of certain defects in the printing

Key words: perceptive device, rectangular matrix of PC memory elements, type of printed image, PC software, printed image code, ideal code, distinguishing the type of printed image, outlining, image depiction.

Reference

1. Gayer A. V., Chernyshova Y. S., and Sheshkus A. V., «Effective real-time augmentation of training dataset for the neural networks learning», in Eleventh International Conference on Machine Vision (ICMV 2018), 11041, 1104111, International Society for Optics and Photonics (2019).

2. Zhang X., Zhao J., and LeCun Y., «Character-level convolutional networks for text classification», in Advances in neural information processing systems, 2015, p. 649-657.

3. Seema A., Rajeshwar D. Pattern Recognition in an Electronic Reader // International Journal of Computer Science and Telecommunications, 2012, v. 3, № 8, p. 25-29.

4. Noordeen A., Kannan K., Ravi H., Venkatraman B., and Milton R., «Hierarchical ocr for printed tamil text», in Eleventh International Conference on Machine Vision (ICMV 2018), 11041, 110411G, International Society for Optics and Photonics (2019).

5. Gladilin S., Nikolaev D, Polevoi D., and Sokolova N., «Study of multilayer perceptron accuracy improvement under fixed number of neuron», Informatsionnye tekhnologii I ychislitelnye sis-temy, 2016, № 1, p. 96-105.

6. Koch G., Zemel R., and Salakhutdinov R., «Siamese neural networks for one-shot image recognition», in ICML deep learning workshop, 2015, № 2.

7. Tafti A. P., Baghaie A., Assefi M., Arabnia H. R., Yu Z., and Peissig P., «Ocr as a service: an experimental evaluation of google docs ocr, tesseract, abbyy finereader, and transym», in International Symposium on Visual Computing, 2016, p. 735-746, Springer.

8. Cuan B., Idrissi K., and Garcia C., «Deep siamese network for multiple object tracking», in 2018 IEEE 20th International Workshop on Multimedia Signal Processing (MMSP), 2018, № 1-6.

9. Franken M. and van Gemert J. C., «Automatic egyptian hieroglyph recognition by retrieving images as texts», in Proceedings of the 21st ACM international conference on Multimedia, 2013, p. 765-768, ACM.

10. Lee S.-G., Sung Y., Kim Y.-G., and Cha E.-Y., «Variations of alexnet and googlenet to improve korean character recognition performance», Journal of Information Processing Systems, 2018, № 14 (1).

11. Woodford C. Last updated: 30.12.2018, URL: explainthatstuff.com/how-ocr-works.html.

12. Woodford C. Last updated: 11.11.2018. URL: explainthatstuff.com/how-ocr-works.html.

13. Pint E. M., Petrovnina I. N., Romanenko I. I., Elichev K. A. A system for the perception and transmission of images of printed characters from the original to the matrix of the computer's storage device, which determines the types of characters. Engineering Journal of Don, No. 1, 2019. URL: ivdon.ru/magazine/archive/n1y2019/5591.

14. Pint E. M., Petrovnina I. N., Elichev K. A. Analysis of the shape of printed characters to highlight essential features and determine the characters by a computer. Niva of the Volga region. Penza: PSAU, 2018, No. 3, p. 112-119.

15. Pint E. M., Petrovnina I. N., Romanenko I. I., Elichev K. A. Investigation of images of printed characters of different fonts in order to identify the features necessary and sufficient for the recognition of characters by a computer. Engineering Journal of the Don, 2018, No. 2, URL: ivdon.ru/ru/mag-azine/archive/N2y2018/4848.

i Надоели баннеры? Вы всегда можете отключить рекламу.