Научная статья на тему 'РЕАЛИЗАЦИЯ С ПОМОЩЬЮ КОМПЬЮТЕРА УСТРОЙСТВА, РАСПОЗНАЮЩЕГО ПЕЧАТНЫЕ ТЕКСТЫ'

РЕАЛИЗАЦИЯ С ПОМОЩЬЮ КОМПЬЮТЕРА УСТРОЙСТВА, РАСПОЗНАЮЩЕГО ПЕЧАТНЫЕ ТЕКСТЫ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
15
4
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПЕЧАТНЫЙ ЗНАК / НАПРАВЛЕНИЕ / СТАНДАРТНЫЙ ВИД / РАСПОЗНАВАНИЕ / КОНТУР / PRINTED SIGN / DIRECTION / STANDARD VIEW / RECOGNITION / CONTOUR

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Пинт Э. М., Петровнина И. Н., Еличев К. А.

В статье описываются методы распознавания печатных знаков. Авторы проанализировали контуры печатных знаков различных шрифтов, с резко отличающимися формами знаков, в результате чего была выбрана оптимальная комбинация направлений, образуемая элементами контуров знаков. По разработанной авторами программе компьютер, начиная с определенной концевой точки, обходит по контуру печатные знаки, которые представляются в виде последовательности определенных направлений, образуемых элементами контура знака. В результате, все печатные знаки рассматриваемых различных шрифтов распознавались компьютером.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Пинт Э. М., Петровнина И. Н., Еличев К. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

IMPLEMENTATION BY COMPUTER DEVICE RECOGNIZING PRINT TEXTS

The article describes methods of recognizing printed characters. The authors analyzed the contours of printed characters of various fonts, with sharply different forms of signs, as a result of which the optimal combination of directions formed by the elements of the contours of signs was chosen. According to the program developed by the authors, the computer starts at a certain end point, traverses the contour of the printed characters, which are represented as a sequence of certain directions formed by the elements of the contour of the sign. As a result, all the printed characters of the various fonts in question were recognized by the computer.

Текст научной работы на тему «РЕАЛИЗАЦИЯ С ПОМОЩЬЮ КОМПЬЮТЕРА УСТРОЙСТВА, РАСПОЗНАЮЩЕГО ПЕЧАТНЫЕ ТЕКСТЫ»

УДК 621.374

Пинт Э. М., к. техн. н. профессор, доцент

кафедра «Механизация и автоматизация производства»

Петровнина И.Н., к техн. н.

доцент

кафедра «Механизация и автоматизация производства»

Еличев К.А., к. техн. н.

доцент

кафедра «Механизация и автоматизация производства» Пензенский государственный университет архитектуры и

строительства Россия, г. Пенза

РЕАЛИЗАЦИЯ С ПОМОЩЬЮ КОМПЬЮТЕРА УСТРОЙСТВА, РАСПОЗНАЮЩЕГО ПЕЧАТНЫЕ ТЕКСТЫ

Аннотация:

В статье описываются методы распознавания печатных знаков. Авторы проанализировали контуры печатных знаков различных шрифтов, с резко отличающимися формами знаков, в результате чего была выбрана оптимальная комбинация направлений, образуемая элементами контуров знаков. По разработанной авторами программе компьютер, начиная с определенной концевой точки, обходит по контуру печатные знаки, которые представляются в виде последовательности определенных направлений, образуемых элементами контура знака. В результате, все печатные знаки рассматриваемых различных шрифтов распознавались компьютером.

Ключевые слова: печатный знак, направление, стандартный вид, распознавание, контур.

Pint E.M., сandidate of Technical Sciences, professor аssociate Professor of the Department of «Mechanization and automation

of production»

Penza State University of Architecture and Construction

Russia, Penza

Petrovnina I.N., сandidate of Technical Sciences., associate professor аssociate Professor of the Department of «Mechanization and automation

of production»

Penza State University of Architecture and Construction

Russia, Penza

Elichev K.A., сandidate of Technical Sciences., associate professor аssociate Professor of the Department of «Mechanization and automation

of production»

Penza State University of Architecture and Construction

Russia, Penza

IMPLEMENTATION BY COMPUTER DEVICE RECOGNIZING

PRINT TEXTS

Annotation:

The article describes methods of recognizing printed characters. The authors analyzed the contours of printed characters of various fonts, with sharply different forms of signs, as a result of which the optimal combination of directions formed by the elements of the contours of signs was chosen. According to the program developed by the authors, the computer starts at a certain end point, traverses the contour of the printed characters, which are represented as a sequence of certain directions formed by the elements of the contour of the sign. As a result, all the printed characters of the various fonts in question were recognized by the computer.

Key words: printed sign, direction, standard view, recognition, contour.

В настоящее время еще не решена проблема распознавания печатных и дорожных знаков различных шрифтов.

Эту функцию должно выполнять читающее устройство, воспринимающее печатный текст с носителя информации и распознающее с использованием компьютера печатные знаки различных шрифтов.

Читающие устройства могут использоваться для автоматической обработки статей, книг, отчетов, экспериментальных данных, для автоматизации процесса поиска информации в фонде литературы, для обработки сводок, таблиц и других сведений, имеющихся на промышленных предприятиях, на транспорте, для обработки банковских документов и т. д.

При реализации второй основной функции читающего устройства -распознавание отдельных знаков алфавита встречаются следующие трудности:

• устройство должно различать относительно большое количество знаков алфавита: букв, цифр и пр.;

• устройство должно воспринимать различные шрифты, т. е. уметь читать одну и туже букву или цифру, но напечатанную с другой высотой, шириной, с другим наклоном, более жирно, более узко и т.д.;

• устройство должно воспринимать буквы или цифры, напечатанные с различного рода пропусками в изображении, с изменениями толщин линий, радиусов закруглений и пр.

Существующие методы распознавания печатных знаков можно разделить на следующие группы:

1. методы наложения или шаблонов;

2. методы распознавания с использованием специальных отметок или стилизованной формы знаков;

3. методы распознавания по элементам формы знаков;

4. методы распознавания при помощи фрагментов и зондов;

5. интегральные методы распознавания.

Метод наложения основан на простейшем алгоритме распознавания -

сопоставлении всего исследуемого знака с некоторым количеством трафаретов, шаблонов, хранящихся в читающем устройстве.

Для реализации метода распознавания при помощи специальных отметок или стилизованной формы имеется много предложений по кодированию знаков при помощи различного рода маркеров: точек, расположенных в определенных местах изображения (рис. 1), точек, отличающихся размерами, горизонтальных полосок, вертикальных полосок, прямоугольников, квадратов и т.д. и при помощи стилизованной формы знаков, т.е. когда знаки искусственно отличаются друг от друга по какому-либо признаку формы, например, когда каждая цифра имеет отличную площадь (рис. 2).

Рис. 1. Распознавание знаков при помощи точек

Рис. 2. Распознавание цифр по разной площади Методы распознавания по элементам формы знаков в качестве существенных признаков принимают признаки геометрической формы элементов знака: количество прямых и кривых отрезков, сегментов, взаимное расположение отрезков, наличие выпуклостей и впадин, концевых точек и т.д.

На рис. 3 представлен вид элементов фигуры, используемых для различения знаков по этому методу.

Рис. 3. Вид элементов фигуры, используемых для различения знаков

по элементам формы Метод распознавания с помощью фрагментов и зондов в качестве существенных признаков использует наличие или отсутствие черного поля изображения в данном факасрованном месте поля.

Интегральные методы распознавания в качестве существенных признаков принимают интегральные характеристики геометрической формы

знаков, например, распределение плотности изображения по исследуемому полю. На рис. 4. в качестве примера представлен закон изменения проекции площади фигуры при проектировании ее на горизонтальную ось.

Как следует из анализа существующих методов распознавания печатных знаков, некоторые методы для распознавания требуют определенной стандартизации знаков текста.

Другие методы позволяют распознавать стилизованные по форме или специальным образом отмеченные знаки, т.е. не могут быть использованы для чтения реального печатного текста, т.к. требуют реформы системы печати.

456

Рис. 4. Закон изменения проекции площади фигуры при проектировании ее на горизонтальную ось

Лучшие из существующих методов позволяют распознавать печатные знаки при определенных вариациях формы знаков, при определенных изменениях ориентации, при определенных дефектах, но количество распознаваемых знаков оказывается ограниченным и замыкается в основном в пределах одного шрифта [1, 2, 3, 4, 5].

Проведенный авторами анализ контуров знаков привел к тому, что для выбранной комбинации направлений (рис. 5) все знаки рассматриваемых печатных шрифтов, представленные в виде последовательности направлений, получаемой в результате обхода по контуру начиная с концевой точки, распознаются друг относительно друга независимо от масштаба элементов знака, от разных шрифтов, то есть выбранные направления действительно являются оптимальными, поскольку несут необходимые и достаточные признаки для распознавания всех знаков рассмотренных печатных шрифтов.

Представление знака в виде векторной суммы, образуемой элементами контура, позволило выявить характерные признаки знака - минимально возможное количество направлений (рис. 5).

7

Рис. 5. Выбранная комбинация направлений

Для выбранной оптимальной комбинации направлений авторами были составлены стандартные виды печатных знаков русского алфавита, полученные путем обхода идеально напечатанных контуров знаков анализируемых шрифтов, то есть в эти виды вошли также направления элементов контуров, специфичные для различных анализируемых шрифтов.

Печатные знаки разных шрифтов, но одного смыслового символа отличаются друг от друга толщиной линий, наклоном по отношению к вертикали знака в целом или его отдельных частей, наличием или отсутствием дефектов печати, масштабом элементов знака, наличием или отсутствием декоративных украшений - засечек, но одинаковым, общим для знаков одного смыслового символа является определенный стандартный вид.

Так как для распознавания знака компьютер по разработанной авторами методике проводит сравнение полученной после обхода знака по контуру последовательности направлений со стандартными видами знаков [7], то последовательность для однозначного определения типа знака должна была быть как можно ближе приведенной к стандартному виду этого знака.

Поэтому по разработанной авторами программе компьютер для распознавания знака выделяет его контур, ликвидируя при этом следующее: лишнюю толщину элементов знака, нехарактерные отклонения вертикальных, горизонтальных и наклонных линий знака, определенные возможные дефекты из-за некачественной печати, нехарактерные засечки в форме знаков [8, 9, 10, 11, 12].

Таким образом, в результате проведенных авторами исследований были выбраны необходимые и достаточные информативные признаки знаков различных печатных шрифтов, позволившие компьютеру по разработанной программе с высокой степенью надежности [6] распознавать печатные (дорожные) знаки различных шрифтов.

Использованные источники:

1. Lear I., «A machine that reads written, words». The New Scientist, 1959, v. 6, № 154.

2. «Direct Reading for Data Processing». Process Control and Automation, 1960, v. 7, № 3.

3. Переверзев-Орлов В.С., Поляков В.Г. «Универсальный автомат для чтения печатного текста» Доклад на КОИМПАЧТ, 1961, г. Москва.

4. Letter segmenting apparatus for OCR comprising multi-level segmentor operable when binary segmenting fails by Toshio Miyazaki et al, NEC, published June 3, 1980. A detailed description of how an OCR system can identify individual letters in a written sample.

5. Chris Woodford. Last updoted: January 2, 2018. http : //www.explainthatstuff.com/how-ocr-works .html

6. Пинт Э.М. /Пинт Э.М., Яшин A.B., Еличев K.A. Оценка надежности распознавания компьютером печатных знаков.// Materiay V medzynarodowey naukowi koferencdi «Aktalne problem nowioczesnych nauk-2009. - Prezemys/: Nauka I studia, 2009. - с. 103.

V. Пинт Э.М. /Пинт Э.М., Петровнина И.Н., Романенко И.И., Еличев K.A. Заключительный алгоритм рационального метода распознавания компьютером печатных знаков разных шрифтов и распространение метода на образы, связанные с автоматизацией работы дорожных машин и автомобилей. // Материалы IV международной научно-практической конференции «Перспективные направления развития автотранспортного комплекса», Пенза: Изд. ПГУАС, 2011. - с.165.

8. Пинт Э.М. /Пинт Э.М., Петровнина И.Н., Романенко И.И., Еличев K.A. Управление рабочими органами дорожных машин за счет устройства восприятия и распознавания печатных символов и знаков. // Материалы международной научно-практической конференции «Новые дороги России». - Пенза: Изд. ПГУАС, 2011. - с. 232.

9. Пинт Э.М. /Пинт Э.М., Петровнина И.Н., Федосеева А.О. Оптимальная работа читающей системы. // Сборник научных трудов по материалам Международной научно-практической конференции «Актуальные проблемы науки и образования: прошлое, настоящее, будущее». Часть 5. - Тамбов: Изд. ТГУ, 2012. - с. 203.

10. Пинт Э.М. /Пинт Э.М., Петровнина И.Н., Романенко И.И., Еличев K.A. Полный алгоритм рационального метода распознавания компьютером печатных знаков разных шрифтов и других символов. // Научно-теоретический журнал Вестник. БГТУ им. В.Г. Шухова, № 1, 2013. - с. 210.

11. Пинт Э.М. /Пинт Э.М., Романенко И.И., Еличев K.A. Результаты исследования читающего устройства. // Научно-теоретический журнал «Вестник» № 1. - Белгород: Изд. БГТУ им. В.Г. Шухова, 2014. - с. 182.

12. Пинт Э.М. /Пинт Э.М., Петровнина И.Н., Романенко И.И., Еличев K.A. Меры для распознавания комьютером дорожных и печатных знаков разных шрифтов с определенными дефектами изображений знаков. // Научно-информационный журнал Модели, системы, сети в экономике, технике, природе и обществе, № 1 (1V) 2016 с. - 308-318.

i Надоели баннеры? Вы всегда можете отключить рекламу.