Научная статья на тему 'Распознавание символов на изображениях, содержащих искажения'

Распознавание символов на изображениях, содержащих искажения Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
115
21
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОПТИЧЕСКОЕ РАСПОЗНАВАНИЕ СИМВОЛОВ / OPTICAL CHARACTER RECOGNITION / КОМПЬЮТЕРНОЕ ЗРЕНИЕ / COMPUTER VISION / ИСКАЖЕНИЯ / DISTORTION / НЕОДНОРОДНОСТЬ ОСВЕЩЕНИЯ / ШУМЫ ПЕЧАТИ / PRINTING NOISE / NON-UNIFORMITY OF ILLUMINATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Погребняк И.В., Тропченко А.Ю.

Проведен анализ эффективности методов оптического распознавания символов, решающих проблему наличия на изображении различных видов искажений. Предложены критерии оценки эффективности. Подготовлены наборы исходных данных для проведения измерений. Выполнены измерения критериев оценки эффективности анализируемых методов для каждого из наборов исходных данных. Выбраны методы с лучшими показателями критериев по результатам измерений. Предложен алгоритм распознавания символов на основании выбранных методов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

RECOGNISION OF CHARACTERS ON IMAGES WITH DISTORTIONS

The paper presents the results of performance analysis of optical character recognition methods, which solve the problem of various kinds of distortions on images. The criteria for performance evaluation are proposed in the study. The sets of initial data for the measurements were prepared; the criteria for performance evaluation of the analyzed methods were estimated for each of the sets of source data. According to the estimation, the methods with better results of measurements were defined. The author proposed the algorithm for character recognition based on the selected methods.

Текст научной работы на тему «Распознавание символов на изображениях, содержащих искажения»

сегодняшний день сетью Стриж покрыта территория Москвы, имеется частичный охват территорий Московской области, Санкт-Петербурга, Перми, Уфы и других крупных городов [4].

Таким образом, интенсивная динамика развития наряду такими достоинствами как дальность передачи информации, использование бесплатного нелицензируемого диапазона частот и низкое энергопотребление сети делает применение LPWAN-технологий весьма перспективным для организации систем мониторинга удаленных объектов в нефтегазовой отрасли. Однако низкая скорость передачи наряду с ограничением по количеству передаваемых сообщений, не позволяет применять технологию для контроля технологических параметров в режиме реального времени. Наиболее вероятным видится применение LPWAN для организации систем сигнализации, не требующих непрерывного информационного обмена.

Список литературы / References

1. Рейч Н. Преимущества развертывания сенсорных сетей в нефтегазовой индустрии / Н. Рейч // Control Engineering Россия. - 2015, -№3(57).- С. 33 - 36.

2. SIGFOX [Электронный ресурс]: - URL: http://sigfox.com/en/coverage (дата обращения: 27.03.2017).

3. Верхулевский К. LoRa - все, что вы хотели знать об этом / К. Верхулевский // Компоненты и технологии. - 2016, -№3.- С. 110 - 114.

4. Стриж. Карта покрытия регионов [Электронный ресурс]: - URL: http://uchet-jkh.ru/o-tehnologii-strij/karta-pokrytiya (дата обращения: 30.03.2017).

Список литературы на английском языке / References in English

1. Rach N. Preimushhestva razvertyvanija sensornyh setej v neftegazovoj industrii [Advantages of deploying sensor networks in the oil and gas industry] / N. Rach // Control Engineering Rossija [Control Engineering Russia]. - 2015, -№3(57).- С. 33 - 36. [in Russian]

2. SIGFOX [Electronic resource]: - URL: http://sigfox.com/en/coverage (accessed:27.03.2017).

3. Verhulevskij K. LoRa - vse, chto vy hoteli znat' ob jetom [LoRa - everything you wanted to know about it] / K. Verhulevskij // Komponenty i tehnologii [Components and technologies]. - 2016, -№3.- С. 110 - 114. [in Russian]

4. Strizh. Karta pokrytija regionov [Strizh. Coverage map of regions] [Electronic resource]: - URL: http://sigfox.com/en/coverage (accessed:27.03.2017).

DOI: https://doi.org/10.23670/IRJ.2017.59.061 Погребняк И.В.1, Тропченко А.Ю.2

1ORCID: 0000-0003-2500-924X, Студент, Университет ИТМО, 2ORCID: 0000-0003-2666-9522, Профессор, Доктор технических наук, Университет ИТМО РАСПОЗНАВАНИЕ СИМВОЛОВ НА ИЗОБРАЖЕНИЯХ, СОДЕРЖАЩИХ ИСКАЖЕНИЯ

Аннотация

Проведен анализ эффективности методов оптического распознавания символов, решающих проблему наличия на изображении различных видов искажений. Предложены критерии оценки эффективности. Подготовлены наборы исходных данных для проведения измерений. Выполнены измерения критериев оценки эффективности анализируемых методов для каждого из наборов исходных данных. Выбраны методы с лучшими показателями критериев по результатам измерений. Предложен алгоритм распознавания символов на основании выбранных методов.

Ключевые слова: оптическое распознавание символов, компьютерное зрение, искажения, неоднородность освещения, шумы печати.

Pogrebnyak I.V.1, Tropchenko A.U.2

1ORCID: 0000-0003-2500-924X, Student, ITMO University,

2ORCID: 0000-0003-2666-9522, Professor, PhD in Engineering, ITMO University RECOGNISION OF CHARACTERS ON IMAGES WITH DISTORTIONS

Abstract

The paper presents the results ofperformance analysis of optical character recognition methods, which solve the problem of various kinds of distortions on images. The criteria for performance evaluation are proposed in the study. The sets of initial data for the measurements were prepared; the criteria for performance evaluation of the analyzed methods were estimated for each of the sets of source data. According to the estimation, the methods with better results of measurements were defined. The author proposed the algorithm for character recognition based on the selected methods.

Keywords: optical character recognition, computer vision, distortion, non-uniformity of illumination, printing noise.

Оптическое распознавание символов - это процесс, реализующий перевод изображения печатного, машинописного или рукописного текста в текстовые данные, представленные в электронном виде [1]. Качество выполнения данного процесса зависит от состояния исходных данных, то есть изображения. Состояние изображения характеризуется наличием или отсутствием на изображении:

• различных шрифтов, размеров символов;

• различных и сходных, способов написания символов;

• искажений:

- шумы;

- неоднородность освещения;

- шумы печати - смещение символов, разрывы между частями одного и того же символа;

- ложные знаки.

Существует ряд открытых систем оптического распознавания символов. В ходе проведения анализа данных систем установлено отсутствие возможности распознавания символов с изображений, содержащих искажения, используемыми в них алгоритмами [2]. В связи с этим целью исследования, приведенного в данной статье, является разработка алгоритма распознавания на основании анализа эффективности методов, решающих проблему наличия искажений на изображениях.

Процесс оптического распознавания символов состоит из этапов: восприятия, предобработки, сегментации и собственно распознавания. На каждом из этапов решается проблема наличия определенных искажений. Анализ эффективности методов проводится по следующему принципу: на вход анализируемого метода подаются наборы исходных данных, после выполнения преобразования происходит оценка соответствия результата с эталонным значением на основании определенных заранее критериев. 1. Проблема наличия неоднородности освещения

В зависимости от алгоритма, данная проблема решается либо на этапе восприятия, либо на этапе сегментации, с помощью методов локальной пороговой обработки, которые выполняют операцию бинаризации. В рамках исследования проведен анализ следующих методов: среднего порогового значения, Бернсена [3], Ниблэка [4], Саувола [5], Вульфа [6] и Брэдли-Рота [7]. Указанные методы отличаются способом вычисления порога.

В качестве критерия оценки эффективности предложена точность бинаризации изображения, определяемая как: - коэффициент корректно преобразованных пикселей объекта:

где ср - число корректно преобразованных пикселей объекта, р- число пикселей объекта;

Ар = 1-

точность преобразования:

где 1р^р - число ошибочно вставленных и удаленных пикселей объекта, рь число пикселей изображения.

В качестве исходных данных выбраны наборы изображений с различными значениями параметров: глобальной контрастности [8], минимального уровня прозрачности в области тени и процента области, занимаемой тенью.

Результаты измерений представлены на рисунках 1-3. По результатам измерений метод Брэдли-Рота является наиболее эффективным, поскольку содержит высокие показатели оценки точности бинаризации (рис. 1) и наименьшее время выполнения (рис. 2), однако он подвержен влиянию со стороны глобальной контрастности изображения (рис. 3). Методы среднего порогового значения и Вульфа в условиях наличия тени (рис. 1) содержат низкие значения коэффициента корректно преобразованных пикселей объекта кр, но в условиях изменения контрастности (рис. 3) данные методы показывают одни из лучших результатов. После выполнения методов Бенсена и Ниблэка наблюдается большой процент шумов печати, что приводит к снижению коэффициента точности преобразования Ар.

Рис. 1 - Зависимость среднего значения точности бинаризации (кр+Ар), рассчитанного на основании варьирования параметра минимального уровня прозрачности в области тени, от процента области, занимаемой тенью

Рис. 2 - Время выполнения методов 82

кр + Ар

1,9

-Среднего

1,8

-Бернсена

-Ниблэка

-Саувола

-Вульфа 1)6

-Брэдли-Рота 30 60 90 120 150

Глобальная контрастность

Рис. 3 - Зависимость точности бинаризации (kp+Ap) от глобальной контрастности изображения

2. Проблема наличия шума

Данная проблема решается на этапе предобработки с помощью фильтров шума. В рамках исследования проведен анализ следующих фильтров [8] - cреднеарифметического, cреднегеометрического, cреднегармонического, контргармонического, медианного, максимума, минимума, срединной точки, усеченного среднего и адаптивного фильтра Винера.

В качестве критерия оценки эффективности фильтров выбран коэффициент корреляции Пирсона, который позволяет установить уровень схожести изображения без зашумления и восстановленного после зашумления:

k _ Sxl]y(a(x,y)-a)*(b(x,y)-b)

J (Ex Ey (a (x.y)- Ю2) * (Ex Sy (ь (x,y) -Б)2 j'

где x, y - координаты пикселя, a, b - изображение без зашумления и восстановленное; a, b - среднее арифметическое яркости изображений.

В качестве исходных данных выбраны наборы изображений с различными видами шума и с различными уровнями шума, где уровни шума - это количество шума на изображение. К исследуемым видам шума относятся [8]: равномерный (a), Гауссов (b), логарифмически нормальный (c), Реллея (d), экспоненциальный (e), Эрланга (f), импульсный (g), Пуассона (h) и мультипликативный шумы (i).

Результаты измерений представлены в таблице 1.

Таблица 1 - Тепловая ка рта средних значений коэффициента корр зеляции Пирсона для всех уровней шума.

^^^^ Шум Фильтр ^^^^ a b c d e f g h i

Среднеарифметический 0,609 0,569 0,308 0,219 0,676 0,316 0,407 0,754 0,533

Среднегеометрический 0,442 0,432 0,159 0,113 0,547 0,183 0,135 0,644 0,352

Среднегармони-ческий 0,48 0,42 0,187 0,135 0,566 0,213 0,12 0,637 0,326

Контргармоничес -кий 0,674 0,425 0,527 0,432 0,672 0,489 0,465 0,675 0,415

Медианный 0,513 0,544 0,323 0,238 0,591 0,319 0,416 0,74 0,509

Максимума 0,121 0,25 0,079 0,063 0,19 0,086 0,156 0,384 0,273

Минимума 0,571 0,373 0,357 0,283 0,588 0,335 0,131 0,593 0,267

Срединной точки 0,572 0,397 0,357 0,283 0,594 0,335 0,145 0,617 0,341

Усеченного среднего 0,56 0,566 0,381 0,293 0,635 0,367 0,436 0,762 0,531

Винера 0,721 0,658 0,466 0,347 0,827 0,455 0,425 0,943 0,592

По результатам измерений фильтр Винера является наиболее эффективным, потому что имеет наиболее частый высокий показатель корреляции (табл. 1). Наиболее удачными для восстановления являются шумы равномерный, экспоненциальный, Пуассона, а наименее удачными логарифмически нормальный, Реллея, Эрланга, импульсный.

3. Проблема наличия шумов печати

Данная проблема решается на этапе предобработки с помощью операций морфологической фильтрации [9]. В рамках исследования проведен анализ операций: размыкание, замыкание.

В качестве критерия оценки эффективности методов предложена точность морфологической фильтрации изображения, определяемая как:

- коэффициент корректно преобразованных пикселей объекта:

кр = — , где ср - число корректно преобразованных пикселей объекта, р- число пикселей объекта;

- число ошибок:

Ер = ()р + <1р) , где 1р,ар - число ошибочно вставленных и удаленных пикселей объекта.

В качестве исходных данных выбраны наборы изображений с различным процентом шумов печати, а также различные структурные элементы: квадрат (а), прямоугольник (Ь), ромб (с), восьмиугольник (ф, круг (е), линия с углом наклона 450 (Г). Структурный элемент - это маска фильтра в морфологических операциях [9].

Результаты измерений представлены в табл. 2.

Таблица 2 - Зависимость точности морфологической фильтрации от процента шума печати на изображении для _различных параметров._

Параметр Значе ние Метод Процент шума печати на изображении

0% 15% 30%

Точность морфологической ( шльтрации

кр ЕР кр ЕР кр Ер

Структурный элемент (СЭ)* а Замыкание 1 9 0,973 127 0,907 299

Ь 1 19 0,978 131 0,919 311

с 1 165 0,972 319 0,916 477

а 1 600 0,986 727 0,945 889

е 1 165 0,972 319 0,916 477

Г 1 0 0,942 151 0,871 346

а Размыкание 0,859 203 0,768 358 0,713 486

Ь 0,756 347 0,667 498 0,624 595

с 0,031 1393 0,031 1393 0,020 1412

а 0 1437 0 1437 0 1437

е 0,031 1393 0,031 1393 0,020 1412

Г 1 0 0,942 151 0,871 346

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Размер СЭ** 4 Размыкание 0,529 677 0,450 807 0,414 890

2 1 0 0,942 151 0,871 346

Толщина линии символа** 3-10 Размыкание 1 0 0,953 875 0,950 993

2- 4 1 0 0,942 151 0,871 346

3-10 Замыкание 1 26 0,963 792 0,961 901

2-4 1 9 0,973 127 0,907 299

Примечание: * - размеры СЭ: квадрат 2:2 (а), прямоугольник 3:2 (Ь), длина линия 2 ф, радиус остальных СЭ равен 2; ** - размеры измеряются в пикселях.

По результатам измерений (табл. 2) операция замыкание является наиболее эффективной, по причине наличия высокого показателя точности морфологической фильтрации для всех видов структурных элементов. Лучшим структурным элементом для операции замыкание является квадрат, поскольку число ошибок Ер наименьшее для данного элемента, а для операции размыкание - линия. Использование структурного элемента меньшего размера приводит к лучшим результатам. На результат работы методов оказывает влияние толщина линии символа.

4. Проблема наличия различных размеров, форм, наклонов символов

Данная проблема решается на этапе распознавания, методом, выбор которого производился по результатам сравнения свойств методов распознавания на присутствие инвариантности к различным состояниям изображения и возможности использования изображения в качестве входного значения (табл. 3). Выбранным методом является сверточная нейронная сеть (НС) (рис. 4).

Таблица 3 - Сравнение свойств методов распознавания

Метод Входное значение -изображение Инвариантность к

искажениям углу положению размеру

Дерево решений - - - - -

Генетические алгоритмы - - - - -

НС Хопфилда + + - - -

НС высокого порядка + - + - +

Сверточная НС + + + + -

Входной слой (7 84 нейрона) ^

О О О О О

Выходной слой А-С. 0-9

сверточный блок слой полносвязный

слой линейной подвыборки слой (число

(кол-во рефлекации (размер выходов = 13)

нейронов = 55= области

размер матрицы регулирования = 8)

весов =12)

Рис. 4 - Архитектура сверточной нейронной сети

В качестве критерия оценки эффективности метода выбрана точность распознавания символов: 5 =-, где С4ги е - число корректно распознанных символов, С с 0 ип4 - число символов.

Ссоипг

В качестве исходных данных выбраны наборы изображений: без искажения (а), с различными формами и размерами символов (Ь), с различным наклоном символов (с), с Гауссовым шумом (а), с символами со сходным написанием (е), с шумами печати и ложными знаками (Г).

Результаты измерения точности распознавания символов для каждого из наборов изображений представлены в табл. 4.

Таблица 4 - Точность распознавания символов

Параметр Вид искажения

а b c d e f

As 0,9995 0,9936 0,9947 0,9806 0,9312 0,8606

Исходя из результатов измерений размеры, углы наклона и формы символов влияют на результат работы сверточной НС незначительно. Значительное влияние оказывают шумы печати и сходное написание символов.

Алгоритм распознавания символов

На основании анализа эффективности методов, решающих проблему наличия искажений на изображениях, предложен алгоритм распознавания, состоящий из следующих этапов:

• Предобработка:

— применение адаптивного фильтра Винера;

— применение морфологической операции закрытия в случае наличия шумов печати;

• Сегментация:

— оценка контрастности изображения;

— увеличение контрастности при необходимости;

— применение метода Брэдли-Рота;

— сегментация символов;

• Распознавание:

— сверточная нейронная сеть.

Список литературы / References

1. Cheriet M. Character recognition systems: a guide for students and practioners / M. Cheriet. - John Wiley & Sons, 2007. - 326 p.

2. Погребняк И. В. Анализ эффективности систем оптического распознавания символов / И. В. Погребняк // Сборник трудов VII научно-практической конференции молодых ученых «Вычислительные системы и сети (Майоровские чтения)». - 2016. - С. 130—133.

3. Bernsen J. Dynamic thresholding of grey-level images / J. Bernsen // Proc. 8th ICPR. - 1986. - Vol.1 - P. 1251-1255.

4. Niblack W. An Introduction to Digital image processing / W. Niblack. - Prentice Hall, 1986. - 215 p.

5. Sauvola J. Adaptive document image binarization / J. Sauvola, M. Pietikainen // Pattern Recognition. - 2000. -Vol. 33 - P. 225-236.

6. Wolf C. Text localization, enhancement and binarization in multimedia documents / C. Wolf, J. M. Jolion, F. Chassaing // International Conference on Pattern Recognition. - 2002. -Vol. 4 - P. 1037-1040.

7. Bradley D. Adaptive Thresholding Using the Integral Image / D. Bradley, G. Roth // Journal of Graphics Tools. -2007. - Vol. 12(2). - P. 13-21.

8. Соловьев Н. В. Улучшение качества растровых изображений: Учеб. пособие / Н. В. Соловьев, А. М. Сергеев. -СПб.: СПбГУ ИТМО, 2010. - 158 с.

9. Zhou H. Digital Image Processing: Part II / H. Zhou, J. Wu, J. Zhang. - Ventus Publishing ApS, 2010. - 92 p.

Список литературы на английском языке / References in English

1. Cheriet M. Character recognition systems: a guide for students and practioners / M. Cheriet. - John Wiley & Sons, 2007. - 326 p.

2. Pogrebnyak I. V. Analiz effektivnosti sistem opticheskogo raspoznavanija simvolov [Efficiency analysis of optical character recognition systems] / I. V. Pogrebnyak // Sbornik trudov VII nauchno-prakticheskoj konferencii molodyh uchennyh «Vichislitelnye sistemy i seti (Majorovskie chtenija)» [Proceedings of the scientific and practical conference of young scientists «Computing systems and networks (Mayorov's readings)»]. - 2016. - P. 130—133. [in Russian]

3. Bernsen J. Dynamic thresholding of grey-level images / J. Bernsen // Proc. 8th ICPR. - 1986. - Vol.1 - P. 1251-1255.

4. Niblack W. An Introduction to Digital image processing / W. Niblack. - Prentice Hall, 1986. - 215 p.

5. Sauvola J. Adaptive document image binarization / J. Sauvola, M. Pietikainen // Pattern Recognition. - 2000. -Vol. 33 - P. 225-236.

6. Wolf C. Text localization, enhancement and binarization in multimedia documents / C. Wolf, J. M. Jolion, F. Chassaing // International Conference on Pattern Recognition. - 2002. -Vol. 4 - P. 1037-1040.

7. Bradley D. Adaptive Thresholding Using the Integral Image / D. Bradley, G. Roth // Journal of Graphics Tools. -2007. - Vol. 12(2). - P. 13-21.

8. Soloviev N. V. Uluchshenie kachestva rastrovyh izobrajenij: Ucheb. posobie [Improving the quality of raster images: Educational allowance] / N. V. Soloviev, A. M. Sergeev. - SPb.: SPbGU ITMO, 2010. - 158 p. [in Russian]

9. Zhou H. Digital Image Processing: Part II / H. Zhou, J. Wu, J. Zhang. - Ventus Publishing ApS, 2010. - 92 p.

DOI: https://doi.org/10.23670/IRJ.2017.59.059 Подгорный Ю.И. 1, Мартынова Т.Г. 2, Скиба В.Ю. 3, Косилов А.С. 4, Печоркина Н.С. 5

1 Доктор технических наук, профессор; 2 Кандидат технических наук;

3 ORCID: 0000-0002-8242-2295, Кандидат технических наук, доцент; 4студент;5 студент, Новосибирский государственный технический университет ОПРЕДЕЛЕНИЕ КИНЕМАТИЧЕСКИХ ПАРАМЕТРОВ ЭКСПЕРИМЕНТАЛЬНОЙ УСТАНОВКИ ПРИ

ПЕРЕМЕШИВАНИИ СЫПУЧИХ СМЕСЕЙ

Аннотация

В процессе перемешивания сыпучих смесей могут образовываться «мертвые» зоны. Одним из способов ликвидации таких зон является сообщение рабочему органу смесителя дополнительного возвратно-поступательного движения. В работе представлено обоснование выбора механизма привода возвратно-поступательного движения рабочего органа экспериментальной установки смесителя. Приведены схемы и расчеты конструктивных параметров четырех рычажных механизмов, позволяющих получить перемещение выходного звена в пределах заданного хода вдоль оси x. Обоснован выбор эксцентриково-рычажного механизма.

Ключевые слова: группы Ассура, рычажный механизм, геометрический синтез, кинематический анализ.

Podgornyj Yu. I.1, Martynova T.G.2, Skeeba V. Yu.3, Kosilov A.S.4, Pechorkina N.S.5

1 DSc in Engineering, Professor; 2 PhD in Engineering;

3 ORCID: 0000-0002-8242-2295, PhD in Engineering, Associate professor; 4Student; 5Student, Novosibirsk State

Technical University

DETERMINATION OF KINEMATIC PARAMETERS OF THE EXPERIMENTAL ASSEMBLY AT MIXING

OF LOOSE MIXTURES

Abstract

During the mixing of loose mixtures, the so-called "dead" zones can appear. One of the ways to eliminate such zones is to coerce the working body of a mixer with additional reciprocating motion. The paper presents the substantiation of the choice of the mechanism for reciprocating motion actuating device of the working body in the mixer experimental assembly. The schemes and calculations of the design parameters of the four lever mechanisms are given, they allow to obtain the displacement of the output link within the specified stroke along the X axis. The choice of the eccentric-lever mechanism is justified.

Keywords: Assur group, lever mechanism, geometric synthesis, kinematic analysis.

Введение

В настоящее время выпускается большое количество многокомпонентных сыпучих смесей для их применения в различных отраслях промышленности, строительства и сельского хозяйства. Процесс смешивания

i Надоели баннеры? Вы всегда можете отключить рекламу.