Научная статья на тему 'ОБРАБОТКА ИЗОБРАЖЕНИЙ ТОВАРНЫХ ЧЕКОВ ДЛЯ ВЫДЕЛЕНИЯ И РАСПОЗНАВАНИЯ ТЕКСТОВОЙ ИНФОРМАЦИИ'

ОБРАБОТКА ИЗОБРАЖЕНИЙ ТОВАРНЫХ ЧЕКОВ ДЛЯ ВЫДЕЛЕНИЯ И РАСПОЗНАВАНИЯ ТЕКСТОВОЙ ИНФОРМАЦИИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
340
42
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТОВАРНЫЕ ЧЕКИ / ОБРАБОТКА ИЗОБРАЖЕНИЙ / АНАЛИЗ ИЗОБРАЖЕНИЙ / OCR / НЕЙРОННЫЕ СЕТИ / SALES RECEIPTS / IMAGE PROCESSING / IMAGE ANALYSIS / NEURAL NETWORKS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Наздрюхин Александр Сергеевич, Храмцов Игорь Николаевич, Тушев Александр Николаевич

Цель. В данной статье рассматривается приложение, позволяющее осуществить обработку изображений товарных чеков для последующего извлечения текстовой информации с помощью Tesseract OCR Engine. Такое приложение полезно для ведения семейного бюджета или при проведении бухгалтерского учета в небольших компаниях. Основная проблема распознавания чеков - низкое качество краски и бумаги для печати, из-за чего она легко мнется и рвется, а напечатанные буквы быстро выцветают. Метод. Исследование основано на ряде алгоритмов, основанных на методах математической морфологии операции размыкания, замыкания и морфологического градиента, преобразования изображений, которые позволяют существенно улучшить итоговое распознавание символов системой Tesseract. Результат. Для решения этой проблемы был предложен специальный алгоритм нормализации изображения, включающий в себя нахождение чека на изображении, обработку полученного участка изображения, удаление дефектов съемки и дефектов носителя и точечную обработку для восстановления символов. Разработанное приложение позволяет значительно повысить точность распознавания текстовой информации при использовании Tesseract OCR.. Вывод. Разработанная система распознает знаки с достаточно высокой точностью, и показывает результат выше, чем при распознавании оригинальным методом Tesseract, однако все же уступает точности распознавания ABBY FineReader. Также были предложены методы, предположительно позволяющие улучшить разработанный алгоритм.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Наздрюхин Александр Сергеевич, Храмцов Игорь Николаевич, Тушев Александр Николаевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

PROCESSING IMAGES OF SALES RECEIPTS FOR ISOLATING AND RECOGNISING TEXT INFORMATION

Objectives. This article presents an application for the processing of scanned images of sales receipts for subsequent extraction of text information using the Tesseract OCR Engine. Such an application is useful for maintaining a family budget or for accounting in small companies. The main problem of receipt recognition is the low quality of ink and printing paper, which results in creasing and tears, as well as the rapid fading of printed characters. Methods. The study is based on a number of algorithms based on mathematical morphology methods for opening, closing and morphological gradient operations, as well as image conversion, which can significantly improve the final recognition of characters by Tesseract. Results. In order to solve this problem, a special image normalisation algorithm is proposed, which includes locating a receipt on an image, processing the received image section, removing image capture and carrier defects, as well as point processing for restoring missing characters. The developed application supports increased recognition accuracy of text information when using Tesseract OCR. Conclusion. The developed system recognises characters with fairly high accuracy, demonstrates a result that is better than that obtained when using the unmodified Tesseract method, but which is still inferior to the recognition accuracy of ABBY FineReader. Methods are also been proposed aimed at improving the developed algorithm.

Текст научной работы на тему «ОБРАБОТКА ИЗОБРАЖЕНИЙ ТОВАРНЫХ ЧЕКОВ ДЛЯ ВЫДЕЛЕНИЯ И РАСПОЗНАВАНИЯ ТЕКСТОВОЙ ИНФОРМАЦИИ»

Вестник Дагестанского государственного технического университета. Технические науки. Том 46, №4, 2019 Heraldof Daghestan State Technical University.TechnicalSciences. Vol.46, No.4, 2019 _http://vestnik.dgtu.ru/ISSN (Print) 2073-6185 ISSN (On-line) 2542-095Х_

Для цитирования: Наздрюхин А.С., Храмцов И.Н., Тушев А.Н. Обработка изображений товарных чеков для выделения и распознавания текстовой информации. Вестник Дагестанского государственного технического университета. Технические науки. 2019; 46 (4): 113-122. DOI:10.21822/2073-6185-2019-46-4-113-122

For citation: A.S. Nazdryukhin, I.N. Khramtsov, A.N. Tushev. Processing images of sales receipts for isolating and recognising text information. Herald of Daghestan State Technical University. Technical Sciences. 2019; 46 (4): 113-122. (In Russ.) DOI:10.21822/2073-6185-2019-46-4-113-122

ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ

УДК 004.932.2

DOI: 10.21822/2073 -6185-2019-46-4-113-122

ОБРАБОТКА ИЗОБРАЖЕНИЙ ТОВАРНЫХ ЧЕКОВ ДЛЯ ВЫДЕЛЕНИЯ И РАСПОЗНАВАНИЯ ТЕКСТОВОЙ ИНФОРМАЦИИ

Наздрюхин А.С., Храмцов И.Н., Тушев А.Н.

Алтайский государственный технический университет им. И.И. Ползунова, 656038, г. Барнаул, пр. Ленина, 46, Россия

Резюме. Цель. В данной статье рассматривается приложение, позволяющее осуществить обработку изображений товарных чеков для последующего извлечения текстовой информации с помощью Tesseract OCR Engine. Такое приложение полезно для ведения семейного бюджета или при проведении бухгалтерского учета в небольших компаниях. Основная проблема распознавания чеков - низкое качество краски и бумаги для печати, из-за чего она легко мнется и рвется, а напечатанные буквы быстро выцветают. Метод. Исследование основано на ряде алгоритмов, основанных на методах математической морфологии операции размыкания, замыкания и морфологического градиента, преобразования изображений, которые позволяют существенно улучшить итоговое распознавание символов системой Tesseract. Результат. Для решения этой проблемы был предложен специальный алгоритм нормализации изображения, включающий в себя нахождение чека на изображении, обработку полученного участка изображения, удаление дефектов съемки и дефектов носителя и точечную обработку для восстановления символов. Разработанное приложение позволяет значительно повысить точность распознавания текстовой информации при использовании Tesseract OCR.. Вывод. Разработанная система распознает знаки с достаточно высокой точностью, и показывает результат выше, чем при распознавании оригинальным методом Tesseract, однако все же уступает точности распознавания ABBY FineReader. Также были предложены методы, предположительно позволяющие улучшить разработанный алгоритм.

Ключевые слова: товарные чеки, обработка изображений, анализ изображений, OCR, нейронные сети

Вестник Дагестанского государственного технического университета. Технические науки. Том 46, №4, 2019 Herald of Daghestan State Technical University.Technical Sciences. Vol.46, No.4, 2019 _http://vestnik.dgtu.ru/ISSN (Print) 2073-6185ISSN (On-line) 2542-095Х_

COMPUTER SCIENCE, COMPUTER ENGINEERING AND MANAGEMENT

PROCESSING IMAGES OF SALES RECEIPTS FOR ISOLATING AND RECOGNISING

TEXT INFORMATION

A.S. Nazdryukhin, I.N. Khramtsov, A.N. Tushev

Polzunov Altai State Technical University, 46 Lenin Ave., Barnaul 656038, Russia

Abstract Objectives. This article presents an application for the processing of scanned images of sales receipts for subsequent extraction of text information using the Tesseract OCR Engine. Such an application is useful for maintaining a family budget or for accounting in small companies. The main problem of receipt recognition is the low quality of ink and printing paper, which results in creasing and tears, as well as the rapid fading ofprinted characters. Methods. The study is based on a number of algorithms based on mathematical morphology methods for opening, closing and morphological gradient operations, as well as image conversion, which can significantly improve the final recognition of characters by Tesseract. Results. In order to solve this problem, a special image normalisation algorithm is proposed, which includes locating a receipt on an image, processing the received image section, removing image capture and carrier defects, as well as point processing for restoring missing characters. The developed application supports increased recognition accuracy of text information when using Tesseract OCR. Conclusion. The developed system recognises characters with fairly high accuracy, demonstrates a result that is better than that obtained when using the unmodified Tesseract method, but which is still inferior to the recognition accuracy of ABBY FineReader. Methods are also been proposed aimed at improving the developed algorithm.

Keywords: sales receipts, image processing, image analysis, OCR, neural networks

Введение. Оптическое распознавание текста (англ. Optical Character Recognition или OCR) представляет собой программную систему, выделяющую текстовую информацию из различных графических изображений. Оптическое распознавание текста в основном используется для распознавания текста в книгах или документах. Наиболее известной и практически не имеющей конкурентов для русскоязычных текстов является система ABBYY FineReader [1]. Алгоритм оптического распознавания текста, используемый в системе ABBYY FineReader, является результатом многолетних исследований и обеспечивает очень хорошее качество для самых разнообразных документов. Система FineReader коммерческая и достаточно дорогая, поэтому не подходит для массового использования, особенно для обработки фотографий, полученных камерой мобильных устройств.

В последние годы в различных областях деятельности универсальные системы обработки сигналов и изображений, распознавания образов, основанные на методах глубокого обучения нейронных сетей, стали вытеснять специализированные программные системы. Одной из наиболее популярных систем OCR с открытым программным кодом является система Tesseract [2], основанная на обучении нейронных сетей. На данном этапе Tesseract и аналогичные системы OCR не могут составить конкуренции FineReader, но благодаря открытому коду и передовой технологии глубокого обучения они развиваются очень активно.

Постановка задачи. В работе решается задача распознавания текстов на товарных чеках. Приложение, позволяющее из фотографий или сканов товарных чеков выделять приобретенные товары и их стоимости в текстовом виде, полезно, например, для планирования семейного бюджета или при проведении бухгалтерского учета в небольших компаниях.

Особенностью проблемы обработки товарных чеков является низкое качество изображений из-за плохой бумаги, которая легко рвется и мнется, а нанесенная на нее информация быстро выцветает. Поэтому качество распознавания символов системой FineReader и, тем более, Tesseract очень низкое.

С другой стороны, в задаче не требуется высокого качества распознавания. Пользователь может вручную исправить ошибки, главное, чтобы их исправление занимало существенно меньше времени, чем набор текста целиком вручную. Важно отметить, что ошибочно распознанные символы легко добавляются к обучающей выборке нейронной сети, и затем выполняется обучение сети заново с улучшением качества работы.

Методы исследования. В работе предлагается применение ряда специально выбранных алгоритмов преобразования изображений, которые позволяют существенно улучшить итоговое распознавание символов системой Tesseract.

Разработанный алгоритм состоит из двух модулей (рис. 1):

1. Обработка изображения.

2. Распознавание символов (OCR).

Первый модуль состоит из двух частей: обнаружение товарного чека на изображении и коррекция изображения.

Для тестирования алгоритма была реализована программа на базе библиотеки компьютерного зрения OpenCV [3] с помощью языка С++.

Рис. 1. Граф-схема алгоритма Fig. 1. Scheme of algorithm

Для поиска чека на изображении используется ряд алгоритмов, основанных на методах математической морфологии [4]: операции размыкания, замыкания и морфологического градиента (англ. Morphological Gradient).

В случае бинарной морфологии [4] изображение f(x,y) представляется множеством пикселей вида (х0,у0) £ Z2, где Z - множество целых чисел. Тогда морфологические преобразования сводятся к операциям на множествах А, В cZ2.

Интенсивность Р пикселя (х0,у0) позволяет определить принадлежность элемента множеству с помощью адаптивной бинаризации изображения [5]: Р ^ {0,1}, где 1 (принадлежность элемента множеству) обозначается черным цветом, 0 (отсутствие элемента) - белым. Рассматривается случай бинарной морфологии, однако ее методы легко расширяются для морфологии нечетких множеств с элементами (х,у,р), где р £ [0,1] - нормализованная интенсивность пикселя.

К основным операциям на множествах требуется добавить операции, необходимые для описания методов математической морфологии: две унарные операции (отражения и переноса на вектор трансляции) и четыре бинарные (расширение, сужение, открытие, закрытие). Операция отражения множества А обозначается А и определяется как

Ä = = —а, а £ А}

Операция переноса на вектор t = (tx, ty), соответственно,

Вестник Дагестанского государственного технического университета. Технические науки. Том 46, №4, 2019 Herald of Daghestan State Technical University.Technical Sciences. Vol.46, No.4, 2019 _http://vestnik.dgtu.ru/ISSN (Print) 2073-6185ISSN (On-line) 2542-095Х_

At = = a + t, a E A] Бинарные операции математической морфологии (рис. 2, 3): расширение: А 0 В = [tl(S) ПА = 0], сужение: AQB = [tlBt £ Л], открытие (размыкание): А ▽ В = (A Q В) 0 В, закрытие (замыкание): А ▼ В = (А 0 В) Q В.

А

'........-T! !г*р -=п П

■Pi_U i -

'■—...... ........................лев

__D п )

л® в

Рис. 2. Расширение и сужение множества А шаблоном В Fig. 2. Dilation and erosion A by В

........................................................АТВ = (АФВ)ЭВ

Рис. 3. Размыкание и замыкание множества А. Fig. 3. Opening and closing A byB.

При использовании методов математической морфологии для исходного изображения А множество В выбирается специальным образом, в зависимости от операции и задачи в целом. В называется структурным элементом (шаблоном) и, как правило, данное изображение гораздо меньше по размеру изображения А. В OpenCV имеется три стандартных типа структурных элементов: матрицы в виде эллипса, прямоугольника, креста.

С помощью основных операций можно легко обозначить границы множества А как (1), заполнение региона, очерченного границами как (2):

P(A)=A\(AQB) (1)

Xk = (Xk-1 ®В)П Ас, ©™I к = 1,2,3 ... (2)

С учетом описанных выше определений и обозначений граф-схема алгоритма выделения чека из фотографии показана на рис.4.

Результат работы показан на рис. 5. Для нахождения контуров (англ. Find Contours) на изображении А применялся алгоритм Судзуки-Абэ [6], для описания подходящего многоугольника по контуру (англ. Convex Hull) - алгоритм Склански [7] (рис.4, блок 2).

Данные алгоритмы являются стандартными для OpenCV. Тем не менее, похожий результат для А можно получить с помощью комбинирования методов Р(А) и Хк с остальными методами морфологии при хорошо подобранных структурных элементах.

Рис. 4. Граф-схема алгоритма выделения чека, где Bk,k = 1 ...4 - шаблоны, а Eipe и Rec (Recage) - типы шаблонов с указанным размером тх п матрицы изображения Fig. 4. Flowchart of sale receipt detection algorithm, where Bk,k = 1 ...4- structuring elements, Eipe and Rec (Recage) - type of schemes with size mxn of image matrix

(«) (5)

Рис. 5. Результат работы модуля, где (а) - бинаризированное изображение, полученное с помощью морфологии, (б) - изображение с выделенным контуром чека и минимальным прямоугольником,

его описывающим

Fig. 5. The result of the module, where (a) - binarized image, obtained using morphology, (b) - image with a contour of sales receipt and a minimal rectangle selected contour

Коррекция и обработка фотографии. Как правило, фотографии с камеры смартфона имеют множество дефектов, таких как цифровой шум, хроматические аберрации, дефекты экспозиции и т.д. [8]. Также печать текста на товарном чеке и низкое качество бумаги, из которой чек изготовлен, вносят дополнительные искажения.

Таким образом, можно выделить два класса дефектов изображения: недостатки съемки и недостатки физического носителя информации. Для каждого класса был построен алгоритм повышения качества.

На рис. 6 показана граф-схема алгоритма. Узлы графа - методы, описание которых приведено ниже в порядке применения.

Рис. 6. Граф схема алгоритма для коррекции и обработки изображения Fig. 6. Flowchart for image correction algorithm

Удаление шумов. Принцип шумоподавления состоит в том, что яркость пикселя заменяется на среднее значение яркостей похожих к пикселей (часто количество пикселей берется как к = п2, п Е N). Основное отличие методов шумоподавления в способах поиска похожих пикселей на /. В данной работе использовался метод NL-средних [9] вида:

NL[u(p)]=-^j y(d(B(p),B(q)j)u(q)dq

Где d(B(p), В(ч)) - евклидово расстояние между патчами (прямоугольными областями изображения), c центрами в пикселях р и q, у(х) - убывающая функция, С(р) - нормализующая функция, и(р) - функция, определяющая схожесть пикселей р и q.

Выравнивание освещения, регулирование баланса белого. Данный метод использует последовательно алгоритмы SSR (Single Scale Retinex) [9] и Gray World [10] (рис. 7). Результат работы SSR вычисляется как

f :=\ogf-\og(f*g) Для трехканального изображения алгоритм Gray World по каждому пикселю (х, у) с ин-тенсивностями R,B,G Е [0,255] выглядит следующим образом:

scale =

Rnvn + Bnvn + G

avg

avg

'avg

3

R =

R * scale ~R,

В :=

В * scale

G :=

G * scale

avg ^avg ^avg

Где Ravg> Bavg> G avg ~ средние значения интенсивностей каждого из каналов для /.

(а) (Ъ)

Рис. 7. Изображение товарного чека (а) до и (б) после выравнивания освещения

и баланса белого

Fig. 7. The image of sale receipt (a) before and (b) after illumination equalization

and white balance correction

Гамма-коррекция. [12,13] использует показанную ниже формулу. Где Р - нормализированная средняя яркость изображения.

У =

-0.3

~W

Далее для каждого (х, у) интенсивность р определяется с помощью

р

' = 255(255)'

Коррекция яркости и контраста. Пусть А - матрица изображения. Тогда скорректированное изображение рассчитывается по формулам:

255 тт(Л)

а =

max(^) — min(^)

а

Л:= аЛ + р

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Повышение резкости изображения. Повышение резкости изображения f для более четкого выделения символов выполняется с помощью лапласиана гауссиана [13,14]. Положим, что все операторы Т над f определены в некоторой окрестности точки (х, у).

Если f - дискретная функция, а - двумерный оператор Лапласа, то используется приближенное вычисление производных и V2/, соответственно,

8f 8f

— « f(x + 1,y) - f(x,y); — « f{x,y + 1)- f(x,y)

V2f « [f(x + 1,y)+ fix - 1,y) + fix, y + 1)+ fix, y- 1)] - 4fix,y) Пусть g - гауссиан, e - единичный фильтр, а - коэффициент резкости, тогда, переходя к свертке, получим формулу для повышения резкости f

f + a(f - f * g) = f * ((1 + a)e - ag), где e - g « V2g - лапласиан гауссиана Адаптивная пороговая бинаризация изображения. [5,16,17] Один из главных недостатков глобальной бинаризации - необходимость чрезвычайно точно подобрать коэффициент бинаризации. Алгоритм адаптивной бинаризации зависит от яркости fix, у) в точке, а не от координат точки, как в случае глобальной и локальной бинаризации.

Алгоритм рассматривает небольшое количество соседей вокруг определенного пикселя и затем определяет оптимальный коэффициент бинаризации для них. Такой подход позволяет обрабатывать различные изображения с большим разбросом яркостей, что сильно влияет на точность распознавания (рис. 8).

I

ДЛЬПЕН ГОЛЬЦ ШОК-МОЛ. с 1 ■ 20

ДЛЬПЕН ГОЛЬД Шок.нал.с н »2-1 7.20 Дльпен Гольд шока лая мол

^1,ПЛЬПЕН ГОЛЬД шок.мол. с «2=137.20

ДЛЬПЕН ГОЛЬП Шок.мил.с м «2=137.ЗО

^.Дльпен Гольд шоколад мол *2—1Г37.20

Рис. 8. (a) Применение пороговой бинаризации глобальной, (b) адаптивной бинаризации Fig. 8. Applying (a)global threshold binarization, (b)adaptive threshold binarization

Поворот и пространственная коррекция изображения. Осуществлялись с помощью алгоритмов, описанных Адрианом Роусброком [17].

Первый алгоритм осуществляет преобразование перспективы прямоугольного объекта с помощью четырех опорных точек (xk,yk), k = 1 ...4 на исходном изображении и матрицы М преобразования перспективы:

1

(хк,ук) (х'к,у'к)

Т _ „ ЛЛТ

W

(xi yi w)T = Mix^ 1)T, где w = ^ ^ иначе

Второй алгоритм - детектирование и коррекция наклона и смещения изображения (англ. Image Skew Detection and Correction) исправляет дефекты поворота таким образом, чтобы текст на товарном чеке был горизонтально расположен. Второй алгоритм обычно служит для небольшого дополнительного снижения отклонения текста от горизонтального расположения.

Пространственная коррекция, хотя и может внести дополнительные искажения, применяется после пороговой бинаризации и повышения резкости, поскольку именно тогда можно наиболее точно определить опорные точки для преобразования.

Размытие изображения. Небольшое размытие изображения помогает замаскировать дефекты букв и различные аберрации, полученные применением предыдущих методов. Для размытия используется алгоритм двусторонней фильтрации [18] или фильтр Гаусса. Восстановление символов с помощью морфологических преобразований.

Для изображения А восстановление символов можно провести как операцию А ▼ В, где В - шаблон в виде эллипса с небольшим (например, 3х4) размером матрицы. Размытие изображения и проход по изображению операцией замыкания с небольшим шаблоном помогают удалить небольшие дефекты в буквах (рис. 9).

ПРОДАЖА ПРОДАЖА ЛУ ШИН В ЛУ ШИН В КАПИТАН КАПИТАН НИКИТИНА НИКИТИНА

Рис. 9. Пример символов до (а) и после (б) восстановления.

Fig. 9. Example of symbols before (a) and after (b) restoration.

Распознавание текста. Для получения информации из изображения товарного чека была использована библиотека оптического распознавания текста с открытым исходным кодом Tesseract, которая основана на предварительно тренированной модели нейронной сети. Имеется возможность дополнительно обучать нейронную сеть. В данном случае это имеет смысл, так как шрифт, используемый кассовыми аппаратами для печати на чеках специфичен, следовательно, некоторые символы могут распознаваться некорректно, или же не распознаваться вовсе (например, символ =).

Рис. 10. Результат распознавания текста с отмеченным расположением.

Fig. 10. Result of text recognition with marked positions.

Обсуждение результатов. Для проверки эффективности предложенного алгоритма была проведена проверка распознавания символов на товарных чеках в крупной торговой сети. Тестирующая выборка состояла из пятидесяти товарных чеков, объединенных в пять групп по десять чеков в каждой, по возрастанию величины дефектов.

В табл. 1 показано сравнение точности распознавания для разработанного алгоритма, Tesseract OCR и ABBYY FineReader

Таблица 1. Точность распознавания знаков

Алгоритм Algorithm 1-ый 2-ой 3-ий 4-ый 5-ый Среднее значение Mean

Original OCR 0.86 0.81 0.74 0.62 0.53 0.73

ABBY FineReader 0.93 0.89 0.85 0.81 0.76 0.87

Tesseract OCR 0.86 0.76 0.67 0.58 0.41 0.67

Как видно из табл.1, качество работы разработанной системы все же уступает ABBY FineReader, однако превосходит «чистый» Tesseract OCR.

Поскольку основная цель - бухгалтерский учет в компании или же анализ личных расходов, а названия многих товаров имеют сокращения и аббревиатуры, зачастую может быть не совсем понятно, что же написано на чеке. Также разные магазины используют разные сокращения для названий одних и тех же товаров.

Для решения данных проблем к исходному алгоритму может быть добавлена языковая модель [19-21]. Предполагается, что добавление языковой модели поможет значительно повысить точность распознавания, поскольку большинство ошибок представляют собой или отдель-

ные буквы в словах, или некорректные последовательности знаков, появившихся из-за коллизий распознавания при попытке интерпретации штрихового кода и разделительных черт (рис. 11) как последовательностей букв и цифр.

Рис. 11. Пример области товарного чека Fig.11. Example of receipt region

Вывод. В данной работе был описан алгоритм, позволяющий распознавать текстовую информацию с товарных чеков посредством предложенной OCR-системы на основе Tesseract Engine.

Разработанная система распознает знаки с достаточно высокой точностью, и показывает результат выше, чем при распознавании оригинальным методом Tesseract, однако все же уступает точности распознавания ABBY FineReader. Также были предложены методы, предположительно позволяющие улучшить разработанный алгоритм.

Библиографический список:

1. Главная страница ABBYY FineReader, https://www.abbyy.com/en-us/finereader/

2. Главная страница Tesseract Open Source OCR Engine, https://github.com/tesseract-ocr/tesseract

3. Главная страница OpenCV Homepage, https://opencv. org/

4. Gonzalez, R., Woods, R.: Digital Image Processing, 4th edn. - Pearson, New York, 2018.

5. Bradley, D., Roth, G. Adaptive Thresholding using the Integral Image // J. Graphics Tools. - 2007. - №12. рр.13-21.

6. Suzuki, S., Keiichi A. Be. Topological structural analysis of digitized binary images by border following // Computer Vision, Graphics, and Image Processing. - 1935. - №30(1). - p.32-46 .

7. Sklansky, J.: Finding the Convex Hull of a Simple Polygon. Pattern Recognition Letters 1(2), 79-83 (1982).

8. Sencar, H.T., Memon, N. Digital image forensics: There is more to a picture than meets the eye. Springer, New York (2013).

9. Chambolle, A., Caselles, V., Novaga, M., Cremers, D., Pock, T. An introduction to Total Variation for Image Analysis 9 (2010).

10. Ma, Z. & Wen, J. Single-scale Retinex sea fog removal algorithm fused the edge information // Jisuanji Fuzhu Sheji Yu Tuxingxue Xuebao/Journal of Computer-Aided Design and Computer Graphics 27. 217-225 (2015).

11. Li, B., Xu, D., Lee, M., Feng, S. A Multi-Scale Adaptive Grey World Algorithm // IEICE Transactions 90-D, 1121-1124 (2007).

12. Babakhani, R., Zarei, P. Automatic gamma correction based on average of brightness // Advances in Computer Science: an International Journal 4(6), 156-159 (2015).

13. Rahman, Sh., Rahman, Md. Mostafijur, Abdullah-Al-Wadud, M., Al-Quaderi, Golam Dastegir, Shoyaib, M. An adaptive gamma correction for image enhancement // EURASIP Journal on Image and Video Processing 35, (2016).

14. Haralick, R., Shapiro, L. Computer and Robot Vision, 1st edn, Addison-Wesley Publishing Company, Boston (1992).

15. Marr, D., Hildreth, E. Theory of Edge Detection. Proceedings of the Royal Society of London B 207, 187- 217 (1980)

16. Пелевин Е.Е., Балясный С.В. Использование метода Adaptive Threshold в системе технического зрения // Juvenis scientia. 2017. №1. С. 4-7.

17. A.Rosebrock, Practical Python and OpenCV, 3rd edn. PyImageSearch.com (2016).

18. Tomasi, C., Manduchi, R. Bilateral filtering for gray and color images // Sixth International Conference on Computer Vision, 839-846 (1998).

19. Peter Norvig's cite: How to write a spelling corrector, https://norvig.com/spell-correct.html, last accessed 2019/11/30.

20. Liu, X., Cheng, K., Luo, Y., Duh, K., & Matsumoto, Y. A hybrid Chinese spelling correction using language model and statistical machine translation with reranking // In Proceedings of the Seventh SIGHAN Workshop on Chinese Language Processing, 54-58 (2013).

21. Popov, V., Kudinov, M., Piontkovskaya, I., Vytovtov, P., Nevidomsky, A. Differentially Private Distributed Learning for Language Modeling Tasks (2017). arXiv, https://arxiv.org/abs/1712.07473

References:

1. ABBYY FineReader Homepage, https://www.abbyy.com/en-us/finereader/

2. Tesseract Open Source OCR Engine, https://github.com/tesseract-ocr/tesseract

3. OpenCV Homepage, https://opencv.org/

4. Gonzalez R., Woods, R.: Digital Image Processing, 4th edn. Pearson, New York (2018).

5. Bradley D., Roth, G.: Adaptive Thresholding using the Integral Image. J. Graphics Tools 12, 13-21 (2007).

6. Suzuki S., Keiichi A. Be.: Topological structural analysis of digitized binary images by border following. Computer Vision, Graphics, and Image Processing, 30(1), 32-46 (1985).

7. Sklansky J.: Finding the Convex Hull of a Simple Polygon. Pattern Recognition Letters 1(2), 79-83 (1982).

8. Sencar H.T., Memon, N.: Digital image forensics: There is more to a picture than meets the eye. Springer, New York (2013).

9. Chambolle A., Caselles V., Novaga M., Cremers D., Pock, T.: An introduction to Total Variation for Image Analysis 9 (2010).

10. Ma Z. & Wen, J.:Single-scale Retinex sea fog removal algorithm fused the edge information. Jisuanji Fuzhu Sheji Yu Tuxingxue Xuebao/Journal of Computer-Aided Design and Computer Graphics 27. 217-225 (2015).

11. Li, B., Xu, D., Lee, M., Feng, S.: A Multi-Scale Adaptive Grey World Algorithm. IEICE Transactions 90-D, 1121-1124 (2007).

12. Babakhani R., Zarei P.: Automatic gamma correction based on average of brightness. Advances in Computer Science: an International Journal 4(6), 156-159 (2015).

13. Rahman, Sh., Rahman, Md. Mostafijur, Abdullah-Al-Wadud, M., Al-Quaderi, Golam Dastegir, Shoyaib, M.: An adaptive gamma correction for image enhancement. EURASIP Journal on Image and Video Processing 35, (2016).

14. Haralick R., Shapiro, L.: Computer and Robot Vision, 1st edn, Addison-Wesley Publishing Company, Boston (1992).

15. Marr D., Hildreth, E.: Theory of Edge Detection. Proceedings of the Royal Society of London B 207, 187- 217 (1980)

16. Pelevin Ye.Ye., Balyasnyy S.V. Ispol'zovaniye metoda Adaptive Threshold v sisteme tekhniche-skogo zreniya // Juvenis Scientia. 2017. №1. S. 4-7. [Pelevin, E., Balyasny, S.: The usage of adaptive threshold method in the system of computer vision. Juvenis Scientia 1, 4-7 (2017). (In Russ)]

17. A.Rosebrock, Practical Python and OpenCV, 3rd edn. PyImageSearch.com (2016).

18. Tomasi, C., Manduchi, R.: Bilateral filtering for gray and color images. Sixth International Conference on Computer Vision, 839-846 (1998).

19. Peter Norvig's cite: How to write a spelling corrector, https://norvig.com/spell-correct.html, last accessed 2019/11/30.

20. Liu, X., Cheng, K., Luo, Y., Duh, K., & Matsumoto, Y.: A hybrid Chinese spelling correction using language model and statistical machine translation with reranking. In Proceedings of the Seventh SIGHAN Workshop on Chinese Language Processing, 54-58 (2013).

21. Popov, V., Kudinov, M., Piontkovskaya, I., Vytovtov, P., Nevidomsky, A.: Differentially Private Distributed Learning for Language Modeling Tasks (2017), https://arxiv.org/abs/1712.07473

Сведения об авторах:

Наздрюхин Александр Сергеевич, студент; e-mail:a.nazdryukhin@gmail.com Храмцов Игорь Николаевич, студент; e-mail: igorxramcov@yandex.ru

Тушев Александр Николаевич, кандидат технических наук, доцент кафедры информатики, вычислительной техники и информационной безопасности; e-mail: tushev51@mail.ru Information about the authors:

Alexandr S. Nazdryukhin , Student; e-mail:a.nazdryukhin@gmail.com Igor N. Khramtsov, Student; e-mail: igorxramcov@yandex.ru

Alexandr N. Tushev, Cand. Sci. (Technical), Assoc. Prof., Department of Informatics, Computer Engineering and Information Security; e-mail: tushev51@mail.ru

Конфликт интересов. Conflict of interest.

Авторы заявляют об отсутствии конфликта интересов. The authors declare no conflict of interest.

Поступила в редакцию 18.10.2019. Received 18.10.2019.

Принята в печать 07.11.2019. Accepted for publication 07.11.2019.

i Надоели баннеры? Вы всегда можете отключить рекламу.