EDN: GIGDUC
В.В. Ткаченко - к.э.н., доцент кафедры компьютерных технологий и систем, Кубанский государственный аграрный университет, Краснодар, Россия, [email protected],
V.V. Tkachenko - candidate of economic sciences, assistant professor of the department of computer technologies and systems, Kuban state agrarian university, Krasnodar, Russia;
П.Н. Тарлычева - студент, Кубанский государственный аграрный университет, Краснодар, Россия, [email protected],
P.N. Tarlycheva - student, Kuban state agrarian university, Krasnodar, Russia.
ИНФОРМАЦИОННАЯ СИСТЕМА АВТОМАТИЗИРОВАННОГО РАСПОЗНАВАНИЯ РЕКВИЗИТОВ ЭКОНОМИЧЕСКИХ ДОКУМЕНТОВ НА ОСНОВЕ OCR-АЛГОРИТМОВ INFORMATION SYSTEM FOR AUTOMATED RECOGNITION OF DETAILS ECONOMIC DOCUMENTS BASED ON OCR ALGORITHMS
Аннотация. В современном мире все чаще встречается необходимость автоматического распознавания текста с фотографий, иллюстраций или видео. Будь то перевод рукописного текста на другой язык или же просто быстрая оцифровка информации с бумажных носителей - так или иначе, данная возможность значительно облегчает бизнес-процессы современных компаний. Качественное распознавание латинских символов в печатном тексте в настоящее время возможно только если доступны четкие изображения, такие как сканированные печатные документы. Точность при такой постановке задачи превышает 99 %, абсолютная точность может быть достигнута только путем последующего редактирования человеком. Проблемы распознавания рукописного «печатного» и стандартного рукописного текста, особенно с использованием кириллицы, а также печатных текстов других форматов (с очень большим числом символов) в настоящее время являются предметом активных исследований.
В банковской структуре тема распознавания текста играет особую важную роль. Появление дистанционного банковского обслуживания (ДБО) поменяло весь банковский бизнес, предоставив возможность получения финансовых услуг «в два счета».
В данной статье рассмотрены алгоритмы автоматизированного распознавания изображения и текста на нем, проанализированы их достоинства и недостатки. Показаны особенности их использования с целью автоматизированного заполнении реквизитов экономических документов.
Abstract. In the modern world, there is an increasing need for automatic text recognition from photos, illustrations or videos. Whether it's translating handwritten text into another language or simply quickly digitizing information from paper media, one way or another, this feature greatly facilitates the business processes of modern companies. Quality recognition of Latin characters in printed text is currently only possible if clear images are available, such as scanned printed documents. The accuracy with this formulation of the problem exceeds 99 %, absolute accuracy can only be achieved through subsequent human editing. The problems of recognition of handwritten "printed" and standard handwritten text, especially those using Cyrillic, as well as printed texts of other formats (with a very large number of characters) are currently the subject of active research.
In the banking structure, the topic of text recognition plays a particularly important role. The emergence of remote banking services (RBS) has changed the entire banking business, providing the opportunity to receive financial services "in no time".
This article discusses algorithms for automated image and text recognition on it, analyzes their advantages and disadvantages. The features of their use for the purpose of automated filling in the details of economic documents are shown.
Ключевые слова: информационная система, автоматизация, алгоритм, нейронная сеть, распознавание текста, документ, реквизит, компьютерное зрение, экономическая эффективность
Keywords: information system, automation, algorithm, neural network, text recognition, document, props, computer vision, economic efficiency.
OCR (оптическое распознавание символов) - это автоматизированный технологический процесс для распознавания печатных или рукописных текстовых символов внутри цифровых изображений физических документов, таких как отсканированный бумажный документ. Основной процесс OCR включает в себя изучение текста документа и преобразование символов в код, который можно использовать для обработки данных. OCR иногда также называют распознаванием текста. Цель данных исследований является анализ алгоритмов автоматизированного распознавания реквизитов экономических документов с целью совершенствования системы ввода экономических документов и обращения банковской экономической документации, путем разработки автоматизированной информационной системы.
Рассмотрим особенности алгоритмов OCR. Системы OCR состоят из комбинации аппаратного и программного обеспечения, которое используется для преобразования физических документов в машиночитаемый текст. Аппаратное обеспечение, такое как оптический сканер или специализированная печатная плата, используется для копирования или чтения текста, в то время как программное
обеспечение обычно выполняет расширенную обработку. Программное обеспечение также может использовать преимущества искусственного интеллекта (ИИ) для реализации более продвинутых методов интеллектуального распознавания символов (ICR), таких как определение языков или стилей почерка.
Приложения OCR сыграли большую роль в оцифровке изображений документов, собранных из разнородных источников. Многие из известных скриптов имеют системы OCR с достаточно высокой производительностью, позволяющей использовать OCR-приложения в промышленных или коммерческих условиях. Однако системы OCR дают очень хорошие результаты только в узкой области и в очень специфических случаях использования. Таким образом, до сих пор их повсеместное использование остается довольно сложной задачей.
Оптическое распознавание символов относится к стеку технологий компьютерного зрения. Существуют проблемы, которые появляются при преобразовании изображений машинопечатных текстов или при преобразовании рукописных текстовых изображений в машиночитаемый текст в формате, который компьютер может обрабатывать, хранить и редактировать в виде текстового файла (или как часть ввода данных для дальнейших манипуляций). Оцифровка текстовых ресурсов и бумажных копий документов (включая книги, газеты, журналы, культурные и религиозные архивы) ведутся десятилетиями, чтобы обеспечить доступность этих ресурсов во всем мире.
Рисунок 1 - Общая блок-схема анализа изображения документа
Во время распознавания, после оптического захвата печатного и/или рукописного документа с помощью цифровой камеры, сканера или любого другого оптического средства, цифровое изображение переходит к следующим основным этапам анализа изображения документа для дальнейшей обработки. Сначала оно проходит стадию предварительной обработки и переходит к этапу извлечения признаков. Наконец, черты, полученные при этапах извлечения признаков используется для развития модели распознавания. На рисунке 1 показана общая пошаговая схема данного процесса.
Этап предварительной обработки. На этом этапе качество изображений улучшается с использованием различных методов предварительной обработки изображений и находятся интересующие данные.
Извлечение признаков. Отличительные характеристики изображения, полезные для распознавания фиксируются на этапе извлечения признаков. В зависимости от типа алгоритма, используемого для извлечения признаков, коррекция макета документа и сегментация его изображения могут применяться на разных уровнях.
Этап классификации. Здесь векторы признаков, извлеченные из предыдущего этапа, обраба-
тываются для распознавания символов, слов или текстовых строк.
Постобработка. На этом этапе ошибки распознавания исправляются на основе контекстной информации из языковой модели или словаря. В результате постобработка помогает обновить и улучшить распознавание для наибольшей производительности OCR-модели.
Классический подход OCR обычно называют подходом, основанным на сегментации. Сегментация - это процесс разделения цифрового изображения на несколько управляемых сегментов в целом и, в частности, для OCR сегментации изображения документа на символы. Цель сегментации -упростить и изменить представление изображения во что-то, что имеет больше смысла и легче анализируется. В OCR на основе подхода сегментации, процесса извлечения и распознавания признаков, зависит от качества сегментированных частей. Таким образом, в этом подходе сегментация фундаментальный шаг для разработки эффективной системы OCR. Тем не менее, следующие проблемы считаются основным узким местом задачи сегментации при анализе изображения документа.
Проблема чрезмерной сегментации. Из-за характера сложности системы, соприкасающиеся буквы и фрагментированные символы интерпретируются как один символ или часть символа считается целым символом.
Проблема со сканированием документа: во время сканирования будут возникать стыки, если документ является темной фотокопией или если он отсканирован с низким разрешением. Символы могут быть разделены, если документ сканируется с высоким разрешением или оцифрованы с помощью световой фотокопии.
Проблема неоднозначности шума или текста. Понимание точек и диакритических знаков как шум или наоборот. В результате на распознавание отправляются неправильные данные. В основном это происходит, если символы геометрически связаны с некоторой графикой.
Методы оптического распознавания символов на основе сегментации использовались в течение многих лет. Техника OCR, это символы. В общем, сегментация символов достигается с использованием явных или неявных методов сегментации, где первый метод используются в OCR на основе сегментации, в то время как более поздняя техника имеет особенность в подходе OCR без сегментации. Подробные процедуры этой технике сегментации называют явными и неявными.
Явная сегментация. Это метод чистой сегментации, в котором классический подход к распознаванию 15 последовательности символов во входном изображении документа сегментирована на части изображения отдельных символов, а затем подается на распознаватель символов для классификации. Подход вертикальной сегментации относится к категории явной сегментации. При таком подходе после этапа предварительной обработки входного изображения рукописного или печатного слова, слова сканируется сверху вниз. Алгоритмы в этот метод сегментации следуют правилу разреза, которое обычно требует набор эвристик и информации о переднем плане, заднем плане или сочетании их для создания потенциальных сокращений сегментации. В методе вертикальной сегментации, когда потенциал сегментированных столбцов изображения идентифицируются путем присвоения 0 и 1, то точка среза символа получается с использованием профиля гистограммы проекции. При явной сегментации проблема чрезмерной сегментации происходит либо когда два последовательных символа в образе слова соединены лигатурой, либо когда символы являются открытыми символами.
Неявная сегментация. Ее обычно называют сегментацией на основе распознавания, и она использует каждый столбец пикселей в качестве потенциального местоположения выреза. В этом подходе как к сегментация и распознавание символов достигается одновременно. Подход неявной сегментации разбивает слова на сегменты, которые должны быть символами, а затем передать каждый сегмент классификатору. Если результаты классификации неудовлетворительны, сегментация вызывается повторно с информацией обратной связи об отклонении предыдущего результата. Неявный подход сегментации обеспечивает все предварительные сегменты и позволяет выбирать наилучшую гипотезу сегментации. Однако есть компромисс в выборе количества сегментов для слова. Вычисление становится эффективным, если количество сегментов меньше, но расширенный символ может быть охвачен гипотезой. Принимая во внимание, что для большого количества сегментов требуется больше вычислительных ресурсов.
Большинство ошибок в OCR-системах, основанных на сегментации, часто возникают из-за проблемы в процессе сканирования, а затем плохой процесс сегментации, приводящий к соединению или разбиению символов. Путаница между текстом и графикой или между текстом и шумом также является другой причиной ошибок в сегментации. Наиболее распространенный тип OCR на основе сегментации, когда модель соответствует шаблону. В этом методе символы извлекаются и, впоследствии, сопоставляются со всеми возможными шаблонами символов в алфавите. Распознавание дости-
гается путем проведения нормализованной кросс-корреляции между шаблоном и новым символом для сопоставления. Сравнение между символами выполняется для обнаружения области с наивысшим совпадением. Это сравнение выполняется путем сдвига символа шаблона против нового символа по одному пикселю слева направо и сверху вниз. Значение на каждой точке, которое говорит, насколько шаблон похож на эту конкретную область, может вычислялся с использованием функции взаимной корреляции, которая является основной мерой подобия, используемой на практике (1).
где I - изображение, T - шаблон,
T и I uv - среднее значение шаблона и среднее значение области по шаблону I (x, y) соответственно.
Тем не менее, подход OCR, основанный на сегментации, оставался самым современным в течение очень долгого времени в области OCR, пока его, наконец, не превзошли с помощью методов оптического распознавания символов без сегментации.
На рисунке 2 представлен документ, который подходит под критерии корректного распознавания экономических реквизитов.
Иванов Иван Ильич
Нлфорчянионяо« пигьмо
РЕКВИЗИТЫ
Адрес 115280 г.Москва, уя Авиамоторная. 44. кв. 12
ИНН 771212543268
ОГРНИП 109673936538766532
окно 48767853
оквэд 78.3.22
Свидетельство о регистрации .49345788824500021 от 02.09.2014 т.
Банковские реквизиты Р/с 40802810230000090296 в Химкинском отделении №7319 ОАО «Сбербанк России», г. Москва К/с 30101810100000000198 БИК 040349198
телефон 8 (954) 678 78 32. 8 (925) 456 76 23
E-mail ipivauo\2015 а imil.ru
HmuMiyi'lkkull
предприниматель jfeJHlW Иванов И И
17.04.2015 г.
Рисунок 2 - Пример документа для корректного распознавания реквизитов
В последнее время исследования в области оптического распознавания символов перешли к подходу без сегментации, который может включать контекстную информацию в процессе распознавания. Современные подходы OCR выполняют локализацию и распознавание символов на уровне текстовой строки, тем самым избегая необходимости явной сегментации слов или символов. Распознавание в подходах OCR без сегментации зависит не только от особенности одного текста, а также зависит от окружающего его контекста.
Подходы без сегментации для OCR отличаются от методов на основе сегментации уровнем сегментации, требуемым на этапах анализа макета. Традиционно такие подходы требуют извлечения слов или части слов для заданной текстовой строки. Затем все слово или его часть распознаются механизмом распознавания. В подходах OCR без сегментации отличительные признаки извлекаются из всего слова или текстовой строки. Затем эти функции используются для обучения классификатора распознаванию всего слова или полной текстовой строки. Долгое время Скрытая Марковская Модель была передовым и предпочтительным методом, пока не были введены глубокие нейронные сети, и его превзошли методы OCR на основе рекуррентных нейронных сетей.
Концепция глубоких нейронных сетей возникла из искусственных нейронных сетей, которые вдохновлены структурой и функцией биологического мозга. До появления глубокого обучения при-
менялись ИНС и другие статистические классификаторы, такие как машины опорных векторов, K-ближайшие соседи и случайные леса. Те классические машинные методы обучения, в целом, состоят из двух модулей: экстрактор признаков и модуль классификатора. Средство извлечения признаков отвечает за извлечение дискриминантных признаков, обычно называемых созданными вручную признаками, из приведенных данных. Как только эти функции извлечены, они впоследствии загружаются в классификаторы. Однако после внедрения глубоких нейронных сетей, такие как сверточные нейронные сети, такие пошаговые процедуры помещаются в единую инфраструктуру, где и модули извлечения признаков, и модули классификатора обучаются сквозным способом с использованием обратного распространения.
Сверточные нейронные сети (CNN) - это специализированная искусственная нейронная сеть, разработанная с возможностью обработки и извлечения пространственной информации из данных изображения. Существуют различные архитектуры CNN, такие как LeNet, AlexNet, GoogLeNet, ResNet и VGGNet, которые в основном состоят из двух общих слоев, а именно сверточных слоев, и объединение слоев. Сверточные слои свертываются вокруг входного изображения с помощью нескольких сверточных фильтров, обычно выполняющих скалярное произведение между фильтрами и локальными областями, и передают выходные данные следующему слою, в то время как объединение слоев отвечает за уменьшение пространственного размера изображения. В дополнение к этим двум базовым уровням CNN могут состоять из полностью связанных слоев, которые берут сглаженную матрицу из предыдущих слоев и вычисляют оценку класса, а также могут состоять из различных сетевых гиперпараметров, таких как шаг, заполнение и глубина, которые могли бы управлять алгоритмами обучения. Сверточные нейронные сети успешно применяются для различных приложений компьютерного зрения, таких как распознавание изображений, распознавание лиц, сегментация изображений и распознавание символов. CNN являются доминирующими методами в различных задачах, основанных на изображениях, и они по-прежнему вызывают интерес сообщества машинного обучения во многих областях, включая исследователей, занимающихся анализом и распознаванием изображений экономических документов.
Рекуррентные нейронные сети (RNN) предназначены для учета временного поведения входных данных, с которым не так просто справляются сверточные нейронные сети. Интуиция использования RNN для последовательных данных заключается в способности рекуррентных сетей учиться и запоминать длинные последовательности входных данных. В задачах на основе последовательности, таких как распознавание рукописного текста, обработка речи и машинный перевод, обычно нужно знать, что было в прошлом и что будет дальше, чтобы лучше понять и обнаружить настоящий контекст. Существуют различные архитектуры рекуррентных нейронных сетей, начиная от типичной ванильной рекуррентной сети, которая обычно страдает от проблемы, называемой взрывным и исчезающим градиентом, до продвинутых архитектур РНС, таких как долговременная кратковременная память (LSTM) и Gated Recurrent Unit (GRU), которые используют шлюзы для управления информационным потоком и решения проблемы градиента традиционной RNN. Рекуррентные сети обучаются обратным распространением во времени, где потери вычисляются на основе потерь на каждом временном шаге.
l = Y,l(y,Vi) (2)
где T, y", y обозначает максимальный временной шаг, предсказание и истину, соответственно.
Для обработки данных как в пространстве, так и во времени, исследователи рекомендовали использовать гибрид CNN и RNN. Эта комбинация была успешно применена во многих областях, включая подписи к изображениям и визуальные ответы на вопросы, распознавание рукописного текста.
Более поздний подход в области OCR без сегментации - это переход от последовательности к последовательности на основе обучения. Коннекционистская временная классификация (CTC), представленная Грейвсом, представляет собой тип вывода нейронной сети и связанную с ним функцию оценки для обучения RNN, таких как сети с долговременной кратковременной памятью (LSTM), для решения проблем выравнивания последовательностей, где время является переменным. Контролируемое обучение RNN на основе CTC на последовательных данных показало большой успех во многих областях машинного обучения, включая сквозное распознавание речи и распознавание рукописных
символов. В обучении последовательности на основе CTC входом является последовательность наблюдений, а выходом - последовательность меток, которая может включать пустой токен в качестве дополнительных выходов. Для заданных обучающих данных целевая функция CTC минимизирует отрицательный логарифм потери правдоподобия.
Таким образом, для распознавания экономических документов можно использовать различные подходы под каждую из задач. Если используется печатный текст с файла, то можно применить классический подход OCR. В других случаях (если это позволяют вычислительные мощности) рекомендуется использовать подходы OCR на основе нейронных сетей, которые необходимо предварительно настроить для наибольшей эффективности.
Источники:
1. Михалевич, Ю. С. Использование сверточных нейронных сетей для распознавания автомобильных номеров. Преимущества и недостатки по сравнению с шаблонным методом / Ю. С. Михалевич, В. В. Ткаченко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета. - 2016. - № 120. -С. 1706-1715.
2. Соломко, Д. С. Тенденции в применении облачных сервисов хранения данных / Д. С. Соломко, А. А. Кобрин,
B. В. Ткаченко // Научное обеспечение агропромышленного комплекса : Сборник статей по материалам 74-й научно-практической конференции студентов по итогам НИР за 2018 год, Краснодар, 26 апреля 2019 года / Ответственный за выпуск А.Г. Кощаев. - Краснодар: Кубанский государственный аграрный университет имени И.Т. Трубилина, 2019. -
C. 560-563.
3. Biniam Asnake. Retrieval from real-life amharic document images., Издательство Addis Ababa University, 2016. - 174 с.
4. Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine translation by jointly learning to align and translate
- Издательство arXiv preprint, 2020. - 338 с.
5. Henry S Baird and Karl Tombre. The evolution of document image analysis. In Handbook of document image processing and recognition / Издательство Springer, 2019 - 1120 с.
6. Luke Cole, David Austin, Lance Cole, et al. Visual object recognition using template matching. - Издательство IEEE Transactions on Multimedia, 220 - 678 с.
References:
1. Mikhalevich Y. S. The use of convolutional neural networks for the recognition of car numbers. Advantages and disadvantages compared to the template method / Y.S. Mikhalevich, V.V. Tkachenko // Polythematic online electronic scientific journal of the Kuban State Agrarian University. - 2016. - №120. - P. 1706-1715.
2. Solomko D.S. Trends in the use of cloud storage services / D.S. Solomko, A.A. Kobrin, V.V. Tkachenko // Scientific support of the agro-industrial complex : A collection of articles based on the materials of the 74 th scientific and practical conference of students on the results of research for 2018, Krasnodar, April 26, 2019 / Responsible for the release of A.G. Koshchaev. -Krasnodar: Kuban State Agrarian University named after I.T. Trubilin, 2019. - P. 560-563.
3. Biniam Asnake. Retrieval from real-life amharic document images., Publishing house Addis Ababa University, 2016. - 174 p.
4. Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine translation by jointly learning to align and translate
- Publishing house arXiv preprint, 2020. - 338 p.
5. Henry S Baird and Karl Tombre. The evolution of document image analysis. In Handbook of document image processing and recognition / Publishing house Springer, 2019 - 1120 p.
6. Luke Cole, David Austin, Lance Cole, et al. Visual object recognition using template matching. - Publishing house IEEE Transactions on Multimedia, 220 - 678 p.