Научная статья на тему 'ОПТИЧЕСКОЕ РАСПОЗНАВАНИЕ СИМВОЛОВ В ИНФОРМАЦИОННЫХ СИСТЕМАХ И ПРОБЛЕМЫ ВНЕДРЕНИЯ'

ОПТИЧЕСКОЕ РАСПОЗНАВАНИЕ СИМВОЛОВ В ИНФОРМАЦИОННЫХ СИСТЕМАХ И ПРОБЛЕМЫ ВНЕДРЕНИЯ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
457
61
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
OCR / ОПТИЧЕСКОЕ РАСПОЗНАВАНИЕ СИМВОЛОВ / ИНФОРМАЦИОННЫЕ СИСТЕМЫ / ПРОБЛЕМЫ РЕАЛИЗАЦИИ / МАШИННОЕ ОБУЧЕНИЕ / ОБЛАЧНЫЕ СЕРВИСЫ OCR / РАСПРЕДЕЛЕННАЯ ОБРАБОТКА / СИСТЕМЫ УПРАВЛЕНИЯ ДОКУМЕНТАМИ / АВТОМАТИЗАЦИЯ / ОГРАНИЧЕНИЯ / РАСПОЗНАВАНИЕ РУКОПИСНОГО ВВОДА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Маслов Илья Александрович

В данной статье рассматриваются проблемы реализации технологии оптического распознавания символов (OCR) в информационных системах. В ней анализируются ключевые проблемы, такие как точность, скорость и масштабируемость, и предлагаются потенциальные решения, включая улучшение качества изображения, использование передовых алгоритмов и использование аппаратных ускорителей и облачных сервисов распознавания текста. Также обсуждаются ограничения технологии распознавания текста, такие как невозможность точного распознавания рукописного ввода и необходимость ручного вмешательства. В целом, в статье представлен всеобъемлющий обзор проблем внедрения OCR и практических решений, полезных для организаций и исследователей в области управления документами и автоматизации.This article discusses the implementation challenges of Optical Character Recognition (OCR) technology in information systems. It analyzes key problems such as accuracy, speed, and scalability and proposes potential solutions, including improving image quality, utilizing advanced algorithms, and using hardware accelerators and cloud-based OCR services. The limitations of OCR technology, such as the inability to recognize handwriting accurately and the need for manual intervention, are also discussed. Overall, the article provides a comprehensive overview of OCR implementation challenges and practical solutions, useful for organizations and researchers in document management and automation.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «ОПТИЧЕСКОЕ РАСПОЗНАВАНИЕ СИМВОЛОВ В ИНФОРМАЦИОННЫХ СИСТЕМАХ И ПРОБЛЕМЫ ВНЕДРЕНИЯ»

УДК 004.418

Информационные технологии

Маслов Илья Александрович, магистрант, Воронежский государственный университет инженерных технологий, г. Воронеж E-mail: [email protected]

ОПТИЧЕСКОЕ РАСПОЗНАВАНИЕ СИМВОЛОВ В ИНФОРМАЦИОННЫХ СИСТЕМАХ И ПРОБЛЕМЫ ВНЕДРЕНИЯ

Аннотация: В данной статье рассматриваются проблемы реализации технологии оптического распознавания символов (OCR) в информационных системах. В ней анализируются ключевые проблемы, такие как точность, скорость и масштабируемость, и предлагаются потенциальные решения, включая улучшение качества изображения, использование передовых алгоритмов и использование аппаратных ускорителей и облачных сервисов распознавания текста. Также обсуждаются ограничения технологии распознавания текста, такие как невозможность точного распознавания рукописного ввода и необходимость ручного вмешательства. В целом, в статье представлен всеобъемлющий обзор проблем внедрения OCR и практических решений, полезных для организаций и исследователей в области управления документами и автоматизации.

Ключевые слова: OCR, оптическое распознавание символов, информационные системы, проблемы реализации, машинное обучение, облачные сервисы OCR, распределенная обработка, системы управления документами, автоматизация, ограничения, распознавание рукописного ввода.

Annotation: This article discusses the implementation challenges of Optical Character Recognition (OCR) technology in information systems. It analyzes key problems such as accuracy, speed, and scalability and proposes potential solutions, including improving image quality, utilizing advanced algorithms, and using

hardware accelerators and cloud-based OCR services. The limitations of OCR technology, such as the inability to recognize handwriting accurately and the need for manual intervention, are also discussed. Overall, the article provides a comprehensive overview of OCR implementation challenges and practical solutions, useful for organizations and researchers in document management and automation.

Keywords: OCR, Optical Character Recognition, information systems, implementation problems, machine learning, cloud-based OCR services, distributed processing, document management systems, automation, limitations, handwriting recognition.

Введение. Оптическое распознавание символов (OCR) — это технология, которая распознает печатные или рукописные символы на изображениях, отсканированных документах и других источниках [1]. Технология распознавания текста произвела революцию в том, как организации управляют своими документами и автоматизируют ввод данных. Однако внедрение OCR в информационные системы сопряжено с рядом проблем, включая точность, скорость и масштабируемость. В этой статье мы обсудим технологию распознавания текста и проблемы ее внедрения в информационные системы. Мы также рассмотрим различные решения, которые организации могут внедрить для преодоления этих проблем.

Технология распознавания текста. Технология распознавания текста основана на принципах обработки изображений, распознавания образов и искусственного интеллекта. Системы распознавания текста обычно состоят из нескольких компонентов, включая получение изображений, предварительную обработку, сегментацию символов, выделение признаков и распознавание. Компонент получения изображения захватывает изображение документа, подлежащего обработке. Компонент предварительной обработки улучшает качество полученного изображения, устраняя шум, перекос и искажения. Компонент сегментации символов идентифицирует отдельные символы в предварительно обработанном изображении. Компонент извлечения признаков

извлекает соответствующие признаки из сегментированных символов. Компонент распознавания сопоставляет извлеченные объекты с заранее определенным набором символов для идентификации символов на изображении [2; 3].

Проблемы с реализацией распознавания текста. Внедрение распознавания текста в информационных системах сопряжено с рядом проблем, включая точность, скорость и масштабируемость [3].

Точность. Точность распознавания зависит от качества захваченного изображения, точности сегментации символов, сложности набора символов и точности выделения и распознавания признаков. Качество полученного изображения зависит от различных факторов, таких как освещение, разрешение и контрастность. Изображения низкого качества могут приводить к ошибкам в распознавании символов, что приводит к неточному вводу данных. Сегментация символов — это процесс идентификации отдельных символов на предварительно обработанном изображении. Неточная сегментация символов может привести к неправильному распознаванию символов, особенно в тех случаях, когда символы расположены близко друг к другу или касаются друг друга. Сложность набора символов также может повлиять на точность распознавания. Системы распознавания текста могут с трудом распознавать символы, которые не включены в заранее определенный набор символов. Точность выделения и распознавания признаков зависит от алгоритмов, используемых системой распознавания. Неточные алгоритмы могут привести к неправильному выделению и распознаванию признаков, что приведет к ошибкам в распознавании символов.

Скорость. Скорость распознавания зависит от вычислительной мощности системы распознавания, сложности набора символов и размера документа. Системам распознавания текста может потребоваться много времени для обработки больших документов или документов со сложными наборами символов. Это может привести к задержкам ввода данных, что может повлиять на общую эффективность организации. Кроме того, системы распознавания

текста могут требовать значительных вычислительных ресурсов, что может привести к увеличению времени обработки и затрат.

Масштабируемость. Масштабируемость распознавания текста зависит от размера документа, вычислительной мощности системы распознавания текста и емкости хранилища системы распознавания текста [6]. Системы распознавания текста могут с трудом обрабатывать большие объемы документов или документов с большими размерами файлов. Это может привести к задержкам ввода данных и увеличению времени и затрат на обработку. Кроме того, системы распознавания текста могут требовать значительных ресурсов хранения, что может привести к увеличению затрат на хранение.

Решения проблем с внедрением распознавания текста. Для повышения точности, скорости и масштабируемости распознавания могут быть реализованы различные решения, в том числе:

Улучшение качества захваченных изображений - Организации могут повысить точность распознавания, получая высококачественные изображения. Этого можно добиться с помощью камер с высоким разрешением, адекватного освещения и методов повышения контрастности.

Использование усовершенствованных алгоритмов сегментации символов - Усовершенствованные алгоритмы сегментации символов могут повысить точность распознавания, точно идентифицируя отдельные символы, даже в тех случаях, когда символы расположены близко друг к другу или касаются друг друга.

Использование алгоритмов машинного обучения - алгоритмы машинного обучения могут повысить точность распознавания, изучая прошлые данные и повышая точность распознавания с течением времени [8]. Это может привести к повышению точности и уменьшению ошибок при распознавании символов.

Использование методов параллельной обработки - Методы параллельной обработки могут повысить скорость распознавания, распределяя нагрузку на обработку между несколькими системами распознавания. Это может привести к увеличению вычислительной мощности и масштабируемости.

Использование аппаратных ускорителей - Аппаратные ускорители, такие как графические процессоры (GPU) и программируемые пользователем вентильные матрицы (FPGA), могут повысить скорость распознавания текста за счет разгрузки вычислительной нагрузки с центрального процессора на специализированное оборудование [7]. Это может привести к увеличению вычислительной мощности и сокращению времени обработки.

Использование облачных служб распознавания текста - Облачные службы распознавания текста могут улучшить масштабируемость распознавания текста за счет использования вычислительной мощности и емкости хранилища облачных провайдеров [9]. Это может привести к повышению масштабируемости и сокращению времени и затрат на обработку.

Использование методов распределенной обработки - Методы распределенной обработки могут улучшить масштабируемость распознавания, распределяя нагрузку на обработку между несколькими системами распознавания. Это может привести к увеличению вычислительной мощности и масштабируемости.

Использование гибридного подхода - Гибридный подход, который сочетает в себе преимущества нескольких решений для распознавания текста, может повысить точность распознавания, скорость и масштабируемость. Например, организация может использовать комбинацию алгоритмов машинного обучения, усовершенствованных алгоритмов сегментации символов и облачных служб распознавания для повышения точности, скорости и масштабируемости распознавания.

Использование систем управления документами - Системы управления документами могут повысить точность и скорость распознавания за счет автоматизации процессов захвата, предварительной обработки и распознавания документов [4; 5]. Это может привести к повышению эффективности, производительности и точности.

Ограничения технологии распознавания текста. Технология распознавания текста имеет ограничения, о которых организации должны знать

при выборе решения для распознавания текста. Одним из основных ограничений является невозможность точного распознавания рукописного ввода. Распознавание рукописного ввода - сложный процесс, требующий передовых алгоритмов распознавания образов и методов машинного обучения. Системы распознавания текста могут испытывать трудности с точным распознаванием рукописного ввода, особенно в тех случаях, когда почерк неразборчивый или трудночитаемый. Кроме того, в некоторых случаях системам распознавания текста может потребоваться ручное вмешательство, например, когда символы распознаются неправильно или, когда символы не включены в заранее определенный набор символов. Поэтому организациям следует тщательно оценить свои потребности в распознавании текста и выбрать решение для распознавания текста, которое наилучшим образом соответствует их требованиям и бюджету.

Заключение. Технология распознавания текста произвела революцию в том, как организации управляют своими документами и автоматизируют ввод данных. Однако внедрение OCR в информационные системы сопряжено с рядом проблем, включая точность, скорость и масштабируемость. Чтобы преодолеть эти проблемы, организации могут внедрять различные решения, такие как улучшение качества захваченных изображений, использование передовых алгоритмов сегментации символов, использование алгоритмов машинного обучения, использование методов параллельной обработки, использование аппаратных ускорителей, использование облачных служб распознавания текста, использование распределенных методов обработки, использование гибридного подхода и использование документов системы управления. Внедряя эти решения, организации могут реализовать преимущества технологии распознавания текста, такие как повышение эффективности, производительности и точности. Также важно отметить, что технология распознавания текста имеет ограничения, такие как невозможность точного распознавания рукописного ввода и необходимость ручного вмешательства в некоторых случаях. Поэтому организациям следует тщательно

оценить свои потребности в распознавании текста и выбрать решение для распознавания текста, которое наилучшим образом соответствует их требованиям и бюджету.

Библиографический список:

1. Что такое технология оптического распознавания символов, или OCR. URL: https://www.abbyy.com/ru/finereader/what-is-ocr/ (дата обращения 20.03.2022).

2. Мерков А. Б. Основные методы, применяемые для распознавания рукописного текста// http://www.recognition.mccme.ru/pub/RecognitionLab.html/m ethods.html (дата обращения 20.03.2022).

3. Архипов А.М. Оптическое распознавание текста и как оно работает // Современные научные исследования: актуальные вопросы, достижения и инновации // сборник статей IX Международной научно-практической конференции: в 2 ч. Наука и Просвещение (ИП Гуляев Г.Ю.) (Пенза), 2019.

4. Просто об электронном документообороте // EMC-Journal. Журнал о системах электронного документооборота (СЭД) [сайт]. [2016]. URL: http://ecm-journal.ru/mustknow (дата обращения 20.03.2022).

5. Малетина Е. Обзор систем электронного документооборота // Охрана.т. Российское СМИ о безопасности. [сайт]. [2016]. URL: http://oxpaha.ru/analytics/obzor-sistem-elektronnogodokumentooborota/ (дата обращения 20.03.2022).

6. Evaluation of OCR Algorithms for Images with Different Spatial Resolutions and Noises. Ottawa, 2003.

7. Боресков А.В., Харламов А.А. Основы работы с технологией CUDA. М.: ДМК Пресс, 2010.

8. Бринк Х. Машинное обучение. / Х. Бринк, Дж. Ричардс, М. Феверолф. - СПб.: Питер,2017.

9. Habr [Электронный ресурс]. - Режим доступа: -https://habr.com/ru/company/microsoft/blog/419667/ (дата обращения 20.03.2022).

i Надоели баннеры? Вы всегда можете отключить рекламу.