Научная статья на тему 'СОВРЕМЕННЫЕ МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ И ТЕХНОЛОГИЯ OCR ДЛЯ АВТОМАТИЗАЦИИ ОБРАБОТКИ ДОКУМЕНТОВ'

СОВРЕМЕННЫЕ МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ И ТЕХНОЛОГИЯ OCR ДЛЯ АВТОМАТИЗАЦИИ ОБРАБОТКИ ДОКУМЕНТОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
286
35
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
машинное обучение / ML / распознавание документов / обработка документов / производство / ИИ / machine learning / document recognition / document processing / production / AI

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Давлетов А.Р.

Ежедневно выдается бесчисленное количество документов, таких как заказы, накладные и счета-фактуры. Затем эти документы хранятся в корпоративных ИТ-системах. В настоящее время технологические разработки привели к появлению эффективных методов передачи этих документов последующим процессам в машиночитаемой и структурированной форме. Оптическое распознавание символов одно из новаторских решений, оказавшее большое влияние на многие отрасли. Технология OCR была впервые разработана в середине 20-го века, когда она все еще находилась в зачаточном состоянии. Ранние системы OCR испытывали проблемы с распознаванием различных шрифтов, стилей и раскладок. Наука машинного обучения и искусственного интеллекта модернизировала OCR Сегодня он невероятно точен и заслуживает доверия. OCR — это мощная технология, которая преобразует многие форматы документов в редактируемые данные с возможностью поиска. За прошедшие годы эта технология значительно продвинулась вперед. Она предлагает плавный и эффективный метод использования и организации огромных объемов данных. В рамках данной статьи целью стало рассмотрение современных методов машинного обучения и существующих технологий OCR для автоматизации обработки документов. В качестве методологической базы стали научные труды зарубежных авторов, а также успешные примеры внедрения данной технологии в производстве [1,2].

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MODERN MACHINE LEARNING METHODS AND OCR TECHNOLOGY FOR DOCUMENT PROCESSING AUTOMATION

Countless documents are issued daily, such as orders, invoices and invoices. These documents are then stored in corporate IT systems. Currently, technological developments have led to the emergence of effective methods o f transferring these documents to subsequent processes in a machine-readable and structured form. Optical character recognition is one of the innovative solutions that has had a great impact on many industries. OCR technology was first developed m the mid-20th century, when it was still in its infancy. Early OCR systems had problems recognizing different fonts, styles, and layouts. The science of machine learning and artificial intelligence has upgraded OCR. Today he is incredibly accurate and trustworthy. OCR is a powered technology that converts many document formats into searchable editable data. Over the years, this technology has advanced significantly. It offers a smooth and efficient method of using and organizing huge amounts of data. Within the framework of this article, the purpose was to consider modern machine learning methods and existing OCR technologies for automating document processing. The methodological basis was the scientific works of foreign authors, as well as successful examples of the introduction of this technology m production [1,2].

Текст научной работы на тему «СОВРЕМЕННЫЕ МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ И ТЕХНОЛОГИЯ OCR ДЛЯ АВТОМАТИЗАЦИИ ОБРАБОТКИ ДОКУМЕНТОВ»

УДК 004

Да влетов А. Р.

Principal Software Engineer, LeetCode (г. Саннивейл, Калифорния, США)

СОВРЕМЕННЫЕ МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ И ТЕХНОЛОГИЯ OCR ДЛЯ АВТОМАТИЗАЦИИ ОБРАБОТКИ ДОКУМЕНТОВ

Аннотация: ежедневно выдается бесчисленное количество документов, таких как заказы, накладные и счета-фактуры. Затем эти документы хранятся в корпоративных ИТ-системах. В настоящее время технологические разработки привели к появлению эффективных методов передачи этих документов последующим процессам в машиночитаемой и структурированной форме.

Оптическое распознавание символов - одно из новаторских решений, оказавшее большое влияние на многие отрасли. Технология OCR была впервые разработана в середине 20-го века, когда она все еще находилась в зачаточном состоянии. Ранние системы OCR испытывали проблемы с распознаванием различных шрифтов, стилей и раскладок. Наука машинного обучения и искусственного интеллекта модернизировала OCR Сегодня он невероятно точен и заслуживает доверия. OCR — это мощная технология, которая преобразует многие форматы документов в редактируемые данные с возможностью поиска. За npouieduiue годы эта технология значительно продвинулась вперед. Она предлагает плавный и эффективный метод использования и организации огромных объемов данных.

В рамках данной статьи целью стало рассмотрение современных методов машинного обучения и существующих технологий OCR для автоматизации обработки документов.

В качестве методологической базы стали научные труды зарубежных авторов, а также успешные примеры внедрения данной технологии в производстве [1,2].

Ключевые слова: машинное обучение, ML, распознавание документов, обработка документов, производство, ИИ.

Введение

Машинное обучение представляет собой совокупность методов, которые компьютеры используют для анализа данных и улучшения способности предсказывать результаты или вести себя в соответствии с этими данными. МЬ умеет работать с данными, поступающими каждую секунду, что для человека было бы непосильной задачей. Автоматизация этих процессов освобождает сотрудников от рутинных обязанностей, позволяя им фокусироваться на важных стратегических задачах. Процесс машинного обучения, как представленный Калифорнийским университетом в Беркли, можно разделить на три ключевые составляющи е:

• Процесс принятия решений: Обычно алгоритмы машинного обучения применяются для прогнозирования или классификации. Основываясь на входных данных, которые могут быть помечены или не помечены, алгоритм производит оценку структуры данных.

• Функция ошибки: Функция ошибки оценивает точность прогноза модели. Когда есть известные примеры, функция ошибки сравнивает прогноз с реальностью для определения точности модели.

• Оптимизация модели: В процессе оптимизации модели веса корректируются для более точного соответствия данных обучающего набора. Алгоритм продолжает этот цикл "оценки и оптимизации", самостоятельно обновляя веса до достижения необходимой точности.

В настоящее время существуют три основных вида машинного обучения:

Контролируемое машинное обучение: Использует помеченные данные для точной классификации или прогнозирования. Модель корректирует свои веса на основе входных данных до достижения нужной точности, избегая переобучения или недостаточной адаптации. Этот метод решает различные проблемы, от фильтрации спама до классификации данных.

Неконтролируемое машинное обучение: Анализирует и кластеризует немаркированные данные, обнаруживая их внутренние закономерности. Эти

алгоритмы выявляют схожие или разные паттерны в данных автоматически, их применение включает поиск, анализ данных и уменьшение размерности модели.

Обучение с учителем: Данный вид обучения находится контролируемым и неконтролируемым обучением. Используя меньший набор помеченных данных для классификации и признаков из большего набора немаркированных данных, это обучение устраняет проблемы нехватки помеченных данных и экономит ресурсы [3,4].

Если же рассматривать оптическое распознавание символов, или OCR, то оно является удивительной технологией, которая преобразует разнообразные типы документов: от сканированных бумажных страниц до PDF-файлов и снимков, сделанных цифровой камерой, в данные, которые можно редактировать и искать. Точные механизмы, с помощью которых люди распознают объекты, пока еще остаются загадкой, но ученым известны три ключевых принципа: целостность, целенаправленность и адаптивность (IPА). Эти принципы служат основой для ABBYY FineReader OCR, позволяя программе воспроизводить естественное человеческое распознавание символов.

Давайте рассмотрим, как FineReader OCR работает с текстом. Сначала программа анализирует структуру изображения документа, разделяя страницу на блоки текста, таблицы, изображения и другие элементы. Строки разбиваются на слова, а затем на отдельные символы. Как только символы выделены, программа сравнивает их с набором образцов. Здесь возникает множество гипотез о том, что это за символ. Основываясь на этих гипотезах, программа анализирует различные варианты разделения строк на слова и слова на символы. После обработки большого количества вероятностных гипотез программа принимает решение, предоставляя распознанный текст.

Кроме того, FineReader поддерживает 48 языков, что позволяет проводить анализ текста на уровне слов с использованием словарей. Эта поддержка обеспечивает более точный анализ и распознавание документов, упрощая проверку результатов распознавания.

Передовые системы оптического распознавания символов, включая технологию ABBYY, ориентированы на имитацию естественного человеческого распознавания. Эти системы основаны на принципах целостности, целенаправленности и адаптивности. Принцип целостности предполагает рассмотрение объекта как целого, состоящего из взаимосвязанных частей. Принцип целенаправленности гарантирует, что интерпретация данных всегда служит определенной цели. А принцип адаптивности подразумевает способность программы к самообучению [5].

Также при рассмотрении алгоритмов распознавания символов, следует обратить внимание на два ключевых подхода: традиционные методы, основанные на обработке изображений и сверточные нейронные сети (CNN).

Традиционные подходы часто начинались с систем, основанных на правилах. Эти системы разбивали символы на блоки и использовали набор ручных правил и функций для их классификации. Однако эти методы имели свои ограничения из-за сложности в создании и настройке этих ручных функций. Примером таких традиционных систем является Tesseract, механизм оптического распознавания символов с открытым исходным кодом. Он начал свой путь в лабораториях Hewlett-Packard в 1980-х и впоследствии был выпущен как open-source проект в 2005 году. Tesseract базируется на обработке изображений, включая анализ изображения и выявление шаблонов для распознавания символов.

С другой стороны, современные методы, заключающиеся в использовании сверточных нейронных сетях, предоставляют новый уровень точности и эффективности. Они обучаются на больших наборах данных и способны выявлять сложные закономерности в изображениях, что делает их более эффективными для распознавания символов и слов. Сверточные нейронные сети работают на основе архитектуры, имитирующей визуальные восприятия человеческого мозга и позволяющей автоматически извлекать признаки из изображений, что делает их чрезвычайно эффективными в распознавании сложных образов и символов.

Таким образом, эти два подхода, объединенные в современных моделях, позволяют достичь высокой точности и эффективности в распознавании символов на изображениях.

1 Adaptive Binary image ^ r 1 Connected component analysis L A Character outlines ^ Г 1 Find lines and

thresholding А words L. A

Character

features r

Final word <4- Word r ^ Word lists L ^ Г 1 Word

output - Compare words classification

Рис. 1. Архитектура Tesseract OCR Fig.l. Tesseract OCR architecture

Еще одним примером инновационного механизма распознавания является Paddle OCR, открытый проект от команды Baidu PaddlePaddle. Он использует глубокое обучение, включая CNN и рекуррентные нейронные сети (RNN), для точного распознавания текста на изображениях и документах. Paddle OCR состоит из двух ключевых компонентов: детектора и экстрактора. Детектор отвечает за поиск текстовых областей на изображениях или документах, используя инновационные алгоритмы, такие как детекторы EAST (эффективный и точный текст сцены) или DB (дифференцируемая бинаризация). Эти методы делают Paddle OCR мощным инструментом для распознавания текста в различных контекстах.

Head

Backbone

Рис.2. Архитектура детектора БД Fig.2. Architecture of the DB detector

Как только система распознает текст на изображении, программа-экстрактор приступает к работе, извлекая текст с высокой точностью. Этот процесс основан на инновационной комбинации сверточных нейронных сетей (CNN) и рекуррентных нейронных сетей (RNN). CNN активно выделяют элементы из текста, выделяя его особенности, в то время как RNN фокусируются на распознавании последовательности символов. Их взаимодействие обеспечивает точное и эффективное распознавание текста на изображениях, делая этот процесс быстрым и надежным.

"st«e"

Lepar HsHtl-lalaltltld

f (dbfaMMMl

iU ii B-l

Яммм Uyei ¡Ü Ц 'MU Head ___f ___ ^flBp hMn

I ( iMtv.tlitlti awl 1 . ---- i

i laitaMKml

Uy«r» I i^fli 1 Backbone ЫьНР fa~J

1 I ,_.,_ *

1__ ДЛЯ ч-1-—

Рис.3. Архитектура CRNN Extractor Fig.3. CRNN Extractor architecture

Одним из ключевых преимуществ Paddle OCR является его уникальная скорость работы. Этот мощный движок распознавания символов опережает своих конкурентов благодаря использованию параллельных вычислений и оптимизации процесса на графическом процессоре. Благодаря этим технологиям, Paddle OCR способен обрабатывать большие объемы данных с невероятной скоростью, что делает его идеальным дня масштабных задач, таких как сканирование документов и анализ изображений. Кроме того, этот инструмент легко настраивается под различные задачи и наборы данных, что делает его универсальным и мощным решением для разнообразных приложений в области распознавания текста [5].

1. Общая характеристика оптического распознавания символов.

Технология оптического распознавания символов (OCR) преобразила способ, с помощью которого происходит обработка и перевод документов в цифровой формат. OCR способно выполнять различные задачи, включая:

♦ Распознавание отсканированных документов: Принцип работы заключается в сканировании печатных документов, а затем программа OCR превращает отсканированный текст в редактируемый формат с возможностью поиска и изменений. Это позволяет извлекать информацию из старых бумажных документов и интегрировать их в современные рабочие процессы. Такой подход активно используется для автоматизации обработки юридических документов и извлечения данных из банковских выписок и счетов-фактур. Также он может упростить задачи обработки счетов и ведения финансового учета; множество бизнес-доку ментов распознаются таким образом.

♦ Распознавание текста в сценах: OCR может распознавать текст в естественных сценах, таких как уличные указатели, вывески магазинов или номерные знаки. Эта технология позволяет распознавать текст на изображениях, сделанных в различных условиях, включая слабое освещение, размытость изображений или фоны разной структуры.

♦ Интеллектуальное распознавание символов (ICR): Системы распознавания текста могут даже распознавать и интерпретировать рукописный из отсканированных документов. Что позволяет цифровать рукописные заметки, письма и бланки. Интеллектуальное распознавание скриптов — это специализированное приложение OCR, сфокусированное на дешифровке рукописного ввода.

Эти функции делают технологию OCR мощным инструментом для обработки различных типов документов и изображений, открывая новые возможности для эффективного использования информации из бумажных носителей в цифровой эпохе.

Этапы работы OCR:

Аппаратная часть: Представляет собой оптический сканер или специализированную печатную плату. Эти устройства фиксируют физическую форму документа и преобразуют его в цифровое изображение, создавая файл изображения.

Предварительная обработка изображения: Входное изображение проходит через предварительную обработку, включая изменение размера, улучшение контрастности и шумоподавление. Это гарантирует лучшее качество изображения, что важно для успешного распознавания.

Обнаружение текста: Модель компьютерного зрения выделяет области с текстом на изображении, используя специализированные алгоритмы глубокого обучения. Этот шаг называется обнаружением текста и позволяет определить, где именно на изображении находится текст.

Анализ компоновки: После обнаружения текстовых областей модель проводит анализ компоновки, определяя порядок и структуру текста. Это важно для сохранения контекста и правильного распознавания текста.

Распознавание текста: Обнаруженный текст пропускается через модель распознавания текста, основанную на глубоком обучении. Совокупность сверточных нейронных сетей (CNN) и рекуррентных нейронных сетей (RNN)

используется для распознавания символов и слов на изображении, преобразуя их в машинопонимаемый текст.

Языковая модель: Конечный результат подвергается постобработке. В этом этапе исправляются ошибки, устраняются шумы и повышается общая точность распознавания. Языковые модели, основанные на статистических методах или глубоком обучении, могут уточнить выходные данные, учитывая контекст и лингвистические особенности текста.

DOCUMENT SCANNED SCAN IMAGE FILE

OCR

(Optical Character Recognition)

TEXT DOCUMENT

Рис.4. Этапы работы OCR Fig.4. Stages of OCR operation

Типы распознавания текста (таблица 1)

Таблица 1. Общая характеристика типов распознавания текста Table 1. General characteristics of text recognition types

Типы Определение

Интеллектуальное распознавание слов (IWR) Алгоритм IWR распознает рукописные тексты и скоропись. Идеальный вариант, если вы хотите записать все написанное от руки слово целиком, а не отдельные символы.

Интеллектуальное распознавание символов (ICR) ICR работает аналогично IWR, но он больше ориентирован на распознавание отдельных символов, чем на восприятие всего текста. Модель OCR развивается за счет глубокого обучения распознаванию символов для получения точных результатов.

Оптическое распознавание символов (OCR) OCR распознает машинописный текст, но, как известно, захватывает по одному символу за раз.

Оптическое распознавание слов (OWR) OWR сканирует машинописный текст слово за словом. Его часто называют OCR, но алгоритм немного отличается.

Оптическое распознавание меток (OMR) OMR - это метод сбора данных от людей путем идентификации меток или узоров на бумаге [6,7].

2. Экспериментальная часть

В данном разделе автор решил исследовать какой процент компаний использует бумажные документы, а какой электронные. Электронные документы обладают двумя огромными преимуществами: простотой поиска и доступа. В отличие от бумажных файлов, поиск в которых приходится выполнять вручную и часто по памяти, электронные файлы можно найти с использованием ключевых слов, включенных либо в название файла, либо в содержимое, независимо от того, где находится документ. Такие электронные файлы легко находятся и открываются, что экономит время и упрощает рабочие процессы [8].

Ниже на рисунке 5 представлены статистические данные о частоте использования бумаги сотрудниками в различных отраслях.

■ Daily ■ Weekly ■ Monthly aRaety ■ Neva

Рис.5. Статистические данные о частоте использования бумаги сотрудниками в различных отраслях Fig.5. Statistical data on the frequency of paper use by employees in various industries

Из полученных данных видно, что чуть менее половины опрошенных (44,23%) ответили, что обращаются к бумажным документам ежедневно. Только два процента респондентов признали, что никогда не прибегают к использованию бумаги.

90.00% 80.00% 70.00% 60.00% 50.00% 40.00% 30.00% 20.00% 10.00% 0.00%

Рис.6. Способы хранения данных Fig.6. Data storage methods

Однако удивительно, что более 60% респондентов отвечают "постоянно" или "несколько раз в неделю" на вопрос о том, как часто их коллеги используют принтеры на рабочем месте. Таким образом, хотя люди продолжают уменьшать использование бумаги в офисах, применение бумаги на всех уровнях компании остается распространенным явлением.

Когда дело касается методов хранения, большинство компаний (почти 70% опрошенных) используют и физические, и цифровые средства для архивации данных своих компаний. На самом деле неизвестно, сохраняют ли они одни и те же документы в обоих местах.

Когда их спрашивают, какие форматы файлов они чаще всего используют для обмена документами и совместной работы с коллегами, на первом месте оказался формат PDF. Файлы .doc заняли второе место, a .XLS - третье. Процент

■ 1 1 1

doc .Ddf .txt xls

получивших вопрос о различных типах файлов отражен на представленной ниже гистограмме.

Несмотря на то, что движение к избавлению от бумажной документации в офисах может казаться медленным, бизнес-лидеры продолжают настойчиво внедрять концепцию безбумажного офиса. В этом процессе решения в формате PDF играют ключевую роль, наряду с другими передовыми облачными хранилищами данных и продуктами для совместной работы. На первый план выходят такие выражения, как "Меньше бумаги", "Общий доступ к документам" и "Облачное хранилище", отражая тенденцию к уменьшению использования бумажной документации в компаниях за последние пять лет. Важным фактором в этом процессе является активное внедрение обмена цифровыми файлами и облачного хранилища в рабочих процессах каждого бизнес-лидера [9].

3. Недостатки ручной обработки данных

Ручная обработка данных - это процесс, при котором данные собираются и перемещаются из одного места в другое без использования специального оборудования. Несмотря на неизбежные ошибки из-за человеческого фактора и высокую потребность во времени, многие предприятия и государственные учреждения предпочитают этот метод обработки данных. Особенно это актуально при ограниченных бюджетах, когда ручная обработка данных остается наиболее доступным и практичным вариантом. Но с развитием технологий и экономической эффективности масштабирования, этот метод становится все более доступным для широкого круга пользователей [10].

Ошибки в действиях возникают, когда они выполняются не так, как задумывалось. Это часто происходит из-за того, что ответственное лицо полагается больше на интуицию, чем на размышления. Ошибка заключается в том, что действие отличается от запланированного или задуманного.

Существуют два вида ошибок в действиях:

• Промахи — это случайные и неконтролируемые действия. Часто правильное действие выполняется неправильно или применяется к неправильному объекту.

• Пропуски - они возникают, когда мы что-то забываем сделать. Шаг теряется ("провал" в кратковременной памяти).

К примеру, "промахом" можно считать заправку автомобиля бензином вместо дизельного топлива. Человек выполняет правильное действие, но используете неверное топливо. "Пропуском" было бы забыть закрыть крышку бензобака перед отъездом после заправки. Важно отметить, что в обоих случаях проблема не в незнании того, что нужно делать - это скорее ситуация, когда человек считаете свои действия само собой разумеющимися и, в результате, забываете об общей цели.

HUMAN ERRORS

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Root Causes of Human Error

Рис.7. Ошибки мышления Fig. 7. Errors of thinking

Ошибка в выборе проявляется в ситуациях, когда ожидаемые действия оказываются неверными из-за неудачно подобранного или поврежденного плана. Здесь проблема кроется не в том, как выполнить задачу, а в самой задаче. Суть ошибки в выборе заключается в том, что человек правильно выполняете неправильную задачу (и снова - непреднамеренно), часто из-за недостаточных знаний или неясных инструкций.

Такие ошибки могут быть двух видов:

• Ошибки на основе правил - когда правило или метод применяется неверно или используется неудачное правило (если таковые имеются).

• Ошибки на основе знаний - это неправильная логика, неправильные ресурсы или недостаток опыта в ситуации, где отсутствуют четкие указания [11].

Решением проблем, связанных с ручной обработкой данных и стало внедрение в организацию обработки документов с помощью OCR + ML. OCR решит проблему конвертации изображения в текст, a ML решит проблему извлечения полезных данных.

Например, решение Data-Core включает в себя этап предварительной обработки, который улучшает качество отсканированных изображений. На этой стадии применяются стандартные методы оптического распознавания символов (OCR), делая документы читабельными. Организация использует методы машинного обучения, включая сверточные автокодеры и CNN обнаружения объектов, для идентификации ЕОВ, классификации их по типу, выделения областей интереса внутри каждого ЕОВ и контекстуального извлечения данных из этих областей.

Далее специально разработанные алгоритмы проверки обеспечивают точность извлеченных данных с помощью метода маркировки "прошел / не прошел". Все заявления, не прошедшие проверку, рассматриваются командой экспертов, исправляются и повторно отправляются. После проверки претензий решение формирует настраиваемый файл данных (EDI-835), который затем импортируется в систему клиента для автоматической проводки платежа.

Различные модули машинного обучения, используемые в решении, показывают отличные результаты: более 98% отклик и точность более 95%. Это обеспечивает высокую надежность процесса преобразования. В среднем, каждый месяц компания обрабатывает около 1 миллиона отсканированных документов, достигая уровня автоматизации на уровне 80%. Уровень автоматизации измеряется процентом электронных документов, которые успешно превращаются в файлы EDI-835 без необходимости ручного вмешательства [12].

4. Проблемы автоматизированной обработки документов

Однако не все так хорошо, так как возможно появление новых проблем, выразившихся в разных типах документов: структурированные (паспорта, права, формы и т.п.), полу-структурированные (рекомендации врача) и неструктурированные (договора). Каждая из этих типов данных — это отдельная задача, которая должна решаться в полной изоляции.

Структурированные решаются чаще всего локацией текста в определённой позиции и извлечении необходимых данных. Из основных трудностей - смещение текста относительно ожидаемых локаций.

Полу структурированные частично решается через структурированные способы, но присущи им определенные проблемы, выразившиеся в другой неструктурированной части, особенно если в части, где свободная форма много полезной информации. Обработка табличных данных до сих пор не решена на 100% ни одной из решений на рынке.

Для неструктурированных данных — это задача NLP. Понять контекст текста в свободной форме и выдать ответы на вопросы. Прежде чем начнется процесс извлечения данных необходимо понимать с какими именно данными происходит работа. В этом поможет обработка естественного языка (NLP). В отличие от традиционных программ, основанных на жестких правилах, NLP обладает высокой гибкостью и способен интерпретировать информацию,

учитывая не только ключевые слова и теги, но и намерения и смысл за ними. Это позволяет учесть изменения и вариативность в текстах более эффективно.

Одной из ключевых задач NLP является распознавание именованных объектов - выявление упоминаний различных именованных сущностей в неструктурированных текстах и их классификация по определенным категориям, таким как имена, местоположения, суммы и прочее. Обычно статистические системы NER требуют больших объемов данных, размеченных вручную. Однако существуют полуавтоматические методы, позволяющие уменьшить это количество. Иногда достаточно использовать готовые инструменты NLP с предварительно обученными моделями машинного обучения, что позволяет избежать дополнительных трудозатрат. В случае, если такой подход не приносит нужных результатов, и если бизнес использует специфические имена, возможно, потребуется дополнительная разметка данных и переобучение модели NLP на обновленных данных.

Классификация текста помогает структурировать информацию в соответствии с ее содержанием. Этот метод можно применять для назначения заранее определенных тегов или категорий медицинским записям или страховым случаям на основе различных параметров. Также классификацию можно использовать для определения приоритетности запросов клиентов в службе поддержки, ранжируя их по степени срочности.

Эффективность обработки текстов с использованием NLP зависит от множества факторов, включая структуру языка, стиль написания и сложность текста, а также качество данных. Объем текста также важен, поскольку большие документы предоставляют больше контекста, что улучшает точность анализа. Каждый конкретный случай требует индивидуального подхода, который могут предложить опытные специалисты в области машинного обучения.

При внедрении обработки текстов на базе искусственного интеллекта в рабочий процесс возникает вопрос: следует ли выбирать полностью автоматизированный или полу автоматизированный подход, контролируемый человеком. Полная автоматизация возможна в логичных и стандартных бизнес-

процессах. Однако в случае даже небольшой вероятности вариативности, влияющей на принятие решений, предпочтительнее выбрать полу автоматизацию, где конечное решение остается за человеком.

Таким образом, использование технологии №.Р позволяет не только эффективно работать с данными в тексте, но и делать это более точно и гибко, что в свою очередь является ключевым аспектом в современном мире обработки информации.

5. Преимущества и недостатки автоматизированной обработки данных

Таблица 2. Преимущества и недостатки автоматизированной обработки

данных

Table 2. Advantages and disadvantages of automated data processing

Преимущества Недостатки

Позволяет масштабироваться собирать аналитику для дальнейшего использования. Неопределенность

Экономит деньги. При использовании человеческих ресурсов для обработки данных требуются высококвалифицированные специалисты, что может быть затратным и рискованным, учитывая возможные простои в работе из-за болезни или отпуска сотрудника. В случае автоматизации, инструменты, например 8о1уеХ1а, снижают зависимость от отдельных сотрудников, способны выполнять несколько процессов одновременно Риск регрессии

и не требуют специализированных навыков в программировании. Они предоставляют стандартизированные решения и обеспечивают надежность без дополнительных сложностей.

Адаптируется под широкий ряд задач Нет единого опыта для обучения систем.

Снижение вероятности ошибок. Ручная обработка данных часто сопряжена с человеческими ошибками, особенно когда имеется дело с большими и сложными данными. Незначительные опечатки или упущенные значения могут иметь серьезные последствия. В случае автоматизации, программа способна безошибочно обрабатывать данные. Дороговизна внедрения и последующего поддержания работоспособности и развития системы.

Даст лучше ЦХ для пользователей (быстрое распознавание паспорта, например)

Алгоритмы машинного обучения могут легко обрабатывать как структурированные данные, так и неструктурированный контент, что расширяет возможности их применения. Это позволяет эффективно анализировать и

интерпретировать разнообразные виды информации [13,14].

Заключение

Таким образом можно сказать, что автоматизированные методы обработки данных стали ключевым элементом в мире бизнеса. Независимо от объема данных, который требуется обработать, существует множество программных средств и решений, которые делают процесс более эффективным и экономичным.

Одним из главных достоинств автоматизации является сокращение времени обработки данных. Технологии распознавания текста и машинного обучения позволяют преобразовывать бумажные документы в цифровой формат моментально, сокращая время, которое раньше требовалось на ручной ввод данных. Кроме того, алгоритмы машинного обучения помогают автоматизировать сложные задачи, такие как классификация документов и извлечение данных, уменьшая время, которое требуется на ручную обработку. Точность обработки данных также повышается при использовании автоматизированных методов. Ошибки и несоответствия, характерные для ручного труда, устраняются благодаря технологиям распознавания текста и машинного обучения. Наконец, автоматизация обработки данных является экономически эффективным решением для организаций. Она позволяет снизить затраты на ручной труд и минимизировать риск ошибок.

Таким образом можно сказать, что достаточно простая задача, как извлечение данных из документов может обернуться невероятно сложной и амбициозной задачей, эффективно не решённой до конца и по сей день.

СПИСОК ЛИТЕРАТУРЫ:

1. The evolution of document capture. [Электронный ресурс] Режим доступа: https://parashift.io/the-evolution-of-document-capture/.- (дата обращения 21.10.2023).

2. How Does Modern Automated Processing Work With OCR?. [Электронный ресурс] Режим досту па: https://www. techy flavors, com/202 3/07/ho w-does-modern-automated-processing-work-with-ocr.html- (дата обращения 21.10.2023).

3. What is machine learning? [Электронный ресурс] Режим доступа: https://www.ibm.com/topics/machine-leaming.- (дата обращения 21.10.2023).

4. What Is Machine Learning?. [Электронный ресурс] Режим дocтyпa:https://christophnl.github.io/inteфretable-ml-book/what-is-machine-learning.html. (дата обращения 21.10.2023).

5. What is Optical Character Recognition (OCR): Overview and use cases. [Электронный ресурс] Режим доступа: https://www.superannotate.com/blog/ocr-overview-and-use-cases - (дата обращения 21.10.2023).

6. What is OCR and OCR technology. [Электронный ресурс] Режим доступа: https://pdf.abbyy.com/learning-center/what-is-ocr/.- (дата обращения 21.10.2023).

7. An Introduction to OCR Machine Learning. [Электронный ресурс] Режим flocTyna:https://packagex.io/blog/ocr-machine-learning- (дата обращения 21.10.2023).

8. What are the advantages and disadvantages of electronic documents compared to paper? [Электронный ресурс] Режим ÄOCTyna:https://mv-organizing.com/what-are-the-advantages-and-disadvantages-of-electronic-documents-compared-to-paper/.-(дата обращения 21.10.2023).

9. Paperless Survey: 44% of people still use paper! [Электронный ресурс] Режим доступа: https://developers.foxit.com/business/paperless-survey-44-people-still-use-paper-daily/.- (дата обращения 21.10.2023).

10. Manual Data Processing: The Secrets of Automation. [Электронный ресурс] Режим доступа:https://www.solvexia.com/blog/manual-data-processing-the-secrets-of-automation.- (дата обращения 21.10.2023).

11. Can Human Error(s) be Avoided in Business Processes?. [Электронный ресурс] Режим доступа: https://www.hnkedin.com/pulse/can-human-errors-avoided-business-processes-patrick-mutabazi.- (дата обращения 21.10.2023).

12. Automation of Processes Utilizing OCR & ML . [Электронный ресурс] Режим ÄOCTyna:https://datacorehealthcare.com/automation-of-processes-utilizing-ocr-ml/.-(дата обращения 21.10.2023).

13. Machine Learning paired OCR: In-house or SaaS? [Электронный ресурс] Режим доступа: https://itechdata.ai/machine-learning-paired-ocr-in-house-or-saas/.-(дата обращения 21.10.2023).

14. How OCR and Machine Learning Improve Document Processing. [Электронный ресурс] Режим доступа: https: //www. digital di videdata. com/blog/document-processing. - (дата обращения 21.10.2023).

Davletov A.R.

Principal Software Engineer, LeetCode (Sunnyvale, CA, USA)

MODERN MACHINE LEARNING METHODS AND OCR TECHNOLOGY FOR DOCUMENT PROCESSING AUTOMATION

Abstract: countless documents are issued daily, such as orders, invoices and invoices. These documents are then stored in corporate IT systems. Currently, technological developments have led to the emergence of effective methods o f transferring these documents to subsequent processes in a machine-readable and structuredform.

Optical character recognition is one of the innovative solutions that has had a great impact on many industries. OCR technology was first developed in the mid-20th century, when it was still m its infancy. Early OCR systems had problems recognizing different fonts, styles, and layouts. The science of machine learning and artificial intelligence has upgraded OCR. Today he is incredibly accurate and trustworthy. OCR is a powerful technology that converts many document formats into searchable editable data. Over the years, this technology has advanced significantly. It offers a smooth and efficient method of using and organizing huge amounts of data.

Within the framework of this article, the purpose was to consider modern machine learning methods and existing OCR technologies for automating document processing.

The methodological basis was the scientific works of foreign authors, as well as successful examples of the introduction of this technology m production [1,2].

Keywords: machine learning, document recognition, document processing, production, AI.

i Надоели баннеры? Вы всегда можете отключить рекламу.