Научная статья на тему 'Коррекция ошибок на этапе постобработки при оптическом распознавании символов'

Коррекция ошибок на этапе постобработки при оптическом распознавании символов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
140
18
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ / РУКОПИСНЫЕ СИМВОЛЫ / ВЕРИФИКАЦИЯ / ОПОРНЫЙ СЛОВАРЬ / МЕТАДАННЫЕ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бахтенко Е. А., Баланин Е. О.

В работе представлен способ улучшения показателей коррекции ошибок на этапе пост-обработки системы оптического распознавания символов. Рассмотрены возможности использования синтаксических языковых свойств и n-граммной модели, выполнен анализ сочетания инструментов выявления и коррекции ошибок на этапе пост-обработки.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Бахтенко Е. А., Баланин Е. О.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Коррекция ошибок на этапе постобработки при оптическом распознавании символов»

Таврический научный обозреватель --^ауг^шепсе

УДК: 004.93

Исследования выполняются по 1 этапу контракта № 875АГС1/17621 в рамках программы «Старт» Фонда содействия развитию малых форм предприятий в научно-технической сфере по теме: «Разработка программного продукта по комплексной автоматизации операций распознавания рукописных символов, верификации и документооборота при решении задач проведения аттестации учащихся образовательных организаций» (шифр заявки «С1-05607»).

Бахтенко Е. А.

аспирант,

Кафедра Автоматики и вычислительной техники (АВТ) Вологодский государственный университет

Баланин Е. О.

аспирант,

Кафедра Информационных систем и технологий (ИСиТ), Вологодский государственный университет

КОРРЕКЦИЯ ОШИБОК НА ЭТАПЕ ПОСТОБРАБОТКИ ПРИ ОПТИЧЕСКОМ

РАСПОЗНАВАНИИ СИМВОЛОВ

В работе представлен способ улучшения показателей коррекции ошибок на этапе пост-обработки системы оптического распознавания символов. Рассмотрены возможности использования синтаксических языковых свойств и п-граммной модели, выполнен анализ сочетания инструментов выявления и коррекции ошибок на этапе постобработки.

Ключевые слова: распознавание, рукописные символы, верификация, опорный словарь, метаданные.

В контексте данной работы мы определяем пост-обработку как последний этап системы оптического распознавания символов, целью которого является выявление и исправление орфографических ошибок в выходном тексте

Произведя типизацию орфографических ошибок, которые переносятся на этап постобработки, можно выделить два основных типа: ошибка, как индикатор вхождения набора символов, не являющихся реальным словом, полученным в результате неправильного написания; ошибка, как индикатор вхождения набора символов, являющихся реальным словом, но семантически или грамматически не соответствующему своему контексту, полученного в результате ошибочной интерпретации корректного написания.

Выявлены следующие нетривиальные алгоритмы коррекции ошибок на этапе постобработки.

Алгоритм соответствия элементов строке, который генерирует кандидатов на замещение каждому ошибочному вхождению в этой строке. При этом вводится метрика, согласно которой каждому кандидату присваивается «вес отклонения» или «дистанция отклонения», характеризующий, насколько кандидат отличается от рассматриваемого вхождения. При коррекции, тот кандидат, у которого будет минимальный «вес», как у наиболее подходящего кортежа символов к замещению ошибочного кортежа, будет вставлен в строку за место ошибки (наиболее подходящее слово).

Использование синтаксических языковых свойств и ^граммной модели может ускорить процесс генерации кандидатов для коррекции, а также повлиять на успешность выбора самых походящих вариантов.

Для дальнейшего улучшения показателей коррекции ошибок на этапе пост-обработки

Таврический научный обозреватель --^ауг^шепсе

системы оптического распознавания символов, рационально модифицировать метод, внеся изменения в процесс генерации кандидатов. При этом необходимо использование «опорного словаря», из которого производится начальная генерация набора кандидатов на замещение. Затем, наиболее подходящий кандидат избирается для коррекции ошибочного вхождения, что в свою очередь производится с учетом грамматических и «словарных» характеристик окружения ошибки.

Дополнительно возможно использование метода, который можно охарактеризовать как статистический с применением авто-коррекции ошибок системы оптического распознавания символов. В рамках данного подхода также применяется «опорный словарь» для генерации перечня кандидатов на замещение каждого ошибочного вхождения, основанный на ^граммной модели. Следующим шагом является группировка всех слов, которые входят в блок текста, поступившего в систему оптического распознавания. Они группируются в частотную матрицу, которая идентифицирует выходящую последовательность символов и обеспечивает их подсчет. Кандидат в рамках коррекции, имеющий самое высокое значение счётчика по частотной матрице избирается на замещение ошибочного вхождения.

Возможна усовершенствованная конструкция при использовании техники кластеризации, которая позволит формировать набор групп, содержащих кандидатов для коррекции. После группировки, производится несколько итераций частотного анализа слов применительно к данным кластерам, чтобы устранить наиболее неподходящих кандидатов. Итогом итераций является фильтрация единственного максимально подходящего кандидата на замещение ошибочного вхождения.

Имея возможность работы с метаданными документа, целесообразно использование тематической модели для коррекции ошибок системы оптического распознавания символов [1]. Такая модель может быть охарактеризована как модель глобальной вероятности использования слова, согласно которой сам документ помечается семантической тематикой, что определяет набор специфических словарей. Таким образом, каждая отсканированная единица документации семантически классифицируется согласно тематике на основе установленной модели. При этом каждое ошибочное вхождение также заменяется выборкой наиболее подходящего кандидата коррекции, но выборки этих кандидатов формируются согласно выявленному классу ошибки из соответствующего набора «опорных словарей».

Дивергентный подход, основанный на семантическом и синтаксическом исправлении ошибок системы оптического распознавания символов. Базис данного подхода заключается в предварительном анализе не самих кортежей символов как единиц-слов с окружением, а самого кортежа слов как единицы в виде предложения или словосочетания. Такая единица-предложение анализируется на предмет синтаксической и семантической корректности. При вхождении подозрительного единицы-предложения, возможные кандидаты для коррекции ошибочных вхождений внутри предложения генерируются с использованием «опорного словаря» и группируются с упорядочиванием по возрастанию значения показателя грамматической и синтаксической «напряженности». После набора итераций, кандидат на вершине каждой из групп является наиболее подходящим для замещения, что и формируют конечный набор кандидатов для коррекции ошибки.

Отметим, что этап верификации специалистом подразумевает автоматизацию, а не полную автоматику, что позволяет более широко работать с моделями статистического характера, привнося при необходимости в процесс пост-обработки простейшие байесовские сети доверия на примере скрытой марковской модели. Это позволяет интегрировать синтаксическую информацию в процесс коррекции ошибок на этапе пост-обработки. Поэтому при работе с единицами документации, к которым более применимы такие модели, достигается более высокий уровень коррекции ошибок из-за его статистического характера отбора наиболее подходящих кандидатов для каждого конкретного слова с опечаткой.

Экспериментально было подтверждено, что сочетание инструментов выявления и

Таврический научный обозреватель www.tavг.science

коррекции ошибок на этапе пост-обработки системы оптического распознавания символов положительно сказывается на качестве распознавания. Т. е. при комбинированном методе исходная единица документации подвергается анализу и проверке последовательно с использованием именно установленных подходов, наиболее соответствующих значениям мета-данных данной единицы документации, что производится в рамках одной итерации. После нескольких итераций комбинированной проверки количество ошибок экспоненциально уменьшается.

Литература

1. Бахтенко Е. А., Измайлов И. А. Проектирование базы данных системы оперативного прототипирования и обновления многокомпонентных информационных систем // Сборник статей по материалам XXXVII международной заочной научно-практической конференции «Научная дискуссия: инновации в современном мире» — М., Изд. «Интернаука», 2015. — С. 15-19.

i Надоели баннеры? Вы всегда можете отключить рекламу.