Максимизация производительности и актуальности словаря при верификации рукописных символов

Бахтенко Е.А.; Баланин Е.О.

Таврический научный обозреватель --^ауг^шепсе

УДК: 004.93

Исследования выполняются по 1 этапу контракта № 875АГС1/17621 в рамках программы «Старт» Фонда содействия развитию малых форм предприятий в научно-технической сфере по теме: «Разработка программного продукта по комплексной автоматизации операций распознавания рукописных символов, верификации и документооборота при решении задач проведения аттестации учащихся образовательных организаций» (шифр заявки «С1-05607»).

Бахтенко Е. А.

аспирант,

Кафедра Автоматики и вычислительной техники (АВТ) Вологодский государственный университет

Баланин Е. О.

аспирант,

Кафедра Информационных систем и технологий (ИСиТ) Вологодский государственный университет

МАКСИМИЗАЦИЯ ПРОИЗВОДИТЕЛЬНОСТИ И АКТУАЛЬНОСТИ СЛОВАРЯ ПРИ ВЕРИФИКАЦИИ РУКОПИСНЫХ СИМВОЛОВ

В работе произведено описание эффективного метода коррекции ошибок при выполнении операций оптического распознавания рукописных символов. Приведена модульная архитектура системы, рассмотрена работа алгоритма и теоретико-множественное описание касательно выявления вхождения ошибок в обрабатываемом тексте.

Ключевые слова: распознавание, образы, оптическое распознавание, рукописные символы, коррекция ошибок, веб-система, модульная архитектура.

Главным образом, предлагаемый метод коррекции ошибок системы оптического распознавания реализуется на основе трех главных модулей.

Первый модуль состоит из детектора ошибок распознавания, который выступает как индикатор вхождения набора символов, не являющихся реальным словом (возможно полученным в результате неправильного распознавания на первой итерации). Обнаружение производится с использованием юниграммного набора данных, как вхождения в опорный набор данных из 5-граммного веб-хранилища.

Второй модуль состоит из генератора кандидатов, производящего наборы символов и слов, предлагаемых для замещения, применительно к каждому вхождению ошибки, обнаруженному первым модулем. Генерация производится с использованием символьно-ориентированной 2-граммной модели, а также опорного юниграммного набора данных.

Третий модуль представляет собой контекстуальный корректор ошибок системы оптического распознавания символов, который выбирает наилучшего кандидата согласно проверке правописания с использованием опорного 5-граммного набора данных из веб-хранилища.

На рисунке 2 представлены описанные выше модули с отображением основных внутренних процессов, в качестве основных компонентов модульной архитектуры прикладной реализация предлагаемого метода [1].

Таврический научный обозреватель www.tavr.science

Распознанный, не

©

ю =

=

о =

=

я '.г

а а о

ы

et Ы Н О

ю

Л

а

ю о н и о

о о т о

б р

а

б о

т к а

К о

р р

е К С и и

5

6

о к

Рисунок 2 — Постобработка коррекции ошибок

Рассмотрим теоретико-множественное описание касательно выявления вхождения ошибок (ERR) в обрабатываемом тексте (TXT).

Множество ошибок на этапе пост-обработки может быть представлено следующим образом.

ERR = {em, err2, еггз... em}, (1)

где:

t = 1 .. n — определяет общее число ошибочных вхождений;

errt — вхождение кортежа символов, не являющегося реальным словом.

Поступивший в систему оптического распознавания символов текст может быть представлен следующим образом.

Таврический научный обозреватель

www.tavr.science № 8(13) — август 2016

TXT = {txti, txt2, txt3... txtw}, (2)

где:

w = 1.. n — определяет общее число слов в тексте;

txtw — вхождение кортежа символов, распознанного как слово.

Алгоритм начинает свою работу с проверки каждого слова txtw в TXT, опираясь на набор данных из 5-граммного веб-хранилища. Если вхождение элемента txtw обнаружено, то txtw присваивается метка «правильный кортеж» и процедура коррекции не производится. В противоположном случае, если вхождение элемента txtw не обнаружено, то txtw присваивается метка «ошибочный кортеж» и процедура коррекции необходима. В конечном итоге формируется перечень ошибок, который может быть представлен в виде множества ERR, описанного выше.

Рассмотрим алгоритм генерации кандидатов для коррекции написания. Алгоритм создает конструкцию в виде перечня возможных коррекций написания для обнаруженных ошибок — вхождений наборов символов, не являющихся реальным словом, в составе выдаваемого системой текста (выходящий текст до этапа коррекции).

Эти возможные корректировки выступают в роли кандидатов коррекции написания и могут быть обозначены следующим образом.

CorrCand = {СС11, СС12, СС13, ccip ... CCul, CCu2, CCu3, CCuq}, (3)

где:

сс — обозначает предложенного кандидата написания; и — определяет общее число зарегистрированных вхождений ошибок как кортежей символов, не являющихся реальным словом;

р = 1 .. п и q = 1 .. п — определяют общее число кандидатов, сгенерированных для каждого вхождения ошибки.

По сути, алгоритм базируется на символьно-ориентированной 2-граммной модели, порождающей кандидатов написания, основываясь на анализе юниграмм в составе опорного набора данных из 5-граммного веб-хранилища, которые имеют сходство в том, что имеют 2-граммные последовательности символов со словом-ошибкой.

К примеру, мы имеем предложение «нужно найти префикс факсимальной длины», которое должно пройти процедуру коррекции ошибок в системе оптического распознавания символов. Очевидно, ошибочно написанным в данном случае является слово «факсимальной», которое должно быть «максимальной».

Разметив «факсимальной» на 2-граммные последовательности символов, мы получим: «фа», «ак», «кс», «си», «им», «ма», «ал», «ль», «ьн», «но», «ой». Всего 11 элементов.

Конечной задачей является найти множество юниграмм в составе опорного набора данных из 5-граммного веб-хранилища, которые бы содержали одну или более 2-граммных последовательностей.

Согласно рабочему сценарию, вначале будут подобраны юниграммы для 2-граммной последовательности «фа», например «факс». Затем для «ак» и так далее.

В результате формируется первая выборка. Но поскольку в нее может войти сотни и тысячи юниграмм, целесообразно применение фильтрации по убыванию. Во вторую выборку попадают только первые десять юниграмм по итогу фильтрации, которые включают наибольшее число вхождений 2-граммных последовательностей символов. Такой сценарий формирует перечень кандидатов, а данном случае это будут «максимальной» и «факсимильной», со значениями показателя вхождений равного 10 из 11 и 9 из 11 соответственно.

Таврический научный обозреватель www.tavr.science

Литература

1. Бахтенко Е. А., Измайлов И. А. Проектирование базы данных системы оперативного прототипирования и обновления многокомпонентных информационных систем // Сборник статей по материалам XXXVII международной заочной научно-практической конференции «Научная дискуссия: инновации в современном мире» — М., Изд. «Интернаука», 2015. — С. 15-19.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бахтенко Е. А., Баланин Е. О.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Бахтенко Е. А., Баланин Е. О.

Текст научной работы на тему «Максимизация производительности и актуальности словаря при верификации рукописных символов»