Таврический научный обозреватель www.tavr.science
УДК: 004.93
Исследования выполняются по 1 этапу контракта № 875АГС1/17621 в рамках программы «Старт» Фонда содействия развитию малых форм предприятий в научно-технической сфере по теме: «Разработка программного продукта по комплексной автоматизации операций распознавания рукописных символов, верификации и документооборота при решении задач проведения аттестации учащихся образовательных организаций» (шифр заявки «С1-05607»).
Бахтенко Е. А.
аспирант,
Кафедра Автоматики и вычислительной техники (АВТ) Вологодский государственный университет
Баланин Е. О.
аспирант,
Кафедра Информационных систем и технологий (ИСиТ) Вологодский государственный университет
ПОСТРОЕНИЕ КОМПАКТНЫХ ОПОРНЫХ СЛОВАРЕЙ ДЛЯ ВЕРИФИКАЦИИ РУКОПИСНЫХ СИМВОЛОВ И АНАЛИЗ ФАКТОРОВ ТОЧНОСТИ
РАСПОЗНОВАНИЯ
В работе приведены факторы, влияющие на точность распознавания текста. Рассмотрен вопрос построения компактных опорных словарей, предназначенных для использования в процессе верификации. Выполнен анализ задачи уменьшения базы данных подвыражений до подходящего размера системам распознавания и верификации без ущерба для контента.
Ключевые слова: распознавание, образы, оптическое распознавание, рукописные символы, точность, словари, базы данных.
В первую очередь рассмотрим факторы, влияющие на точность распознавания текста. В задачах верификации, необходимо понимать, что возможные отрицательные результаты могут зависеть не только от самих алгоритмов распознавания-верификации и словаря, но и от внешних факторов.
Большинство коммерческих пакетов программного обеспечения объявляют высокую точность распознавания, т.е. низкий процент ошибки, но эти показатели основаны на ошибках при работе с единичными символами, а не словами. Также во внимание нужно принимать любой из следующих факторов может также повлиять на точность оптического распознавания текста.
Текстовый уровень. Системы с механизмом распознавания и верификации невозможно отлаживать без соответствующей клавиатуры и языкового пакета. Например, некоторые языки и диалекты широко не поддерживаются, в частности для текстов ранее 1850 года.
Более старые и выцветшие документы должны быть отсканированы в режиме RGB, чтобы захватить все данные с изображения, а также для повышения точности распознавания текста.
Малоконтрастные документы могут привести к ухудшению результатов распознавания текста.
Результаты машинного оттиска дают более скудный результат, чем распознавание печатного типа текста; непоследовательное использование под-семейств шрифта и размеров могут снизить точность распознавания текста.
Таврический научный обозреватель www.tavr.science
Шрифт размером ниже 6 баллов в оригинальном документе может ограничить возможности распознавания. Единственным вариантом в такой ситуации остается увеличение разрешения сканированного изображения до 600 точек на дюйм с использованием градиента серого, что может хоть как-то улучшить выходные данные.
Рукописные документы крайне трудно классифицировать по классам точности.
Факторы в процессе сканирования, которые влияют на точность распознавания текста.
Наилучшее рекомендуемое разрешение при сканировании для достижения точности распознавания текста составляет 300 точек на дюйм. Более высокое разрешение не обязательно приводит к более высокой точности и может замедлить время обработки. Настройка разрешения ниже 300 точек на дюйм может повлиять на качество и точность результатов распознавания.
Неправильная настройка уровня яркости, который может оказаться слишком высоким или слишком низким, может отрицательно повлиять на точность распознавания текста. Среднее значение яркости 50% будет подходить в большинстве случаев.
Прямолинейность начального сканирования может повлиять на качество распознавания текста — искривленные строки текста производят к плохим результатам.
Более старые и выцветшие документы должны быть отсканированы в режиме RGB, чтобы захватить все данные с изображения, а также для повышения точности распознавания текста.
Дополнительная пост-обработка, такая как искусственное повышение резкости, не всегда позволяет повысить точность распознавания текста. Таким образом, не целесообразно замещать настройку высокого разрешения документа при сканировании пост-обработкой в графических пакетах.
Рассмотрим вопрос построения компактных опорных словарей для верификации. После того, как в необходимые подвыражения первый раз заносятся полностью в базы данных, возникает проблема избыточности — даже без сохранения дубликатов, коллекции слишком велики. В худшем случае, когда оптимизация может оказаться крайне проблематичной, возможно произвести увеличение допустимой памяти для баз на сервере баз данных. Но это делает коллекции труднодоступными для хранения и снижает скорость доступа к ним [1]. Кроме того, эти базы данных изначально были созданы, чтобы служить в качестве математических словарей для оказания помощи системам распознавания теста.
Учитывая, что системы распознавания, как правило, предназначены для работы на персональных компьютерах (компьютер офисной конфигурации и т. п.), то опорные словари с проблемой избыточности не могут использоваться эффективно на таких устройствах.
Поэтому мы должны были найти критерий для уменьшения базы данных подвыражений до более подходящего размера без ущерба для контента, который был бы полезен системам распознавания и верификации.
Распределение выражений. Наше первое наблюдение состоит в том, что популярность выражения представлена его количеством, т. е. выражения с малым количеством достаточно часто не используются, и такие выражения не могут гарантированно входить в словарь. Второе наблюдение состоит в том, что при фильтрации с уменьшением количества, число редко используемых последовательностей увеличивается, а число часто используемых выражений (популярных выражений) крайне мало.
Данные, которые были собраны из нескольких опорных баз данных, показали аналогичную зависимость частоты вызова от количества последовательностей. В каждом случае соотношение монотонно уменьшается, подобно отрицательной экспоненте.
Таврический научный обозреватель -^^^ауг^шепсе
Рисунок 1 — Диаграмма распределения математических подвыражений в соответствии с их частотой
Переработка базы данных. Наличие зависимости распределения выражения предполагает, что за счет исключения наименее популярных выражений, мы можем значительно уменьшить размер базы данных без снижения показателя её полезности для систем верификации. Таким образом, целесообразно перераспределить записи базы данных. Для подвыражений каждой длины были созданы три базы данных соответствующие к различным уровням полноты: "подробный", "средний" и "облегченный". Такое решение позволил увеличить производительность в соответствии с контекстом задачи, который определяет запрашиваемую базу данных.
Литература
1. Бахтенко Е. А., Измайлов И. А. Проектирование базы данных системы оперативного прототипирования и обновления многокомпонентных информационных систем // Сборник статей по материалам XXXVII международной заочной научно-практической конференции «Научная дискуссия: инновации в современном мире» — М., Изд. «Интернаука», 2015. — С. 15-19.