Научная статья на тему 'Методика детектирования машинопечатных текстовых информационных зон отпечатков документов'

Методика детектирования машинопечатных текстовых информационных зон отпечатков документов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
63
7
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Сидоркин Иван Игоревич, Маликова Мария Олеговна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Методика детектирования машинопечатных текстовых информационных зон отпечатков документов»

МЕТОДИКА ДЕТЕКТИРОВАНИЯ МАШИНОПЕЧАТНЫХ ТЕКСТОВЫХ ИНФОРМАЦИОННЫХ ЗОН ОТПЕЧАТКОВ

ДОКУМЕНТОВ

1 2 Сидоркин И.И. , Маликова М.О.

1Сидоркин Иван Игоревич - магистрант, кафедра информационных систем, Орловский государственный университет им. И.С. Тургенева, младший научный сотрудник, Орловский филиал Федеральный исследовательский центр «Информатика и управление» Российская Академия наук;

2Маликова Мария Олеговна - магистрант, кафедра информационных систем, Орловский государственный университет им. И.С. Тургенева, г. Орёл

Информационная технология передачи данных на основе цветной печати, обеспечивающая реализацию документооборота средствами установления подлинности отпечатков электронных документов, реализована в [1 -3] с помощью декодирования машиночитаемых объектов - цветных штриховых кодов CBC (Color Bar Code), содержащих ключевые данные электронного документа в закодированном виде.

Ввиду наличия большой вариативности форм документации строгого учета и искажений, получаемых при сканировании, встает проблема выделения и соотнесения для последующего сравнения отдельных участков печатного документа их электронному образцу.

В качестве решения данной проблемы предлагается прибегнуть к использованию шаблонов документов (макет документа) для позиционирования отдельных областей информационного содержимого как электронного, так и печатного документа. Такой шаблон должен содержать информацию о координатах начала и конца каждой информационной области документа, которые необходимы для верификации. Большая вариативность форм строгой документации при этом требует наличия соответствующего количества шаблонов обрабатываемых документов.

К основным ошибкам, возникающим в результате ввода печатной документации, можно отнести неточное позиционирование отпечатка документа на стекле сканера, что может затруднить или полностью сделать невозможным процесс сегментации скана документа на отдельные информационные блоки по шаблону и сравнение их информационного содержимого с данными из базы. Решением данной проблемы может быть использование дополнительного информационного насыщения бумажных отпечатков документов маркерами, позволяющими однозначно позиционировать область документа для последующей обработки с помощью шаблона документа. При этом каждый шаблон документа дополняется информацией о местоположении маркеров. Изображение маркера представлено в соответствии с рисунком 1.

Рис. 1. Маркер документа

Для осуществления точного позиционирования шаблона документа относительно скана печатного документа необходимо наличие минимум двух маркеров. Данное ограничение обусловлено необходимостью позиционирования левого верхнего и

22

правого нижнего угла текстовой информационной зоны скана отпечатка документа. При этом ориентация документа (верх/низ) определяется за счет ранее полученного местоположения СВС относительно текстового содержимого конкретного документа. Тогда как угол искажения поворота определяется на основе информации о координатах найденных маркеров на скане и информации о координатах маркера в шаблоне документа. В соответствии с рисунком 2 представлен скан платежного поручения с СВС и маркерами по углам текстовой информационной зоны скана отпечатка документа.

ШШШ9

яюяа

ШШШ—-ШШШ

мвяш&ш

0410060

I—

ПЛАТЕЖНОЕ ПОРУЧЕНИЕ № 481

Суши шестьдесят восемь тъюм шестьсот семьдесят ао семь рублей 00 копее«

ИНН 755005550 КПП 75501001 с_ 68678-00

ООО "Рассеет" Плательиан

О. № 407039200073Э0010255 047501711 Э0101910500000000611

ОАО "ЧЕЛИНДЬАНК" Г ЧЕЛЯБИНСК Ваш КИШИМ БИК См т

ГРКЦ ГУ БАНКА РОССИИ ПО ЧЕЛЯБИНСКОЙ ОБЛ Г ЧЕЛЯБИНСК Ьде получателя БИК См М 047501001 40101810400000010601

ИНН 7459000015 КПП 745901001 См N1

УФК (Межр! иконная ИФНС России N§20 по Чепябиисхо« обо )

В-доп 01 С<х>« плат

На» пл 0«ер плат

Получатель Ко« 5 Ре» поле

УИНОМНалог на доходы фи»ичесюс< лиц м 24 09 2015г Сумма 68678-00

Е

Рис. 2. Скан платежного поручения с СВС и маркерами

Список литературы

1. Архипов О.П., Архипов П.О., Зыкова З.П., Носова Н.Ю. Применение машиночитаемых зон в современных информационных системах // Современные технологии безопасности, 2006. № 3 (18) - 4 (19). С. 32-34.

2. Архипов О.П., Архипов П.О., Зыкова З.П. Метод генерации цветных машиночитаемых зон в отпечатках офисных принтеров // Информационные технологии, 2005. № 11. С. 37-44.

3. Архипов О.П., Зыкова З.П., Архипов П.О. Программа для ЭВМ «Комплекс цветного штрихового кода (СВС)». Свидетельство № 2005613093 от 28.11.2005.

i Надоели баннеры? Вы всегда можете отключить рекламу.