Автоматизированная система извлечения персональных данных сотрудников образовательных организаций

Филимонов Максим Николаевич; Гладышев Виталий Сергеевич

Филимонов Максим Николаевич зам. декана, ст. преподаватель ф-та «Информатика и вычислительная техника», Донской государственный технический университет пл. Гагарина 1, г. Ростов-на-Дону, 344000, (863) 273-86-38 maxfil2006@,yandex.ru

Гладышев Виталий Сергеевич студент первого курса магистратуры кафедры "Робототехника и мехатроника" Донской государственный технический университет, пл. Гагарина 1, г. Ростов-на-Дону, 344000, 8 (988) 952-12-33 [email protected]

Аннотация

В статье описана концептуальная схема. Приведены принципы работы распознавания символов, проанализированы её достоинства и недостатки. Обоснование выбора библиотеки «Tesseract». Результат работы автоматизированной системы извлечения персональных данных сотрудников образовательного учреждения.

The article describes the conceptual scheme. Principles of the work of character recognition are given, its merits and demerits are analyzed. Justification of the choice of the library "Tesseract". The result of the automated system for extracting personal data.

Ключевые слова

информационная система, оптическое распознавание символов, библиотека tesseract, автоматизация

information system, optical character recognition, tesseract library, automation

Введение

В настоящее время информационные технологии - неотъемлемая часть современного общества. Автоматизация информационных процессов и создание информационных систем, является одним из приоритетных направлений. ИС позволяют упростить рутинные процессы, сэкономить трудовые ресурсы предприятий и организаций, а также свести к минимуму возникновение ошибок. Особенно остро данная проблема стоит в образовательных учреждениях, специфика которых требует постоянного обновления данных в связи с конкурсными мероприятиями, проводимыми дважды в год.

В данной статье представлены сведения по работе оптического распознавания символов и программное обеспечение, автоматизирующее процесс обработки персональных данных, путём извлечения данных с изображения текста и их записи в базу данных.

Разработка автоматизированной системы

Чтобы точно понимать задачи, была приведена концептуальная схема плана обработки данных (рисунок 1). На рисунке 1 изображены 3 последовательных блока: сканер, компьютер и исходный документ Excel. Путём сканирования документа получается его цифровая копия, которая хранится на компьютере и доступная для обработки. После обработки, извлечённые данные заносятся в некую базу данных.

Сканер

получение документа в _, г цифровом виде

Компьютер

обработка информации и ,, запись данных

База данных

Рис.1. Концептуальная схема плана обработки данных

Для данной ИС была выбрана библиотека общего доступа «Tesseract». На данный момент Tesseract считается одним из самых точных и качественных бесплатных движков распознавания текста из всех существующих. Это обычная консольная утилита (есть версии для Windows, MacOS, Linux). Она работает с точечным изображением. На первой стадии программа должна разбить страницу на ячейки текста, делая упор на особенностях левого и правого выравнивания и наличия нескольких колонок. После распознанный блок разбивается на строки. На практике неизбежны перекосы изображения страницы или фрагментов страницы на сгибах. Даже маленький наклон левой стороны приводит к тому, что строки этой стороны становятся ниже правого края, особенно при маленьком межстрочном интервале. В итоге появляется проблема определения строки, к которой относится тот или иной фрагмент изображения. Для букв, содержащие точки, при небольшом наклоне уже сложно определить, к какой строке относится верхняя часть символа. В некоторых случаях ее можно посчитать за запятую или точку. [1]

После этого строки разбиваются на непрерывные области изображения, которые соответствуют отдельным буквам. Алгоритм распознавания делает выбор каждого символа на основе своих тренировочных данных, в результате чего страница восстанавливается в символах текстового формата. Алгоритм может достигать наилучшей точности распознавания выше 99% для отформатированных изображений, составленных из обычных шрифтов. Такой процент кажется внушительным и безопасным в плане тревожности о неправильности форматирования текста, но уровень ошибок всё же есть [2]. Если на странице 1500 символов, то даже при коэффициенте успешного распознавания 99% получается около двух ошибок. Чтобы избежать такого случая, была включена проверка по словарю. Если распознаваемого слова нет в словаре системы, то она по

определённым правилам пробует найти похожее. Но это все равно не позволяет исправлять 100% ошибок, что требует человеческого контроля результатов. Но не все тексты идеального качества и процент ошибок распознавания для таких текстов крайне велик. Даже маленькие пятна могут затенять важные части символа или путать один в другой. Еще одной проблемой является плохое сканирование документа, но данный фактор полностью зависит от человека и машина здесь совсем не виновата. При ксерокопировании часто возникают разрывы и слияния символов. Любой из этих дефектов способствует системе ошибаться. Страница, расположенная с нарушением границ или перекосом, создает немного искаженные символьные изображения, которые могут быть перепутаны программой оптического распознавания текста.

Данное ПО работает с большим растровым изображением страницы. Изображения со стандартной степенью разрешения получаются сканированием с точностью 9600 пикселей на дюйм. Изображение формата А4 при таком разрешении занимает около 1МБ памяти. Для нормальной работы ПО использовать конфигурацию сканирования ниже заданной не рекомендуется. При работе с данной библиотекой имеется возможность выбора языка распознавания и типа распознаваемого материала, будь то факс, газета или матричный принтер. При настройке данных параметров можно достигнуть наилучших результатов распознавания, начиная от укрощения времени до качества выполненной работы. Если на странице имеется текст на разных языках, время обработки изображения вырастет в разы.

После получения оцифрованного текста начинается цикл перебора слов. Если данное слово удовлетворяет условию, то оно записывается в заведомо подготовленное для него поле. Интерфейс изображен на рисунке 2.

Рис.2. Интерфейс готового ПО

При нахождении всех слов, пользователю предоставляется возможность проверить результат. Если данные, по каким-либо причинам, имеют несоответствующую форму, то их можно подкорректировать. Удовлетворяющие данные заносятся в базу данных по нажатию кнопки на интерфейсе.

Заключение

Было разработано программное обеспечение, которое позволяет автоматизировать процесс заполнения баз данных некоторых образовательных учреждений. Это позволило бы сэкономить время, если надо оформить достаточное количество преподавателей без очереди. В данный момент данное ПО тестировалось только на кафедре ВУЗа для извлечения персональных данных из полисов медицинского страхования сотрудников.

В перспективе намечается развивать данное ПО, улучшая функционал. Можно повысить работоспособность отделов кадров, сокращая монотонную работу человека.

Литература

1. internetno.net - Вся правда об OCR [Электронный источник]. URL: http://internetno.net/categorv/obzorvi/ocr/

2. cyberleninka.ru - Сравнение OCR-систем на основе точности анализа изображения [Электронный источник]. https://cvberleninka.ru/article/n/sravnenie-ocr-sistem-na-osnove-tochnosti-analiza-izobrazheniva

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Филимонов Максим Николаевич, Гладышев Виталий Сергеевич

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Филимонов Максим Николаевич, Гладышев Виталий Сергеевич

Текст научной работы на тему «Автоматизированная система извлечения персональных данных сотрудников образовательных организаций»