Научни трудове на Съюза на учените в България-Пловдив, серия Б. Естествени и хуманитарни науки, т.ХУ1. Научна сесия „Техника и технологии, естествени и хуманитарни науки", 30-31 Х 2013 Scientific researches of the Union of Scientists in Bulgaria-Plovdiv, series B. Natural Sciences and the Humanities, Vol. XVL,ISSN 1311-9192, Technics, Technologies, Natural Sciences and Humanities Session, 30-31 October 2013
АВТОМАТИЗИРАНО ИЗВЛИЧАНЕ НА ДАННИ ОТ ЦИФРОВИ ИЗОБРАЖЕНИЯ НА ДОКУМЕНТИ
докт. Т. Рачовски, проф. дмн Г. Тотков, докт. Д. Десев.
Пловдивски университет „Паисий Хилендарски" гр. Пловдив, ул. „Цар Асен" 24, [email protected]
Представени са експерименти със софтуерни модули за извличане на елементарни и структурирани данни от цифрови изображения, стздавани в рамките на интегрирана информационна система на Пловдивския университет „Паисий Хилендарски", наречена Пловдивски електронен университет (ПеУ). Интеграцията е базирана на многофункционален дигитален университетски архив - първият по рода си в страната. Успешното създаване на подобен архив предполага и проектиране и създаване на софтуерни средства за извличане на данни (таблици - с разграничаване на редове, стълбове и клетки, текстове на кирилица, числа и др. под.), съставени от знаци, изписани с различни видове шрифтове.
Експериментирани са различни класове алгоритми за извличане на данни от дигитализирани типови документи, характерни за университетските информационни системи. Важни задачи в тази посока, например са автоматизираното извличане на данни от изображения на анкети, протоколи, формуляри и др. под., със следваща тяхна обработка и запис в архива; дигитализиране на документа, съпроводено с автоматизирано извличане и запис на техните метаданни (визитка на документа) и др.
Извличане на данни от дигитализирани документи
Ще различаваме два типа елементи в изображението - базови (изображения на знаци, които графично се представят като неделими) - цифра, буква, препинателен знак и т.н., и съставни - група от базови елементи, които разглеждани като едно цяло, се интерпретират като определен тип данни (цяло число без знак, цяло със знак, дума и т.н.).
Основните етапи за разпознаване на елемент в изображение са:
□ сканиране на изображението (получаване на цифрово копие)
□ обработка на цифровото копие;
□ сегментиране и отделяне на базови елементи;
□ разпознаване на знаците, представени с отделените елементи;
□ структуриране (групиране и игнориране на знаци) с цел разпознаване на съставни елементи.
За разпознаване на елементи в изображение се използват два основни подхода: оптично разпознаване на маркери (OMR) и оптично разпознаване на знаци (OCR).[4] OMR-подходът се основава на разпознаване на маркери в изображението със следващо сегментиране на елементи, допълнително натрупване на пиксели за осъвършенстване на вече отбелязаната анкета и четенето им след преработка и сегментиране, докато при OCR-подхода основната идея е свързана с разпознаване в изображението на елементи от типа на текстове (редици от знаци) и таблици. При решаването на задачата за проектиране на
софтуерен модул за извличане на данни от изображения на анкети, бяха тествани и двата подхода. Тестовете, базирани на разпознаване на маркери установиха, че при този начин се пропуска основна текстова информация и ползването на подобен подход не е ефективно.[2] Тестовете с прилагане на втория подход дадоха определено по-добри резултати при условие, че преди да започне разпознаването на текста в цифровото изображение на документа, то предварително бъде обработено така, че да могат да се разпознават отделните знаци в него.
Извличане на оценки от протоколи
Друг експериментиран модул има за задача автоматизирано извличане на оценки от изпитни протоколи (за група студенти) и тяхното внасяне в дигитализирания университетски архив [6]. Общата логика на този модул включва разпознаване и обработка на извлечения текст от изображение, контрол и включване на разпознатите елементи (в случая оценки по учебна дисциплина на конкретни студенти) в базата от данни. За целта, от цифровото изображение на таблица (представяща протокола) е необходимо да се разпознаят и извлекат имената на отделните студенти (като текст), съответните факултетни номера и оценки (като числа). Обстоятелството, че предварително е известен типа на извличаните данни (редица от знаци на кирилица, 8 цифрени и едниоцифрени числа) значително снижава неопределеността и облекчава решаването на задачата. Под формата на експерименти, за автоматизирано извличане и внасяне на оценки по учебни дисциплини, бяха проведени тестове с няколко разпознаващи софтуерни модула и серия изображения на реални изпитни протоколи. В резултат се установиха следните основни проблеми: разпознаване на ръкописно написани оценки, извличане на структурата „име на студент" (групирани собствено име, презиме и фамилия) от таблица и цифровата обработка на текст на кирилица. Преодоляването на проблема с разпознаване на имена и текст на кирилица, се оказа възможно с включването в действие на рамка Tesseract за OCR-разпознаване [7].
Създадени бяха и допълнителни методи за четене и 'прескачане' при необходимост на елементи на таблица. При оптично разпознаване на знаци от изображение на документ, съдържащ таблица (например изпитен протокол), например, за да се извлече текста от всяка клетка на таблицата, допълнително се затруднява реализацията[5]. При използване на класически алгоритми за разпознаване (клъстеризация, класификационни алгоритми, мета алгоритми за комбинирани елементи и др.), тези проблеми се решават частично, но в нашия случай тези решения не се оказаха удачни - при извличането на данни от изображения на таблици масово бяха регистрирани грешки. Частично решение на проблема за извличане на оценки от изпитни протоколи даде прилагането на алгоритъма на к-елементите (алгоритъм за кластеризация). След първоначално обхождане на изображението, алгоритъмът изключва табличните елементи на базата на 'наситена' пикселизация. Това прави много по лесно извличането на текст от протоколите, като обхождането на текста става по редовете на таблицата, което улеснява извличането на отделните елементи.
Фиг. 1. представя конкретно изображение - вид изпитен протокол с имена и оценки на студенти, използвано за тестване на създаваните средства. В този случай, при прилагане на ОМ^-подхода, когато цифровото изображение и неговите елементи се обхождат и обработват 'пиксел по пиксел' е ясно, че ще има проблеми при разчитане на вече задраскани знаци или наличие на не добро калибриране на изображението.
ПУ Паисий Хилендарски
ГТлотокол . 1ООО101ОР1
i.mVflffT^ W.1M
Hypcs4
Смцииют:: инфрриэтикл
Ш1Ш2ЭШ1 Иван Иванов 2 * 4 S
1351231231331 Сто лн Димитров 2 3 4 0
4156727234512 Петър Станков 3 э * s
1336234521345 Илия Вече в & 3 й 5
Фигура 1. Изображение на изпитен протокол, използвано при тестовете Подобно на OMR, така и при прилагането на OCR-подхода се обхожда цялото изображение, но тук разпознаването става 'символ по символ'. При извличане на неверен или задраскан знак, както се вижда от фиг. 2. (тестов резултат от разпознаване на изображението на фиг. 1.) може да се получат два ефекта. Първият - пропускане на маркиран (отбелязан) знак - в случая това е '3' (оценката на Иван Иванов). И вторият -неговото грешно разпознаване (като различен от него знак, или като редица от знаци). Във всички случаи обаче, имаме възможност да стигнем до елементите за маркиране. Използването на последния подход е по-лесно и се използва в голяма част от алгоритмите за разпознаване. Друго предимство на подхода е, че освен данни (оценки, факултетни номера) от протокола се извлича информация и за текста (в случая трите имена), което по-късно улсснява обработкам.
ПУ Паисий Хилендарски
Протокол: 1000101001
$акултет: ФМИ
Курс: 2
Спещлиост: Информатика
1231231231231 Иван Иванов 2 4 5 6 1231231231231 Стоян Димитров 2 3 ® 5 6 4156727234512 Петър Стайков 2 4К 4 5 6 1236234521345 Илия Зечев 2 3 4 6
Фигура 2. Резултат от тестване с маркирането на оценка от протокол с OCR- подхода Разпознаващ модул за многофункционален университетски цифров архив
Целта на изследванията тук е създаване на модул за дигитализация на съществуващи хартиени документа и разполагането им в университетския цифров архив. На първо място е необходимо модулът да поддържа и ползва набор от различни типове сканиращи устройства. Както се вижда от фиг. 3., графичния интерфейс е съобразен и олекотен съобразно нуждите и изискванията на неквалифицирани потребители на университетските системи. За улеснение на потребителите е асоцииран и модул за обработка на снимки [4]. С негова помощ потребителите могат лесно да управляват множеството от налични цифрови изображения на документа. За целта се използват и методи за добавяне на допълнителни пиксели за по ясно четене и разпознаване на изображенията, обработката на текста, както и за калибриране на изображенията.
Фигура 2. Експериментален модул на университетски цифров архив.
Съществен проблем за следващо решаване в процеса на създаване на системата на университетский архив е дигитализацията на университетски документи в ръкопис [1]. Възможно решение (за момента) е съхраняване на цифрово изображение на документа заедно с неговите метаданни.
Заключение
Автоматизираното извличане на данни от изображения на документи и тяхното разполагане в цифрови архиви е важна задача на съвременното дигитално общество. При проектирането на многофункционалния университетски цифров архив на Пловдивския университет са експериментирани някои стандарти за направа на подобен софтуер за разпознаване [3]. В експерименталните софтуерни модули са реализирани и тествани редица алгоритми за разпознаване и извличане на данни от изображения на документи, съдържащи снимки, таблици (изпитни протоколи), анкетни карти и др. Решен е един от основните проблеми, свързани с извличане на знаци на кирилица и на текст от таблица. Предполага се разпознаващият модул на ПеУ да получи следващо развитие с нови функционалности, вкл. с мобилна версия за разпознаване.
Благодарности: Работата е частично финансирана от проект НИ 13 - ФИФ 009 „Многофункционален дигитален университетски архив: моделиране, създаване и споделяне" към Фонд „Научни изследвания" на Пловдивския университет и финансирания от ОП „Развитие на човешките ресурси" на ЕСФ проект BG051PO001-4.3.04-0064 „Пловдивски електронен университет (ПеУ): национален еталон за провеждане на качествено е-обучение в системата на висшето образование" и BG051PO001-3.1.08-0041 „Стандартизиране и интегриране на разнотипни информационни и управленски университетски системи (СИРИУС)".
Литература
1. Color Image Segmentation Using Energy Minimization on a Quadtree Representation* Adolfo Mart^nez-Us^ Filiberto Pla, and Pedro Garcra-Sevilla Dept. Lenguajes y Sistemas Informáticos, Jaume I Univerisity Campus Riu Sec s/n 12071 Castelfyn, Spain Series Volume 3211 Series ISSN 0302-9743 Publisher Springer Berlin.
2. Dynamic Content Adaptive Super-Resolution Mei Chen Hewlett-Packard
Laboratories 1501 Page Mill Road, MS 1203, Palo Alto, CA 94304, U.S.A.Series Volume 3211 Series ISSN 0302-9743. Page(s) 220 - 227
3. Hierarchical Regions for Image Segmentation Slawo Wesolkowski and Paul Fieguth Systems Design Engineering University of Waterloo Waterloo, Ontario, Canada, N2L-3G1. Page(s) 9-16
4. Image Salt-Pepper Noise Elimination by Detecting Edges and Isolated Noise Points Gang Li and Binheng Song School of Software, Tsinghua University, 100084, Beijing, P.R. China Series Volume 3211 Series ISSN - 0302-9743. Page(s) 171-178
5. Pattern Analysis and Machine Intelligence, IEEE Transactions on Vol. 21, Issue 6, ISSN: 0162-8828, INSPEC Accession Number: 6285476. Pages 855-868
6. Shutao, L., Yaonan, W.: Non-Linear Adaptive Removal of Salt and Pepper Noise from Images. Journal of Image and Graphics 12 (5a) (2000). Page(s) - 171-178
7. Tesseract Engine 2, https://code.google.comp/tesseract-ocr/wM/TrainingTesseract2 (nocn. noceTeH 10.9.2014).