ИНФОРМАЦИОННЫЕ ПРОЦЕССЫ И ТЕХНОЛОГИИ. СБОР, ХРАНЕНИЕ И ОБРАБОТКА ИНФОРМАЦИИ
УДК 004.912 Б01: 10.24412/2782-2141-2023-2-56-62
Повышение качества извлекаемого текста из двоичных образов документов
Сопин Д. С., Ткачева Е. А., Васильев Н. В.
Аннотация. Постоянный рост объемов информации, необходимой для управления войсками, обуславливает повышение требований к оперативности автоматизированных информационных систем военного назначения. В целях исполнения данных требований, а также своевременного выполнения задач органами военного управления в Министерстве обороны Российской Федерации применяются автоматизированные информационные системы электронного документооборота в защищенном исполнении. Защищенные системы электронного документооборота позволяют обеспечить безопасность, достоверность и целостность информации на всех этапах ее передачи, хранения и обработки. Ввод и формирование электронного документа в защищенных системах электронного документооборота осуществляется посредством процессов сканирования и последующей индексации. Извлеченный из документа текст используется прежде всего при организации поиска и структуризации хранилища документов, которые применяются как в повседневной деятельности, так и при аналитической обработке массивов документов в процессе формирования сводок. Как следствие качество процесса извлечения и индексации документов сказывается в конечном итоге на эффективности и оперативности решения аналитических задач. Основными факторами, снижающими эффективность обработки, являются различного рода пометки, резолюции и выделения в тексте бумажного документа. В современной научной литературе данной теме не уделяется достаточного внимания вопросу удаления графических шумов из сканированного текста и предлагаемая работа призвана восполнить этот пробел. Целью статьи является разработка метода повышения качества процесса распознавания образов документов. Методы исследования: в работе используется научно-методический аппарат системного анализа, методов обработки изображений и распознавания образов, алгоритмы и методы индексации и поиска документов. Научная новизна работы состоит в разработке комплексного подхода к фильтрации графических шумов в образах документов (подписи, печати, пометки). Практическая значимость работы заключается в апробации предложенного подхода в защищенной системе электронного документооборота.
Ключевые слова: защищенные системы электронного документооборота, индексация и поиск, оценка качества индексации документов,распознавание документов, фильтрация изображений.
Введение
На современном этапе защищенные системы электронного документооборота (ЗСЭД) представляются как системы, обеспечивающие автоматизацию делопроизводства согласно стандарту ГОСТ Р ИСО 15489-1-2007 «Управление документами» [1-3] с учетом особенностей принятых в Ведомствах приказов-инструкций по секретному делопроизводству и опирающееся на систему стандартов ГОСТ Р 51583-2014 «Автоматизированные системы в защищенном исполнении» [4].
Понятие «электронный документ» подразумевает сложную сущность, состоящую из метаданных (регистрационной карточки) и собственно образа документа. Одним из путей ввода образов документов в ЗСЭД является сканирование. Для обеспечения эффективного полнотекстового поиска после сканирования образа документа производится распознавание и извлечение текста с последующей его индексацией. Как следствие, точность распознавания влияет на качество индекса и корректность результатов поисковых запросов. Основными факторами, снижающими качество поиска, являются различного рода графические шумы:
- печати, содержащие текстовые данные, несущественные для целей поиска;
- подписи и факсимиле;
- резолюции, пометки;
- выделения и подчеркивания текста;
- отображения загибов бумаги, при сканировании бумажного документа;
- плохое качество исходного документа (например, факс).
Шумоподавление направлено на их устранение с наименьшими потерями изображения для улучшения качества извлечения текста путем очистки электронного образа документа от шумов.
Оценка качества распознавания текста
Для достижения поставленных целей исследования прежде всего должно быть формализовано понятие качества процесса распознавания. С точки зрения процесса индексации атомарным объектом, извлекаемым из текста, является лексема. Лексема представляет собой минимальную извлекаемую из текста семантическую единицу. С точки зрения приведенных графических шумов по отношению к изначальному набору лексем возможны следующие ошибки:
- появление лишних лексем из печатей, штампов резолюций;
- искажение существующих лексем;
- отсутствие лексемы вследствие сильного влияния шума.
В качестве примера рассмотрим результаты распознавания фрагмента текста, представленного на рис. 1.
Рис. 1. Фрагмент зашумленного текста
В результате распознавания указанного фрагмента системой ТгеБегай с последуюшей индексацией РоБй^гевд! был получен следующий индекс, рис. 2.
{'0': 4, '00': 1, '17цпиис': 1, '2': 2, '2022': 1, '4': 1, '5': 2, '7': 3, 'а': 1, 'ачальник': 1, 'бобр9нению': 1, 'г': 1, 'д': 1, 'е': 1, 'еет': 1, 'ен': 1, 'заместител': 1, 'знеральн': 1, 'зур': 1, 'м': 1, 'мг': 1, 'морф': 1, 'ова': 1, 'огл': 1, 'оо09': 1, 'опорник-пд-17цпиис': 1, 'орф': 1, 'рен': 1, 'с22': 1, 'сд': 1, 'уомананр': 1, 'ы': 1, 'ьник': 1}
Рис. 2. Результат распознавания фрагмента зашумленного текста
На основании вышеизложенного можно предложить следующие показатели качества процесса распознавания текста в документах: 1) Коэффициент ошибок:
с
а _ error
c
ocr
где cerror - общее количество лексем после распознавания; cocr - количество ошибочно распознанных лексем.
Коэффициент ошибок показывает частоту неверно распознанных лексем после распознавания.
2) Коэффициент точности:
р _
Cwork Cexample
где с„огк - общее количество верно распознанных лексем;
Сехатрк - общее количество лексем в исходном оригинале.
Коэффициент точности показывает соотношение общего количества лексем в оригинале к общему количеству верно распознанных лексем. Чем выше этот показатель, тем ближе полученный индекс к оригинальному тексту 3) Общая эффективность распознавания:
е_сwork
с
осг
где с„огк - общее количество верно распознанных лексем; сосг - общее количество лексем после распознавания.
Общая эффективность распознавания показывает соотношение общего количества верно распознанных лексем к общему количеству лексем после распознавания. Малые значения данного показателя говорят о том, что среди распознанного текста много ошибочно распознанных лексем, которые отсутствуют в исходном тексте.
Графические методы повышения качества распознаваемого текста и их экспериментальная проверка
Для экспериментальной оценки эмпирически были выбраны следующие методы фильтрации изображений образов документов, которые предположительно могут оказать влияние на качество последующего распознавания:
- извлечение объектов черного цвета (основного текста печатного документа);
- удаление объектов синего цвета;
- изменение градации серого цвета в образе документов.
- масштабирование фрагментов текста.
В процессе исследования был поставлен эксперимент обработки десяти тестовых электронных образов документов с использованием описанных выше способов на изображениях в формате png16m в двух разрешениях 150dpi и 300dpi. Документы сканировались, после чего средствами ОрепСУ к ним применялся исследуемый фильтр. После этого документы передавались для распознавания в систему ТеББегай. Полученный текст проходил загрузку и индексацию как полнотекстовое поле в базу данных Postgresql и последующую оценку качества.
В качестве демонстрации рассмотрим подробно процесс исследования фильтра удаления синих объектов из образов. По стандартам ведения документов все подписи и печати должны быть в синих тонах. Поэтому логичным будет попробовать оставить только объекты черного цвета на изображении документа. Очевидно, что эффективность данного
способа будет низкой при работе с ксерокопиями документов или при черно-белом сканировании.
Применение данного подхода к фрагменту, приведенному на рис. 1, показано на рис. 3.
output - О
1 УТВЕРЖД^
'A И.о.генерального ;
IH) ПДО «Интел'
M.B. Вv
Г. « » 2
СОГЛАСОВ^
Генеральный ди
ООО «17 ЦГТ
Рис. 3. Результат удаления объектов синего цвета
Были получены следующие ошибочно распознанные, т. е. отсутствующие в исходном документе, лексемы в виде индекса, рис. 4.
{'2022': 1, '992': 1, 'бл': 1, 'вооранен': 1, 'г': 1, 'заместител': 1, 'й': 1, 'моманац': 1, 'н': 1, 'несдион': 1, 'пло': 1, 'ривис': 1, 'тенеральн': 1, 'ъ': 1}
Рис. 4. Результат распознавания фрагмента без объектов синего цвета
Однако результаты лучше изначальных: коэффициент ошибок составляет 0,15, эффективность распознавания - 0,85 и коэффициент точности - 0,94. При первоначальном коэффициенте ошибок 0,38, эффективности распознавания 0,62 и коэффициенте точности 0,78.
Аналогичные эксперименты были проведены для всех описанных выше фильтров. Результаты представлены на рис. 5 (для разрешения 150dpi) и рис. 6 (для разрешении 300dpi). На графиках представлены средние показатели коэффициентов качества распознавания тестируемых документов.
0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1
Предобработка (150dpi) 0,87 0,93 0,87 0,93 0,90 0,93 0,90 0,92 0,88 0,88
Ж
л
х х^
О*
Jt
Коэффициент эффективности Коэффициент точности Коэффициент ошибок
Рис. 5. График результатов исследования фильтров при разрешении 150dpi
На рис. 5 видно, что при разрешении 150dpi наилучшие результаты получаются при переводе картинки в градации серого - увеличивается коэффициент эффективности и снижается коэффициент ошибок.
Предобработка (300с1р[)
0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0
0,92
0,9 0,86 0,88 " 0'90 0'93 0,90 0,91
Ж
ОС/
г
иг
Коэффициент эффективности Коэффициент точности Коэффициент ошибок
Рис. 6. График результатов исследования фильтров при разрешении 300dpi
Из рис. 6 видно, что при разрешении 300dpi наилучшие результаты получаются при переводе картинки в градации серого, удаления синего и применения масштабирования -увеличиваются коэффициент эффективности и коэффициент точности и значительно снижается коэффициент ошибок.
Заключение
В результате проведенных исследований по обработке разработанным прототипом модуля комплексной фильтрации десяти различных тестовых документов с конвертацией в разные разрешения и форматы изображений можно сделать вывод, что самые высокие показатели качества были получены для форматов изображения png16m в разрешениях 150dpi и 300dpi. Наиболее универсальным методом для различных разрешений является фильтрация градаций серого. Так же при детальном изучении показателей качества, полученных в результате эксперимента, можно отметить, что эффективность того или иного метода фильтрации графических шумов зависит от вида документа, что составляет предмет дальнейших исследований.
Литература
1. ГОСТ Р ИСО 15489-1-2007. Система стандартов по информации, библиотечному и издательскому делу. Управление документами. Общие требования. Введ. 2007-01-01. - М.: ИПК Издательство стандартов, 2007. 19 с.
2. Андреева В. И. Делопроизводство. Изд.6-е, перераб. и доп. - М.: ЗАО "Бизнес-школа "Интел-Синтез", 2005.
3. Документы и делопроизводство: Справочное пособие / Т. В. Кузнецова, М. Т. Лихачев, А. Л. Райхцаум, А. В. Соколов / Сост. М. Т. Лихачев. - М.: Экономика, 2005.
4. ГОСТ Р 51583-2014 Защита информации. Порядок создания автоматизированных систем в защищенном исполнении. Общие положения. Росстандарт, 2014. 14 с.
5. PostgreSQL 10.23 Documentation. The PostgreSQL Global Development Group. Copyright 19962022 The PostgreSQL Global Development Group. - URL: https://postgrespro.com/docs/postgresql/10/functions-textsearch (дата обращения: 20.04.2023)
6. Directum. Цифровизация процессов и документов. Stafilo31 янв 2020. Реализация поиска печатей на OpenCV без нейронок, регистрации и смс. - URL: https://habr.com/ru/company/directum/blog/ 486476 (дата обращения: 20.04.2023)
7. URL: http://mlwiki.org/index.php/Vector_Space_Models (дата обращения: 20.04.2023)
8. URL: https://pyimagesearch.com/2020/09/07/ocr-a-document-form-or-invoice-with-tesseract-opencv-and-python (дата обращения: 20.04.2023)
9. URL: https://docs.opencv.org/3.0.0/d2/d96/tutorial_py_table_of_contents_imgproc. html (дата обращения: 20.04.2023)
10. How to OCR with Tesseract, OpenCV and Python. - URL: https://nanonets.com/blog/ocr-with-tesseract (дата обращения: 20.04.2023)
References
1. GOST R ISO 15489-1-2007. Sistema standartov po informacii, bibliotechnomu i izdatel'skomu delu. Upravlenie dokumentami. Obshchie trebovaniya [A system of standards for information, library and publishing. Document management. General requirements]. Introduction. 2007-01-01. Moscow, IPK Publishing House of Standards, 2007. 19 р. (in Russian).
2. Andreeva V. I. Deloproizvodstvo [Office work]. Moscow, CJSC "Business school "Intel-Synthesis" Publ., 2005. (in Russian).
3. Kuznetsova T. V., Likhachev M. T., Reichtsaum A. L., Sokolov A.V. Dokumenty i deloproizvodstvo: Spravochnoe posobie [Documents and office work: Reference manual]. Moscow, Ekonomika Publ., 2005. (in Russian).
4. GOST R 51583-2014. Zashchita informacii. Poryadok sozdaniya avtomatizirovannyh sistem v zashchishchennom ispolnenii. Obshchie polozheniya [Information protection. The procedure for creating automated systems in a protected version. General provisions]. Rosstandart, 2014. 14 р. (in Russian).
5. Available at: https://postgrespro.com/docs/postgresql/10/functions-textsearch (accessed 20 april
2023)
6. Available at: https://habr.com/ru/company/directum/blog/486476 (accessed 20 april 2023) (in Russian)
7. Available at: http://mlwiki.org/index.php/Vector_Space_Models (accessed 20 april 2023)
8. Available at: https://pyimagesearch.com/2020/09/07/ocr-a-document-form-or-invoice-with-tesseract-opencv-and-python (accessed 20 april 2023)
9. Available at: https://docs.opencv.org/3.0.0/d2/d96/tutorial_py_table_of_contents_imgproc.html (accessed 20 april 2023)
10. Available at: https://nanonets.com/blog/ocr-with-tesseract (accessed 20 april 2023)
Статья поступила 26 апреля 2023 г.
Информация об авторах
Сопин Дмитрий Сергеевич - Начальник сектора. Публичное акционерное общество «Информационные телекоммуникационные технологии» (ПАО «Интелтех»). Область научных интересов: разработка систем электронного документооборота. Тел.: +7(812)448-363-19-26. E-mail: [email protected].
Ткачева Екатерина Александровна - Инженер. ПАО «Интелтех». Область научных интересов: разработка систем электронного документооборота. Тел.: +7(812)448-363-19-26. E-mail: [email protected].
Васильев Николай Владимирович - Кандидат технических наук, доцент. Начальник сектора. ПАО «Интелтех». Тел.: +7(812)448-363-19-26. E-mail: [email protected].
Адрес: 197342, г. Санкт-Петербург, Кантемировская ул., д. 8.
Improving the quality of extracted text from binary images of documents
D. S. Sopin, E. A. Tkacheva, N. V. Vasiliev
Annotation. The constant growth in the volume of information necessary for the management of troops causes an increase in the requirements for the efficiency of automated information systems for military purposes. In order to fulfill these requirements, as well as timely fulfillment of tasks by the military administration bodies, the Ministry of Defense of the Russian Federation uses automated electronic document management information systems in protected execution. Secure electronic document management systems make it possible to ensure the security, reliability and integrity of information at all stages of its transmission, storage and processing. The entry and formation of an electronic document in secure electronic document management systems is carried out through scanning and subsequent indexing processes. The text extracted from the document is used primarily in organizing the search and structuring of the document repository, which are used both in daily activities and in the analytical processing of document arrays in the process of generating summaries. As a consequence, the quality of the document extraction and indexing process ultimately affects the efficiency and efficiency of solving analytical tasks. The main factors that reduce the efficiency of processing are various kinds of marks, resolutions and highlighting in the text of a paper document. In the modern scientific press, this topic is not given sufficient attention to the issue of removing graphic noise from scanned text and the proposed work is designed to fill this gap. The purpose of the article is to develop a method to improve the quality of the document image recognition process. Research methods: the scientific and methodological apparatus of system analysis, methods of image processing and pattern recognition, algorithms and methods of indexing and document search are used in the work. The scientific novelty of the work consists in the development of an integrated approach to filtering graphic noise in the images of documents (signatures, seals, marks). The practical significance of the work lies in the approbation of the proposed approach in a secure electronic document management system.
Keywords: secure electronic document management systems, indexing and search, document indexing quality assessment,document recognition, image filtering.
Information about the authors
Sopin Dmitry Sergeevich - Head of the sector. Public Joint Stock Company "Information Telecommunication Technologies" (PJSC "Inteltech"). Research interests: development of electronic document management systems. Tel.: +7(812)448-363-19-26. E-mail: [email protected] .
Tkacheva Ekaterina Alexandrovna - Engineer. PJSC "Inteltech". Research interests: development of electronic document management systems. Tel.: +7(812)448-363-19-26. E-mail: [email protected].
Vasiliev Nikolay Vladimirovich - Candidate of Technical Sciences, Associate Professor. The head of the sector. PJSC "Inteltech". Research interests: development of electronic document management systems.Tel.: +7(812)448-363-19-26. E-mail: [email protected].
Address: 197342, St. Petersburg, Kantemirovskaya str., 8.
Для цитирования: Сопин Д. С., Ткачева Е. А., Васильев Н. В. Повышение качества извлекаемого текста из двоичных образов документов // Техника средств связи. 2023. № 2 (162). С. 56-62. DOI:1024412/2782-2141 -2023 -2-56-62.
For citation: Sopin D. S., Tkacheva E. A., Vasiliev N. V. Improving the quality of extracted text from binary images of documents // Means of Communication Equipment. 2023. No. 2 (162). Pp. 56-62. D OI : 1 0244 1 2/2782-2141 -2023 -2-56-62 (in Russian).