Секция «Программные средства и информационные технологии»
УДК 004.9
ПРИМЕНЕНИЕ ИНТЕЛЛЕКТУАЛЬНОЙ СИСТЕМЫ ДЛЯ СЕГМЕНТАЦИИ
ТЕКСТОВЫХ ДОКУМЕНТОВ
М.А. Поздняков Научный руководитель - М.Н. Фаворская
Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
Е-mail: garrys505@gmail.com
Подпись является одним из основных реквизитов документа, подтверждающие его действительность. Обнаружение реквизитов документа способствует решению задачи верификации, так как позволит идентифицировать подпись на любом участке документа без участия человека. Рассматриваются методы для решения задачи детекции на двумерном изображении.
Ключевые слова: детекция, классификация, идентификация, интеллектуальные системы, нейронные сети.
APPLICATION OF THE INTELLIGENT SYSTEM FOR SEGMENTATION OF TEXT
DOCUMENTS
М.А. Pozdnyakov Scientific supervisor - М.N.Favorskaya
Reshetnev Siberian State University of Science and Technology 31, Krasnoyarskii rabochii prospekt, Krasnoyarsk, 660037, Russian Federation Е-mail: garrys505@gmail.com
The signature is one of the main details of the document, confirming its validity. The detection of document details contributes to the solution of the verification problem, since it will allow identifying the signature on any part of the document without human. Methods are being explore for solving the problem of detection on a two-dimensional image are considered.
Keywords: detection, classification, identification, intelligent systems, neural networks.
Обнаружение объектов на изображении является одной из главных проблем в области машинного обучения, где требуется отслеживать положение объектов, основываясь на информации, полученной с видеокамер, например автопилотирование. Эту задачу можно рассмотреть в другой области практики - обнаружение реквизитов на юридическом документе. Рукописная подпись является важной частью реквизита документа, что в совокупности с другими атрибутами придает документу юридическое значение, однако она подвержена риску фальсификации, из-за чего случаются случаи мошенничества. Решение этой задачи позволит интеллектуальной системе обнаруживать подпись в документе среди других реквизитов, чтобы в последующем выполнить процесс верификации.
Суть задачи детекции объектов заключается в следующем. Необходимо выделить объекты на изображении с помощью ограничивающих рамок, и присвоить выделенным объектам метки из категории известных классов. Основное отличие от задачи классификации состоит в том, что число возможных объектов на изображении заведомо неизвестно [1].
Актуальные проблемы авиации и космонавтики - 2021. Том 2
Первым подходом к решению задачи является метод скользящего окна. В этом подходе устанавливается ограничительная рамка, которая при каждой итерации меняет свое местоположение. Все полученные данные внутри рамки отправляются классификатору, чтобы установить принадлежность к классу. Если полученный результат был успешный, то координаты текущей рамки и метка класса сохраняются. Данный подход неэффективен, потому что является вычислительно дорогим, так как не учитывается масштаб и соотношение сторон изображения, что при полном переборе может занимать большое количество времени [2].
Для уменьшения количества рассматриваемых рамок был предложен иной подход, основывающийся на сверточных нейронных сетях R-CNN (Region-based convolutional network). Этот метод заключается в двух этапах. На первом этапе выделяются регионы интереса - области, с высокой вероятностью содержащие внутри себя объекты. На втором этапе выбранные регионы определяются классификатором. Нахождение регионов интереса выполняется посредством алгоритма селективного поиска, основанного на сегментации изображения (Рисунок 1). Полученные регионы, используя аффинные преобразования, приобретают новый размер, чтобы пройти сквозь сверточную нейронную сеть и составить вектор признаков для классификатора [3].
теТ'ф&бряли fuSts 'ttfrj/i I Dipt
(ПНИ з вал
J-Xßftl "
HOiHrMIBBPIV I
*Л
muaitj (в см индий''от roth
«ГШ "ЖтдеРООР «ЮТИЕМ мрв
^Ча шеи а (Мй#/з
Utrxaia
fiUMoiu_fluinu ''""/
фшВ» 1И1 КчД ibwtvtt-Tjo
MS СТО гокясчш _
IHM InpH ifflilll; _
f крешер № '¡ШйУ* j
lüjflb....^ f) 0 Cft&pr
Нр*П1СТрШН|0 П1Н ШГ] li^cfitll
ЛОГуНМТ, ¡ЛКММрШ
№ /r/IC!
m i>? » m> m. _ faß
ааж
rVliilVCilAMUK S&VTii)
i ДЩИВД I 4Й«сн«я*тх 7*ГПИВИЫ( ШВ1ЧМ (nfrdfpJUMIkl-MUllfirniW кгрслстоо, юяииумк Я QkTOH □КТаШНИВШО Ö3M»-i;r«;irir-i «4СП^НМНМ ill» lettspJHO« МПЧЙ "-ПКПрЛПЮ! 1Ш№К C.l 1H KIR ШН|$>-«Ли:1
(мрчмрйыши я ■ fXTwpan Jiiirpt-iasfl падл,*«. шифре юти ж пишлочеим г ьишшкшга) ¡фицмпшжйП VPKUrm ПЛО С6я*™>, • ^-ГОНИМН Двг-лирзда^.^очтогр-бвничк™™ обыденки*»
i., ПДОМШПЬ XllDLtf KIM 111 е:|1Г1|ф4|К111)ЭО UI№ll Г1рС*>=рЫ| J-^-4|:ii.,iiiFi ЦЧЛЖПЖ11 II Ш||£р<>Нлн»
ДЛ.ТЯЖ лпнрепйнн ^ipici|i<Hiria «а e-ieaiwniir fitit
wt «Q 70ew Ö&ÖOWWÜÖÖßr) о___
rlltwrwiHH» II-.-. аппип ЛОКрвШШ*« .r Mre-r-fcj ГК РгрмжргШ tpyim Ji
I Iciaiiiiitlki дшОД ПМучавшо: jpicfKinmn, УДОСТОВЕРЬ НЕМ)
---.--------......-.T...W.J —~ ... ^.^^-.....V.., «ЛАМ,1
^eibnoi^ .Jrempöi ftxtrtfl fllm#£>$u
/ ^-.JviV , «<«mkiтЛс ымяглk< нлА, vw
1
I I/ « \ Л. 1 lulil 14 "I. _
k^^fe^^r-- I ~i -1
{ЩщДЫге I г Щр,MutSXiij-'.: . Ttnfmi fJtäaJ/r)£Jct L itwtf&fUffiQ HI
:'инн WviJGOav&rt *vrm ItcpHiB-^K^I »pj
* *----(tls) ЙЛ. IJ . U,! Ah /Л/i - 1-1
Рис. 1. Пример работы селективного поиска
В данной модели в качестве классификатора выступает метод опорных векторов (SVM), а архитектуру сверточиой нейронной сети можно увидеть на рисунке 2.
Pooling
"TT
Мах Pooling
- \
13
Dense Dense
256
Dense
Мах Доде 4096 Pooling
Local Response Local Response Normalization Normalization
Рис. 2. Архитектура сверточной нейронной сети «CaffeNet»
Секция «< П р о граммные е редст в а i и информацио нньее те х н о ло е и и » <
Для работы сети необходимо подготовить соответствующий датасет, состоящий из обучающегося и тестового набора сканированных изображений документов, в которых определены различные реквизиты. Основной целью является научить данную модель определять объект-подпись на документе. Слабым местом этой системы является алгоритм селективного поиска, так как можно заметить большое число генераций регионов, что может повлиять на время обучения классификатора [4].
Данный подход имеет множество модификаций, которые улучшают быстродействие алгоритма. На текущий момент актуальной версией является Mask R-CNN, в которой регионы предсказываются по признакам исходного изображения с помощью отдельного модуля - сверточной нейронной сети, и добавляется маска объекта - прямоугольная матрица для вычисления принадлежности пикселя к текущему объекту. Эта модель является эффективным средством для решения задачи детекции, и ее внедрение в систему верификации, в частности в систему верификации рукописной подписи, позволит автоматизировать процесс выделения нужных объектов на изображении.
Библиографические ссылки
1. Станкевич Л. А. Интеллектуальные системы и технологии. М.: Юрайт, 2016. 188 с
2. Желтов С.Ю. Обработка и анализ изображений в задачах машинного зрения. М.: Физматкнига, 2010. 672 с.
3. Girshick R., Donahue J., Darrell T., Malik J. Region-based convolutional networks for accurate object detection and segmentation //Transactions on Pattern Analysis and Machine Intelligence (TPAMI). 2015. Т. 38, C. 142-158.
4. Girshick R. Fast R-CNN //2015 IEEE International Conference on Computer Vision (ICCV). - IEEE, Santiago, Chile, 2015, C. 1440-1448.
© Поздняков М.А., 2021