Научная статья на тему 'Проведение сравнительного анализа двух нейронных сетей East и PSEnet в задаче детекции текста на изображениях прейскурантов'

Проведение сравнительного анализа двух нейронных сетей East и PSEnet в задаче детекции текста на изображениях прейскурантов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
159
18
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
EAST / PSENET / ОБНАРУЖЕНИЕ ТЕКСТА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Марков Андрей Владиславович

Большое разнообразие текстовых шаблонов и сильно загроможденный фон создают основную проблему точной текстовой локализации. В данном исследовании будет проведен сравнительный анализ существующих решений в области обнаружения текста на изображении, таких как EAST и PSENet. Обе модели показали схожие результаты в обнаружении текста. При этом модель EAST имеет преимущество в скорости, а модель PSEnet лучше определяет области текста на низкокачественных изображениях

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Марков Андрей Владиславович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Проведение сравнительного анализа двух нейронных сетей East и PSEnet в задаче детекции текста на изображениях прейскурантов»

Обе модели показали близкие результаты. CRAFT способен находить отдельные символы, в то время как EAST скорее всего пропустит их. Также CRAFT находит слова более аккуратно, чем EAST. Но в то же время ориентация боксов отдельных слов текста у CRAFT порой менее стабильна, если слова имеют короткую длину. Также CRAFT лучше себя показывает на менее качественных фотографиях, в то время как EAST не находит на них текст, или находит только крупный. Если же говорить с точки зрения практического применения, то EAST показывает лучшее время на CPU, а CRAFT на GPU. При этом, скорость работы EAST на CPU соизмерима со скоростью работы CRAFT на GPU. Таким образом, решение с EAST будет дешевле с точки зрения эксплуатации модели.

Заключение

Таким образом, был проведен эксперимент по сравнению двух методов детекции текста: EAST и CRAFT. В результате эксперимента была выявлено, что CRAFT показал более качественный и устойчивый результат, чем EAST, но с другой стороны EAST более дешевый в эксплуатации. В качестве улучшения можно обучить модели на данном датасете, а также попробовать обучить модели с другими параметрами обучения, учитывая особенности датасета.

Список литературы

1.Baek Y, Lee B, Han D, et al (2019) Character Region Awareness for Text Detection. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). doi: 10.1109/cvpr.2019.00959

2.Graves A, Fernández S, Gomez F, Schmidhuber

J (2006) Connectionist temporal classification. Proceedings of the 23rd international conference on Machine learning - ICML '06. doi: 10.1145/1143844.1143891

3.He K, Zhang X, Ren S, Sun J (2016) Deep Residual Learning for Image Recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). doi: 10.1109/cvpr.2016.90

4.He P, Huang W, He T, et al (2017) Single Shot Text Detector with Regional Attention. 2017 IEEE International Conference on Computer Vision (ICCV). doi: 10.1109/iccv.2017.331

5.Liu X, Liang D, Yan S, et al (2018) FOTS: Fast Oriented Text Spotting with a Unified Network. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. doi: 10.1109/cvpr.2018.00595

6.Long J, Shelhamer E, Darrell T (2015) Fully convolutional networks for semantic segmentation. 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). doi: 10.1109/cvpr.2015.7298965

7.Zhou X, Yao C, Wen H, et al (2017) EAST: An Efficient and Accurate Scene Text Detector. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). doi: 10.1109/cvpr.2017.283

8.Kye-Hyeon Kim, Sanghoon Hong, Byungseok Roh, Yeongjae Cheon, Minje Park (2016) PVENet: Deep but Lightweight Neural Networks for Real-time Object Detection.

9.Karen Simonyan, Andrew Zisserman (2014) Very Deep Convolutional Networks for Large-Scale Image Recognition

10.Afzal Godil Patrick Grother Mei Ngan The Text Recognition Algorithm Independent Evaluation (TRAIT)

ПРОВЕДЕНИЕ СРАВНИТЕЛЬНОГО АНАЛИЗА ДВУХ НЕЙРОННЫХ СЕТЕЙ EAST И PSENET _В ЗАДАЧЕ ДЕТЕКЦИИ ТЕКСТА НА ИЗОБРАЖЕНИЯХ ПРЕЙСКУРАНТОВ._

Марков Андрей Владиславович

студент,

Челябинский государственный университет, Россия, г. Челябинск

АННОТАЦИЯ

Большое разнообразие текстовых шаблонов и сильно загроможденный фон создают основную проблему точной текстовой локализации. В данном исследовании будет проведен сравнительный анализ существующих решений в области обнаружения текста на изображении, таких как EAST и PSENet. Обе модели показали схожие результаты в обнаружении текста. При этом модель EAST имеет преимущество в скорости, а модель PSEnet - лучше определяет области текста на низкокачественных изображениях.

Ключевые слова: EAST, PSENet, обнаружение текста

Введение

В настоящее время решение задачи чтение текста привлекает всё больше исследователей в области компьютерного зрения. Во многом, это связанно с многочисленным практическим применением и ростом требований бизнеса в сокращении издержек посредством внедрения технологий компьютерного зрения. Эта задача включает в себя две подзадачи: обнаружение и распознавания текста. Данная работа фокусируется на задачах обнаружения которая является более

сложной, чем задача распознавания, выполненная на обрезанной части изображения, содержащая слова. Большое разнообразие текстовых шаблонов и сильно загроможденный фон создают основную проблему точной текстовой локализации.

Обзор

Во многом большой прорыв в решении задачи детекции текста заключается в том, что появились большие наборы размеченных данных, на которых исследователи могут строить свои модели и сравнивать их между собой. Таким набором данных

являются датасеты COCO-TEXT[12], ICDAR[13], MSRA-TD500[14]. Изображения здесь представляют собой текст в различной среде, а разметкой являются полигоны, в которые заключены отдельные слова. Особенностью таких датасетов являются то, что текст может иметь различный размер, форму, цвет, ориентацию в пространстве, различный цвет фона и т.д. Такие особенности сильно отличают данную задачу от задачи, к примеру, детекции текста на документах. Также накладываются дополнительные требования к стандартным методам и моделям детекции объектов на изображении. Так, существует несколько подходов к решению данной задачи:

1.Подходы основанные на сегментации

2.Подходы основанные на детекции

3.Класс моделей, которые решают задачу детекции текста на уровне символов, а не слов.

4.Подход end-2-end для решения задачи распознавания текста. Здесь модели, как правило, состоят из двух частей. Первая часть решает задачу детекции, а вторая часть распознает текст. Такой подход требует больше данных, но есть вероятность, что две части, обучаясь вместе, будут лучше, чем если бы они обучались по отдельности.

Одной из попыток применить фреймворк детекции объектов к задаче детекции текста является модель CTPN[5]. Авторы использовали идеи архитектуры Faster-RCNN[4] и немного модернизировали их под особенности текста. Основа модели состоит из сети VGG-16[11]. Дальше, к каждому горизонтальному ряду признаков полученной карте признаков применяется слой BiLSTM. Выход BiLSTM дальше передается в Dense слой, где уже предсказываются координаты контуров текста. Такое решение дано F-score 0.61 на датасете ICDAR 2015.

Модель EAST[8] является Fully Convolutional Network[9] с пробросом слоев на базе PVANet[10]. На конце PVANet есть два выхода: первый выход предсказывает начальные координаты бокса, его ширину, высоту и угол поворота, а второй выход предсказывает координаты четырех точек, то есть 8 чисел. Дальше, результаты модели проходят через Non-Maximum Suppression для удаление лишний найденный областей. Стоит заметить, что добавление в обучение угла поворота или четырех точек позволяет модели детектить текст сложной ориентации. Такой подход позволил авторам получить F-score на датасете ICDAR 2015 равным 0.8072.

Одна из моделей, основанной на сегментации, является решение PSENet[6]. Основа архитектуры модели состоит из Feature Pyramid Network[3],

которая возвращает несколько карт признаков разного масштаба. В дальнейшем, эти карты признаков объединяются с помощью Progressive Scale Expansion Algorithm, который основан на алгоритме поиска в ширину. Таким образом, данный подход основан на сегментации изображения и применении алгоритма поиска и разделения областей текста между собой. Значение F-score метрики на датасете ICDAR 2015 равно 0.8721, что заметно лучше чем у EAST.

Один из подходов, который не только находит текст, но и распознает его является CHARnet[7]. В качестве основы архитектуры используются сети ResNet-50[1] и Hourglass[2], после которых есть две ветки распознавания. Первая ветка реализует обнаружения текста на уровне слов, вторая же, находит текст на уровне символов, что позволяет данной модели еще и распознавать текст. Наилучшая реализация данной архитектуры дает F-score на ICDAR 2015 равный 0.9097, что является SOTA на текущий момент. Стоит заметить, что для обучения такой модели необходима разметка на уровне отдельных символов. Поэтому авторами статьи также был реализован фреймворк по генерации данных.

Используемые данные

Для проведения сравнительного анализа использовались изображения прейскурантов табачной продукции крупных продуктовых ритейлеров России. В тестовом датасете содержится 403 изображения. Данные изображения были размечены с помощью сервиса "Yandex OCR", а в местах пропуска - вручную. Разметка представляет собой файл с расширением ".txt" в котором содержатся координаты областей, содержащие текстовые данные. Данные изображения могут содержать различного рода артефакты (отражение света от прозрачной поверхности, под которой находятся прейскурант, размытие вследствии отсутствие фокусировки в момент фотографирования, наличие на данной поверхности областей загрязнения и т.д.)

Кроме того, особенностями данных изображений прейскурантов табачной продукции являются:

-несколько страниц на одном листе, -альбомная или книжная ориентация, -расположение текста в таблице с отсутствующими границами и т.д.

Средний размер изображения в данном датасете составляет в ширину 785 px, в длину 990 px. Минимальный и максимальный размер изображений (547, 410), (1038, 1578) соответственно.

ротманс деми аэро сигареты ротманс деми клик сигареты ротманс деми мелоу сигареты ротманс деми плюс блю сигареты ротманс деми сигареты ротманс деми сильвер сигареты ротманс рояле деми сигареты

I ротманс суперслимс блю/клик сигареты • рояле блю сигареты рояле деми клик сигареты I рояле ред сигареты . русский стиль сигареты компакт блю

112 112

106 105 111 100

96 90 96 123

оачнои продукции_

Наименование

силк от шуанси сигареты тройка сигареты филип морис сигареты яркий филип моррис блю сигареты филип моррие голд сигареты филип моррис дарк блю сигареты филип моррис компакт блю сигареты филип моррис компакт премиум микс филип моррис компакт солнечный сигареты честерфилд блю сигареты честерфилд РВД сигареты эссе блю суперелим сигареты эссе эксченж сигареты ява белое золото классическая сигареты

Цоня(руб

I 90 | 92 ~ I 94 95 ;

90 142 135 120 130 90

Рисунок 1. Пример изображения прейскуранта

200 400 600 800 1000

Рисунок 2. Пример изображения прейскуранта с разметкой

Описание эксперимента

В рамках данной работы решено было сравнить подходы детекции и сегментации: EAST, как модель детекции текста и PSEnet, как модель сегментации. В исследовании использовалась реализация модели EAST

(https://github.com/argman/EAST), предобученная

на наборах данных ICDAR-2013 и ICDAR-2015, и реализация модели PSEnet

(https://github.com/rahzaazhar/PAN-PSEnet), предообученная на наборе данных ICDAR-2019.

При обучении модели PSEnet были заданы следующие параметры: img_size=640,

leaming_rate=1e-3. В качестве основы архитектуры

используются сеть ResNet-50[1]. При обучении модели EAST были заданы следующие параметры: img_size=512, learning_rate=0.0001. Аналогично PSEnet, авторы EAST использовали сеть ResNet-

50[1].

Для проведения исследования задачи обнаружения текста на изображениях прейскурантов табачной продукции в качестве оценки результатов работы выбранных моделей использовалась метрики Precision, Recall и F measure. Оценка точности между предсказанными координатами и истинными проводилась по средством Intersection over Union (IoU). Критерий

перекрытия двух ограничивающих блоков был задан на уровне 0,5.

Для сравнения скорости обнаружения текста у двух моделей использовался ПК со следующими техническими характеристиками: Intel® Core™ i5-4670K CPU 3.40GHz x 4, ОЗУ 16 Гб. Обнаружение текста осуществлялось на CPU.

Время обнаружения текста у модели PSEnet в среднем составило 46.257 сек./изображение, в то время как у модели EAST 1.3217 сек./изображение.

Оценки качества выбранных моделей представлены в таблице 1.

Таблица 1 Метрики моделей

Модель Precision Recall F measure

EAST 0.93597 0.8928 0.91196

PSEnet 0.94199 0.9102 0.92429

Обнаруженные текстовые области, предсказанные выбранными моделями, представлены на рисунке 3.

Рисунок 3 Пример детекции текста на изображении без артефактов

В ходе анализа ошибок выяснилось, что модель PSEnet, по сравнению с EAST, гораздо лучше справляется с обнаружением текста на изображениях плохого качества, имеющих различного рода артефакты. При этом, EAST имеет более стабильную ориентацию боксов, особенной в это заметно в близко расположенных словах. Такая "аккуратность" модели EAST в дальнейшем может дать преимущество при решении задачи распознавании текста. Кроме того, скорость работы EAST значительно превышает скорость работы модели PSEnet.

Заключение

Несмотря на то, что модель PSEnet при предсказании на датасете ICDAR 2015 показала лучшую метрику F-score, по сравнению с EAST, а именно 0.8721 против 0.8072 у EAST, в данном исследовании обе модели показали близкие результаты. В дальнейших исследованиях предлагается произвести дообучение данных моделей на изображениях прейскурантов табачной продукции с целью улучшения результатов обнаружения текста. Также рекомендуется исследовать возможность развертывания, выбранных в исследовании моделей, на серверных CPU и/или GPU с целью практического применения обнаружения текста на прейскурантах.

Список литературы

1.He, Kaiming, et al. "Deep Residual Learning for Image Recognition." 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),

2016, doi:10.1109/cvpr.2016.90.

2.Law, Hei, and Jia Deng. "CornerNet: Detecting Objects as Paired Keypoints." International Journal of Computer Vision, vol. 128, no. 3, 2019, pp. 642-656., doi:10.1007/s11263-019-01204-1.

3.Lin, Tsung-Yi, et al. "Feature Pyramid Networks for Object Detection." 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, doi:10.1109/cvpr.2017.106.

4.Ren, Shaoqing, et al. "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks." IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 39, no. 6, 2017, pp. 11371149., doi:10.1109/tpami.2016.2577031.

5.Tian, Zhi, et al. "Detecting Text in Natural Image with Connectionist Text Proposal Network." Computer Vision - ECCV 2016 Lecture Notes in Computer Science, 2016, pp. 56-72., doi:10.1007/978-3-319-46484-8_4.

6.Wang, Wenhai, et al. "Shape Robust Text Detection With Progressive Scale Expansion Network." 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, doi:10.1109/cvpr.2019.00956.

7.Xing, Linjie, et al. "Convolutional Character Networks." 2019 IEEE/CVF International Conference on Computer Vision (ICCV), 2019, doi:10.1109/iccv.2019.00922.

8.Zhou, Xinyu, et al. "EAST: An Efficient and Accurate Scene Text Detector." 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),

2017, doi:10.1109/cvpr.2017.283.

9.Jonathan Long, Evan Shelhamer, Trevor Darrell "Fully Convolutional Network for Semantic Segmentation", https://arxiv.org/pdf/1411.4038.pdf

10.Kye-Hyeon Kim, Sanghoon Hong, Byungseok Roh, Yeongjae Cheon, Minje Park, at al. "PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection", https://arxiv.org/pdf/1608.08021 .pdf

11.Karen Simonyan, Andrew Zisserman, et al. "Very Deep Convolutional Networks for Large-Scale Image Recognition", https://arxiv.org/pdf/1409.1556.pdf

12.Andreas Veit, Tomas Matera, Lukas Neumann, Jiri Matas, Serge Belongie "COCO-Text: Dataset and

Benchmark for Text Detection and Recognition inNatural Images",

https://arxiv.org/pdf/1601.07140.pdf

13. D. Karatzas, L. Gomez, A. Nicolaou, S. Ghosh, A. Bagdanov, M. Iwamura, J. Matas, L. Neumann, V.R. Chandrasekhar, S. Lu, F. Shafait, S. Uchida, E. Valveny "ICDAR 2015 Competition on Robust Reading", https://rrc.cvc.uab.es/files/Robust-Reading-Competition-Karatzas.pdf

14.Cong Yao, Xiang Bai, Wenyu Liu, Yi Ma, Zhuowen Tu "Detecting Texts of Arbitrary Orientations in Natural Images", https://ieeexplore.ieee.org/document/6247787

ОРГАНИЗАЦИЯ ТЕХНИЧЕСКОГО НАДЗОРА С ПОМОЩЬЮ В1М-ТЕХНОЛОГИЙ ПРИ СТРОИТЕЛЬСТВЕ НЕФТЕПЕРЕРАБАТЫВАЮЩЕГО ЗАВОДА_

Соколов Николай Сергеевич

кандидат технических наук, доцент ФГБОУ ВО «Чувашский государственный университет имени И.Н. Ульянова» (428015, Россия, Чувашская Республика, г. Чебоксары, Московский пр., 15).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Михайлова Светлана Валерьевна, магистрант ФГБОУ ВО «Чувашский государственный университет имени И.Н. Ульянова» (428015, Россия, Чувашская Республика, г. Чебоксары, Московский пр., 15).

АННОТАЦИЯ

Статья посвящена организации технического надзора с помощью BIM-технологий. Рассматривается внедрение программного комплекса «Строительный контроль» для технического надзора при строительстве комплекса нефтеперерабатывающих и нефтехимических заводов «ТАНЕКО».

ANNOTATION

The article is devoted to the organization of technical supervision using BIM technologies. The article considers the implementation of the "Construction control" software package for technical supervision during the construction of the TANECO complex of oil refineries and petrochemical plants.

Ключевые слова: технический надзор, BIM-технологии, строительный контроль, нефтеперерабатывающий завод.

Keywords: technical supervision, BIM technologies, construction control, oil refinery.

Качество, безопасность и надежность являются главными характеристиками

строительства зданий и сооружений. В настоящее время появляется много организаций, специализирующих на строительно-монтажных работах, но не всегда они уделяют повышенное внимание качеству своей работы. В связи с этим возрастает соблюдение требований действующего законодательства в области строительства и повышения уровня контроля. Контроль над качеством объектов строительства заключается в проверке соответствия строительно-монтажных работ требованиям проектов, СНиП и ГОСТов.

Проверка соответствия строительства возводимых зданий и сооружений градостроительным требованиям осуществляется с помощью строительного контроля и государственного строительного надзора.

Основные правовые нормативные документы по контролю и надзору в строительстве являются:

• Градостроительный кодекс Российской Федерации от 29.12.2004 №190-ФЗ (ред. от 27.12.2019)

• Федеральный закон от 30.12.2009 №384-ФЗ «Технический регламент о безопасности зданий и сооружений [4].

Согласно ст.54 ГрК РФ государственный строительный надзор осуществляется:

при строительстве объектов капитального строительства, проектная документация которых подлежит экспертизе;

при реконструкции объектов капитального строительства, капитальном ремонте объектов капитального строительства, если проектная документация на осуществление реконструкции объектов капитального строительства подлежит государственной экспертизе [2].

Согласно ст.39 Федерального закона №384-Ф3 строительный контроль и государственный строительный надзор являются обязательными формами оценки соответствия зданий и сооружений, а также связанных со зданиями и сооружениями процессов проектирования, строительства, монтажа, наладки и утилизации (сноса) [5].

i Надоели баннеры? Вы всегда можете отключить рекламу.