УЛУЧШЕНИЕ КАЧЕСТВА ПОИСКА ШТРИХОВЫХ КОДОВ С ПОМОЩЬЮ СЛАБО-РАЗМЕЧЕННЫХ ДАННЫХ

Звонарев Дмитрий Анатольевич

Звонарев Д.А. УДК 004.932.2

DOI:10.38028/ESI.2022.27.3.017

Улучшение качества поиска штриховых кодов с помощью слабо-размеченных данных Звонарев Дмитрий Анатольевич

Московский физико-технический институт (национальный университет), Россия, Москва, dmitry.zvonorev@phystech.edu

Аннотация. Подходы к обучению нейросетевых моделей поиска со слабо-размеченными данными используются, когда большое количество размеченных данных недоступно. Результаты экспериментов в различных исследованиях показывают, что качество моделей, обученных подобным способом, не превосходит качество моделей, обученных с использованием полной разметки. Представленный в данной работе подход позволяет улучшить качество поиска штриховых кодов и сократить затраты на получение разметки при использовании небольшого количества размеченных данных. Качество модели, обученной только на небольшой части (169 примеров) полностью размеченных данных: Precision = 0.627, Recall = 0.869, F1 = 0.728, качество классификации объектов независимо от их типа: Accuracy = 0.624. Качество улучшенной модели, обученной на искусственной разметке (2531 примеров) и настроенной на полностью размеченных данных (169 примеров): Precision = 0.856, Recall = 0.892, F1 = 0.874, качество классификации объектов независимо от их типа: Accuracy = 0.924.

Ключевые слова: сверточная нейронная сеть, штриховой код, штрихкод, баркод, слабо-размеченные данные, глубокое обучение, детектирование, поиск объектов, самообучение

Цитирование: Звонарев Д.А. Применение слабо-размеченных данных для улучшения качества поиска штриховых кодов / Д.А. Звонарев // Информационные и математические технологии в науке и управлении. - 2022. - № 3(27). - С. 184-191. - DOI: 10.38028/ESI.2022.27.3.017.

Введение. Современные методы поиска объектов на изображениях не обходятся без использования нейронных сетей. Такие подходы требуют большого количества размеченных данных для получения модели высокой точности. Разметка состоит из регионов объектов, с указанием класса объекта. Обычно такая разметка обладает высокой стоимостью, более того, если появляется новый класс объекта, то приходится пересмотреть все размеченные изображения, чтобы найти регионы для нового класса. Часто разметка бывает не точной. Поэтому задача обучения модели поиска объектов без разметки (или с ограниченным количеством размеченных примеров) является актуальной.

В последнее время становятся востребованными методы обучения с помощью слабо-размеченных данных [1-8] и методы самостоятельного обучения [9-11]. В статье будут рассмотрены методы из первой категории. Они не требуют наличия в разметке регионов объектов, необходимы только метки на уровне изображения. Если объект определенного класса присутствует на изображении, то добавляется соответствующая метка. Такую разметку получить просто: достаточно найти все изображения, содержащие объект, и поместить в один каталог.

Рассмотрим несколько наиболее распространенных публичных наборов данных. Обратимся к данным PASCAL VOC 2012 [11]. Работа [12] являлась последним достижением в задаче поиска объектов. Исследователи получали высокое качество mAP = 80%. В работе [13] со слабо-размеченными данными достигалось качество mAP = 53.6%. На наборе данных COCO [14] авторы работы [15] обучили модель, достигающую качества AP50 = 74.4%. В работе [16], которая также являлась последним достижением, при использовании слабо-размеченных данных исследователи получили качество AP50 = 24.8%. Можно заметить, что модели, полученные при обучении с использованием слабо-размеченных данных, не превосходят по качеству модели, обученные на полностью размеченных данных.

Выдвинем гипотезу о том, что методы, обученные на большом количестве слабо-размеченных данных, смогут помочь методам, обученным на небольшом количестве полно-

стью размеченных данных, достичь высокого качества поиска объектов. Данная гипотеза будет проверена в контексте задачи поиска штриховых кодов (штрихкодов) на изображениях.

Объект «штрихкод» широко используется в документах. Важно точно находить границы штриховых кодов для корректного распознавания и извлечения из них полезной информации. Получить большое количество размеченных изображений документов со штрихкода-ми сложно, так как количество различных типов штрихкодов велико и процесс разметки всех объектов является дорогостоящим.

1. Современные методы поиска объектов. Рассмотрим две категории подходов: обучение со слабо-размеченными данными и обучение с полностью размеченными данными.

В первой категории можно выделить работы [1-4]. Авторы работ используют механизмы выдвижения гипотез объектов на изображении. После этого нейросетевая модель обучается как классификатор с меткой на уровне изображения. Качество каждой гипотезы оценивается на промежуточном этапе метода. В итоге, гипотеза с наибольшей вероятностью становится искомым объектом. Другое множество работ [6-7] основывается на работе [5]. В исследованиях используется карта активации классов, которая получается линейной комбинацией карт признаков (с последнего сверточного слоя) с соответствующими классу весами в полносвязном слое. На этой карте будут подсвечены наиболее отличительные части объекта. Полученную карту можно бинаризовать, и выделить на ней связные компоненты. Так формируются искомые объекты на изображении.

Во второй категории находятся все нейросетевые механизмы поиска, широко используемые в исследованиях, например [12], [15], [17].

Если рассматривать штриховые коды, то последним достижением являлась работа с нейронной сетью семантической сегментации [17]. Данная модель способна находить сразу несколько типов штриховых кодов на изображениях и классифицировать их. В работе [18] представлена модель, которая обучалась при помощи слабо-размеченных данных. Подход основан на методе построения карты активации классов. Полученная модель способна находить штриховые коды разных типов. Работа [18] обозначает первый результат в контексте поиска штриховых кодов со слабо-размеченными данными.

В текущем исследовании будет рассмотрена комбинация подходов [17] и [18] для увеличения качества поиска штрихкодов на небольшом количестве полностью размеченных данных.

2. Улучшение качества поиска штрихкодов.

2.1. Модель поиска на размеченных данных. В качестве модели поиска штриховых кодов, которая будет обучаться на размеченных данных, рассмотрим семантическую сегментацию [17]. Перед запуском нейросети изображение масштабировалось таким образом, чтобы наибольшая сторона не превосходила 1024 пикселей, и размеры сторон были кратны 64 пикселям. Работа производится с полутоновым изображением в градациях серого, сигнал которого нормируется в диапазон [-1, +1]. Архитектура модели совпадает с архитектурой нейросети DilatedModel из работы [19]. Последний слой состоит из свертки размером 1х1 и 8 каналов: 1 канал для получения карты сегментации с двумя классами: штрихкод, все остальное, 7 каналов для получения карты сегментации по каждому классу штрихкода: одномерные штриховые коды, почтовые, DataMatrix, Aztec, Maxicode, PDF417, QR. Каждый из 7 каналов сегментирует на два класса: штрихкод, все остальное.

Чтобы получить координаты штрихкода, нужно получить результат работы нейросети, и бинаризовать его. После этого нужно найти связные компоненты и построить вокруг них повернутые прямоугольники минимальной площади. Для получения класса объекта - нужно наложить эти прямоугольники на карты классификации и рассчитать среднее значение веро-

ятности. Класс, для карты которого получится наибольшее среднее значение вероятности будет искомым.

2.2. Описание эксперимента. Введем обозначения. Реальная разметка - разметка, полученная экспертом, в виде координат вершин четырехугольника. Также реальная разметка должна содержать класс объекта. Искусственная разметка - разметка, полученная методом WSBD-S [18]. Она также содержит координаты четырехугольников и класс каждого объекта.

Обозначим модель, которая обучена на реальной разметке, как Supervised. Модель, которая обучена на искусственной разметке, обозначим как Pretrained. Параметры данной модели будут настроены на реальной разметке. Стоит отметить, что получить модель, обученную с использованием искусственной разметки, можно несколькими способами. Первый способ - смешать искусственную и реальную выборку и обучить на получившимся множестве модель. Второй способ - модель Pretrained обучить на реальной разметке с низким темпом обучения. Схема эксперимента изображена на рисунке 1.

Рис. 1. Схема эксперимента по выявлению экономического эффекта На первом этапе задаем количество разбиений D рабочего набора данных на 2 части: В - не размеченная часть изображений, А - полностью размеченная часть изображений. Затем, производим разбиения данных. Часть В будет размечена подходом WSBD-S [18], часть А останется с полной разметкой. На втором этапе для каждого разбиения получаем качество поиска нейронной сетью при обучении на наборе данных А. Далее, обучаем модели на данных B, после чего настраиваем на данных A. Получаем качество поиска настроенной модели. Третий этап является этапом анализа. Необходимо сравнить качество модели из пункта 4 и качество модели из пункта 2 и выяснить, подтверждается ли гипотеза экспериментом.

2.3. Обучение нейросетевой модели. Обучение происходит на протяжении 50 эпох. Размер пакета изображений - 8. При обучении Pretrained, Supervised моделей темп обучения устанавливается 0.001. В качестве функции потерь во всех моделях используется линейная комбинация функций потерь L из работы [17]:

wde t(wpLp + WnLn + + Wn + Wh) + Wc 1SLC is

L =

wd e t + wc is

Lv - значение BinaryCrossEntropy на пикселях, которые были классифицированы верно, Ln - значение BinaryCrossEntropy на пикселях, которые были классифицированы неверно. Lh - значение BinaryCrossEntropy на хуже всех классифицированных положительных пикселях. Lcls - значение CrossEntropy, посчитанной по всем каналам кроме канала детектирования. Значение этой функции рассчитывается только на тех пикселях, что принадлежат объектам в разметке. Параметры из функции потерь используемые в эксперименте: wde t = 2 0 , wc ls = 1 , wp = 1S , wn = 1 , wh = 3 . В качестве алгоритма оптимизации используется Adam.

Для проведения экспериментов использовалась искусственная часть набора данных ZVZ [19]. Было замечено, что для получения высокого качества поиска с помощью ней -

ронной сети семантической сегментации достаточно использовать небольшую часть данных ZVZ [19] размером N = 2 700 примеров. Добавление дополнительных данных к этой части не улучшает качество поиска. Поэтому далее эксперимент будет проводиться только с использованием N примеров. Это множество будет разбито на 2 части различными способами: D = {А¿, В¿}, | D| = 4. Пусть выбраны подмножества меньшего размера {А 1 ,А2,А3,А4}. Размер каждого следующего множества вдвое меньше предыдущего: | А 1 | = 1 3 52, | А 2 | = 676, | А 3 | = 3 38, | А 4| = 16 9. На этих частях будет обучена нейросетевая модель Supervised. Модель Pretrained будет обучена на данных B.

2.4. Результаты эксперимента.

2.4.1. Эксперименты с FineTuned моделью. Все метрики качества в экспериментах были получены при пороге / о U = 0. 5. Сначала были проведены эксперименты по настройке весов модели с помощью подхода fine-tuning [20]: Pretrained модель была обучена на множестве A c низким темпом обучения: I г = 0.000 1 на протяжении 50 эпох. Назовем такую модель FineTuned, чтобы отличать модели, обученные разными способами.

Результат настройки весов на множестве A показан в таблице 1. В первых экспериментах по метрике F1 модель FineTuned практически не отличается от модели Supervised. Несмотря на это, FineTuned обладает более высокой точностью (Precision) за счет низкой полноты (Recall). В последних экспериментах появляется положительный эффект от обучения на множестве B и дополнительной настройке на A.

Таблица 1. Результат с использованием размеченного множества A

Модель Precision Recall F1

Supervised (A1) 0.902 0.923 0.912

FineTuned (A1) 0.931 0.895 0.913

Supervised (A2) 0.865 0.918 0.891

FineTuned (A2) 0.915 0.879 0.897

Supervised (A3) 0.729 0.897 0.804

FineTuned (A3) 0.859 0.825 0.842

Supervised (A4) 0.512 0.850 0.639

FineTuned (A4) 0.705 0.660 0.682

Цель поиска штриховых кодов в промышленных системах - распознавание, извлечение полезной информации. Ложные гипотезы можно фильтровать путем распознавания. Потерянные гипотезы могут привести к потери важной информации. Поэтому значение Recall FineTuned модели не должно быть хуже, чем значение Recall Supervised модели. Подобный вывод приводит к необходимости использования альтернативного метода настройки весов модели Pretrained.

2.4.2. Эксперименты с Tuned моделью. Были проведены эксперименты по настройке весов модели Pretrained с помощью дообучения: сначала была обучена модель Pretrained на множестве В c темпом обучения = , затем процесс продолжился с прежним темпом обучения на множестве А на протяжении 50 эпох. Если качество на валидационном множестве перестает изменяться в течение 10 эпох, то темп обучения уменьшается в 2 раза. Обозначим такую модель - Tuned.

Результат настройки на множестве A показан в таблице 2. Для наглядности, в таблицу были добавлены результаты FineTuned модели. В первом эксперименте Tuned модель по метрикам качества сравнима с Supervised. В последних экспериментах модель Tuned по всем метрикам качества сильно превосходит Supervised модель, то есть удалось сильно увеличить качество поиска штриховых кодов.

Таблица 2. Результаты с использованием размеченного множества A

Модель Precision Recall Fl

Supervised (Ai) G.9G2 0.923 G.912

FineTuned (A1) 0.931 G.895 0.913

Tuned (A1) G.9G6 G.914 G.91G

Supervised (A2) G.865 0.918 G.891

FineTuned (A2) 0.915 G.879 G.897

Tuned (A2) G.887 G.915 0.901

Supervised (A3) G.729 G.897 G.8G4

FineTuned (A3) G.859 G.825 G.842

Tuned (A3) 0.914 0.910 0.912

Supervised (A4) G.512 G.85G G.639

FineTuned (A4) G.7G5 G.66G G.682

Tuned (A4) 0.856 0.892 0.874

2.4.3. Качество классификации. Оценим, как повлияла дополнительная настройка параметров нейронной сети на качество классификации. Стоит отметить, что текущие результаты поиска получены с помощью модели, содержащей в архитектуре слои сегментации для каждого класса. При этом искусственная выборка содержала не только регионы, найденные с помощью подхода WSBD-S [18], но и классы объектов.

Сравнение по метрике качества Accuracy между моделями Tuned и Supervised по каждому типу, соответствующему каждому из разбиений набора данных, показано в таблице 3. Замеры на строке "Независимо от типа" означают получение Accuracy для объектов всех классов сразу, при этом считаем, что объект классифицирован верно, если он найден при заданном пороге IoU и его класс совпал с классом из разметки.

Таблица 3. Результаты классификации

Типы штрихкодов Supervised Tuned Supervised Tuned Supervised Tuned Supervised Tuned

(Al) (A1) (A2) (A2) (A3) (A3) (A4) (A4)

Linear 0.984 G.979 0.985 G.977 0.993 G.973 0.983 G.978

QRCode G.298 0.534 G.G83 0.745 G.GGG 0.701 G.GGG 0.565

Aztec G.725 0.889 G.568 0.938 G.GGG 0.913 G.GGG 0.907

DataMatrix 0.957 G.956 G.799 0.962 G.758 0.976 G.611 0.970

MaxiCode G.924 0.932 G.851 0.927 G.592 0.926 G.GGG 0.882

PDF417 G.GGG 0.144 G.GGG 0.681 G.GGG 0.724 G.GGG 0.609

Postcodes G.841 0.879 G.8G8 0.910 G.566 0.887 G.GGG 0.928

Независимо G.882 0.910 G.832 0.941 G.752 0.936 G.624 0.924

от типа

Если смотреть на результат работы Supervised модели, то можно заметить, что некоторые типы она классифицировать не умеет и имеет на них нулевое значение Accuracy. Чем меньше становится обучающий набор данных, тем хуже качество классификации. Если смотреть на результат работы Tuned модели, то нет ни одного типа с нулевым значением Accuracy. Более того, если сравнивать модели независимо от типа, то Tuned модель всегда превосходит Supervised.

2.5. Схема создания метода поиска штрихкодов с использованием неразмеченных данных. Полная схема создания метода поиска штрихкодов с использованием большого количества не размеченных данных и небольшого количества размеченных данных показана на рисунке 2. Сначала нужно создать модель поиска, обучаемую только на слабо-размеченных данных. Затем получаем искусственную разметку с помощью этой модели. Далее обучаем семантическую сегментацию на полученной разметке и настраиваем на реальной разметке. В итоге будет получена модель, превосходящая по качеству поиска и классификации модель, обученную только на небольшом количестве полностью размеченных данных.

Создание модели поиска, обучаемой на слабо-размеченной выборке

Получение вспомогательной разметки

Создание модели поиска

1. Получение слабой разметки

2,Обучение WSBD модели (моделей)

3.Получение Л. Получение

большого искусственном

количества разметки с

неразмеченных помощью

данных WSBD

5. Получение небольшого б.Обучение -3 7.Настройка

количества семантической параметров

полностью сегментации модели на

размеченных на разметке из п.4 разметке из п.5

данных

Рис. 2. Общая схема создания модели поиска штриховых кодов

Заключение. По результатам экспериментов можно сделать вывод, что достаточно получить малое количество полностью размеченных данных. Остальные данные можно разметить грубо, с помощью модели, обученной на слабо-размеченных данных. Качество модели, обученной на небольшой части (169 примеров) полностью размеченных данных: Precision = 0.627, Recall = 0.869, F1 = 0.728, качество классификации объектов независимо от их типа: Accuracy = 0.624. Качество модели, обученной на искусственной разметке (2531 примеров) и настроенной на полностью размеченных данных (169 примеров): Precision = 0.856, Recall = 0.892, F1 = 0.874, качество классификации объектов независимо от их типа: Accuracy = 0.924.

Стоит отметить, что размер множества с реальной разметкой, при котором будет под -тверждаться гипотеза, зависит от многих факторов: от используемой нейросетевой модели, от данных для обучения и от модели, применяемой для создания искусственной разметки. В данной работе не проводилось исследование, насколько сильно влияют эти факторы. Подобный эксперимент можно провести в будущих исследованиях и выяснить влияние.

Список источников

1. Jie Z. Deep self-taught learning for weakly supervised object localization. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 1377-1385.

Teh E.W., Rochan M.Y. Wang Attention Networks for Weakly Supervised Object Localization. BMVC, 2016, pp. 1-11

Bilen H., Vedaldi A. Weakly supervised deep detection networks. Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 2846-2854.

4. Kantorov V. Contextlocnet: Context-aware deep network models for weakly supervised localization. European conference on computer vision, Springer, 2016, pp. 350-365.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5. Zhou B. Learning deep features for discriminative localization. Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 2921-2929.

6. Yao Q., Gong X. Saliency guided self-attention network for weakly and semi-supervised semantic segmentation. IEEE Access, 2020, vol. 8, pp. 14413-14423.

7. Zhang X. Self-produced guidance for weakly-supervised object localization. Proceedings of the European conference on computer vision (ECCV), 2018, pp. 597-613.

8. Dwibedi D. With a little help from my friends: Nearest-neighbor contrastive learning of visual representations. Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021, pp. 9588-9597.

2.

3.

9. Gril l J. B. Bootstrap your own latent-a new approach to self-supervised learning // Advances in neural information processing systems, 2020, vol. 33, pp. 21271-21284.

10. Chen T.A simple framework for contrastive learning of visual representations. International conference on machine learning, PMLR, 2020, pp. 1597-1607.

11. Everingham M. The pascal visual ob ject classes (voc) challenge. International journal of computer vision, 2010, vol. 88, no. 2, pp. 303--338.

12. Liu W. Ssd: Single shot multibox detector. European conference on computer vision, Springer, Cham, 2016, pp. 21-37.

13. Huang Z. Comprehensive attention self-distillation for weakly-supervised object detection. Advances in neural information processing systems, 2020, vol. 33, pp. 16797-16807.

14. Lin T. Y. Microsoft coco: Common ob jects in context. European conference on computer vision, Springer, Cham, 2014, pp. 740-755.

15. Wang C.Y., Bochkovskiy A., Liao H.Y.M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for realtime object detectors. arXiv preprint arXiv:2207.02696, 2022.

16. Ren Z. Instance-aware, context-focused, and memory-efficient weakly supervised object detection. Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2020, pp. 10598-10607.

17. Zharkov A., Zagaynov I. Universal barcode detector via semantic segmentation. International Conference on Document Analysis and Recognition (ICDAR), 2019, pp. 837-843.

18. Звонарев Д. Поиск штриховых кодов на изображениях с использованием слабо-размеченных данных. / Д. Звонарев. Труды Московского физико-технического института, 2022, vol. 14, no. 3.

19. Zharkov A., Vavilin A., Zagaynov I. New benchmarks for barcode detection using both synthetic and real data. // International workshop on document analysis systems, 2020, pp. 481-493.

20. Girshick R. Rich feature hierarchies for accurate object detection and semantic segmentation. Proceedings of the IEEE conference on computer vision and pattern recognition, 2014, pp. 580-587.

Звонарев Дмитрий Анатольевич. Аспирант Московского физико-технического института (национальный университет). Место работы: ООО «Аби Продакшн», руководитель группы анализа документов и синтеза. ORCID: 0000-0001-8299-2733, dmitry.zvonorev@phystech.edu, Россия, Москва, Московский физико-технический институт (национальный университет).

UDC 004.932.2

DOI:10.38028/ESI.2022.27.3.017

Barcodes detection improvement via weakly labeled data Dmitry A. Zvonarev

Moscow Institute of Physics and Technology, Russia, Moscow, dmitry.zvonorev@phystech.edu

Abstract. Weakly-supervised neural network object detection is used when a large amount of labeled data is not available. The results of experiments in various studies show that the quality of weakly-supervised models does not exceed the quality of fully-supervised models. Proposed approach improves the quality of barcodes detector and reduces the cost of obtaining markup, using a small amount of labeled data and a large amount of unlabeled data. The quality of the model trained on a small part (169 examples) of labeled data: Precision = 0.627, Recall =

0.869. F1 = 0.728, the quality of object classification regardless of objects type: Accuracy = 0.624. The quality of the improved model trained on artificially labeled data (2531 examples) and tuned on labeled data (169 examples): Precision = 0.856, Recall = 0.892, F1 = 0.874, quality of object classification regardless of objects type: Accuracy = 0.924.

Keywords: convolutional neural network, barcode, weakly-supervised object localization, deep learning, object detection, self-supervised learning

References

1. Jie Z. Deep self-taught learning for weakly supervised object localization. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 1377-1385.

2. Teh E.W., Rochan M.Y. Wang Attention Networks for Weakly Supervised Object Localization. BMVC, 2016, pp. 1-11

3. Bilen H., Vedaldi A. Weakly supervised deep detection networks. Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 2846-2854.