УДК 004.932.2
Д. А. Звонарев
Московский физико-технический институт (национальный исследовательский университет)
Исследование бинарной классификации в задаче поиска штриховых кодов с использованием слабо-размеченных данных
Поиск штриховых кодов на основе построения карты активации классов использует несколько нейросетевых моделей бинарной классификации. Кроме классической архитектуры нейросети с одним нейроном и сигмоидной функцией активации можно использовать два нейрона и функцию активации Softmax. В данной работе исследуется влияние этого фактора на качество поиска штрихкодов с использованием слабо-размеченных данных. Наилучшее качество поиска получается при использовании двух нейронов в полносвязном слое модели бинарной классификации: 0,725 precision, 0,674 recall, 0,698 F1, качество при использовании одного нейрона: 0,574 precision, 0,573 recall, 0,573 Fl.
Ключевые слова: сверточная нейронная сеть, штриховой код, штрихкод, бар код, слабо-размеченные данные, глубокое обучение, детектирование, поиск объектов
D. A. Zvonarev Moscow Institute of Physics and Technology
Binary classification study in the weakly supervised
barcodes detection
The barcodes detection based on the construction of a class activation map uses several neural network models of binary classification. In addition to the classical architecture of a neural network with one neuron and the Sigmoid activation function, two neurons and the Softmax activation function can be used. In this paper, we investigate the influence of this factor on the quality of barcodes detection using weakly labeled data. The best search quality is obtained using two neurons in a fully connected layer of the binary classification model, viz. 0.725 precision, 0.674 recall, 0.698 Fl, the quality using one neuron, viz. 0.574 precision, 0.573 recall, 0.573 Fl.
Key words: convolutional neural network, barcode, weakly supervised object localization, deep learning, object detection
1. Введение
Методы поиска штриховых кодов с использованием слабо-рамеченных данных недостаточно изучены. Последние исследования показали, что метод, основанный на нескольких нейросетевых моделях, обладает достаточно высоким качеством. Каждая нейросетевая модель представляет собой бинарный классификатор. В классическом случае в полносвязном слое используется один нейрон и сигмоидная функция активации (Sigmoid) для получения вероятности:
У = / (х) =
1 + е-
Звонарев Д. А., 2023
Федеральное государственное автономное образовательное учреждение высшего образования «Московский физико-технический институт (национальный исследовательский университет)», 2023
В нашем случае это вероятность того, что на изображении иристутствует штриховой код заданного класса.
Если обратить внимание на другие исследования, то везде используется классификация на несколько категорий объектов. Поэтому везде используется функция активации Softmax, для моделирования сетью вероятностного распределения, где N - количество классов, г -номер нейрона, х - выход последнего слоя:
Уг = f (X)i = —-.
Y^ exi
3 = 1
В случае двух классов обычно используется функция Sigmoid, так как это частный случай функции Softmax с двумя классами. То есть достаточно обнулить веса, соответствующие второму классу. В результате модель будет содержать один выход, как при использовании функции Sigmoid. Для задачи классификации рекомендуется использовать функцию Sigmoid, так как весов в модели меньше и обработка изображения происходит быстрее.
Для задачи поиска с использованием слабо-размеченных данных количество нейронов в полносвязном слое влияет на построение карты активации классов. Поэтому в данной работе проводится исследование влияния функции активации на качество поиска штриховых кодов со слабо-размеченными данными.
2. Методы поиска объектов с использованием слабо-размеченных данных
Bolei Zhou и Aditva Khosla в работе [1] представили подход для поиска объектов с использованием Globa lAverage Pooling слоя. Подход состоит в том, чтобы поместить этот слой (либо Global Max Pooling слой) непосредственно перед полносвязным слоем, выполняющим классификацию. Нейросеть обучается как классификатор на метках изображений.
Авторы рассматривают задачу с большим числом классов - это общий случай. По изображению нужно построить карту активации. Для определенного класса карта получается линейной комбинацией карт признаков с соответствующими классу весами в полносвязном слое. На этой карте будут подсвечены наиболее отличительные части объекта. Отдельно случай двух классов в работе не рассматривается.
Другое множество работ [2], [3], [4] основывается на работе [1]. В исследованиях метод поиска изменен, но по-прежнему используется карта активации классов. Авторы рассматривают нейросетевую модель классификаций на несколько категорий. Можно заметить, что в работах обычно используется множественная классификация и эксперименты с несколькими моделями бинарной классификации не проводились.
Если рассматривать задачу поиска штрихкодов, то в работе [5] представлен метод поиска с использованием слабо-размеченных данных. Подход основан на методе построения карты активации классов с помощью нейросетевой модели многоклассовой классификации либо с помощью нескольких нейросетевых моделей двухклассовой классификации. В последнем случае каждая модель содержала два нейрона в полносвязном слое и функцию активации Softmax, но не было проведено исследований с одним нейроном и функцией активации Sigmoid.
3. Поиск штриховых кодов
В текущем исследовании будет рассмотрен подход из работы [5], и будут проведены исследования с полученными бинарными классификаторами. В полносвязном слое два нейрона с функцией активации Softmax будут заменены на один нейрон с функцией Sigmoid. При расчете карты активации определенного класса будет использоваться единственный
набор параметров, соответствующий единственному нейрону. Весь остальной процесс от создания карты активации до получения регионов объектов остается прежним.
Таким образом при замене двух нейронов на один в полносвязном слое мы получаем метод поиска штриховых кодов с использованием нескольких нейросетевых моделей бинарной классификации.
4. Эксперименты
4.1. Схема обучения
Эксперименты проводились на наборе данных ZVZ [6]. Данные разделены на две части: искусственные изображения - 30 ООО примеров и реальные изображения - 971 пример. В этом наборе данных присутствуют следующие типы штрихкодов: ID (EAN8, Codel28, EAN13, Code39, Interleaved25, UPCA, UCC-128, 2-digit supplement, IATA25), Postcodes (AustralianPost, IntelligentMail, JapanPost, RovalMail, Kix, Postnet), Aztec, DataMatrix, MaxiCode, PDF417, QRCode.
Процесс обучения (и его параметры) совпадает с процессом, описанным в работе [5]. При обучении на реальных изображениях из данных ZVZ использовалась модель, пре-добученная на синтетических изображениях ZVZ, так как реальных данных небольшое количество и качество поиска без предобучения получается низким. При этом настройка предобученной модели на реальных данных осуществлялась с низким темпом обучения 0,0001 на протяжении 50 эпох. Множество для тестирования состоит из 102 примеров, множество для обучения состоит из 869 примеров.
Обозначим подход, использующий модели с двумя нейронами и функцией активации Softmax в полносвязном слое, как WSBD2, и обозначим подход, использующий модель с одним нейроном и функцией активации Sigmoid, как WSBD1.
4.2. Результаты
Результаты поиска штрихкодов на искусственной части данных ZVZ приведены в табл. 1.
Таблица 1
Результаты на искусственной части данных ZVZ
Подход Precision Recall F1
WSBD1 0.574 0.573 0.573
WSBD2 0.725 0.674 0.698
Результаты поиска штрихкодов на реальной части данных ZVZ приведены в табл. 2.
Т а б л и ц а 2
Результаты на реальной части данных ЪУЪ
Подход Precision Recall F1
WSBD1 0.468 0.326 0.384
WSBD2 0.451 0.378 0.411
Использование двух нейронов в полносвязном слое увеличивает качество поиска штриховых кодов. При этом время прямого прохода нейросети практически не отличается, а количество параметров от использования двух нейронов увеличивается незначительно.
5. Заключение
В работе представлены результаты исследования влияния количества нейронов в полносвязном слое сети классификации на качество поиска штриховых кодов. Для задачи поиска объектов со слабо-размеченными данными используется подход, который основывается на нескольких нейросетевых моделях бинарной классификации. Модели с двумя нейронами и функцией активации Softmax в полносвязном слое повышают качество поиска штриховых кодов, при этом время обработки и количество параметров увеличиваются незначительно.
В данной работе не проводилась дополнительная настройка гиперпараметров подхода, которые участвуют в дополнительной обработке результата. Поэтому полученные результаты могут быть улучшены. Также стоит изучить влияние количества нейронов полносвязного слоя в нейросети классификации на качество поиска каждого типа штрихкода. Возможно, наилучший результат будет достигаться при использовании разного количества нейронов для разных типов объектов.
Список литературы
1. Zhou В., Khosla A., Lapedriza A., Oliva A., Torralba A. Learning deep features for discriminative localization // Proceedings of the IEEE conference on computer vision and pattern recognition. 2016. P. 2921-2929.
2. Yao Q., Gong X. Saliencv guided self-attention network for weakly and semi-supervised semantic segmentation // IEEE Access. 2020. V. 8. P. 14413-14423.
3. Zhang X. Self-produced guidance for weakly-supervised object localization // Proceedings of the European conference on computer vision (ECCV). 2018. P. 597-613.
4. Choe J, Shim H. Attention-based dropout layer for weakly supervised object localization // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019. P. 2219-2228.
5. Звонарев Д.А. Поиск штриховых кодов на изображениях с использованием слабо размеченных данных // Труды МФТИ. 2022. Т. 14, № 3. С. 46-56.
6. Zharkov A., Vavilin A., Zagaynov I. New Benchmarks for Barcode Detection Using Both Synthetic and Real Data // International Workshop on Document Analysis Systems. 2020. P. 481-493.
References
1. Zhou В., Khosla A., Lapedriza A., Oliva A., Torralba A. Learning deep features for discriminative localization. Proceedings of the IEEE conference on computer vision and pattern recognition. 2016. P. 2921-2929.
2. Yao Q., Gong X. Saliencv guided self-attention network for weakly and semi-supervised semantic segmentation. IEEE Access. 2020. V. 8. P. 14413-14423.
3. Zhang X. Self-produced guidance for weaklv-supervised object localization. Proceedings of the European conference on computer vision (ECCV). 2018. P. 597-613.
4. Choe J, Shim H. Attention-based dropout layer for weakly supervised object localization. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019. P. 2219-2228.
5. Zvonarev D.A. Weakly supervised barcodes detection. Proceedings of MIPT. 2022. V. 14, N 3. P. 46-56.
6. Zharkov A., Vavilin A., Zagaynov I. New Benchmarks for Barcode Detection Using Both Synthetic and Real Data. International Workshop on Document Analysis Systems. 2020. P. 481-493.
Поступила в редакцию 13.12.2022