Научная статья на тему 'ПОИСК ШТРИХОВЫХ КОДОВ НА ИЗОБРАЖЕНИЯХС ИСПОЛЬЗОВАНИЕМ СЛАБО РАЗМЕЧЕННЫХ ДАННЫХ'

ПОИСК ШТРИХОВЫХ КОДОВ НА ИЗОБРАЖЕНИЯХС ИСПОЛЬЗОВАНИЕМ СЛАБО РАЗМЕЧЕННЫХ ДАННЫХ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
65
11
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СВЕРТОЧНАЯ НЕЙРОННАЯ СЕТЬ / ШТРИХОВОЙ КОД / ШТРИХ-КОД / БАР-КОД / СЛАБО-РАЗМЕЧЕННЫЕ ДАННЫЕ / ГЛУБОКОЕ ОБУЧЕНИЕ / ДЕТЕКТИРОВАНИЕ / ПОИСК ОБЪЕКТОВ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Звонарев Д.А.

Штриховые коды используются во многих областях и позволяют кодировать различное количество полезной информации. Важно быстро и точно находить их местоположение на изображениях для корректного распознавания. В данной работе предложен метод поиска штриховых кодов на основе нейронных сетей с использованием слабо-размеченных данных. Данный метод не только может находить штрихкоды, но и умеет классифицировать их. Предлагаемый подход не требует наличия в разметке точных регионов объектов, что сильно упрощает процесс получения данных для обучения нейросетевой модели. Предложенный подход показывает высокое качество поиска штрихкодов на изображениях: 0,725 precision, 0,674 recall, 0,698 F1.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Звонарев Д.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

WEAKLY SUPERVISED BARCODES DETECTION

Barcodes allow us to encode a various amount of useful information. It is important to quickly and accurately find their type and location in correct recognition images. In this paper, we propose an approach of barcodes detection based on neural networks using weakly labeled data. Using this approach, we can find barcodes and even classify them. The proposed approach does not require the exact location of objects in the markup, which greatly simplifies the process of obtaining data to train a neural network model. The proposed approach shows a high quality of barcode detection in images, viz. 0,725 precision, 0,674 recall, 0,698 F1.

Текст научной работы на тему «ПОИСК ШТРИХОВЫХ КОДОВ НА ИЗОБРАЖЕНИЯХС ИСПОЛЬЗОВАНИЕМ СЛАБО РАЗМЕЧЕННЫХ ДАННЫХ»

УДК 004.932.2

Д. А. Звонарев

Московский физико-технический институт (национальный исследовательский университет)

Поиск штриховых кодов на изображениях с использованием слабо размеченных данных

Штриховые коды используются во многих областях и позволяют кодировать различное количество полезной информации. Важно быстро и точно находить их местоположение на изображениях для корректного распознавания. В данной работе предложен метод поиска штриховых кодов на основе нейронных сетей с использованием слабо-размеченных данных. Данный метод не только может находить штрихкоды, но и умеет классифицировать их. Предлагаемый подход не требует наличия в разметке точных регионов объектов, что сильно упрощает процесс получения данных для обучения нейросетевой модели. Предложенный подход показывает высокое качество поиска штрихкодов на изображениях: 0,725 precision, 0,674 recall, 0,698 Fl.

Ключевые слова: сверточная нейронная сеть, штриховой код, штрихкод, бар код, слабо-размеченные данные, глубокое обучение, детектирование, поиск объектов.

D. A. Zvonarev

Moscow Institute of Physics and Technology

Weakly supervised barcodes detection

Barcodes allow us to encode a various amount of useful information. It is important to quickly and accurately find their type and location in correct recognition images. In this paper, we propose an approach of barcodes detection based on neural networks using weakly labeled data. Using this approach, we can find barcodes and even classify them. The proposed approach does not require the exact location of objects in the markup, which greatly simplifies the process of obtaining data to train a neural network model. The proposed approach shows a high quality of barcode detection in images, viz. 0,725 precision, 0,674 recall, 0,698 Fl.

Key words: convolutional neural network, barcode, weakly supervised object localization, deep learning, object detection.

1. Введение

Штриховые коды (штрихкоды, баркоды) используются уже долгое время, и сейчас области применения этих объектов продолжают расширяться. Штрихкод представляет собой последовательность черных и белых чередующихся элементов. Наиболее распространенными являются одномерные штрихкоды, состоящие из полос черного и белого цвета. Они используются на продуктовых товарах как идентификаторы, на книгах, журналах в качестве номера ISBN. Подмножеством линейных штрихкодов являются почтовые, такие как Postnet, IntelligentMail, RovalMail. Часто их можно встретить на конвертах. Также существуют двумерные штрихкоды, наиболее популярными являются QRCode, PDF417, DataMatrix. QR можно найти на вывесках, в журналах. PDF417 можно встретить на российском медицинском полисе, на водительском удостоверении. DataMatrix часто находится на акцизной марке и продуктовых товарах. На рис. 1 изображены примеры наиболее популярных штрихкодов.

© Звонарев Д. А., 2022

(с) Федеральное государственное автономное образовательное учреждение высшего образования

«Московский физико-технический институт (национальный исследовательский университет)», 2022

Рис. 1. Примеры штрихкодов. Типы сверху вниз, слова направо: ЕАШЗ. С2Т1Со(1е. Ва1аМа1пх. I'онпнм. I'I)117

Самый простой способ считать штрихкод использовать .лазерный сканер. С распространением двумерных штрихкодов стали появляться мобильные приложения, которые способны читать эти объекты. К сожалению, при использования подобных приложений нужно наводить камеру точно на штрихкод. Следовательно, за одни раз можно прочитать только один штрихкод. Если на одном документе находятся несколько штрихкодов, то удобнее проеканировать изображение документа полностью, а затем распознать каждый из найденных объектов. Поэтому становится актуальной задача поиска штрихкодов на изображениях.

Для решения этой задачи можно применять эвристические методы, которые опираются на свойства штрихкодов. Если говорить о задачах компьютерно!^ зрения, то еверточные нейронные сети являются лучшим инструментом для решения подобных задач. Однако для использования такемч) мощжнх) инструмента сначала нужно получить разметку изображений координаты штрихкодов на изображении с соответствующим типом. Зачастую такую разметку получить доро!'о, так как данных для обучения нейроеети нужно мших) и координаты объектов должны быть точными. Для решения этой проблемы обычно используют аугментации либо искусственно создают примеры, помещая штрихкоды на случайные области изображения [1|. Эти способы не лишены недостатков, и ито!'овые изображения получаются недоетато чно реалисти чными.

В данной работе предлагается новый а.л!'оритм для детектирования штриховых кодов на изображениях с помощью сверточных нейронных сетей, который не требует разметки координат штрихкодов. Данный метод использует только информацию о том, присутствует ли штрихкод заданших) тина на изображении или нет.

2. Современные методы поиска объектов с использованием слабо размеченных данных

Работа Андрея Жаркова и Ивана Загайнова [2| описывает универсальный нейроеетевой детектор штрихкодов на основе нейронной сети семантической сегментации. Это решение справляется со штрихкодами различшнх) размера и различной формы и на тот момент являлось последним научным достижением, показывающим лучшие результаты при решении задачи поиска штрихкодов. Для обучения этой модели нужно иметь в разметке координаты объектов.

Введем определения. Разметкой изображения называется набор нар: координаты и класс для каждо!'о объекта на изображении. Класс объекта может быть представлен как в виде строки, так и в виде числа норядково!'о номера в общем списке всех возможных классов объектов в наборе данных. Координаты объекта целые числа, задающие координаты вершин четырехугольника. Размеченными данными для задачи детектирования объектов называется набор нар: изображение и соответствующая ему разметка.

9780201379624

Слабо размеченными данными для задачи детектирования объектов называется набор пар: изображение и список классов объектов, находящихся на нем.

Если обращаться к существующим решениям на основе нейронных сетей, то можно выделить два метода, которые чаще всего используются как база для создания более продвинутого подхода для поиска. Такие решения становились лучшими на различных наборах данных PASCAL VOC [3], ImageNet [4].

Первый метод описан Bolei Zhou и Aditva Khosla в работе [5]. Исследователи рассматривают GlobalAveragePooling слой в рамках модели классификации и отмечают, что с внедрением такого слоя модель приобретает возможность выделять наиболее отличительные черты объектов. Благодаря этому можно использовать подобную модель для поиска различных объектов. Подход состоит в том, чтобы поместить GlobalAveragePooling слой (либо GlobalMaxPooling слой) непосредственно перед полносвязным слоем, выполняющим классификацию. Нейросеть обучается как классификатор на метках изображений.

Чтобы получить все объекты определенного класса, на изображении нужно построить карту активации для заданного класса. Карта получается линейной комбинацией карт признаков (с последнего сверточного слоя) с соответствующими классу весами в полносвязном слое. На этой карте будут подсвечены наиболее отличительные части объекта. После этого карта бинаризуется. На бинаризованном изображении выделяются связные компоненты -это искомые регионы объектов.

Для данного метода есть продвинутый Dropout слой, который заставляет нейросеть видеть не только наиболее отличительные части объекта. Данный подход описан Junsuk Choe и Hvunjung Shim в работе [6]. Применяется этот слой к каждой карте признаков и только при обучении. Есть два параметра: как часто применяем данный слой и размер региона, который будет скрыт от сети. Далее происходит выбор либо применяется Dropout маска, которая скрывает наиболее отличительные части объекта, либо применяется функция сигмоида.

Авторы рекомендуют помещать такие слои в узких местах сети, после pooling слоев и на высокоуровневых признаках.

Второй метод описали Hakan Bilen и Andrea Vedaldi в работе [7]. Данный метод работает с извлеченными гипотезами объектов. Для извлечения кандидатов используются такие методы, как Selective Search Windows [8] или Edge Boxes [9]. Базовой нейросетевой моделью является модель классификации, пред обученная на данных ImageNet, которую модифицируют следующим образом: последний pooling слой заменяют на spatial pyramid pooling. В итоге с помощью этого слоя получаются признаки для каждого региона-кандидата. Затем идут несколько полносвязных слоев, выход которых будет преобразовываться с помощью двух независимых веток. Первая производит классификацию регионов, вторая производит детектирование. В результате первая ветка предсказывает, какой класс наиболее вероятен для каждого региона, а вторая ветка предсказывает, какой регион более вероятно содержит объект. После этого предсказания с двух веток поэлементно умножаются. Для получения предсказания на уровне изображения полученные предсказания складываются по каждому классу. Нейросеть обучается как классификатор на метках изображений.

Если сравнивать оба метода, то первый позволяет находить лишь наиболее отличительные части объекта, и, чтобы находить объект полностью, нужна дополнительная обработка или дополнительные методы обучения нейросетевой модели. С другой стороны, первый метод позволяет находить объекты любой формы, в то время как второй метод работает только с охватывающими прямоугольниками объектов, которые генерируются отдельными, независимыми механизмами. Более того, в множестве сгенерированных гипотез может отсутствовать искомый объект.

3. Поиск штриховых кодов

Объект штрихкод сильно отличается по своим свойствам от тех объектов, которые встречаются в наборах данных Coco, PASCAL VOC, ImageNet и прочих. Штрихкоды имеют

строгую структуру, состоящую из единиц, которые называются модулями (QR, DataMatrix, Aztec), либо штрихами (EAN13, Codel28, Postnet). Эта структура создана таким образом, чтобы машинам было удобнее читать такие объекты.

Штрихкод несет в себе закодированную полезную информацию. Важно, чтобы она была прочитана корректно, в связи с чем вокруг почти каждого типа штрихкода есть Quiet Zone область, свободная от полезного сигнала. Поэтому, в отличие от прочих наборов данных, штрихкоды не перекрываются друг другом и другим полезным сигналом на изображении.

Для каждого типа штрихкода есть стандарт, который описывает правила кодирования. Поэтому штрихкоды одного типа, но с разными закодированными данными, имеют минимум отличий. Вся структура остается прежней, меняется только порядок и количество модулей (штрихов). Если, к примеру, посмотреть на набор данных PASCAL VOC, то можно найти множество различных изображений объектов, которые будут сильно отличаться по структуре и размеру.

Предлагается использовать для задачи детектирования штрихкодов подход, основанный на методе [5], так как, во-первых, штрихкоды достаточно простые объекты, если сравнивать с распространенными наборами данных, во-вторых, методы, основанные на генерации регионов, могут не выдвинуть гипотезу, содержащую весь объект. Этого нужно избегать, потому что если потерять при поиске несколько модулей или штрихов, то штрихкод может быть не прочитан устройством или прочитан неверно.

3.1. Архитектура нейронной сети

В качестве архитектуры нейронной сети классификации возьмем упрощенный вариант нейронной сети, описанной в работе [10]. Устройство сети показано на рис. 2.

Рис. 2. Архитектура нейронной сети классификации

На вход сеть принимает полутоновое изображение в градациях серого. Далее идут .3 блока, состоящие из двумерной свертки с ядром размера 3 х 3 и двумерного слоя MaxPooling с размером ядра 2 х 2. В итоге размер исходного изображения уменьшается в 8 раз. После двумерной свертки идет слой BatchNormalization и функция активации LeakyReLU с параметром а = 0.3.

Далее идет блок из 3-х чередующихся слоев двумерных сверток, за каждым из которых следует BatchNormalization и функция активации LeakyReLU. Предпоследний слой Global Aver agePooling усредняет сигнал по каждой карте признаков. После применения этого слоя мы получаем вектор размером 32. Последний слой полносвязный, осуществляет классификацию на 7 классов. Здесь используется функция активации Softmax.

После третьего блока понижения размерности и после каждой последующей свертки использовался ADL слой из работы [6]. Данный слой применяется только при обучении и в 70% случаев, в оставшихся 30% признаки остаются без изменения. При применении слоя признак обнуляется, если его значение было выше 0.8 от максимального значения сигнала.

3.2. Процесс поиска объектов

Процесс поиска объектов с помощью нейросетп показан на рис. 3.

На исходном полутоновом изображении мы запускаем нейросетевую модель и получаем вектор вероятностей. Каждое значение вероятность присутствия объектов определенного

класса на изображении. Далее работа ведется только с теми классами объектов, которые обладают достаточно высокой вероятностью.

Рис. 3. Схема поиска штриховых кодов

4=

Вторым этапом для выбранных классов нужно получить карту активации. Для конкретного класса выбираются соответствующие ему веса в полносвязном слое. Количество таких весов будет совпадать с количеством карт признаков в последнем сверточном слое сети, так как перед полносвязным слоем находится GlobalAveragePooling слой. Поэтому можно сопоставить веса с картами признаков из последнего сверточного слоя. Карта активации получается линейной комбинацией этих весов с картами признаков. Размер этой карты будет равен размеру изображения, уменьшенному в 8 раз. После этого нужно нормировать полученные значения таким образом, чтобы максимальное значение соответствовало 1, а минимальное 0. После этого наибольшие значения будут указывать на наличия в этих супер-пикселях объекта штрихкода, а наименьшие на отсутствие.

Чтобы перейти от карты активации к координатам объекта, нужно ее бинаризовать. Исследования показали, что лучше работает бинаризация по глобальному порогу, чем адаптивная бинаризация. Для классов ID, PDF417, QR, Maxicode, Postal используется порог 0.4, а для Datamatrix, Aztec 0.2. Понижение порога для последних типов связано с детектированием рамки Datamatrix и части с данными у Aztec. Вероятно, из-за того, что сам паттерн у Aztec похож на паттерн QR - он не детектируется. Поэтому для получения целостных гипотез нужно понижать порог.

После этого с помощью алгоритма выделения связных компонент, мы находим объекты. У них потом выделяются контуры, которые в общем случае представляют собой многоугольники. В отличие от авторов работы [5] предлагается использую дополнительную обработку для найденных контуров: связные компоненты слишком маленькой площади удаляются, а гипотезами объявляются только те, которые содержат высокий сигнал на карте активации, в моем случае больше 0.7. Вокруг таких многоугольников строятся четырехугольники. Полученные точки являются вершинами прямоугольника минимальной площади, который содержит в себе объект. Данный прямоугольник может быть повернут на некоторый угол.

Далее применяется специальная дополнительная обработка для некоторых типов. Пример для QR изображен на рис. 4. Если посмотреть на карту активации QR, то выделяются именно finder pattern-части. Поэтому среди связных компонент находится лучшая тройка гипотез, соответствующая по размеру и местоположению паттернам у QR, и эти гипотезы объединяются в одну.

Если рассматривать PDF417, то на карте активации выделяется только основная часть штрихкода. Выделение всей области штрихкодов критично для корректного распознава-

* Цветное изображение иллюстраций данной статьи см.: https://mipt.ru/upload/medialibrary/560/05.pdf

пия. Поэтому можно обратиться к картам активации 1D штрихкодов, так как старт и стоп символы у PDF417 представляют собой одномерные штрихкоды. Схема дополнительной обработки изображена па рис. о. Заметим, что па этих картах всегда будет выделяться стоп символ, а не старт символ, так как у старт символа слева плотно идет большой черный прямоугольник, а справа основная часть. У обычных одномерных штрихкодов по краям quiet, zone - область, свободная от другого полезного сигнала (размер этой области разный для каждого типа штрихкода и описан в спецификации). Далее, зная соотношение между шириной старт и стоп символа, отступим в противоположную сторону от части с данными и получим область, содержащую весь штрихкод. Дополнительно по бинаризованному изображению можно уточнить границы.

Рнс. 4. Дополнительная обработка для QR,

Рнс. 5. Дополнительная обработка для PDF417

После получения координат объектов па карте активации нужно получить координаты па исходном изображении путем их масштабирования, так как все это время мы работали в низком разрешении. На этом процесс извлечения объектов завершается.

3.3. Поиск с помощью нескольких моделей

Можно использовать несколько базовых пейросетевых моделей, каждая из которых производит классификацию: определенный тип против всех. Данный подход оказался лучше, чем подход с одной пейросетевой моделью.

В этом случае подход выглядит следующим образом. В первой части процесса поиска для исходного полутонового изображения мы получаем с помощью каждой модели вероятность того, что па изображении присутствует хотя бы один объект конкретного класса. Если вероятность достаточно высокая, то строим карту активации. Во второй части про-

цесс выглядит аналогично тому, что применялся для базового подхода. Полный процесс поиска объектов показан на рис. 6 и 7.

Рис. 6. 1 часть процесса поиска: создание карт активации

Рис. 7. 2 часть процесса поиска: выделение гипотез на картах активации

Достоинство данного подхода заключается в том, что если на изображении мало объектов определенного класса, то базовая нейросетевая модель покажет низкую вероятность для этого класса, в связи с чем в подобных случаях мы можем терять редкие вкрапления объектов, когда на изображении подавляющее большинство объектов другого класса. Если рассматривать данный подход, то каждая нейросетевая модель учится искать объекты только своего типа, поэтому подобным недостатком обладать не будет.

Недостаток данного подхода - замедление обработки изображения, так как для детектирования объектов придется вместо одной модели запускать несколько нейросетей и обрабатывать несколько результатов.

4. Эксперименты

4.1. Описание набора данных

Эксперименты проводились па наборе данных ZVZ [1]. Данные разделены па две части: искусственные изображения - 30 ООО примеров, и реальные изображен и я - 971 пример. В этом наборе данных присутствуют следующие типы штрихкодов: AnstralianPost, Aztec, DataMatrix, EAN8, Codel28, EAN13, Code39, Interleaved25, UPCA, UCC-128, 2-digit supplement, IATA25, IntelligentMail, JapanPost, RoyalMail, Kix, MaxiCode, PDF417, Postnet, QRCode. Так как изображен и я некоторых штрихкодов можно различить только после распознавания, предлагается поделить все типы па семь непересекающихся групп, которые способен детектировать предложенный подход: ID (EAN8, Codel28, EAN13, Code39, Interleaved25, UPCA, UCC-128, 2-digit supplement, IATA25), Postcodes (AnstralianPost, IntelligentMail, JapanPost, RoyalMail, Kix, Postnet), Aztec, DataMatrix, MaxiCode, PDF417, QRCode. Примеры изображений показаны па рис. 8.

Реальный пример Искусственные примеры

Рис. 8. Примеры данных ZVZ

4.2. Схема обучения

Во время обучения применялись такие аугментации, как поворот па 90, -90, 180 градусов с вероятностью 0,5, отражение изображения относительно горизонтальной оси и вертикальной оси с вероятностью 0,2. Последние аугментации имеют смысл для таких типов штрихкодов как QR, PDF417, DataMatrix, так как эти объекты пе обладают симметрией.

В качестве функции потерь использовалась Categorical Cross-Entropy.

Обучалась пейросетевая модель па протяжении 50 эпох. Размер батча изображений - 8. В качестве оптимизатора использовался Adam с параметром learning rate 0.001. Если па протяжении 20 эпох подряд значение функции потерь пе уменьшается па валидациоппом наборе, то learning rate уменьшается в два раза.

Перед запуском пейросети изображение масштабировалось таким образом, чтобы наибольшая сторона не превосходила 1024 пикселей и размеры сторон были кратны 64 пиксе-

лям. Работа производится с полутоновым изображением в градациях серого, сигнал которого нормируется в диапазон [-1, 1].

Сначала набирается группа из 1000 изображений, далее они группируются в батчи по размерам. Когда группа заканчивается, набирается следующая группа из оставшихся изображений. Процесс повторяется, пока изображения не закончатся. В конце эпохи порядок изображений перемешивается.

4.3. Метрики

Каждый детектируемый объект представляет собой набор из четырех точек, который задает регион четырехугольника. Будем считать, что объект Р найден на изображении, если существует такой объект G в разметке:

'(P'G) = * 05.

Качество работы подхода оценивается с помощью метрик: точность (Precision), полнота (Recall), F-мера (F1). Если TP - количество истинно-положительных решений, TN - количество истинно-отрицательных решений, FP - количество ложно-положительных решений, FN - количество ложно-отрицательных решений, тогда метрики определяются следующим образом:

TP

Precision =

Recall =

TP + FP' TP

F 1 = 2

TP + FN'

Precision ■ Recall Precision + Recall '

4.4. Результаты

Результат детектирования штрихкодов на искусственной части данных Ъ\тЪ приведен в табл. 1:

Таблица1

Результаты на искусственной части данных Ъ~ЧЪ

Подход Precision Recall F1

Semantic Segmentation 0.886 0.947 0.915

WSBD 0.450 0.391 0.419

WSBD-ADL 0.501 0.393 0.441

WSBD-S 0.725 0.674 0.698

SemanticSegmentation - результат детектирования штрихкодов моделью DilatedModel [1] семантической сегментации, которая обучалась на размеченных данных. WSBD - результат детектирования штрихкодов предложенной моделью, обученной на слабо-размеченных данных, содержащей в себе одну нейросеть классификации, WSBD-ADL - модель, содержащая ADL слой, WSBD-S - подход для детектирования штрихкодов, содержащий несколько независимых базовых нейросетевых моделей.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Для одной нейросетевой модели измерено время работы на изображении в разрешении 512 х 512. Замеры не включают в себя время дополнительной обработки. Предложенная нейросетевая модель для бинарной классификации на RTX 3080 GPU работает 8 мс, а на Intel Xeon Е5 3.50GHz CPU 59 мс. Результат сравнения времени работы модели с решением из работы [1] показан в табл. 2.

Таблица2

Время работы различных подходов

Подход Время прямого Разрешение

прохода, мс изображения

Semantic Segmentation (GPU) 4 512x512

Semantic Segmentation (CPU) 44 512x512

WSBD (GPU) 8 512x512

WSBD (CPU) 59 512x512

5. Заключение

В работе представлен новый подход для поиска штрихкодов с применением слабо размеченной выборки, когда точные регионы объектов неизвестны. Данный подход не превосходит по результатам современное решение, которое является последним достижением, но показывает, что для сравнимого качества поиска объектов не обязательно иметь полностью размеченные данные. Предложенная модель способна находить штрихкоды различного размера и различной формы, имеет 39 ООО весов и обладает простой архитектурой, что делает ее более компактной, чем многие нейросетевые модели поиска.

Качество работы подхода сильно зависит от последующей обработки результатов нейро-сети. В будущих работах стоит обратить на это внимание и пробовать детектировать такие типы как QRCode путем запуска нейросети на изображениях в меньшем масштабе, чтобы обнаружить тот момент, когда каждый паттерн становится отдельным объектом. Также предлагается применить предложенную модель для получения автоматической разметки большого набора данных, который, в свою очередь, можно будет использовать для предо-бучения модели поиска, например нейросети семантической сегментации таким образом, чтобы качество было сравнимо с новейшими решениями, которые являются последними достижениями в этой области.

Литература

1. Zharkov A., Vavilin A., Zagaynov I. New Benchmarks for Barcode Detection Using Both Synthetic and Real Data // International Workshop on Document Analysis Systems. 2020. P. 481-493.

2. Zharkov A., Zagaynov I. Universal barcode detector via semantic segmentation // International Conference on Document Analysis and Recognition (ICDAR). 2019. P. 837843.

3. Huang Z., Zou Y., Bhagavatula V., Huang D. Comprehensive attention self-distillation for weaklv-supervised object detection // arXiv preprint arXiv:2010.12023. 2020.

4. Tang P., Wang X., Bat S., Shen W., Bat X., Liu W., Yuille A. Pel: Proposal cluster learning for weakly supervised object detection // IEEE transactions on pattern analysis and machine intelligence. 2018. N 42.1. P. 176-191.

5. Zhou В., Khosla A., Lapedriza A., Oliva A., Torralba A. Learning deep features for discriminative localization // Proceedings of the IEEE conference on computer vision and pattern recognition. 2016. P. 2921-2929.

6. Choe J., Shim H. Attention-based dropout layer for weakly supervised object localization // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019. P. 2219-2228.

7. Bilen H., Vedaldi A. Weakly supervised deep detection networks // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016. P. 2846-2854.

8. Van de Sande K.E., Uijlings J.R., Gevers T., Smeulders A.W. Segmentation as selective search for object recognition // international conference on computer vision. 2011. P. 18791886.

9. Zitnick CL., Dollar P. Edge boxes: Locating object proposals from edges // European conference on computer vision. 2014. P. 391-405.

10. Krizhevsky A., Sutskever I., Hinton G.E. Imagenet classification with deep convolutional neural networks // Advances in neural information processing systems. 2012. N 25. P. 10971105.

References

1. Zharkov A., Vavilin A., Zagaynov I. New Benchmarks for Barcode Detection Using Both Synthetic and Real Data. International Workshop on Document Analysis Systems. 2020. P. 481-493.

2. Zharkov A., Zagaynov I. Universal barcode detector via semantic segmentation. International Conference on Document Analysis and Recognition (ICDAR). 2019. P. 837843.

3. Huang Z., Zou Y., Bhagavatula V., Huang D. Comprehensive attention self-distillation for weaklv-supervised object detection. arXiv preprint arXiv:2010.12023. 2020.

4. Tang P., Wang X., Bat S., Shen W., Bat X., Liu W., Yuille A. Pel: Proposal cluster learning for weakly supervised object detection. IEEE transactions on pattern analysis and machine intelligence. 2018. N 42.1. P. 176-191.

5. Zhou B., Khosla A., Lapedriza A., Oliva A., Torralba A. Learning deep features for discriminative localization. Proceedings of the IEEE conference on computer vision and pattern recognition. 2016. P. 2921-2929.

6. Choe J., Shim H. Attention-based dropout layer for weakly supervised object localization. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019. P. 2219-2228.

7. Bilen H., Vedaldi A. Weakly supervised deep detection networks. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016. P. 2846-2854.

8. Van de Sande K.E., Uijlings J.R., Gevers T., Smeulders A.W. Segmentation as selective search for object recognition, international conference on computer vision. 2011. P. 18791886.

9. Zitnick CL., Dollar P. Edge boxes: Locating object proposals from edges. European conference on computer vision. 2014. P. 391-405.

10. Krizhevsky A., Sutskever I., Hinton G.E. Imagenet classification with deep convolutional neural networks. Advances in neural information processing systems. 2012. N 25. P. 10971105.

Поступим в редакцию 08.06.2022

i Надоели баннеры? Вы всегда можете отключить рекламу.