ОБЗОР СУЩЕСТВУЮЩИХ МЕТОДОВ ОБНАРУЖЕНИЯ ОБЪЕКТОВ

Смирнов Н.А.; Анисимова Э.С.

УДК 004.93 Смирнов Н.А., Анисимова Э.С.

Смирнов Н.А.

магистрант 1 года обучения, отделение математики и естественных наук

Елабужский институт (филиал) Казанский (Приволжский) федеральный университет (г. Елабуга, Россия)

Научный руководитель: Анисимова Э.С.

к.т.н., доцент кафедры математики и прикладной информатики Елабужский институт (филиал) Казанский (Приволжский) федеральный университет (г. Елабуга, Россия)

ОБЗОР СУЩЕСТВУЮЩИХ МЕТОДОВ ОБНАРУЖЕНИЯ ОБЪЕКТОВ

Аннотация: в работе проведён обзор методов обнаружения объектов на снимках и видео: детектор Виолы-Джонса, гистограмма направленных градиентов, модель деформируемых частей, рассмотрены их достоинства и недостатки.

Ключевые слова: обнаружение объектов, дескриптор функции, гистограмма направленных градиентов, скользящее окно.

За последнее время появилось немало различных методов обнаружения объектов на снимках и видео. Рассмотрим их более подробно.

1. Детектор Виолы-Джонса.

Детектор Виолы-Джонса был представлен в 2001 году и основан на функциях типа Хаара(Рис.1). Алгоритм использует каскады и интегральные изображения, а также детектор скользящего окна, который устраняет маловероятные окна, используя быстро вычисляемые функции.

Рис. 1. Функции Хаара, применяемые в алгоритме Виолы-Джонса.

На приведенных выше функциях (Рис. 1) представлен прямоугольник со светлой и темной сторонами, по которым машина определяет, что это за функция. Перед обнаружением объекта изображение преобразуется в оттенки серого, так как с монохромными изображениями проще работать и требуется меньшая обработка данных. По сравнению с более поздними алгоритмами обнаружения объектов алгоритм Виолы-Джонса имеет более низкую точность [2].

2. Гистограмма направленных градиентов.

Дескриптор функции — это представление изображения или патча изображения, которое упрощает его, извлекая полезную и отбрасывая лишнюю информацию. Одним из популярных дескрипторов является гистограмма направленных градиентов (HOG Detector). HOG Detector использует метод статистического сопоставления шаблонов, градиент изображения вычисляет с помощью операторов Собеля, Шарра или Превитта. Операторы Собеля, Шарра и Превитта — это операторы градиента, используемые для обнаружения границ при обработке изображений. Они вычисляют градиент изображения путем свертки изображения с помощью небольшого разделяемого и целочисленного фильтра в горизонтальном и вертикальном направлениях. Оператор Собеля использует ядро 3x3 для вычисления частных производных изображения в направлениях x и y. Оператор Шарра похож на оператор Собеля, но использует ядро 3x3 с другими весами. Операторы Собеля, Шарра, и операторы Превитта

относительно недороги с точки зрения вычислений по сравнению с другими операторами, такими как оператор Кайяли. Однако приближение градиента, создаваемое оператором Превитта, является относительно грубым, особенно для высокочастотных изменений изображения.

На Рис.2 выделен крупно фрагмент изображения, на который наложены стрелки, показывающие градиент — стрелка показывает направление градиента, а ее длина показывает величину. Направление стрелок указывает на направление изменения интенсивности, а величина показывает, насколько велика разница.

Гг 3 4 * 3 4 2 jfl

S 11 IT 13 7 Я 3 4 11 21 Я W 8 Ii i а РЭ М IBS 135 SS 32 26 г »1 I» 133 IM 144 IM 67 20 , 98 IM 76 За 36 вО 170 51 tü5 60 60 17 77 43 136; 71 1» М ?3 1Q& ?7 4U 1Ю'

Gradient Magnitude ■ОМ 3 to О МЯТ] Я 1 J П 77 te» 1«

67 13в 173 за 163 t55 17« .ув 1 ни гг 1»

ISO 70 I« 150 t-tb t44 14$ 143

se вв по ое loo ют 133 из

Я М ^ 71 !Ю 1*4 )Н 11 t« »1 * lift W IM HO Gradient Direction

а б

Рис. 2. а: Патч RGB и градиенты, представленные стрелками, б: градиенты в одном и том же патче, представленные в виде чисел.

3. Модель деформируемых частей.

Модель деформируемых частей (DPM) основана на идее, что объекты можно рассматривать как наборы частей, расположенных в деформируемой конфигурации. Модели деформируемых частей и сверточные нейронные сети являются двумя широко используемыми инструментами для визуального распознавания. Они отличаются между собой, однако недавно было обнаружено, что DPM эквивалентны единой унифицированной CNN[1].

Модели DPM и CNN не являются двумя разными подходами к распознаванию объектов. Вместо этого модель DPM можно сформулировать

как CNN, развернув алгоритм вывода DPM и сопоставив каждый шаг с эквивалентным уровнем CNN.

СПИСОК ЛИТЕРАТУРЫ:

1. Deformable Part Models are Convolutional Neural Networks — инструмент визуального распознавания [Электронный ресурс]. URL: https://w.cv-foundation.org/openaccess/content_cvpr_2015/papers/Girshick_(дата обращения: 20.03.2024);

2. Fast R-CNN — модель обнаружения объектов [Электронный ресурс]. URL: https://arxiv.org/abs/1504.08083(дата обращения: 20.03.2024).

Smirnov N.A., Anisimova E.S.

Smirnov N.A.

Elabuga Branch Kazan Federal University (Elabuga, Russia)

Scientific advisor: Anisimova E.S.

Elabuga Branch Kazan Federal University (Elabuga, Russia)

OVERVIEW OF EXISTING OBJECT DETECTION METHODS

Abstract: the paper provides a review of methods for detecting objects in photographs and videos: the Viola-Jones detector, a histogram of directional gradients, a model of deformable parts, and discusses their advantages and disadvantages.

Keywords: object detection, function descriptor, directional gradients histogram, sliding

window.

ОБЗОР СУЩЕСТВУЮЩИХ МЕТОДОВ ОБНАРУЖЕНИЯ ОБЪЕКТОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Смирнов Н. А., Анисимова Э. С.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Смирнов Н. А., Анисимова Э. С.

OVERVIEWOF EXISTING OBJECT DETECTION METHODS

Текст научной работы на тему «ОБЗОР СУЩЕСТВУЮЩИХ МЕТОДОВ ОБНАРУЖЕНИЯ ОБЪЕКТОВ»