Обзор методов поиска и сопровождения транспортных средств на потоке видеоданных

Золотых Николай Юрьевич; Кустикова Валентина Дмитриевна; Мееров Иосиф Борисович

Информационные технологии Вестник Нижегородского университета им. Н.И. Лобачевского, 2012, № 5 (2), с. 348-358

УДК 004.932

ОБЗОР МЕТОДОВ ПОИСКА И СОПРОВОЖДЕНИЯ ТРАНСПОРТНЫХ СРЕДСТВ НА ПОТОКЕ ВИДЕОДАННЫХ

Нижегородский госуниверситет им. Н.И. Лобачевского

valentina.kustikova@gmail.com

Поступила в редакцию 10.09.2012

Приводится классификация методов детектирования транспортных средств на участке дорожной трассы. Рассматриваются преимущества и недостатки предлагаемых подходов. Описывается общая схема решения задачи с использованием методов компьютерного зрения. Рассматриваются методы поиска и последующего сопровождения объектов на потоке видеоданных.

Ключевые слова: компьютерное зрение, машинное обучение, поиск объектов на изображении, сопровождение объектов на видео, извлечение признаков, особые точки, детектор, дескриптор.

Введение

Множество всех методов детектирования транспортных средств, пересекающих дорожный участок, можно условно разделить на две группы [1, 2]: «инвазивные» и «неинвазивные». «Инвазивные» методы предполагают вмешательство в дорожное покрытие посредством встраивания технических приборов. Среди наиболее распространенных аппаратных решений можно выделить:

- индуктивные детекторы [3, 4] - индуктивные цепи, которые прокладываются под дорожным покрытием, реагируют на попадание металлических объектов;

- пневматические дорожные каналы [5] -пневматические ленты, прокладываемые поперек дорожных полос поверх покрытия, реагируют на вес автомобилей;

- пьезоэлектрические сенсоры [2] - сенсоры, в основе которых лежит явление прямого пьезоэффекта (механическое воздействие, приложенное определенным образом к пьезоэлектрическому кристаллу, порождает электрическое напряжение).

«Неинвазивные» методы позволяют использовать аппаратуру, установленную в пределах видимости дорожного участка, а также программное обеспечение для обработки поступающей информации. К «неинвазивным» решениям можно отнести:

1. Инфракрасные сенсоры - сенсоры, определяющие присутствие объекта, его скорость и тип транспортного средства на основании излучаемой энергии в зоне детектирования. Основным недостатком такого рода решений является

неприспособленность к суровым климатическим условиям.

2. Микроволновые радары [5] - радары, которые позволяют определять скорость движущихся объектов на основании способности электромагнитных волн проникать в оптически непрозрачные среды и частично отражаться от любых неоднородностей на пути распространения. Микроволновые радары не позволяют находить статические или близко расположенные друг к другу объекты.

3. Ультразвуковые датчики - устройства, в которых для определения количества транспортных средств и их типов используются звуковые волны и звуковая энергия. На ультразвуковые датчики оказывают значительное влияние температурные режимы и явления турбулентности.

4. Системы видеодетектирования [4-6] -системы, которые в процессе детектирования обрабатывают поток видеоданных. Основное ограничение видеодетекторов - влияние визуальных условий съемки (освещение, сезонные изменения фона) на качество поиска объектов.

Перечисленные решения (как инвазивные, так и неинвазивные) используют специализированное аппаратное обеспечение, имеющее ряд ограничений - от высокой стоимости, сложности сопровождения и внедрения до небольшого срока службы. Далее в работе рассматриваются системы видеодетектирования, достаточно перспективные с точки зрения практического использования.

Системы видеодетектирования реализуются программным образом на сервере обработки потока видеоданных или интегрируются непо-

средственно в камеру, оснащенную программируемым сигнальным процессором [7-9] или микросхемой (application-specific integrated circuit, [10]). Процессоры позволяют определить присутствие объекта в пределах полосы движения, вычислить его размер, классифицировать объект на основании соотношения его длины и ширины. В указанных системах также может быть использована дополнительная информация, поступающая с различных датчиков (например, данные с GPS позволяют определить положение камеры на карте города). Системы видеодетектирования часто поставляются в привязке к оборудованию, а разработчики программных модулей ведут адаптацию имеющихся библиотек для других камер и видеопроцессоров. При этом в библиотеках, как правило, реализуются методы поиска простых объектов, которые являются частями транспортных средств, например регистрационных номеров [11] или колес [12]. Как следствие, накладываются ограничения на разрешение видеокамер и их расположение на дороге.

Естественное желание разработчиков систем видеодетектирования состоит в том, чтобы повысить отказоустойчивость и качество работы системы при изменении конфигурации аппаратного обеспечения. Одно из наиболее приоритетных направлений исследований - создание новых и адаптация существующих методов видеодетектирования. Далее предлагается обзор наиболее популярных методов компьютерного зрения для решения задачи видеодетектирования объектов, в частности транспортных средств.

1. Методы видеодетектирования объектов

1.1. Схемы решения задачи видеодетектирования транспортных средств. Можно выделить два основных подхода к построению полнофункциональных систем видеодетектирования транспортных средств [13-15]: поиск и сопровождение областей движения с последующей идентификацией этих областей как транспортных средств того или иного класса (автобус, автомобиль, мотоцикл и т.п.); поиск и сопровождение обнаруженных транспортных единиц.

При реализации поиска и сопровождения областей движения работу системы можно разбить на несколько этапов:

1. Выделение областей движения на текущем кадре видео.

2. Сопровождение (трекинг) областей движения на нескольких последующих кадрах. В

процессе сопровождения обеспечивается построение траектории движения для каждой области. Отметим, что в результате перекрытий каждая область может содержать группы объектов.

3. Восстановление параметров объектов: разделение объектов, принадлежащих одной области движения, классификация транспортных средств, определение длины и ширины объекта и других параметров, которые можно вычислить на основании полученной последовательности областей движения и информации о положении камеры.

4. Сопровождение транспортных средств. На данном этапе выполняется построение траекторий движения транспортных средств, выделенных на предыдущем шаге, от момента их идентификации до их выхода из области обзора камеры.

В настоящее время большинство систем работают согласно данной схеме. Заметим, что схема, основанная на поиске и сопровождении областей движения, работает исключительно в случае неподвижной камеры и постоянного фона. В естественных условиях камера всегда находится под воздействием ветра и осадков, поэтому неподвижность практически недостижима. Как следствие, выполняется программная стабилизация видео.

Типичная схема работы систем видеодетектирования посредством обнаружения и сопровождения объектов не зависит от типа детектируемых объектов (человек, автомобиль и др.) и состоит из следующей последовательности действий:

1. Извлечение кадра из потока видеоданных.

2. Предобработка полученного статического изображения - кадра.

3. Поиск положения объекта на изображении и оценка степени достоверности нахождения объекта в данной области. В дополнение на данном этапе в некоторых системах выполняется внутриклассовое деление - классификация объектов в рамках одного рассматриваемого класса.

4. Сопровождение обнаруженных объектов.

5. Анализ результатов поиска и сопровождения (например, оценка направления движения объекта на основании траектории, подсчет числа объектов и т.п.). Функциональность блока анализа результатов в основном зависит от конкретной задачи, которая поставлена перед разработчиками системы видеодетектирования.

При реализации приведенной схемы ядром системы являются модули предобработки изображения, поиска и сопровождения объектов.

Далее остановимся на некоторых наиболее распространенных методах поиска и сопровождения.

1.2. Методы поиска объектов на изображении

1.2.1. Поиск объектов. Цель поиска - определить наличие объекта на изображении и найти его положение в системе координат пикселей исходного изображения. Положение объекта в зависимости от выбора алгоритма может определяться координатами прямоугольника, окаймляющего объект, либо контуром этого объекта, либо координатами набора точек, наиболее характерных для объекта. Решение задачи поиска объектов позволяет анализировать качественный состав сцены, а также получать информацию о взаимном расположении объектов.

Сложность задачи поиска объектов на изображении обусловлена многими причинами, среди которых можно выделить несколько основных:

1. Разнообразие форм и цветов представителей класса объектов. В случае множества транспортных средств это разнообразие типов (легковые и грузовые автомобили, автобусы, мотоциклы и т.д.), моделей и цветов.

2. Перекрытие детектируемых объектов. Естественная ситуация, когда с точки зрения камеры объекты видны частично, например обозревается только крыша и ветровое стекло автомобиля.

3. Разная степень освещенности объектов, обусловленная временными и погодными изменениями.

1.2.2. Методы, основанные на извлечении признаков. Один из возможных подходов к решению задачи поиска объектов состоит в том, чтобы использовать алгоритмы машинного обучения для построения моделей классов объектов (стул, человек, мотоцикл, самолет, автомобиль, автобус и т. д.) и алгоритмы вывода для определения положения объектов на изображении.

Построение модели состоит из двух этапов:

1. Извлечение признаков (числовых характеристик), характерных для объектов класса, на некотором множестве изображений - построение характеристических векторов признаков для особых точек объекта (углов, линий, ребер [16], контуров [17]) или для всего объекта. На данном этапе по существу формируется тренировочная выборка.

2. Построение модели объекта. Предполагает тренировку классификатора на полученной выборке.

Техники данной группы описывают объект с использованием векторов-признаков. Векторы вычисляются на основании анализа функции яркости пикселей (гистограмма ориентированных градиентов (Histogram of Oriented Gradients, HOG) - один из наиболее популярных способов). Также может быть использована контекстная информация (context based) [18, 19], а в некоторых случаях - данные о геометрии и взаимном расположении частей объекта (part-based) [20, 21]. В результате объект описывается набором векторов признаков в характерных точках, а в процессе тренировки формируется модель, содержащая наиболее типичные векторы признаков.

Алгоритм вывода включает два этапа:

1. Извлечение признаков объекта из тестового изображения. При извлечении признаков возникают две основные проблемы:

• На изображении может быть много объектов одного класса, а требуется найти всех представителей. Поэтому необходимо просматривать все части изображения. Типичное решение - проход «бегущим» окном (sliding window) от левого верхнего до правого нижнего угла. При этом размер окна определяется размером изображений объекта в тренировочной выборке.

• Объекты на изображении могут иметь разный масштаб. Самое распространенное решение - масштабирование изображения.

2. Определение положения объектов на изображении. Входными данными алгоритма поиска положения являются формальное описание объекта и модель класса объектов. Формальное описание - набор признаков, которые выделены из тестового изображения. На основании этой информации выполняется сравнение формального описания с моделью. Значение меры сходства можно рассматривать как степень достоверности того, что объект принадлежит классу, который определяется заданной моделью.

Качество работы методов данной группы в основном зависит от того, какие выбраны признаки, т.е. насколько хорошо признаки разделяют классы объектов (стул, машина, человек и т.п.). В настоящее время можно найти специальные методы, основанные на извлечении признаков, например для поиска лиц [22-24], транспортных средств [25] и пешеходов [26-28].

1.2.3. Методы поиска по шаблону. Поиск объектов на основании некоторого шаблона предполагает, что имеется изображение объекта с выделенными признаками - шаблон - и тестовое изображение, которое сопоставляется с этим шаблоном. В простейшем случае в качестве шаблона может выступать матрица интен-

сивностей цветов, наиболее характерных для объекта. Более сложные методы рассматриваемой группы в качестве шаблона используют наборы векторов признаков (дескрипторы), геометрическое представление объекта [29] или вероятностные модели объектов, которые содержат информацию о распределениях интенсивностей пикселей [16]. Сопоставление (matching) [30] с шаблоном подразумевает сравнение описаний тестового и шаблонного изображений по некоторой выбранной метрике [10], как правило, выбирается евклидово расстояние, норма L\, взвешенная свертка квадратичных ошибок либо корреляция [30]. Отметим, что методы поиска по заданному шаблону эффективно работают при поиске одиночных объектов, т.к. при возникновении перекрытий исчезают некоторые признаки в описании.

1.2.4. Методы определения областей движения. Задача выделения областей движения на видео - одна из классических задач компьютерного зрения. Решением настоящей задачи является совокупность областей изображения, в которых происходит движение одного или нескольких объектов.

Наиболее простой подход к решению данной задачи состоит в том, чтобы использовать механизм вычитания фона из кадра видео (background subtraction) [31-33]. Процедура вычитания предполагает, что для данного видео построена модель фона, также, возможно, существует механизм обновления модели фона с течением времени. Для одноканального (в оттенках серого) изображения процедуру можно разбить на два этапа:

1. Вычитание фонового изображения из текущего кадра видео. Данный шаг включает в себя попиксельное вычитание интенсивностей кадра видео и фонового изображения.

2. Отбор пикселей, принадлежащих фону и объекту, - построение бинарного изображения (маски). Считается, что пиксель принадлежит объекту и имеет белый цвет в маске, если разность интенсивностей фона и текущего кадра для данного пикселя превышает некоторое пороговое значение.

Дополнительно к указанным операциям с целью повышения качества поиска может выполняться, например, фильтрация кадров исходного потока видеоданных либо фильтрация бинарного видео, также могут применяться морфологические операции к полученному отсечению [32]. Если имеется цветное изображение, то его всегда можно преобразовать в оттенки серого. Качество определения положения движущихся областей посредством вычитания

фона во многом зависит от качества построенной модели фона. Множество всех техник вычитания фона подразделяется на две группы в зависимости от механизма построения фонового изображения:

1. Нерекурсивные. Нерекурсивные методы обновляют модель фона для текущего кадра на основании информации об интенсивностях пикселей некоторого набора предшествующих моделей фона [31] (или кадров) и текущего кадра. К наиболее распространенным нерекурсивным методам относятся метод вычитания текущего и предыдущего кадров и метод усреднения N предшествующих кадров или моделей фона.

2. Рекурсивные. Рекурсивные методы для обновления модели фона используют информацию об интенсивностях пикселей только текущего кадра. К таковым относятся метод представления модели фона смесью гауссовых распределений [33] и метод «шифровальной» книги (codebook) [34, 35].

Еще один простейший способ оценить движение на нескольких изображениях - перебрать все возможные варианты смещений изображений или фрагментов (translational alignment [30, гл. 8.1]). Для этого первоначально необходимо выбрать метрику для оценки степени сходства фрагментов. Как следствие, исходная задача может быть сведена к минимизации этой оценочной функции по всем возможным направлениям смещения. На практике полный перебор работает достаточно медленно, поэтому часто применяются иерархические схемы. Конструируется пирамида изображений посредством масштабирования исходного изображения, и поиск выполняется от мелких изображений к более крупным, в результате чего постепенно отсекаются направления смещения, в которых заведомо не происходит движение.

Многие задачи, такие, например, как склеивание изображений в панораму, стабилизация видео, требуют построения более сложных моделей движения, т.к. аффинные преобразования сводятся не только к простому смещению. Поэтому рассматриваются пространственные поля смещений и строятся параметрические модели движения (parametric motion [30, гл. 8.2]).

Во многих случаях визуальное движение вызвано смещением небольшого количества объектов, находящихся на разной глубине изображения [30]. Поэтому движение пикселей можно описать более эффективно, если сгруппировать их в слои [37] и, как следствие, отслеживать многоуровневое движение (layered motion [30, гл. 8.5]) построенных слоев, например, с помощью параметрических моделей [38].

Другой распространенный подход к решению задачи детектирования областей движения

- вычисление оптического потока (optical flow) [30, 33, 36]. Оптический поток позволяет определить смещение каждого пикселя. Применение данного подхода требует выполнения двух основных условий:

- яркость каждой точки объекта не изменяется с течением времени;

- ближайшие точки, принадлежащие одному объекту, в плоскости изображения двигаются с похожей скоростью.

В результате исходная задача вычисления оптического потока сводится к задаче минимизации квадратичной ошибки при наличии ограничений в виде равенств. Данная процедура применяется к каждому пикселю текущего изображения, в результате чего обеспечивается построение поля векторов смещения всех пикселей. Метод оптического потока также применяется для определения направления движения объекта при решении задачи сопровождения.

1.3. Методы сопровождения объектов

1.3.1. Классификация методов сопровождения. Сопровождение (трекинг) движущихся объектов - это один из компонентов многих систем реального времени, таких как системы слежения, анализа видео и других. Входными данными любого алгоритма сопровождения является последовательность изображений (кадров видео) с нарастающим объемом информации, которую необходимо обрабатывать и анализировать. Алгоритм сопровождения обеспечивает построение траектории движения целевых объектов на входной последовательности кадров. Насколько известно авторам, на данный момент не существует метода, который позволял бы решать задачу сопровождения в общем случае. Критичным вопросом для алгоритмов трекинга является начальный «захват» объекта - определение исходного положения.

Существует несколько категорий методов сопровождения объектов [39]:

• Методы сопровождения особых точек (point tracking). Объекты на последовательных кадрах представляются наборами соответствующих точек. Данная группа методов разделяется на детерминистские и вероятностные. Детерминистские методы [40] используют качественные эвристики движения (небольшое изменение скорости, неизменность расстояния в трехмерном пространстве между парой точек, принадлежащих объекту), по существу задача сводится к минимизации функции соответствия наборов точек. Вероятностные методы исполь-

зуют подход, основанный на понятии пространства состояний. Считается, что движущийся объект имеет определенное внутреннее состояние, которое измеряется на каждом кадре. В простейшем случае под состоянием понимается положение объекта на изображении. Чтобы оценить следующее состояние объекта, требуется максимально обобщить полученные измерения, т. е. определить новое состояние при условии, что получен набор измерений для состояний на предыдущих кадрах. Типичными примерами таких методов являются методы на базе фильтра Кальмана [31, 41-43] и фильтра частиц (particle filter) [44-46]. При использовании фильтра Кальмана предполагается, что состояние - случайная величина с нормальным распределением, а в случае фильтра частиц распределение задается набором возможных значений состояния с указанием частот их возникновения.

• Методы трекинга компонент (kernel tracking). Под компонентой понимается форма объекта или его внешний вид. В простейшем случае компонента может быть представлена шаблоном прямоугольной или овальной формы, в более сложных - трехмерной моделью объекта, спроецированной на плоскость изображения. Как правило, методы данной группы применяются, если движение определяется обычным смещением, поворотом или аффинным преобразованием. Трекинг компонент - итеративная процедура локализации, основанная на максимизации некоторого критерия подобия. На практике реализуется с использованием сдвига среднего (mean shift) [32, 47] и его непрерывной модификации (Continuous Adaptive Mean Shift, CAM Shift) [32, 48].

• Методы сопровождения силуэта (silhouette tracking). Силуэт может быть задан контуром либо набором связанных простых геометрических примитивов. Задача трекеров силуэта состоит в том, чтобы на каждом кадре определить область, в которой находится объект, с использованием его модели, построенной на основании предшествующих кадров. Условно можно выделить методы сопоставления и сопровождения фрагментов, содержащих объект, и методы сопровождения контура. При сопоставлении естественным образом должна быть введена мера сходства пары областей. На практике используется расстояние Хаусдорфа, норма L2, также при сопоставлении значение оценочной функции может вычисляться с использованием нескольких мер, включая, например, кросс-корреляцию, расстояние Бхачатария. Трекинг фрагментов выполняется посредством вы-

числения оптического потока для внутренних точек области (раздел 1.2.4). Методы сопровождения контура позволяют прогнозировать положение контура на следующем кадре. Первый подход состоит в использовании моделей пространства состояний (по типу фильтра Кальмана), второй - в минимизации функции энергии контура с использованием прямых техник, таких как градиентный спуск.

1.3.2. Алгоритмы сопровождения особых точек. В настоящее время детерминистские методы сопровождения особых точек чаще остальных используются на практике, поэтому далее более подробно рассмотрим некоторые методы данной группы. Необходимым условием использования этих методов является наличие выделенных точек, которые наилучшим образом представляют объект. Выделение особых точек выполняется с использованием специальных детекторов и дескрипторов. Если детектор находит положение особой точки на изображении, то дескриптор дополнительно строит вектор признаков, характерных для полученной точки. Схема работы трекера особых точек может быть представлена в виде последовательности действий [66]:

1. Поиск особых точек на текущем кадре видео посредством выбранного детектора.

2. Вычисление дескрипторов для полученного набора точек.

3. Сопоставление (matching) дескрипторов, полученных на текущем и предыдущем кадре. Сопоставление во многих алгоритмах сопровождения особых точек выполняется с использованием алгоритмов RANSAC (random sample consensus [31]) или NCC (normalized crosscorrelation).

В работе [66] приводится анализ применения детекторов и дескрипторов для решения задачи сопровождения, также предлагается перечень существующих систем слежения, основанных на построении особых точек.

С каждым пикселем изображения можно связать некоторый вектор скорости, который определяет, какое расстояние «прошел» пиксель в течение временного промежутка между предыдущим и текущим кадрами. Такая конструкция, построенная для каждого пикселя изображения, представляет собой плотный оптический поток. Одним из наиболее известных алгоритмов сопровождения, основанных на вычислении плотного оптического потока, является метод Хорна (Horn - Schunck method) [32, 67]. По существу данный метод предполагает решение системы дифференциальных уравнений с помощью итерационных методов для построения

компонент вектора скорости в каждой точке изображения. Другой класс алгоритмов, использующих плотный оптический поток, - алгоритмы сопоставления блоков (block matching algorithms [32]). Идея состоит в том, что предыдущее и текущее изображение разбивается на блоки, как правило, квадратные и перекрывающиеся, а затем определяется движение этих блоков. Поскольку алгоритмы сопоставления работают с блоками, то изображение поля скоростей обычно имеет меньшее разрешение по сравнению с исходным изображением. Алгоритм Лукаса - Канаде (Lucas - Kanade) основан на вычислении разреженного оптического потока, т.е. на построении векторного поля скоростей для выделенного набора точек. В общем случае алгоритм применим к любой функции размерности п. Задача слежения без учета аффинных искажений с помощью данного алгоритма сводится к поиску оптического потока в особых точках [68]. Впоследствии появились модификации данного алгоритма Томаши -Канаде (Tomasi - Kanade) и Ши - Томаши -Канаде (Shi - Tomasi - Kanade). Трекер Ши -Томаши - Канаде впервые учитывает аффинные искажения окрестных точек. Также существует модификация метода для случая переменного освещения [69]. Отметим, что множество методов, основанных на построении оптического потока, не ограничивается приведенными ранее в данном разделе. В литературе можно обнаружить различные модификации перечисленных методов. В работе [70] предлагается сравнение производительности различных алгоритмов сопровождения с использованием оптического потока.

Несколько в стороне стоят методы сопровождения, основанные на использовании техники «сдвиг среднего» (mean shift) [32, 47, 48]. Идея методов состоит в том, что для каждой особой точки выбирается окно поиска, вычисляется центр масс интенсивностей или распределений интенсивностей. Соответственно центр окна смещается в центр масс, который представляет собой положение особой точки на текущем кадре. Определение положения точки на последующих кадрах сводится к применению очередного шага метода «сдвига среднего».

Алгоритм медианного потока (Median Flow или Predator) [71, 72] - одна из последних разработок. Алгоритм позволяет оценивать смещение целевого объекта с высокой точностью за счет обучения случайных деревьев [58] в процессе слежения. По существу на каждом этапе обучения к исходному фрагменту, содержащему объект, добавляется прилегающий фрагмент

с изображением нового ракурса объекта. Алгоритм медианного потока устойчив к перекрытиям объектов, выходу целевого объекта из области обзора камеры и последующему его возврату, быстрому движению камеры и разрывам между кадрами.

1.3.3. Детекторы особых точек. Одним из наиболее распространенных типов особых точек являются углы на изображении [33], т.к. в отличие от ребер углы на паре изображений можно однозначно сопоставить. Расположение углов определяется с помощью локальных детекторов. Локальные детекторы работают на черно-белых изображениях, формируют матрицу с элементами, значения которых определяют степень правдоподобности нахождения угла в соответствующих пикселях изображения. Отсечение пикселей со степенью правдоподобности, меньшей некоторого порога, позволяет выделить особые точки.

Детектор Моравеца (Moravec) [49] является самым простым детектором углов. Основными недостатками данного детектора являются отсутствие инвариантности к преобразованию типа «поворот» и возникновение ошибок при наличии большого количества диагональных ребер, на пересечении которых располагаются углы. Детектор Моравеца обладает свойством анизотропии в 8 принципиальных направлениях смещения окна.

Детектор Харриса (Harris) [30, 33, 50, 51] строится на основании детектора Моравеца и является его улучшением. По сравнению со своим предшественником он инвариантен относительно поворота, количество ошибок детектирования углов невелико за счет введения свертки с гауссовыми весовыми коэффициентами. Результаты поиска значительно меняются при масштабировании изображения. Также существуют модификации детектора Харриса, которые учитывают вторые производные функции интенсивности (например, детектор Харриса - Лапласа (Harris - Laplace) [52]).

При разработке детектора MSER (Maximally Stable Extremal Regions, Matas и др., 2002) решается проблема инвариантности особых точек при масштабировании изображения. Детектор [32, 33, 50, 53] выделяет множество различных регионов с экстремальными свойствами функции интенсивности внутри этого региона и на его внешней границе. Идея поиска областей с экстремальными свойствами интенсивности пикселей, устойчивых к изменению масштаба, также лежит в основе детекторов LoG (Lapla-cian of Gaussian [54]) и DoG (Difference of Gaus-sians [55]).

Приведенные выше детекторы определяют расположение особых точек на изображении, в частности углов, применяя некоторую модель или алгоритм напрямую к пикселям исходного изображения. Альтернативный подход состоит в том, чтобы использовать алгоритмы машинного обучения для тренировки классификатора точек на некотором множестве изображений. FAST-детектор (Features from Accelerated Test) [50, 56] является типичным представителем данного класса детекторов.

1.3.4. Дескрипторы особых точек. Процедура построения дескрипторов изначально применяется при сопоставлении особых точек. В результате построения формируется множество векторов признаков для исходного набора особых точек.

SIFT (Scale Invariant Feature Transform) [30,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

50, 55] - один из наиболее известных дескрипторов, который одновременно является детектором. В основе лежит идея вычисления гистограммы ориентированных градиентов в окрестности особой точки. Дескриптор PCA-SIFT [30, 57] по существу является модификацией SIFT и строится по той же схеме, только для каждой особой точки рассматривается окрестность большего размера. Для результирующего набора дескрипторов осуществляется снижение размерности векторов посредством анализа главных компонент (Principal Component Analysis, PCA) [58].

Дескриптор SURF (Speeded up Robust Features) [50, 59] также относится к числу тех дескрипторов, которые одновременно выполняют поиск особых точек и строят их описание, инвариантное к изменению масштаба и преобразованию типа «поворот». Кроме того, сам поиск ключевых точек обладает инвариантностью в том смысле, что повернутый объект сцены имеет тот же набор особых точек, что и образец.

Дескриптор GLOH (Gradient Location-Orien-tation Histogram) [52] является модификацией SIFT-дескриптора, который построен с целью повышения надежности. По факту вычисляется SIFT-дескриптор, но используется полярная сетка разбиения окрестности.

При разработке дескриптора DAISY [60] были использованы идеи построения SIFT- и GLOH-дескрипторов. Аналогично GLOH выбирается круговая окрестность особой точки, при этом отдельные блоки представляются не частичными секторами, а окружностями.

Цель создания дескриптора BRIEF (Binary Robust Independent Elementary Features) [61] состояла в том, чтобы обеспечить распознавание одинаковых участков изображения, которые

были получены с разных углов обзора. При этом ставилась задача уменьшить количество выполняемых вычислений. Алгоритм распознавания сводится к построению случайного леса (randomize classification trees) или наивного байесовского классификатора [58] на некотором тренировочном множестве изображений и последующей классификации участков тестовых изображений. Небольшое количество операций обеспечивается за счет представления вектора признаков в виде бинарной строки и, как следствие, использования в качестве меры сходства расстояния Хэмминга. Более эффективной альтернативой дескрипторов BRIEF и SIFT является бинарный дескриптор ORB [62].

В настоящем разделе приведен лишь небольшой перечень наиболее известных дескрипторов. Среди работ по данной тематике отдельно необходимо выделить работы, в которых рассматриваются вопросы сравнения качества и скорости работы различных дескрипторов [63-65].

2. Методы видеодетектирования транспортных средств

При решении задачи видеодетектирования транспортных средств по существу выделяются такие же этапы, как и в случае произвольных объектов. Центральными этапами являются поиск и сопровождение. При этом работают методы, описанные ранее. Поэтому в данном разделе остановимся лишь на некоторых приемах и методах, специфичных для задачи видеодетектирования транспортных средств.

Перечислим типичные методы предобработки кадра видео.

1. Определение областей движения объектов с последующим удалением шумов и применением морфологических операций (эрозия и дилатация [31]). Детектирование движения, как правило, выполняется посредством вычитания фоновой модели, т.к. это наименее трудоемкая операция. Основными проблемами на данном этапе являются:

• Изменчивость фона в зависимости от времени суток. Один из возможных вариантов решения состоит в том, чтобы отслеживать системное время на кадрах потока видеоданных и строить фоновые модели для разных промежутков времени.

• Наличие статических объектов на видео. Чтобы не потерять статические объекты на видео (например, остановившийся автомобиль или автобус), хранится история движения.

Детектирование движения значительно су-

жает область последующего поиска и классификации объектов.

2. Подавление теней. Подавление теней используется в сочетании с методами детектирования движения. Тени двигаются вместе с объектами либо отбрасываются статическими объектами, поэтому в процессе обработки видео могут восприниматься как самостоятельные объекты, хотя таковыми не являются. В настоящее время существуют работы [73-75], в которых описываются различные подходы к устранению теней на реальных видео с транспортными потоками. В [76] приводится классификация существующих методов подавления теней, а также сравнение их эффективности.

3. Сегментация изображения и выделение областей интереса (regions of interest, ROI) -полос движения или участков дорожного полотна. Для сегментации используются горизонтальный и вертикальный фильтры Собеля [77], в более сложных случаях применяется метод «сдвига среднего». Сегментация выполняется с целью дальнейшего анализа и сбора статистики. Например, выделение транспортных полос осуществляется для подсчета автомобилей, которые двигаются по разным полосам. Сегментация часто осложняется погодными условиями и невозможностью найти дорожную разметку.

4. Выделение ребер или линий на кадре видео. Определение ребер осуществляется с помощью фильтра Кэнни (Canny) [78, 79] либо с использованием преобразования Хафа (Hough) [78, 80].

В целом анализ литературы показал, что при детектировании транспортных средств разных классов, как правило, используются методы, основанные на извлечении признаков. Ключевыми моментами при разработке указанных методов являются:

1. Выбор признаков, которые наилучшим образом дифференцируют классы транспортных средств (автомобили, автобусы, мотоциклы и т. п.).

2. Выбор классификатора для построения модели.

3. Выбор меры сходства объекта и построенной модели - построение оценочной функции для возможных положений объектов, которая используется в процессе поиска.

В задаче детектирования транспортных средств чаще всего используются признаки Габора (Gabor) [81], которые вычисляются на основании вейвлет-преобразования Габора, а также HOG-признаки (Histogram of Oriented Gradients). Наиболее распространенными классификаторами при решении задачи детектирования

транспортных средств являются машина опорных векторов (SVM) [58], классификатор Adaboost [58] и нейронные сети (Neural Networks) [58, 78]. На остальных этапах решения данной задачи применяются те же методы, что и при детектировании других объектов.

Авторы выражают искреннюю признательность рецензенту, замечания которого помогли существенно улучшить первоначальный вариант статьи.

Работа выполнена в рамках программы «Исследования и разработки по приоритетным направлении-ям развития научно-технологического комплекса России на 2007-2013 годы», государственный контракт № 11.519.11.4015.

Список литературы

1. Traffic counting methods [http://people.hof-stra.edu/ geotrans/eng/ch9en/meth9en/ch9m2en.html].

2. A summary of vehicle detection and Surveillance Technologies used in Intelligent Transportation Systems

[http://www.fhwa.dot.gov/policyinformation/pubs/vdstits

2007/vdstits2007.pdf].

3. Marsh Products, Inc. [http://www.marshproducts. com].

4. RAI Products [http://www.raiproducts.com/ vehi-cle-detection-systems.html].

5. International Road Dynamics Inc. [http://www.ir-dinc.com/products/sensors_accessories/on_road_sensors/].

6. Vaxtor Systems [www.vaxtor.com].

7. Архив новостей по рубрике Digital Signal Processing [http://www.compeljournal.ru/enews/rubric/ dsp].

8. Технология DaVinci - новая эра в цифровой обработке видеосигнала [http://www.compeljournal.ru/ images/articles/2005_10_4.pdf].

9. Quartics Products (integrated circuits for advanced video digital video processing) [http://www.quar-tics.com/products.html].

10. Application-Specific Integrated Circuit [http:// www.siliconfareast.com/asic.htm].

11. Arth C., Limberger F., Bischof H. Real-Time License Plate Recognition on an Embedded DSP-Platform // Proceedings of the Conference on Computer Vision and Pattern Recognition. 2007.

12. Hirose K., Torio T., Hama H. Robust Extraction of Wheel Region for Vehicle Position Estimation using a Circular Fisheye Camera // International Journal of Computer Science and Network Security. 2009. V. 9. №12.

13. Sivaraman S., Trivedi M.M. A General Active-Learning Framework for On-Road Vehicle Recognition and Tracking //IEEE Transactions on Intelligent Transportation Systems. 2010. V.11. № 2. P. 267-276.

14. Kim Z.W., Malik J. Fast Vehicle Detection with Probabilistic Feature Grouping and its Application to Vehicle Tracking // Proceedings of the ICCV’03. 2003. V. 1. P. 524-531.

15. Tsai Y.M., Tsai C.C., Huang K.Y., Chen L.G. An intelligent vision-based vehicle detection and tracking system for automotive applications // Proceedings of the IEEE International Conference on Consumer Electronics. 2011. P. 113-114.

16. Amit Y. 2D Object Detection and Recognition: models, algorithms and networks. The MIT Press, 2002. 325 p.

17. Shotton J., Blake A., Cipolla R. Contour-based Learning for Object Detection // Proceedings of the 10th IEEE International Conference on Computer Vision (ICCV’05). 2005. V.1. P. 503-510.

18. Torralba A., Murphy K.P., Freeman W.T., Rubin M.A. Contex-based Vision System for Place and Object Recognition // Proceedings of the 9th IEEE International Conference on Computer Vision (ICCV’03). 2003. V. 1. P. 273-283.

19. Myung Jin Choi, Lim J.J., Torralba A., Willsky A.S. Exploiting Hierarchical Contex on a Large Database of Object Categories // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR’10). 2010. P. 129-136.

20. Felzenszwalb P.F., Girshick R.B., McAllester D., Ramanan D. Object Detection with Discriminatively Trained Part Based Models // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2010. V. 32. №9. P. 1627-1645.

21. Druzhkov P.N., Eruhimov V.L., Kozinov E.A., et al. On some new object detection features in OpenCV library // Pattern Recognition and Image Analysis: Advances in Mathematical Theory and Applications. 2011. V. 21. №3. P. 384-386.

22. Viola P., Jones M.J. Robust Real-Time Face Detection // International Journal of Computer Vision.

2004. №57(2). P. 137-154.

23. Viola P., Jones M.J. Rapid object detection using a boosted cascade of simple features // Proceedings of the IEEE Conf. on Computer Vision and Pattern Recognition. 2001.

24. Pentland A., Choudhury T. Face Recognition for Smart Environments // IEEE Computer Vision. 2000. P. 50-55.

25. Alonso D., Saldaro L., Nieto M. Robust Vehicle Detection through Multidimensional Classification for on Broad Video Based Systems // IEEE. 2007.

26. Dalal N., Triggs B. Histograms of oriented gradients for human detection // Proceedings of the CVPR’05.

2005.

27. Viola P., Jones M.J., Snow D. Detecting pedestrians using patterns of motion and appearance // Proceedings of the 9th International Conference on Computer Vision (ICCV’03). 2003. V. 1. P. 734-741.

28. Gavrila D.M., Giebel J., Munder S. Vision-based pedestrian detection: the protector system // Proceedings of the IEEE Intelligent Vehicles Symposium, Parma, Italy. 2004. P. 13-18.

29. Hilario C., Collado J.M., Armingol J.M., Escalera A. Pyramidal Image Analysis for Vehicle Detection // Proceedings to Intelligent Vehicles Symposium. 2005. P. 88-93.

30. Szeliski R. Computer Vision: Algorithms and Applications. Springler, 2010. 979 p.

31. Форсайт Д., Понс Ж. Компьютерное зрение. Современный подход. М.: Изд. дом «Вильямс», 2004. 465 с.

32. Bradski G., Kaehler A. Learning OpenCV Computer Vision with OpenCV Library. O' Reilly Media Publishers, 2008. 571p.

33. Sonka M., Hlavac V., Boyle R. Image Processing, Analysis and Machine Vision. Thomson, 2008. 866 p.

34. Leibe B., Leonardis A., Schiele B. Robust Object Detection with Interleaved Object Categoization and Segmentation. Springler Science + Business Media, LLC, 2007.

35. Lee P.H., Chiu T.H., Lin Y.L., Hung Y.P. Realtime pedestrian and vehicle detection in video using 3D cues // Proceedings of the 2009 IEEE international conference on Multimedia and Expo (ICME’09). 2009. P. 614-617.

36. Horn B., Schunk B. Determing Optical Flow // MIT Artificial Intelligence Laboratory. 1980. №572.

37. Wang J.Y.A., Adelson E.H. Representing moving images with layers // IEEE Transactions on Image Processing. 1994. 3(5). P. 625-638.

38. Kumar M.P., Torr P.H.S., Zisserman A. Learning Layered Motion Segmentations of Video // International Journal of Computer Vision (IJCV). 2008. V.76, №3. P. 311-319.

39. Yilmaz A., Javed O., Shah M. Object tracking: A survey // ACM Computing Surveys. 2006. V. 38, № 4. Article 13.

40. Veenman C., Reinders M., Backer E. Resolving motion correspondence for densely moving points // IEEE Trans. Pattern Analysis Machine Intelligence. 2001. V.23, № 1. P. 54-72.

41. Salarpour Amir, Salarpour Arezoo, Fathi M., Dezfoulian MirHossein Vehicle tracking using Kalman filter and features // Signal & Image Processing: An International Journal (SIPIJ). 2011. V. 2, №2.

42. Dan S., Baojun Zh., Linbo T. A Tracking Algorithm Based on SIFT and Kalman Filter // Proceedings The 2nd International Conference on Computer Application and System Modeling. 2012. P. 1563-1566.

43. Ning Li. Corner feature based object tracking using adaptive Kalman filter // Proceedings of the 9th International Conference on Signal Processing (ICSP 2008). 2008. P. 1432-1435.

44. Isard M., Blake A. Condensation - conditional density propagation for visual tracking // Int. J. Comput. Vision. 1998. V. 29. №1. P. 5-28.

45. Gustafsson F., Gunnarsson F., Bergman N. et al. Particle Filters for Positioning, Navigation and Tracking // IEEE Transactions on Signal Processing. 2002. Vol. 2. Is. 2. P. 425-437.

46. Particle Filter Object Tracking [http://blogs.ore-gonstate.edu/hess/code/particles/].

47. Comaniciu D., Ramesh V., Meer P. Real-time tracking of non-rigid objects using mean shift // Proceedings of the CVPR’00. 2000. V. 2. P. 142-149.

48. Exner D., Bruns E., Kurz D., Grundhofer A. Fast and robust CAMShift tracking // Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. 2010. P. 9-16.

49. Formal Description of Moravec detector [http://kiwi.cs.dal.ca/~dparks/CornerDetection/moravec. htm].

50. Tuytelaars T., Mikolajczyk K. Local Invariant Feature Detectors: A Survey // Foundation and Trends in Computer Vision. 2007. V. 3. №3. P. 177-280.

51. Harris/Plessey Operator [http://kiwi.cs.dal.ca /~dparks/CornerDetection/harris.htm].

52. Mikolajczyk K., Schmid C. Scale and affine invariant interest point detectors // International Journal of Computer Vision. 2004. №60(1). P. 63-86.

53. Matas J., Chum O., Urban M., Pajdla T. Robust wide baseline stereo from maximally stable extremal regions // British Machine Learning Conference. 2002. P. 384-393.

54. Lindeberg T. Feature detection with automatic scale selection // International Journal of Computer Vision. 1998. V.30. Is. 2.

55. Lowe D. Distinctive image features from scale-invariant keypoints // International Journal of Computer Vision. 2004. № 60. P. 91-110.

56. Rosten E., Drummond T. Machine Learning for high-speed corner detection // Proceedings of the 9th European Conference on Computer Vision (ECCV’06).

2006. P. 430-443.

57. Ke Y., Sukthankar R. PCA-SIFT: A more distinctive representation for local image descriptors // Proceedings of the Conference on Computer Vision and Pattern Recognition (CVPR’04). 2004. V. 2. P. 506-513.

58. Hastie T., Tibshirani R., Freidman J. The elements of statistical learning. Data mining, inference and prediction. 2001. 745 p.

59. Bay H., Ess A., Tuytelaars T., Gool L.V. SURF: speed up robust features // Computer Vision and Image Understanding (CVIU). 2008. V. 110, № 3. P. 346-359.

60. Tola E., Lepetit V., Fua P. A Fast Local Descriptor for Dense Matching // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR’08). 2008. P. 1-8.

61. Calonder M., Lepetit V., Strecha C., Fua P. BRIEF: Binary Robust Independent Elementary Features // Proceedings of the 11th European Conference on Computer Vision (ECCV’10). 2010.

62. Rublee E., Rabaud V., Konolige K., Bradski G. ORB: an efficient alternative to SIFT or SURF // Proceedings of the International Conference on Computer Vision (CVPR’11). 2011. P. 2564-2571.

63. Mikolajczyk K., Schmid C. A Performance Evaluation of Local Descriptors // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2005. V. 27, № 10. P. 1615-1630.

64. Koen E.A., Gevers T., Snoek C.G.M. Evaluating color descriptors for object and scene recognition // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2010. V. 32, № 9. P. 1615-1630.

65. Comparison of the OpenCV’s feature detection algorithms [http://computer-vision-talks.com/2011/01/ comparison-of-the-opencvs-feature-detection-algo-rithms-2/].

66. Gauglitz S., Holerer T., Turk M. Evaluation of Interest Point Detectors and Feature Descriptors for Visual Tracking [http://cs.iupui.edu/~tuceryan/pdf-reposi-

tory/Gauglitz2011.pdf].

67. Horn B.K.P., Schunck B.G. Determining optical flow // MIT, Artificial Intelligence Laboratory. 1980.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

68. Shi J., Tomasi C. Good features to track // IEEE. 1994. P. 593-600.

69. Jin H., Favaro P., Soatto S. Real-time tracking and outlier rejection with changes in illumination // Proceedings of the ICCV’01. 2001. V. 1. P. 684-689.

70. Barron J.L., Fleet D.J., Beauchemin S.S. Performance of optical flow techniques // International Journal of Computer Vision. 1994. V. 12. №1. P. 43-77.

71. Kalal Z., Mikolajczyk K., Matas J. Forward-backward error: automatic detection of tracking failures // Proceedings of the ICPR’10. 2010. P. 2756-2759.

72. Описание алгоритма Predator [http://robot-develop.org/archives/4463].

73. Cucchiara R., Grana C., Piccardi M., Prati A. Statistical and knowledge based moving object detection in traffic scene // Proceedings of the IEEE Int’l Conference on Intelligent Transportation Systems. 2000. P. 27-32.

74. Cucchiara R., Grana C., Piccardi M. et al. Improving Shadow Suppression in Moving Object Detection with HSV Color Information // Proceedings of the IEEE International Conference on the Intelligent Transportation Systems. 2001. P. 334-339.

75. Fung G.S.K., Yung N.H.C., Pang G.K.H., Lai A.H.S. Towards Detection of Moving Cast Shadows for Visual Traffic Surveillance // Systems, Man, and Cybernetics. 2001. V. 4. P. 2505-2510.

76. Sanin A., Sanderson C., Lovell B.C. Shadow Detection: A Survey and Comparative Evaluation of Recent Methods // Pattern Recognition. 2012. V. 45, №4. P. 1684-1695.

77. Arrospide J., Salgado L., Nieto M., Jaureguizar F. Robust Vehicle detection through multidimensional classification for on broad video based systems // Proceedings of the ICIP’08. 2008. P. 2008-2011.

78. Шапиро Л., Стокман Дж. Компьютерное зрение. М.: Бином. Лаборатория знаний, 2006. 752 с.

79. Tamersoy B., Aggarwal J.K. Robust Vehicle Detection for Tracking in Highway Surveillance Videos using Unsupervised Learning // Advanced Video and Signal Based Surveillance (AVSS '09). 2009. P. 529-534.

80. Ballard D.H. Generalizing the Hough transform

to detect arbitrary shapes // Readings in computer vision: issues, problems, principles and paradigms. San Francisco: Morgan Kaufmann Publishers Inc., 1987.

P. 111-122.

81. Sun Z., Bebis G., Miller R. On-road vehicle detection using Gabor filters and support vector machines // Digital Signal Processing. 2002. V. 2. P. 1019-1022.

A REVIEW OF VEHICLE DETECTION AND TRACKING METHODS IN VIDEO N.Yu. Zolotykh, V.D. Kustikova, I.B. Meyerov

A classification of the methods to detect vehicles on the road section is considered along with the weak and strong points of the approaches proposed. A general scheme of the problem solution is described using computer vision techniques. Vehicle detection and tracking methods in video are considered.

Keywords: computer vision, machine learning, object detection in images, moving object tracking in video, feature extraction, feature points, detector, descriptor.

Обзор методов поиска и сопровождения транспортных средств на потоке видеоданных Текст научной статьи по специальности «Компьютерные и информационные науки»

A REVIEW OF VEHICLE DETECTION AND TRACKING METHODS IN VIDEO

Текст научной работы на тему «Обзор методов поиска и сопровождения транспортных средств на потоке видеоданных»